Prompt Injection
Prompt Injection ist die Klasse von Angriffen, bei der bösartige Eingaben oder fremde Inhalte ein Sprachmodell veranlassen, gegen die Vorgaben des Betreibers zu handeln. OWASP listet sie als LLM01.
Definition und Aufbau
Zwei Hauptformen sind etabliert: direkte Prompt Injection durch Endnutzer-Eingabe und indirekte Prompt Injection über externe Daten (E-Mails, Webseiten, Dokumente, RAG-Korpus). Indirekte Injection ist gefährlicher, weil legitime Tools und Werkzeug-Aufrufe missbraucht werden können (Excessive Agency, OWASP LLM06).
Maßnahmen und Praxis
Maßnahmen kombinieren mehrere Schichten: striktes Output-Schema, Tool-Allow-Lists, Privilege-Least-Modus, Inhalts-Trennung zwischen System-Prompt und Daten-Inhalt, semantische Filter (z. B. Konstitutionelle Klassifizierer), kontinuierliches Red-Teaming und Audit-Pfade. Eine einzelne Maßnahme reicht nicht.
Was Impetora hier liefert
Bei jedem agentischen System mit Tool-Zugriff (Datei-Lese, E-Mail-Versand, API-Aufrufe) ist Prompt Injection das Top-Risiko. Wir konfigurieren Tools nach dem Privilege-Least-Prinzip, validieren Outputs gegen JSON-Schemas und führen für jeden produktiven Agenten ein automatisiertes Adversarial-Test-Set vor jedem Release.
Verwandte Begriffe
OWASP LLM Top 10: Schwachstellen-Liste für LLM-Anwendungen. Red Teaming: Adversariale Tests.
Diese deutsche Fassung wird laufend ausgebaut. Für ein konkretes Projekt nutzen Sie bitte das Beratungsgespräch oder schreiben an info@ainora.lt.