Glossar

Prompt Injection

Prompt Injection ist die Klasse von Angriffen, bei der bösartige Eingaben oder fremde Inhalte ein Sprachmodell veranlassen, gegen die Vorgaben des Betreibers zu handeln. OWASP listet sie als LLM01.

Definition und Aufbau

Zwei Hauptformen sind etabliert: direkte Prompt Injection durch Endnutzer-Eingabe und indirekte Prompt Injection über externe Daten (E-Mails, Webseiten, Dokumente, RAG-Korpus). Indirekte Injection ist gefährlicher, weil legitime Tools und Werkzeug-Aufrufe missbraucht werden können (Excessive Agency, OWASP LLM06).

Maßnahmen und Praxis

Maßnahmen kombinieren mehrere Schichten: striktes Output-Schema, Tool-Allow-Lists, Privilege-Least-Modus, Inhalts-Trennung zwischen System-Prompt und Daten-Inhalt, semantische Filter (z. B. Konstitutionelle Klassifizierer), kontinuierliches Red-Teaming und Audit-Pfade. Eine einzelne Maßnahme reicht nicht.

Was Impetora hier liefert

Bei jedem agentischen System mit Tool-Zugriff (Datei-Lese, E-Mail-Versand, API-Aufrufe) ist Prompt Injection das Top-Risiko. Wir konfigurieren Tools nach dem Privilege-Least-Prinzip, validieren Outputs gegen JSON-Schemas und führen für jeden produktiven Agenten ein automatisiertes Adversarial-Test-Set vor jedem Release.

Prompt Injection

Definition und Aufbau

Maßnahmen und Praxis

Was Impetora hier liefert

Verwandte Begriffe

Discovery-Gespräch buchen