Die Sicherheit von KI-Agenten wird oft als eine Herausforderung des Prompt Engineering behandelt, aber sich auf Anweisungen zur Durchsetzung von Grenzen zu verlassen, ist ein struktureller Fehler. Wenn Agenten Zugriff auf Produktionssysteme, Secrets oder Kundendaten erhalten, muss die zugrundeliegende Architektur Einschränkungen durchsetzen, die das Modell nicht umgehen kann.

Der Aufbau sicherer agentenbasierter Workflows erfordert den Übergang von prompt-basierten Guardrails zu einem Modell der geringsten Rechte (Least Privilege). Durch die Isolierung von Tools und die Zuweisung von Berechtigungen je nach Workflow-Phase können Architekten sicherstellen, dass selbst ein kompromittierter Agent nicht die Befugnis hat, unerlaubte Aktionen durchzuführen.

Kurz gesagt

  • Verlassen Sie sich nicht auf System-Prompts als Sicherheitsgrenze; sie werden durch Injection-Angriffe leicht umgangen.

  • Implementieren Sie granulare Berechtigungsbereiche, die den Zugriff des Agenten auf die minimal erforderlichen Daten und Tools für eine bestimmte Workflow-Phase beschränken.

  • Kategorisieren Sie Tools in Risikostufen, um je nach potenzieller Auswirkung der Aktion unterschiedliche Anforderungen an Authentifizierung, Logging und Freigaben durchzusetzen.

  • Halten Sie Secrets aus dem Speicher des Agenten und aus Prompts fern, indem Sie serverseitige Vaults verwenden, die dem Agenten nur die notwendigen Daten bereitstellen.

Entkopplung von Berechtigungen und Prompts

Der häufigste Fehler bei der Entwicklung von Agenten ist die Annahme, dass ein Modell Anweisungen zur Ignorierung bösartiger Eingaben befolgen wird. Wenn ein Agent weitreichenden Zugriff auf Tools hat, kann eine einzige Prompt Injection zu unbefugten Datenexporten oder Systemänderungen führen. Sicherheit muss auf der API- und Tool-Ebene durchgesetzt werden, nicht auf der Modellebene.

Architekten sollten Systeme entwerfen, in denen die Identität des Agenten auf die spezifische Aufgabe beschränkt ist. Wenn eine Workflow-Phase das Lesen öffentlicher Daten beinhaltet, sollte der Agent keine Anmeldeinformationen für interne Datenbanken haben. Indem Sie den Geltungsbereich des Tokens oder der Sitzung des Agenten einschränken, stellen Sie sicher, dass der Schaden auf den aktuellen, begrenzten Kontext beschränkt bleibt, selbst wenn das Modell ausgetrickst wird.

Nach Risiko gestufte Tool-Architektur

Nicht alle Tools bergen das gleiche Risiko. Ein Tool, das Wetterdaten abruft, unterscheidet sich grundlegend von einem, das eine Zahlung auslöst oder Benutzerdatensätze ändert. Die Einteilung von Tools in Risikostufen ermöglicht eine präzisere Kontrolle über das Verhalten des Agenten.

Tools mit hohem Risiko sollten eine explizite Human-in-the-Loop-Freigabe oder strengere Authentifizierungsprüfungen erfordern. Indem Sie diese Anforderungen auf Infrastrukturebene durchsetzen, schaffen Sie ein Sicherheitsnetz, das unabhängig von den Denkfähigkeiten des Modells funktioniert. Dieser gestufte Ansatz stellt sicher, dass sensible Operationen immer einer Prüfung und Aufsicht unterliegen.

Observability als Sicherheitsanforderung

Wenn ein Agent eine Aktion ausführt, muss das System die Absicht, das verwendete Tool und die resultierenden Daten protokollieren. Ohne detaillierte Traces wird das Debugging eines Sicherheitsvorfalls unmöglich. Jeder bedeutsame Agentenlauf sollte mit ausreichend Kontext protokolliert werden, um den Entscheidungsprozess zu rekonstruieren.

Wenn sich ein Agent unerwartet verhält, dienen diese Protokolle als Hauptbeweismittel zur Identifizierung der Fehlerquelle. Durch die Integration von Observability in die Ausführungsschleife des Agenten erhalten Sie die Fähigkeit, Missbrauchsmuster zu erkennen und Ihre Berechtigungsmodelle im Laufe der Zeit zu verfeinern.

Quellen

AI Agent Security Starts With Permissions, Not Prompts

https://codelit.io/blog/ai-agent-security-permissions-architecture

AI Agent Architecture: Tools, Memory, Permissions & Guardrails Explained - Makers' Den — Makers Den

https://makersden.io/blog/ai-agent-architecture-tools-memorhy-permissions-guardrails