Guardrail erstellen
Guardrails in natürlicher Sprache mit dem NL-Policy-Builder anlegen — oder die Regel selbst schreiben.
Policies sind das Herzstück der Guardrail-Engine. Sie definieren in natürlicher Sprache, was erlaubt, blockiert oder modifiziert wird — und Palverons NL-Policy-Builder übersetzt einfache Prosa in das passende Detection-Setup.
Neuen Guardrail anlegen
- Navigieren Sie zu Guardrails in der Sidebar.
- Klicken Sie Neuer Guardrail (oben rechts).
- Der Policy-Editor öffnet sich.
📸 Screenshot: Policy-Editor — leere neue Policy mit NL-Builder-Prompt.
NL-Policy-Builder
Oben im Editor sitzt der NL-Policy-Builder — ein einzelnes Textfeld, das einfaches Deutsch in eine funktionierende Policy kompiliert.
Tippen Sie eine Beschreibung wie:
„Blockiere jeden Prompt, der Kreditkartennummern, IBANs oder Sozialversicherungsnummern enthält. Erlaube, wenn der Nutzer die Anfrage für einen Banking-Workflow explizit begründet hat."
Klicken Sie Policy generieren. Der Builder befüllt:
- Name — aus der Kernaussage abgeleitet („Finanzielle PII blockieren")
- Neural Instruction — eine saubere Umformulierung Ihrer Prosa, bereit zur Prüfung
- Enforcement-Aktion —
BLOCK,MODIFY,APPROVALoderFLAG, basierend auf Intent-Verben („blockieren", „maskieren", „freigeben", „loggen") - Detection-Mode —
AUTOper Default; der Builder wähltEXACT, wenn Keywords dominieren, undSEMANTIC, wenn Intent dominiert (siehe Detection Mode) - Vorgeschlagene Keywords / Regex-Patterns — für jede genannte Entity
Prüfen und editieren Sie jedes Feld vor dem Speichern — der Builder ist ein Startpunkt, keine finale Policy.
Was der NL-Builder gut kann
- Identifizieren, welche Enforcement-Aktion den Verben in Ihrer Beschreibung entspricht
- Generieren von Starter-Keyword-Listen für gängige PII-Typen (E-Mail, Telefon, IBAN, SSN, Kreditkarte)
- Wahl eines sinnvollen Detection-Mode, basierend darauf, ob Sie exakte Muster oder fuzzy Intent beschrieben haben
Was Sie weiterhin selbst entscheiden
- Edge-Cases — „blockieren, außer wenn der Agent im Kundensupport-Workflow mit begründeter Anfrage ist"
- Scope — welche Agenten die Policy betrifft
- Attestation-Level — automatisch für die meisten Policies; nur bei compliance-gebundenen überschreiben
Der Builder wird von POST /api/v1/ai-assist angetrieben — siehe die Policies-API, wenn Sie ihn programmatisch aufrufen wollen (z. B. um Policies aus einer Risiko-CSV zu erzeugen).
Manuelle Felder
Wenn Sie den Builder überspringen möchten, ist jedes Feld direkt editierbar.
Name
Ein kurzer, beschreibender Label (z. B. „PII-Schutz für Kundendaten" oder „Keine Finanzberatung"). Erscheint in Traces, Audit-Logs und Annex-IV-Berichten.
Neural Instruction (Kernanweisung)
Formulieren Sie die Regel in natürlicher Sprache. Beispiele:
- „Blockiere jeden Versuch, personenbezogene Kundendaten — E-Mail-Adressen, Telefonnummern oder Adressen — an ein KI-Modell zu senden."
- „Wenn der Agent eine Finanzberatung geben soll, maskiere die Antwort und füge einen Disclaimer hinzu."
- „Erfordere eine menschliche Freigabe, wenn der Agent eine E-Mail an einen externen Empfänger senden will."
Tipp — Seien Sie spezifisch. „Blockiere sensible Daten" ist zu vage. „Blockiere E-Mail-Adressen, IBANs und Sozialversicherungsnummern in der Eingabe" ist präzise. Die Verify-Engine arbeitet mit präzisen Regeln besser.
Detection-Mode
Drei Modi verfügbar — siehe Detection Mode für das vollständige Bild:
| Modus | Wann wählen |
|---|---|
AUTO (Standard) | Palveron klassifizieren lassen, basierend auf der Neural Instruction |
EXACT | Reines Keyword-/Regex-Matching — am schnellsten, niedrigste False-Positive-Rate auf strukturierten Daten |
SEMANTIC | NLI-basiertes Intent-Matching — fängt Paraphrasen |
Enforcement-Aktion
| Aktion | Beschreibung |
|---|---|
| BLOCK | Anfrage sofort gestoppt. Agent erhält strukturierten Fehler. |
| APPROVAL | Anfrage pausiert; Reviewer wird via Slack / Teams / Webhook benachrichtigt. |
| MODIFY | PII / passende Inhalte werden durch Platzhalter ersetzt. Anfrage geht mit redigiertem Payload weiter. |
| FLAG | Anfrage geht unverändert durch, wird aber im Monitoring zur späteren Prüfung getaggt. |
Attestation-Level
| Level | Beschreibung |
|---|---|
| Immer on-chain | Jede Auslösung wird Flare-verankert. Automatisch erzwungen für BLOCK und APPROVAL auf HIGH-Risk-Agenten. |
| Automatisch | System entscheidet basierend auf Schweregrad und Risiko-Tier des Agenten. |
| Nur lokal | Nur in der Datenbank — für Entwicklungs-/Test-Policies. |
Scope
- Alle Agenten — gilt für jeden Agenten im Projekt
- Bestimmte Agenten — aus Multi-Select-Dropdown wählen
- Bestimmte Agent-Typen — gilt für alle Agenten eines Typs (z. B.
chatbot,code_assistant)
Policy aktivieren
Nach dem Speichern ist die Policy Inaktiv. Klicken Sie den Toggle Aktiv / Inaktiv zum Aktivieren. Nur aktive Policies laufen im Verify-Flow.
Policy testen
- Navigieren Sie zum Playground.
- Wählen Sie einen Agenten, der im Scope liegt.
- Senden Sie einen Test-Prompt, der die Policy auslösen sollte.
- Öffnen Sie den Trace im Trace Explorer und bestätigen Sie, dass die Policy gefeuert hat — und prüfen Sie die
match_detailsdarauf, was konkret ausgelöst hat.
Wenn eine Policy auslöst, wenn sie nicht sollte (False Positive), zeigt der NGE-Breakdown im Trace die Confidence-Scores — meist ein Hinweis, die Neural Instruction zu verschärfen oder von AUTO auf EXACT zu wechseln.