Detection Mode
Steuern Sie, wie Policies ausgewertet werden — exaktes Keyword-Matching oder semantische NLI-Analyse.
Jede Policy in Palveron trägt einen Detection Mode, der entscheidet, wie die Verify-Engine die Regel auswertet. Den richtigen Modus zu wählen macht Policies schneller, präziser und leichter zu debuggen.
Die drei Modi
| Modus | Funktionsweise | Geschwindigkeit | Bestens geeignet für |
|---|---|---|---|
| Exact Match | Regex + Aho-Corasick-Keyword-Matching | ~1-3 ms | PII, IBANs, Kreditkarten, gesperrte Phrasen — strukturierte Daten mit vorhersehbaren Mustern |
| Semantic | NLI-Neural-Inferenz gegen die Regel-Intent | ~20-40 ms | Paraphrasierte Intent, Off-Topic-Erkennung, Toxicity — unscharfe Kategorien |
| Auto (Standard) | Palveron klassifiziert die Regel und wählt den passenden Modus | je nach Auswahl | Die meisten Policies — lassen Sie die Engine entscheiden |
Der zentrale Trade-off: Exact ist schneller (Regex). Semantic ist intelligenter (NLI-Neural-Inferenz). Auto wählt das Beste aus beiden.
Wie die Auto-Klassifikation funktioniert
AUTO ist der Standard für neue Policies. Beim Speichern führt die Engine eine einmalige Klassifikation der Neural Instruction durch:
- Tokenisierung der Instruction.
- Feature-Berechnung — Keyword-Dichte, Regex-Muster, Intent-Verben („block", „mask"), Entity-Referenzen.
- Klassifikation in
EXACToderSEMANTIC. - Cache der Entscheidung; Neu-Auswertung nur bei Änderung der Instruction.
Regeln mit Phrasen wie „Blockiere jeden Prompt, der Kreditkartennummern oder IBANs enthält" klassifizieren als EXACT — die Entities sind wohldefinierte, strukturierte Daten.
Regeln mit Phrasen wie „Blockiere jeden Versuch, Geschäftsgeheimnisse über unsere Preisstrategie zu extrahieren" klassifizieren als SEMANTIC — „Geschäftsgeheimnis" und „Preisstrategie" sind Intent-Signale, die sich leicht paraphrasieren lassen.
Manueller Override — der Drei-Karten-Selektor
Im Policy Editor klicken Sie das Feld Detection Mode an, um drei Karten zu öffnen:
| Karte | Wann wählen |
|---|---|
| Auto | Sie sind unsicher — lassen Sie Palveron entscheiden und justieren Sie später bei Bedarf nach |
| Exact Match | Die Regel betrifft strukturierte Daten (PII, IBANs, Codes, Keywords) — Sie wollen die Geschwindigkeit und die niedrigste False-Positive-Rate |
| Semantic | Die Regel betrifft Intent, Off-Topic, paraphrasierte Risiken — Sie brauchen das Verständnis der NLI-Engine |
Die ausgewählte Karte bleibt bestehen, bis Sie sie ändern. Erneutes Speichern mit AUTO führt den Klassifikator erneut aus.
Empfehlungs-Banner
Wenn der Policy Editor eine Diskrepanz zwischen Ihrem Detection Mode und dem Regel-Inhalt erkennt, zeigt er ein Banner:
„Diese Regel erwähnt ‚Geschäftsgeheimnisse' und ‚Preisstrategie' — üblicherweise ein semantisches Konzept. Auf Semantic wechseln?"
Drei Trigger lösen das Banner aus:
- Exact + Intent-Verben in der Regel („jeglicher Versuch...", „manipulieren", „extrahieren") → Vorschlag
Semantic. - Semantic + strukturierte Entities („Kreditkarte", „IBAN", „SSN" ohne umgebende Intent-Phrasen) → Vorschlag
Exact. - Auto + Tier-Mismatch —
AUTOim Community-Tier (das nur Exact unterstützt) → VorschlagExact.
Das Banner schließen unterdrückt es für die aktuelle Bearbeitung. Es kehrt zurück, wenn Sie die Regel ändern und der Trigger weiterhin gilt.
Tier-Verfügbarkeit
| Tier | Verfügbare Modi |
|---|---|
| Community | Nur Exact Match |
| Pro | Exact Match + Semantic |
| Business / Enterprise | Alle drei (Auto / Exact Match / Semantic) |
AUTO wird in Community-Projekten stillschweigend als EXACT behandelt — das Banner macht dies sichtbar, damit Sie nicht überrascht werden.
matchDetails im Trace Explorer
Wenn eine Policy auslöst, zeigt das match_details-Feld im Trace, was die Entscheidung konkret ausgelöst hat. Die Werte mappen auf den Detection Mode, der das Match besessen hat:
match_details.type | Quelle | Detection Mode |
|---|---|---|
keyword_match | Regex / Aho-Corasick | Exact Match |
entity_detection | NGE NER (z. B. SSN, EMAIL) | Exact Match (NGE deterministisch) |
tool_call | MCP-Tool-Name + Agent | n/a (Policy bezieht sich auf Tool, nicht Inhalt) |
rate_pattern | Per-Agent-Burst-Signal | n/a |
semantic_similarity | NLI-Similarität über Schwelle | Semantic |
Ein einzelner Trace kann mehrere Match-Typen tragen — wenn eine Semantic-Policy bei einem Prompt auslöst, der auch eine Exact-Policy trifft, erscheinen beide Zeilen, und der Trace-Explorer-Filter erlaubt das Slicing nach beiden.
Welcher Modus, wann?
Exact Match wählen, wenn…
- Die Regel spezifische PII-Typen benennt (SSN, IBAN, E-Mail, Telefon, Kreditkarte)
- Sie auf Keyword-Listen blockieren (interne Codenamen, gesperrte Produktreferenzen, verbotene Phrasen)
- Sie Entscheidungen unter 5 ms auch bei hoher Last brauchen
- Niedrige False-Positive-Toleranz — der Prompt matcht die Regex oder eben nicht
Semantic wählen, wenn…
- Die Regel auf Intent zielt („Versuch zu extrahieren", „manipulieren", „über interne Strategie sprechen")
- Die Regel Paraphrasen fangen muss („Datenbank löschen" vs. „Schema droppen" vs. „Produktion wipen")
- Sie eine Off-Topic-Policy haben (alles außerhalb eines definierten Scopes)
- Toxicity, Belästigung oder Sentiment-Erkennung
Auf Auto bleiben, wenn…
- Die Policy neu ist und Sie noch keine Ground Truth haben
- Die Regel strukturierte und Intent-Komponenten mischt — lassen Sie die Engine wählen
- Sie 10+ Policies ausrollen und nicht jeden Modus einzeln setzen wollen
Exact Match ist schneller (Regex). Semantic ist intelligenter (NLI-Neural-Inferenz). Auto wählt das Beste aus beiden. Wenn Sie unsicher sind, lassen Sie es auf Auto und prüfen die ersten paar Traces — der Trace Explorer zeigt, welcher Modus tatsächlich gelaufen ist, sodass Sie schnell nachjustieren können.