Detection Mode

Steuern Sie, wie Policies ausgewertet werden — exaktes Keyword-Matching oder semantische NLI-Analyse.

Jede Policy in Palveron trägt einen Detection Mode, der entscheidet, wie die Verify-Engine die Regel auswertet. Den richtigen Modus zu wählen macht Policies schneller, präziser und leichter zu debuggen.

Die drei Modi

Modus	Funktionsweise	Geschwindigkeit	Bestens geeignet für
Exact Match	Regex + Aho-Corasick-Keyword-Matching	~1-3 ms	PII, IBANs, Kreditkarten, gesperrte Phrasen — strukturierte Daten mit vorhersehbaren Mustern
Semantic	NLI-Neural-Inferenz gegen die Regel-Intent	~20-40 ms	Paraphrasierte Intent, Off-Topic-Erkennung, Toxicity — unscharfe Kategorien
Auto (Standard)	Palveron klassifiziert die Regel und wählt den passenden Modus	je nach Auswahl	Die meisten Policies — lassen Sie die Engine entscheiden

Der zentrale Trade-off: Exact ist schneller (Regex). Semantic ist intelligenter (NLI-Neural-Inferenz). Auto wählt das Beste aus beiden.

Wie die Auto-Klassifikation funktioniert

AUTO ist der Standard für neue Policies. Beim Speichern führt die Engine eine einmalige Klassifikation der Neural Instruction durch:

Tokenisierung der Instruction.
Feature-Berechnung — Keyword-Dichte, Regex-Muster, Intent-Verben („block", „mask"), Entity-Referenzen.
Klassifikation in EXACT oder SEMANTIC.
Cache der Entscheidung; Neu-Auswertung nur bei Änderung der Instruction.

Regeln mit Phrasen wie „Blockiere jeden Prompt, der Kreditkartennummern oder IBANs enthält" klassifizieren als EXACT — die Entities sind wohldefinierte, strukturierte Daten.

Regeln mit Phrasen wie „Blockiere jeden Versuch, Geschäftsgeheimnisse über unsere Preisstrategie zu extrahieren" klassifizieren als SEMANTIC — „Geschäftsgeheimnis" und „Preisstrategie" sind Intent-Signale, die sich leicht paraphrasieren lassen.

Manueller Override — der Drei-Karten-Selektor

Im Policy Editor klicken Sie das Feld Detection Mode an, um drei Karten zu öffnen:

Karte	Wann wählen
Auto	Sie sind unsicher — lassen Sie Palveron entscheiden und justieren Sie später bei Bedarf nach
Exact Match	Die Regel betrifft strukturierte Daten (PII, IBANs, Codes, Keywords) — Sie wollen die Geschwindigkeit und die niedrigste False-Positive-Rate
Semantic	Die Regel betrifft Intent, Off-Topic, paraphrasierte Risiken — Sie brauchen das Verständnis der NLI-Engine

Die ausgewählte Karte bleibt bestehen, bis Sie sie ändern. Erneutes Speichern mit AUTO führt den Klassifikator erneut aus.

Wenn der Policy Editor eine Diskrepanz zwischen Ihrem Detection Mode und dem Regel-Inhalt erkennt, zeigt er ein Banner:

„Diese Regel erwähnt ‚Geschäftsgeheimnisse' und ‚Preisstrategie' — üblicherweise ein semantisches Konzept. Auf Semantic wechseln?"

Drei Trigger lösen das Banner aus:

Exact + Intent-Verben in der Regel („jeglicher Versuch...", „manipulieren", „extrahieren") → Vorschlag Semantic.
Semantic + strukturierte Entities („Kreditkarte", „IBAN", „SSN" ohne umgebende Intent-Phrasen) → Vorschlag Exact.
Auto + Tier-Mismatch — AUTO im Community-Tier (das nur Exact unterstützt) → Vorschlag Exact.

Das Banner schließen unterdrückt es für die aktuelle Bearbeitung. Es kehrt zurück, wenn Sie die Regel ändern und der Trigger weiterhin gilt.

Tier-Verfügbarkeit

Tier	Verfügbare Modi
Community	Nur Exact Match
Pro	Exact Match + Semantic
Business / Enterprise	Alle drei (Auto / Exact Match / Semantic)

AUTO wird in Community-Projekten stillschweigend als EXACT behandelt — das Banner macht dies sichtbar, damit Sie nicht überrascht werden.

matchDetails im Trace Explorer

Wenn eine Policy auslöst, zeigt das match_details-Feld im Trace, was die Entscheidung konkret ausgelöst hat. Die Werte mappen auf den Detection Mode, der das Match besessen hat:

`match_details.type`	Quelle	Detection Mode
`keyword_match`	Regex / Aho-Corasick	Exact Match
`entity_detection`	NGE NER (z. B. `SSN`, `EMAIL`)	Exact Match (NGE deterministisch)
`tool_call`	MCP-Tool-Name + Agent	n/a (Policy bezieht sich auf Tool, nicht Inhalt)
`rate_pattern`	Per-Agent-Burst-Signal	n/a
`semantic_similarity`	NLI-Similarität über Schwelle	Semantic

Ein einzelner Trace kann mehrere Match-Typen tragen — wenn eine Semantic-Policy bei einem Prompt auslöst, der auch eine Exact-Policy trifft, erscheinen beide Zeilen, und der Trace-Explorer-Filter erlaubt das Slicing nach beiden.

Welcher Modus, wann?

Exact Match wählen, wenn…

Die Regel spezifische PII-Typen benennt (SSN, IBAN, E-Mail, Telefon, Kreditkarte)
Sie auf Keyword-Listen blockieren (interne Codenamen, gesperrte Produktreferenzen, verbotene Phrasen)
Sie Entscheidungen unter 5 ms auch bei hoher Last brauchen
Niedrige False-Positive-Toleranz — der Prompt matcht die Regex oder eben nicht

Semantic wählen, wenn…

Die Regel auf Intent zielt („Versuch zu extrahieren", „manipulieren", „über interne Strategie sprechen")
Die Regel Paraphrasen fangen muss („Datenbank löschen" vs. „Schema droppen" vs. „Produktion wipen")
Sie eine Off-Topic-Policy haben (alles außerhalb eines definierten Scopes)
Toxicity, Belästigung oder Sentiment-Erkennung

Auf Auto bleiben, wenn…

Die Policy neu ist und Sie noch keine Ground Truth haben
Die Regel strukturierte und Intent-Komponenten mischt — lassen Sie die Engine wählen
Sie 10+ Policies ausrollen und nicht jeden Modus einzeln setzen wollen

Exact Match ist schneller (Regex). Semantic ist intelligenter (NLI-Neural-Inferenz). Auto wählt das Beste aus beiden. Wenn Sie unsicher sind, lassen Sie es auf Auto und prüfen die ersten paar Traces — der Trace Explorer zeigt, welcher Modus tatsächlich gelaufen ist, sodass Sie schnell nachjustieren können.