PalveronPalveronDocs

Detection Mode

Steuern Sie, wie Policies ausgewertet werden — exaktes Keyword-Matching oder semantische NLI-Analyse.

Jede Policy in Palveron trägt einen Detection Mode, der entscheidet, wie die Verify-Engine die Regel auswertet. Den richtigen Modus zu wählen macht Policies schneller, präziser und leichter zu debuggen.

Die drei Modi

ModusFunktionsweiseGeschwindigkeitBestens geeignet für
Exact MatchRegex + Aho-Corasick-Keyword-Matching~1-3 msPII, IBANs, Kreditkarten, gesperrte Phrasen — strukturierte Daten mit vorhersehbaren Mustern
SemanticNLI-Neural-Inferenz gegen die Regel-Intent~20-40 msParaphrasierte Intent, Off-Topic-Erkennung, Toxicity — unscharfe Kategorien
Auto (Standard)Palveron klassifiziert die Regel und wählt den passenden Modusje nach AuswahlDie meisten Policies — lassen Sie die Engine entscheiden

Der zentrale Trade-off: Exact ist schneller (Regex). Semantic ist intelligenter (NLI-Neural-Inferenz). Auto wählt das Beste aus beiden.

Wie die Auto-Klassifikation funktioniert

AUTO ist der Standard für neue Policies. Beim Speichern führt die Engine eine einmalige Klassifikation der Neural Instruction durch:

  1. Tokenisierung der Instruction.
  2. Feature-Berechnung — Keyword-Dichte, Regex-Muster, Intent-Verben („block", „mask"), Entity-Referenzen.
  3. Klassifikation in EXACT oder SEMANTIC.
  4. Cache der Entscheidung; Neu-Auswertung nur bei Änderung der Instruction.

Regeln mit Phrasen wie „Blockiere jeden Prompt, der Kreditkartennummern oder IBANs enthält" klassifizieren als EXACT — die Entities sind wohldefinierte, strukturierte Daten.

Regeln mit Phrasen wie „Blockiere jeden Versuch, Geschäftsgeheimnisse über unsere Preisstrategie zu extrahieren" klassifizieren als SEMANTIC — „Geschäftsgeheimnis" und „Preisstrategie" sind Intent-Signale, die sich leicht paraphrasieren lassen.

Manueller Override — der Drei-Karten-Selektor

Im Policy Editor klicken Sie das Feld Detection Mode an, um drei Karten zu öffnen:

KarteWann wählen
AutoSie sind unsicher — lassen Sie Palveron entscheiden und justieren Sie später bei Bedarf nach
Exact MatchDie Regel betrifft strukturierte Daten (PII, IBANs, Codes, Keywords) — Sie wollen die Geschwindigkeit und die niedrigste False-Positive-Rate
SemanticDie Regel betrifft Intent, Off-Topic, paraphrasierte Risiken — Sie brauchen das Verständnis der NLI-Engine

Die ausgewählte Karte bleibt bestehen, bis Sie sie ändern. Erneutes Speichern mit AUTO führt den Klassifikator erneut aus.

Empfehlungs-Banner

Wenn der Policy Editor eine Diskrepanz zwischen Ihrem Detection Mode und dem Regel-Inhalt erkennt, zeigt er ein Banner:

„Diese Regel erwähnt ‚Geschäftsgeheimnisse' und ‚Preisstrategie' — üblicherweise ein semantisches Konzept. Auf Semantic wechseln?"

Drei Trigger lösen das Banner aus:

  1. Exact + Intent-Verben in der Regel („jeglicher Versuch...", „manipulieren", „extrahieren") → Vorschlag Semantic.
  2. Semantic + strukturierte Entities („Kreditkarte", „IBAN", „SSN" ohne umgebende Intent-Phrasen) → Vorschlag Exact.
  3. Auto + Tier-MismatchAUTO im Community-Tier (das nur Exact unterstützt) → Vorschlag Exact.

Das Banner schließen unterdrückt es für die aktuelle Bearbeitung. Es kehrt zurück, wenn Sie die Regel ändern und der Trigger weiterhin gilt.

Tier-Verfügbarkeit

TierVerfügbare Modi
CommunityNur Exact Match
ProExact Match + Semantic
Business / EnterpriseAlle drei (Auto / Exact Match / Semantic)

AUTO wird in Community-Projekten stillschweigend als EXACT behandelt — das Banner macht dies sichtbar, damit Sie nicht überrascht werden.

matchDetails im Trace Explorer

Wenn eine Policy auslöst, zeigt das match_details-Feld im Trace, was die Entscheidung konkret ausgelöst hat. Die Werte mappen auf den Detection Mode, der das Match besessen hat:

match_details.typeQuelleDetection Mode
keyword_matchRegex / Aho-CorasickExact Match
entity_detectionNGE NER (z. B. SSN, EMAIL)Exact Match (NGE deterministisch)
tool_callMCP-Tool-Name + Agentn/a (Policy bezieht sich auf Tool, nicht Inhalt)
rate_patternPer-Agent-Burst-Signaln/a
semantic_similarityNLI-Similarität über SchwelleSemantic

Ein einzelner Trace kann mehrere Match-Typen tragen — wenn eine Semantic-Policy bei einem Prompt auslöst, der auch eine Exact-Policy trifft, erscheinen beide Zeilen, und der Trace-Explorer-Filter erlaubt das Slicing nach beiden.

Welcher Modus, wann?

Exact Match wählen, wenn…

  • Die Regel spezifische PII-Typen benennt (SSN, IBAN, E-Mail, Telefon, Kreditkarte)
  • Sie auf Keyword-Listen blockieren (interne Codenamen, gesperrte Produktreferenzen, verbotene Phrasen)
  • Sie Entscheidungen unter 5 ms auch bei hoher Last brauchen
  • Niedrige False-Positive-Toleranz — der Prompt matcht die Regex oder eben nicht

Semantic wählen, wenn…

  • Die Regel auf Intent zielt („Versuch zu extrahieren", „manipulieren", „über interne Strategie sprechen")
  • Die Regel Paraphrasen fangen muss („Datenbank löschen" vs. „Schema droppen" vs. „Produktion wipen")
  • Sie eine Off-Topic-Policy haben (alles außerhalb eines definierten Scopes)
  • Toxicity, Belästigung oder Sentiment-Erkennung

Auf Auto bleiben, wenn…

  • Die Policy neu ist und Sie noch keine Ground Truth haben
  • Die Regel strukturierte und Intent-Komponenten mischt — lassen Sie die Engine wählen
  • Sie 10+ Policies ausrollen und nicht jeden Modus einzeln setzen wollen

Exact Match ist schneller (Regex). Semantic ist intelligenter (NLI-Neural-Inferenz). Auto wählt das Beste aus beiden. Wenn Sie unsicher sind, lassen Sie es auf Auto und prüfen die ersten paar Traces — der Trace Explorer zeigt, welcher Modus tatsächlich gelaufen ist, sodass Sie schnell nachjustieren können.

On this page