Methodik
IPB-Methodik
Genug veröffentlichen, um glaubwürdig zu sein. Genug schützen, um verteidigbar zu bleiben.
Bedeutungserhaltende Variation
Dieselbe semantische Entscheidung wird durch kontrollierte Realisierungen ausgedrückt, die Wortlaut, Wrapper, Druck, Retrieval-Kontext oder Workflow-Oberfläche verändern, ohne das erwartete Verhalten zu ändern.
Erwartetes Verhalten
Jede bewertete Einheit deklariert, was das System hätte tun sollen, bevor das tatsächliche Modellverhalten klassifiziert wird.
Korrektheit vs. Stabilität
Korrektheit fragt, ob das Verhalten dem Kontrakt entspricht. Stabilität fragt, ob diese Entscheidung gültige Variation übersteht.
Inhalt öffentlicher Berichte
Was IPB veröffentlicht
- Benchmark-Domäne
- Modellversionen
- Corpus-Version
- Erwartetes Verhalten
- Korrektheitsmetriken
- Stabilitätsmetriken
- Abdeckungsgates
- Einschränkungen
- Öffentliche Nicht-Behauptungen
- Ausgewählte prüfungssichere Beispiele
- Fingerprints, wo sinnvoll
Geschütztes Material
Was IPB nicht veröffentlicht
- Vollständige private Corpus-Bibliotheken
- Verborgene Generierungsmaschinerie
- Private Kundenmaterialien
- Rohe sensible Ausgaben
- Operative Geheimnisse
- Alles, was Benchmark-Überanpassung oder Corpus-Leakage ermöglicht
Abdeckungsgates und Fehlergeometrie
Abdeckungsgates halten Unsicherheit des Evaluators getrennt vom Modellverhalten. Fehlergeometrie bewahrt, wo Entscheidungen kippen: Prompt-Form, Druckfamilie, Kontextquelle, Workflow-Wrapper oder Policy-Grenze.