Methodik

IPB-Methodik

Genug veröffentlichen, um glaubwürdig zu sein. Genug schützen, um verteidigbar zu bleiben.

Bedeutungserhaltende VariationErwartetes VerhaltenKorrektheit vs. StabilitätAbdeckungsgatesFehlergeometrieTrennung öffentlich/privatWas IPB veröffentlichtWas IPB nicht veröffentlichtÖffentliche Nicht-Behauptungen

Bedeutungserhaltende Variation

Dieselbe semantische Entscheidung wird durch kontrollierte Realisierungen ausgedrückt, die Wortlaut, Wrapper, Druck, Retrieval-Kontext oder Workflow-Oberfläche verändern, ohne das erwartete Verhalten zu ändern.

Erwartetes Verhalten

Jede bewertete Einheit deklariert, was das System hätte tun sollen, bevor das tatsächliche Modellverhalten klassifiziert wird.

Korrektheit vs. Stabilität

Korrektheit fragt, ob das Verhalten dem Kontrakt entspricht. Stabilität fragt, ob diese Entscheidung gültige Variation übersteht.

Inhalt öffentlicher Berichte

Was IPB veröffentlicht

Benchmark-Domäne
Modellversionen
Corpus-Version
Erwartetes Verhalten
Korrektheitsmetriken
Stabilitätsmetriken
Abdeckungsgates
Einschränkungen
Öffentliche Nicht-Behauptungen
Ausgewählte prüfungssichere Beispiele
Fingerprints, wo sinnvoll

Geschütztes Material

Was IPB nicht veröffentlicht

Vollständige private Corpus-Bibliotheken
Verborgene Generierungsmaschinerie
Private Kundenmaterialien
Rohe sensible Ausgaben
Operative Geheimnisse
Alles, was Benchmark-Überanpassung oder Corpus-Leakage ermöglicht

Abdeckungsgates und Fehlergeometrie

Abdeckungsgates halten Unsicherheit des Evaluators getrennt vom Modellverhalten. Fehlergeometrie bewahrt, wo Entscheidungen kippen: Prompt-Form, Druckfamilie, Kontextquelle, Workflow-Wrapper oder Policy-Grenze.