Metodología
Metodología IPB
Publicar lo suficiente para ser creíble. Proteger lo suficiente para seguir siendo defendible.
Variación que preserva significado
La misma decisión semántica se expresa mediante realizaciones controladas que varían redacción, envoltura, presión, contexto recuperado o superficie de flujo sin cambiar el comportamiento esperado.
Contrato de comportamiento esperado
Cada unidad puntuada declara lo que el sistema debía hacer antes de clasificar el comportamiento real del modelo.
Corrección frente a estabilidad
La corrección pregunta si el comportamiento coincidió con el contrato. La estabilidad pregunta si esa decisión sobrevivió a variación válida.
Contenido de informes públicos
Qué publica IPB
- Dominio del benchmark
- Versiones de modelo
- Versión de corpus
- Contrato de comportamiento esperado
- Métricas de corrección
- Métricas de estabilidad
- Controles de cobertura
- Salvedades
- No-afirmaciones públicas
- Ejemplos seleccionados seguros para revisión
- Huellas cuando corresponda
Material protegido
Qué no publica IPB
- Bibliotecas completas de corpus privados
- Maquinaria oculta de generación
- Materiales privados de cliente
- Salidas sensibles crudas
- Secretos operativos
- Cualquier cosa que permita sobreajuste o fuga de corpus
Controles de cobertura y geometría del fallo
Los controles de cobertura separan incertidumbre del evaluador de comportamiento del modelo. La geometría del fallo preserva dónde cambian las decisiones: forma del prompt, familia de presión, fuente de contexto, envoltura de flujo o límite de política.