Invarra
Menú

Metodología

Metodología IPB

Publicar lo suficiente para ser creíble. Proteger lo suficiente para seguir siendo defendible.

Variación que preserva significadoContrato de comportamiento esperadoCorrección frente a estabilidadControles de coberturaGeometría del falloSeparación público/privadoQué publica IPBQué no publica IPBNo-afirmaciones públicas

Variación que preserva significado

La misma decisión semántica se expresa mediante realizaciones controladas que varían redacción, envoltura, presión, contexto recuperado o superficie de flujo sin cambiar el comportamiento esperado.

Contrato de comportamiento esperado

Cada unidad puntuada declara lo que el sistema debía hacer antes de clasificar el comportamiento real del modelo.

Corrección frente a estabilidad

La corrección pregunta si el comportamiento coincidió con el contrato. La estabilidad pregunta si esa decisión sobrevivió a variación válida.

Contenido de informes públicos

Qué publica IPB

  • Dominio del benchmark
  • Versiones de modelo
  • Versión de corpus
  • Contrato de comportamiento esperado
  • Métricas de corrección
  • Métricas de estabilidad
  • Controles de cobertura
  • Salvedades
  • No-afirmaciones públicas
  • Ejemplos seleccionados seguros para revisión
  • Huellas cuando corresponda

Material protegido

Qué no publica IPB

  • Bibliotecas completas de corpus privados
  • Maquinaria oculta de generación
  • Materiales privados de cliente
  • Salidas sensibles crudas
  • Secretos operativos
  • Cualquier cosa que permita sobreajuste o fuga de corpus

Controles de cobertura y geometría del fallo

Los controles de cobertura separan incertidumbre del evaluador de comportamiento del modelo. La geometría del fallo preserva dónde cambian las decisiones: forma del prompt, familia de presión, fuente de contexto, envoltura de flujo o límite de política.