1. ¿Por qué los agentes capaces aún fallan?

Los modelos de IA son cada vez más potentes, pero siguen fallando en tareas del mundo real. La razón no es el modelo — es el entorno alrededor del modelo. Un agente sin harness tiene:

Lección clave: Los fallos de agentes son casi siempre fallos de harness, no fallos de modelo.

2. ¿Qué es un Harness?

Un harness es el sistema alrededor del modelo que lo hace confiable. El framework de 5 subsistemas:

  1. Instructions (Recipe Shelf): AGENTS.md, CLAUDE.md — archivos que le dicen al agente cómo trabajar en este proyecto
  2. State (Prep Station): feature_list.json, progress.md — estado persistente entre sesiones
  3. Verification (Quality Check Window): Tests, type checks — evidencia de que el trabajo es correcto
  4. Scope (Task Boundaries): Una feature a la vez, definition of done — límites que evitan overreach
  5. Lifecycle (Session Management): init.sh, clean-state — bootstrap y handoff entre sesiones

3. El Repositorio como System of Record

El repo debe ser la fuente única de verdad. No documentación externa, no wikis, no conversaciones de Slack. Todo lo que el agente necesita debe estar versionado en el repo:

Regla de oro: Si el agente necesita saberlo, debe estar en el repo. Si no está en el repo, el agente no puede confiar en ello.

4. Por qué falla un archivo de instrucciones gigante

Un solo AGENTS.md de 500 líneas no funciona. El agente lo ignora parcialmente porque:

Solución: Progressive Disclosure. AGENTS.md corto (~50-100 líneas) como routing layer que apunta a docs/ específicos. El agente carga solo lo que necesita cuando lo necesita.

AGENTS.md debe ser un mapa, no una enciclopedia.

5. Tareas largas y continuidad

Las tareas que cruzan múltiples sesiones pierden continuidad. El agente olvida lo que hizo, suposiciones que hizo, y decisiones que tomó. Solución:

6. Inicialización como fase separada

El startup del agente debe ser una fase explícita con init.sh:

Sin init.sh, el agente empieza a codificar sobre un entorno que no ha verificado — y los bugs se acumulan.

7-12. Más lecciones clave

7. Overreach y Under-finish

Los agentes o hacen demasiado (overreach) o se detienen antes de terminar (under-finish). Scope tracking y next-task templates corrigen ambos.

8. Feature Lists

Las feature lists son el primitive fundamental del harness. feature_list.json con id, nombre, dependencias, estado, y evidencia.

9. Declarar Victoria Muy Temprano

Los agentes declaran "done" sin verificar. Clean-state checklists y verification gates previenen esto.

10. E2E Testing

Tests end-to-end cambian los resultados — el agente trabaja mejor cuando sabe que hay verificación automatizada.

11. Observabilidad

La observabilidad debe estar dentro del harness, no fuera. Runtime logs, evaluator rubrics, sprint contracts.

12. Clean State

Cada sesión debe dejar el repositorio en un estado limpio y restartable. Benchmark comparison templates miden mejora.