1

Fundamentos de Harness Engineering

por qué fallan los agentes qué es un harness casos de estudio

Objetivo: Entender por qué los agentes de IA más capaces siguen fallando en tareas reales, y cómo un harness soluciona esos problemas.

Contenido:

  • Lección 1: Por qué los agentes capaces aún fallan — los 5 problemas fundamentales
  • Lección 2: ¿Qué es un harness? — El framework de 5 subsistemas (Instructions, State, Verification, Scope, Lifecycle)
  • Lección 3: El repositorio como System of Record — por qué el repo debe ser la fuente única de verdad
  • Análisis comparativo: sin harness vs. con harness (métrica: tasa de éxito, tiempo, tokens, rework)

Ejercicio: Evaluar tu proyecto actual en los 5 subsistemas. Puntuar 1-5 cada uno. Identificar el bottleneck.

2

Progressive Disclosure y Arquitectura de Instrucciones

AGENTS.md progressive disclosure routing layer

Objetivo: Diseñar un sistema de instrucciones que el agente realmente lea y siga.

Contenido:

  • Lección 4: Por qué falla un archivo de instrucciones gigante
  • Principio de progressive disclosure: el AGENTS.md como mapa, no enciclopedia
  • Estructura de docs/: ARCHITECTURE.md, DESIGN.md, PLANS.md, product-specs/
  • Startup workflow: qué lee el agente antes de codificar
  • Anti-patrones: instrucciones contradictorias, información duplicada, docs obsoletos

Ejercicio: Reescribir el AGENTS.md de tu proyecto en máximo 80 líneas. Crear docs/ con progressive disclosure.

3

Estado, Continuidad y Sesiones Multi-Turno

feature_list.json session handoff progress tracking

Objetivo: Mantener estado persistente entre sesiones del agente para tareas largas.

Contenido:

  • Lección 5: Tareas largas y continuidad — el problema del olvido entre sesiones
  • feature_list.json: estructura, campos, estados lifecycle
  • Session handoff template: qué registrar al final de cada sesión
  • Progress log: cómo trackear features sin inflar el contexto
  • Patrón de Memory Persistence: jerarquía de 4 niveles, two-step save

Ejercicio: Crear feature_list.json para tu proyecto. Implementar session handoff template.

4

Verificación, Scope y Definition of Done

verification gates scope control definition of done

Objetivo: Evitar que el agente declare victoria demasiado temprano y prevenir el overreach.

Contenido:

  • Lección 9: Por qué los agentes declaran victoria demasiado temprano
  • Lección 7: Overreach y under-finish — los dos extremos del mal scope
  • Verification gates: tests, type checks, linting, build verification
  • Scope control: one-feature-at-a-time, feature dependencies, next-task templates
  • Definition of Done checklist: implementación, verificación, evidencia, restartable
  • Patrón de Tool Registry: fail-closed, permisos por feature

Ejercicio: Definir el Definition of Done para tu proyecto actual. Crear verification gates en init.sh.

5

Ciclo de Vida y Bootstrap

init.sh lifecycle hooks clean-state

Objetivo: Diseñar un ciclo de vida completo para el agente: init, trabajo, clean-state, handoff.

Contenido:

  • Lección 6: La inicialización como fase separada
  • Lección 12: Clean state — por qué cada sesión debe dejar el repo restartable
  • init.sh: estructura, dependencias, verificación, carga de estado
  • Lifecycle hooks: pre/post para init, trabajo, shutdown
  • Session handoff procedure: 5 pasos para terminar una sesión
  • Benchmark comparison: medir mejora del harness
  • Patrón de Lifecycle & Bootstrap: sistema de hooks, init dependency-ordered

Ejercicio: Crear init.sh para tu proyecto. Implementar el clean-state checklist.

6

Case Study: Agent Recipes Repo

MCP Server LangGraph Neo4j + ChromaDB assessment práctico

Objetivo: Analizar un sistema real de mantenimiento automatizado de software como caso de estudio integral de harness engineering.

Proyecto: Agent Recipes Repo — Sistema open-source de mantenimiento automatizado con MCP Server, agente LangGraph, base de conocimiento híbrida (Neo4j + ChromaDB) y dashboard Streamlit. Orquestado con Docker Compose.

Assessment de 5 subsistemas:

  • Instructions: AGENTS.md, CLAUDE.md, RULES.md — jerarquía de briefing para el agente de IA
    • Progressive disclosure: PLANNING.md (visión) → TASK.md (tareas activas) → RULES.md (reglas)
    • Paths exactos, comandos de build/test, estructura del proyecto
  • State: TASK.md como tablero vivo, PROJECT_STATUS.md para estado funcional
    • Hitos con progreso porcentual, sección "Discovered During Work"
    • Integración con bases de datos (Neo4j + ChromaDB) para estado persistente
  • Verification: Tests unitarios, de integración y E2E con pytest
    • Pipeline: clonar repo → detectar dependencias → escanear vulnerabilidades → persistir
    • Test de conectividad a Neo4j y ChromaDB
    • E2E con Docker Compose real
  • Scope: Una tarea a la vez vía TASK.md con hitos claros
    • RLHF-style: cada tarea documentada antes de implementar
    • Definition of done explícito en cada módulo
  • Lifecycle: Docker Compose para ciclo de vida completo
    • 4 servicios: MCP Server, Agente, Dashboard, Bases de datos
    • init con docker-compose up --build, cleanup con docker-compose down
  • Roadmap de implementación priorizado

Ejercicio: Hacer fork del Agent Recipes Repo, ejecutar el assessment de 5 subsistemas en tu propio proyecto, y crear un roadmap de mejora.

Referencias del Curso