Full Course — Harness Engineering

Fundamentos de Harness Engineering

por qué fallan los agentes qué es un harness casos de estudio

Objetivo: Entender por qué los agentes de IA más capaces siguen fallando en tareas reales, y cómo un harness soluciona esos problemas.

Contenido:

Lección 1: Por qué los agentes capaces aún fallan — los 5 problemas fundamentales
Lección 2: ¿Qué es un harness? — El framework de 5 subsistemas (Instructions, State, Verification, Scope, Lifecycle)
Lección 3: El repositorio como System of Record — por qué el repo debe ser la fuente única de verdad
Análisis comparativo: sin harness vs. con harness (métrica: tasa de éxito, tiempo, tokens, rework)

Ejercicio: Evaluar tu proyecto actual en los 5 subsistemas. Puntuar 1-5 cada uno. Identificar el bottleneck.

Progressive Disclosure y Arquitectura de Instrucciones

AGENTS.md progressive disclosure routing layer

Objetivo: Diseñar un sistema de instrucciones que el agente realmente lea y siga.

Contenido:

Lección 4: Por qué falla un archivo de instrucciones gigante
Principio de progressive disclosure: el AGENTS.md como mapa, no enciclopedia
Estructura de docs/: ARCHITECTURE.md, DESIGN.md, PLANS.md, product-specs/
Startup workflow: qué lee el agente antes de codificar
Anti-patrones: instrucciones contradictorias, información duplicada, docs obsoletos

Ejercicio: Reescribir el AGENTS.md de tu proyecto en máximo 80 líneas. Crear docs/ con progressive disclosure.

Estado, Continuidad y Sesiones Multi-Turno

feature_list.json session handoff progress tracking

Objetivo: Mantener estado persistente entre sesiones del agente para tareas largas.

Contenido:

Lección 5: Tareas largas y continuidad — el problema del olvido entre sesiones
feature_list.json: estructura, campos, estados lifecycle
Session handoff template: qué registrar al final de cada sesión
Progress log: cómo trackear features sin inflar el contexto
Patrón de Memory Persistence: jerarquía de 4 niveles, two-step save

Ejercicio: Crear feature_list.json para tu proyecto. Implementar session handoff template.

Verificación, Scope y Definition of Done

verification gates scope control definition of done

Objetivo: Evitar que el agente declare victoria demasiado temprano y prevenir el overreach.

Contenido:

Lección 9: Por qué los agentes declaran victoria demasiado temprano
Lección 7: Overreach y under-finish — los dos extremos del mal scope
Verification gates: tests, type checks, linting, build verification
Scope control: one-feature-at-a-time, feature dependencies, next-task templates
Definition of Done checklist: implementación, verificación, evidencia, restartable
Patrón de Tool Registry: fail-closed, permisos por feature

Ejercicio: Definir el Definition of Done para tu proyecto actual. Crear verification gates en init.sh.

Ciclo de Vida y Bootstrap

init.sh lifecycle hooks clean-state

Objetivo: Diseñar un ciclo de vida completo para el agente: init, trabajo, clean-state, handoff.

Contenido:

Lección 6: La inicialización como fase separada
Lección 12: Clean state — por qué cada sesión debe dejar el repo restartable
init.sh: estructura, dependencias, verificación, carga de estado
Lifecycle hooks: pre/post para init, trabajo, shutdown
Session handoff procedure: 5 pasos para terminar una sesión
Benchmark comparison: medir mejora del harness
Patrón de Lifecycle & Bootstrap: sistema de hooks, init dependency-ordered

Ejercicio: Crear init.sh para tu proyecto. Implementar el clean-state checklist.

Case Study: Agent Recipes Repo

MCP Server LangGraph Neo4j + ChromaDB assessment práctico

Objetivo: Analizar un sistema real de mantenimiento automatizado de software como caso de estudio integral de harness engineering.

Proyecto: Agent Recipes Repo — Sistema open-source de mantenimiento automatizado con MCP Server, agente LangGraph, base de conocimiento híbrida (Neo4j + ChromaDB) y dashboard Streamlit. Orquestado con Docker Compose.

Assessment de 5 subsistemas:

Instructions: AGENTS.md, CLAUDE.md, RULES.md — jerarquía de briefing para el agente de IA

Progressive disclosure: PLANNING.md (visión) → TASK.md (tareas activas) → RULES.md (reglas)
Paths exactos, comandos de build/test, estructura del proyecto

State: TASK.md como tablero vivo, PROJECT_STATUS.md para estado funcional

Hitos con progreso porcentual, sección "Discovered During Work"
Integración con bases de datos (Neo4j + ChromaDB) para estado persistente

Verification: Tests unitarios, de integración y E2E con pytest

Pipeline: clonar repo → detectar dependencias → escanear vulnerabilidades → persistir
Test de conectividad a Neo4j y ChromaDB
E2E con Docker Compose real

Scope: Una tarea a la vez vía TASK.md con hitos claros

RLHF-style: cada tarea documentada antes de implementar
Definition of done explícito en cada módulo

Lifecycle: Docker Compose para ciclo de vida completo

4 servicios: MCP Server, Agente, Dashboard, Bases de datos
init con docker-compose up --build, cleanup con docker-compose down

Roadmap de implementación priorizado

Ejercicio: Hacer fork del Agent Recipes Repo, ejecutar el assessment de 5 subsistemas en tu propio proyecto, y crear un roadmap de mejora.

▽ Curso Completo: De Design Skills a Producción

Fundamentos de Harness Engineering

Progressive Disclosure y Arquitectura de Instrucciones

Estado, Continuidad y Sesiones Multi-Turno

Verificación, Scope y Definition of Done

Ciclo de Vida y Bootstrap

Case Study: Agent Recipes Repo

Referencias del Curso

Design Patterns

Fundamentals

Templates