Foundations — Lecturas Esenciales
Los artículos fundacionales que definen harness engineering como disciplina:
OpenAI — Harness Engineering
Field report de OpenAI construyendo una aplicación grande con Codex usando constraints arquitectónicos, instrucciones repo-local, validación en browser, y telemetría.
Anthropic — Effective Harnesses
Artículo central sobre initializer agents, feature lists, init.sh, self-verification, y handoff artifacts a través de múltiples context windows.
Anthropic — Harness Design
Follow-up enfocado en mejorar la generación de apps long-running con mejor task state y evaluator design.
LangChain — Anatomy of a Harness
Framing del agente como modelo + harness, con prompts, tools, middleware, orchestration, y runtime infrastructure.
Thoughtworks — Harness Engineering
Framing del trabajo de harness en context engineering, architectural constraints, y "garbage collection" contra la entropía.
Building Effective Agents
Guía general de Anthropic sobre workflows, agentes, herramientas, y cuándo los sistemas estructurados superan al raw prompting.
Context, Memory & Working State
Effective Context Engineering
Anthropic — Gestionar el context window como un presupuesto de memoria de trabajo, no como un vertedero.
Context Engineering — Manus
Playbook detallado sobre KV-cache locality, tool masking, filesystem memory, y mantener fallos útiles en contexto.
OpenHands Context Condensation
Diseño de memoria de conversación acotada que preserva goals, progreso, archivos críticos, y tests fallidos.
Writing a good CLAUDE.md
HumanLayer — Guía práctica para crear instrucciones repo-local durables que los agentes puedan seguir repetidamente.
Constraints, Guardrails & Safe Autonomy
Beyond Permission Prompts
Anthropic — Reducir fricción de aprobación sin perder control mediante mejor sandboxing y policy design.
Writing Effective Tools
Anthropic — Interfaces de herramientas que son más fáciles para los modelos llamar correcta y seguramente.
Mitigating Prompt Injection
OpenHands — Guía práctica sobre confirmation mode, analyzers, sandboxing, y hard policies.
12 Factor Agents
HumanLayer — Principios operativos para agentes en producción: prompts explícitos, state ownership, pause-resume limpio.
Specs, Workflow Design & Agent Files
AGENTS.md Format
Formato abierto y ligero para instrucciones repo-local que le dicen a los agentes cómo trabajar dentro de un codebase.
GitHub Spec Kit
Toolkit de GitHub para spec-driven development — útil cuando quieres que los agentes ejecuten contra specs explícitas.
Spec-Driven Development
Thoughtworks — Por qué los specs fuertes hacen que la entrega de software asistida por IA sea más confiable.
Evals & Observability
Testing Agent Skills with Evals
OpenAI — Guía concreta para convertir traces de agentes en evals repetibles con logs JSONL y checks deterministas.
Demystifying Evals
Anthropic — Qué medir cuando los agentes tienen muchas trayectorias posibles hacia el éxito o fracaso.
Improving Deep Agents
LangChain — Evidencia de que solo cambios en el harness pueden mejorar significativamente el rendimiento en benchmarks.
Trace Grading
OpenAI — Documentación sobre grading de traces de agentes directamente, útil para tareas multi-step largas.
Benchmarks Destacados
Benchmarks útiles para comparar calidad de harness, no solo calidad de modelo:
SWE-bench Verified
Benchmark para agentes de ingeniería de software contra issues reales de GitHub. Las elecciones de harness son altamente visibles aquí.
Terminal-Bench
Suite de benchmarks para agentes nativos de terminal — shells, filesystems, entornos de verificación pesada.
OSWorld
Benchmark de uso real de computadora con 369 tareas en Ubuntu, Windows y macOS. Excelente para harness multimodales.
WebArena
Entorno web autónomo para evaluar agentes en tareas realistas. Línea base reproducible para harness de browser.
Agent Arena
Leaderboard ELO que ranking agentes, modelos, herramientas y frameworks — comparaciones de nivel de harness.
Runtimes & Reference Implementations
SWE-agent
Agente de investigación maduro con harness, prompt, tools, y environment design directamente inspeccionables.
Citadel
Harness para Claude Code y OpenAI Codex con worktrees aislados, coordinación multi-agente, y memoria persistente.
Claude Agent SDK
SDK de Anthropic orientado a producción con sessions, tools, y soporte de orchestration.
AgentKit (Inngest)
Toolkit TypeScript para construir agentes duraderos y workflow-aware sobre infraestructura event-driven.
skills.sh
Marketplace comunitario para descubrir, compartir e instalar skills de agente reutilizables a través de runtimes.
Lista completa con más de 80 recursos en github.com/walkinglabs/awesome-harness-engineering