Foundations — Lecturas Esenciales

Los artículos fundacionales que definen harness engineering como disciplina:

OpenAI — Harness Engineering

Field report de OpenAI construyendo una aplicación grande con Codex usando constraints arquitectónicos, instrucciones repo-local, validación en browser, y telemetría.

Anthropic — Effective Harnesses

Artículo central sobre initializer agents, feature lists, init.sh, self-verification, y handoff artifacts a través de múltiples context windows.

Anthropic — Harness Design

Follow-up enfocado en mejorar la generación de apps long-running con mejor task state y evaluator design.

LangChain — Anatomy of a Harness

Framing del agente como modelo + harness, con prompts, tools, middleware, orchestration, y runtime infrastructure.

Thoughtworks — Harness Engineering

Framing del trabajo de harness en context engineering, architectural constraints, y "garbage collection" contra la entropía.

Building Effective Agents

Guía general de Anthropic sobre workflows, agentes, herramientas, y cuándo los sistemas estructurados superan al raw prompting.

Context, Memory & Working State

Effective Context Engineering

Anthropic — Gestionar el context window como un presupuesto de memoria de trabajo, no como un vertedero.

Context Engineering — Manus

Playbook detallado sobre KV-cache locality, tool masking, filesystem memory, y mantener fallos útiles en contexto.

OpenHands Context Condensation

Diseño de memoria de conversación acotada que preserva goals, progreso, archivos críticos, y tests fallidos.

Writing a good CLAUDE.md

HumanLayer — Guía práctica para crear instrucciones repo-local durables que los agentes puedan seguir repetidamente.

Constraints, Guardrails & Safe Autonomy

Beyond Permission Prompts

Anthropic — Reducir fricción de aprobación sin perder control mediante mejor sandboxing y policy design.

Writing Effective Tools

Anthropic — Interfaces de herramientas que son más fáciles para los modelos llamar correcta y seguramente.

Mitigating Prompt Injection

OpenHands — Guía práctica sobre confirmation mode, analyzers, sandboxing, y hard policies.

12 Factor Agents

HumanLayer — Principios operativos para agentes en producción: prompts explícitos, state ownership, pause-resume limpio.

Specs, Workflow Design & Agent Files

AGENTS.md Format

Formato abierto y ligero para instrucciones repo-local que le dicen a los agentes cómo trabajar dentro de un codebase.

GitHub Spec Kit

Toolkit de GitHub para spec-driven development — útil cuando quieres que los agentes ejecuten contra specs explícitas.

Spec-Driven Development

Thoughtworks — Por qué los specs fuertes hacen que la entrega de software asistida por IA sea más confiable.

Evals & Observability

Testing Agent Skills with Evals

OpenAI — Guía concreta para convertir traces de agentes en evals repetibles con logs JSONL y checks deterministas.

Demystifying Evals

Anthropic — Qué medir cuando los agentes tienen muchas trayectorias posibles hacia el éxito o fracaso.

Improving Deep Agents

LangChain — Evidencia de que solo cambios en el harness pueden mejorar significativamente el rendimiento en benchmarks.

Trace Grading

OpenAI — Documentación sobre grading de traces de agentes directamente, útil para tareas multi-step largas.

Benchmarks Destacados

Benchmarks útiles para comparar calidad de harness, no solo calidad de modelo:

SWE-bench Verified

Benchmark para agentes de ingeniería de software contra issues reales de GitHub. Las elecciones de harness son altamente visibles aquí.

Terminal-Bench

Suite de benchmarks para agentes nativos de terminal — shells, filesystems, entornos de verificación pesada.

OSWorld

Benchmark de uso real de computadora con 369 tareas en Ubuntu, Windows y macOS. Excelente para harness multimodales.

WebArena

Entorno web autónomo para evaluar agentes en tareas realistas. Línea base reproducible para harness de browser.

Agent Arena

Leaderboard ELO que ranking agentes, modelos, herramientas y frameworks — comparaciones de nivel de harness.

Runtimes & Reference Implementations

SWE-agent

Agente de investigación maduro con harness, prompt, tools, y environment design directamente inspeccionables.

Citadel

Harness para Claude Code y OpenAI Codex con worktrees aislados, coordinación multi-agente, y memoria persistente.

Claude Agent SDK

SDK de Anthropic orientado a producción con sessions, tools, y soporte de orchestration.

AgentKit (Inngest)

Toolkit TypeScript para construir agentes duraderos y workflow-aware sobre infraestructura event-driven.

skills.sh

Marketplace comunitario para descubrir, compartir e instalar skills de agente reutilizables a través de runtimes.

Lista completa con más de 80 recursos en github.com/walkinglabs/awesome-harness-engineering