Top Repos por Harness Score
¿Qué tan bien preparados están los proyectos open-source más populares para ser operados por agentes de IA? Usamos Harness Engineering Scanner v2 para medir 6 subsistemas en repos top-starred de GitHub.
| # | Proyecto | ★ Estrellas | Stack | Score |
|---|---|---|---|---|
| 🥇 | harness-course iberi22/harness-course |
— | HTML/CSS/JS | 🟢 100.0% |
| 🥈 | synapse-trading iberi22/synapse-trading |
— | Rust | 🟢 100.0% |
| 🥉 | swal-skills iberi22/swal-skills |
— | Skills | 🔵 72.5% |
| 4 | agents-flows-recipes iberi22/agents-flows-recipes |
— | POML | 🟡 64.6% |
| 5 | agent-recipes-repo iberi22/agent-recipes-repo |
— | Recipes | 🔵 48.6% |
| 6 | zeroclaw zeroclaw-labs/zeroclaw |
⭐ 31K | Rust | 🟡 45.0% |
| 7 | context-mode mksglu/context-mode |
⭐ 14K | TypeScript | 🟡 44.0% |
| 8 | browser-use browser-use/browser-use |
⭐ 93K | Python | 🟡 43.1% |
| 9 | llama.cpp ggerganov/llama.cpp |
⭐ 100K | C/C++ | 🟡 41.3% |
| 9 | OpenHands OpenHands/OpenHands |
⭐ 73K | Python | 🟡 41.3% |
| 11 | freqtrade freqtrade/freqtrade |
⭐ 50K | Python | 🟠 37.6% |
| 11 | claude-mem thedotmack/claude-mem |
⭐ 74K | TypeScript | 🟠 37.6% |
| 13 | hummingbot hummingbot/hummingbot |
⭐ 18K | Python | 🟠 36.7% |
| 14 | awesome-copilot github/awesome-copilot |
⭐ 32K | Python | 🟠 34.9% |
| 15 | aider Aider-AI/aider |
⭐ 44K | Python | 🟠 30.3% |
| 16 | learn-harness-engineering walkinglabs/learn-harness-engineering |
— | TypeScript | 🟠 29.4% |
| 17 | mattpocock-skills mattpocock/skills |
⭐ 68K | Shell | 🟠 27.5% |
| 18 | pi earendil-works/pi |
⭐ 47K | TypeScript | 🟠 26.6% |
| 19 | skills iberi22/skills |
— | Skills | 🟠 25.7% |
| 20 | langgraph langchain-ai/langgraph |
⭐ 31K | Python | 🔴 23.9% |
| 21 | deep-research dzhng/deep-research |
⭐ 18K | TypeScript | 🔴 14.7% |
| 22 | opencode opencode-ai/opencode |
⭐ 12K | Go | 🔴 11.9% |
| 22 | awesome-harness-engineering walkinglabs/awesome-harness-engineering |
— | Markdown | 🔴 11.9% |
| 24 | awesome-design-md VoltAgent/awesome-design-md |
⭐ 74K | DESIGN | 🔴 9.2% |
| 25 | imported-skills iberi22/imported-skills |
— | Skills | 🔴 4.6% |
| 26 | harness-course-site iberi22/harness-course-site |
— | HTML/CSS/JS | 🔴 1.8% |
| 27 | local-models iberi22/local-models |
— | Python/CSV | 🔴 0.0% |
📊 Comparativa por Subsistema
Los 6 subsistemas evaluados muestran un patrón claro: Verification es el punto fuerte de casi todos los proyectos, mientras que Skills y State son los más descuidados.
📋 Instructions
💾 State
✅ Verification
🎯 Scope
🔄 Lifecycle
🧠 Skills
🔍 Conclusiones
Proyectos de iberi22 dominan el top
Los 8 proyectos de iberi22 dominan el top del leaderboard. harness-course (100%) y synapse-trading (100.0%) demuestran que la metodología Harness Engineering produce repositorios significativamente mejor preparados para agentes de IA que los proyectos open-source más populares. Las nuevas incorporaciones — claude-mem (37.6%, 74K⭐), pi (26.6%, 47K⭐) y awesome-design-md (9.2%, 74K⭐) — muestran que incluso proyectos con 47-74K estrellas tienen scores entre débiles y críticos. El leaderboard ahora abarca 27 repos y un espectro más amplio de stacks.
Gap: State, Skills y la cola del leaderboard
El promedio de State (25%) y Skills (29%) sigue bajando con cada tanda de nuevos repos. Los 3 nuevos — claude-mem (State 15%, Skills 0%), pi (State 15%, Skills 0%) y awesome-design-md (State 10%, Skills 0%) — no aportan nada a estos subsistemas. claude-mem (37.6%, Verification 72.2%) tiene tests y CI sólidos pero Skills 0%. pi (26.6%) tiene 251 tests pero ni Instructions ni State decentes. Esto confirma que la carencia de Skills es el gap más universal — incluso proyectos con 155+ tests ignoran completamente la documentación para agentes.
Escalabilidad del Scanner
El evaluador de Harness funciona en cualquier repo — sin importar el lenguaje o stack. Esto significa que podemos escalar este leaderboard a 100+ repos y crear un ranking público donde cualquier proyecto pueda medir su "agent-readiness". Con 27 repos escaneados — incluyendo claude-mem (TypeScript, 74K⭐), pi (TypeScript, 47K⭐) y awesome-design-md (DESIGN, 74K⭐) — el leaderboard cubre un espectro amplio de stacks: TypeScript, Python, Rust, Go, C/C++, Shell, DESIGN files y más. El scanner funciona consistentemente en todos ellos sin importar el stack.