Top Repos por Harness Score

leaderboard benchmark open-source

¿Qué tan bien preparados están los proyectos open-source más populares para ser operados por agentes de IA? Usamos Harness Engineering Scanner v2 para medir 6 subsistemas en repos top-starred de GitHub.

# Proyecto ★ Estrellas Stack Score
🥇 harness-course
iberi22/harness-course
HTML/CSS/JS 🟢 100.0%
🥈 synapse-trading
iberi22/synapse-trading
Rust 🟢 100.0%
🥉 swal-skills
iberi22/swal-skills
Skills 🔵 72.5%
4 agents-flows-recipes
iberi22/agents-flows-recipes
POML 🟡 64.6%
5 agent-recipes-repo
iberi22/agent-recipes-repo
Recipes 🔵 48.6%
6 zeroclaw
zeroclaw-labs/zeroclaw
⭐ 31K Rust 🟡 45.0%
7 context-mode
mksglu/context-mode
⭐ 14K TypeScript 🟡 44.0%
8 browser-use
browser-use/browser-use
⭐ 93K Python 🟡 43.1%
9 llama.cpp
ggerganov/llama.cpp
⭐ 100K C/C++ 🟡 41.3%
9 OpenHands
OpenHands/OpenHands
⭐ 73K Python 🟡 41.3%
11 freqtrade
freqtrade/freqtrade
⭐ 50K Python 🟠 37.6%
11 claude-mem
thedotmack/claude-mem
⭐ 74K TypeScript 🟠 37.6%
13 hummingbot
hummingbot/hummingbot
⭐ 18K Python 🟠 36.7%
14 awesome-copilot
github/awesome-copilot
⭐ 32K Python 🟠 34.9%
15 aider
Aider-AI/aider
⭐ 44K Python 🟠 30.3%
16 learn-harness-engineering
walkinglabs/learn-harness-engineering
TypeScript 🟠 29.4%
17 mattpocock-skills
mattpocock/skills
⭐ 68K Shell 🟠 27.5%
18 pi
earendil-works/pi
⭐ 47K TypeScript 🟠 26.6%
19 skills
iberi22/skills
Skills 🟠 25.7%
20 langgraph
langchain-ai/langgraph
⭐ 31K Python 🔴 23.9%
21 deep-research
dzhng/deep-research
⭐ 18K TypeScript 🔴 14.7%
22 opencode
opencode-ai/opencode
⭐ 12K Go 🔴 11.9%
22 awesome-harness-engineering
walkinglabs/awesome-harness-engineering
Markdown 🔴 11.9%
24 awesome-design-md
VoltAgent/awesome-design-md
⭐ 74K DESIGN 🔴 9.2%
25 imported-skills
iberi22/imported-skills
Skills 🔴 4.6%
26 harness-course-site
iberi22/harness-course-site
HTML/CSS/JS 🔴 1.8%
27 local-models
iberi22/local-models
Python/CSV 🔴 0.0%

📊 Comparativa por Subsistema

Los 6 subsistemas evaluados muestran un patrón claro: Verification es el punto fuerte de casi todos los proyectos, mientras que Skills y State son los más descuidados.

📋 Instructions

∅ 43%
Promedio entre todos los repos. Los proyectos Harness (55-100%) elevan el promedio; los externos suelen tener solo README. awesome-copilot (55%) y mattpocock-skills (60%) ayudan, pero awesome-design-md (10%) y deep-research (10%) bajan el promedio. claude-mem (55%) y pi (40%) moderan el promedio general.

💾 State

∅ 25%
Sube gracias a repos Harness (47-100%). Externos casi no tienen TASK.md, MEMORY.md o tracking para agentes. awesome-design-md (10%), claude-mem (15%) y pi (15%) continúan la tendencia de bajo State. Ninguno de los 3 nuevos aporta State significativo, reduciendo el promedio general.

✅ Verification

∅ 46%
Sigue siendo el más fuerte. Tests y CI/CD son estándar. claude-mem (72.2%, 155 tests) es un punto fuerte, pero awesome-design-md (0%) y pi (38.9% sin test directory) reducen el promedio general.

🎯 Scope

∅ 27%
Proyectos Harness con DoD y milestones marcan la diferencia. awesome-design-md (25%) y pi (25%) contribuyen al promedio de Scope gracias a issue templates. claude-mem (18.8%) sin CONTRIBUTING.md ni USER.md baja el promedio ligeramente.

🔄 Lifecycle

∅ 44%
Docker, .gitignore y dependencias son comunes. claude-mem (55%, Docker + deps) eleva el promedio, pero pi (35%) y awesome-design-md (10%, solo .gitignore + LICENSE) lo reducen significativamente.

🧠 Skills

∅ 29%
awesome-copilot (73.3%) y mattpocock-skills (73.3%) son los únicos con Skills decente entre los externos. Los 3 nuevos — claude-mem (0%), pi (0%) y awesome-design-md (0%) — no tienen skills/, arrastrando el promedio a 29%.

🔍 Conclusiones

1

Proyectos de iberi22 dominan el top

Los 8 proyectos de iberi22 dominan el top del leaderboard. harness-course (100%) y synapse-trading (100.0%) demuestran que la metodología Harness Engineering produce repositorios significativamente mejor preparados para agentes de IA que los proyectos open-source más populares. Las nuevas incorporaciones — claude-mem (37.6%, 74K⭐), pi (26.6%, 47K⭐) y awesome-design-md (9.2%, 74K⭐) — muestran que incluso proyectos con 47-74K estrellas tienen scores entre débiles y críticos. El leaderboard ahora abarca 27 repos y un espectro más amplio de stacks.

2

Gap: State, Skills y la cola del leaderboard

El promedio de State (25%) y Skills (29%) sigue bajando con cada tanda de nuevos repos. Los 3 nuevos — claude-mem (State 15%, Skills 0%), pi (State 15%, Skills 0%) y awesome-design-md (State 10%, Skills 0%) — no aportan nada a estos subsistemas. claude-mem (37.6%, Verification 72.2%) tiene tests y CI sólidos pero Skills 0%. pi (26.6%) tiene 251 tests pero ni Instructions ni State decentes. Esto confirma que la carencia de Skills es el gap más universal — incluso proyectos con 155+ tests ignoran completamente la documentación para agentes.

3

Escalabilidad del Scanner

El evaluador de Harness funciona en cualquier repo — sin importar el lenguaje o stack. Esto significa que podemos escalar este leaderboard a 100+ repos y crear un ranking público donde cualquier proyecto pueda medir su "agent-readiness". Con 27 repos escaneados — incluyendo claude-mem (TypeScript, 74K⭐), pi (TypeScript, 47K⭐) y awesome-design-md (DESIGN, 74K⭐) — el leaderboard cubre un espectro amplio de stacks: TypeScript, Python, Rust, Go, C/C++, Shell, DESIGN files y más. El scanner funciona consistentemente en todos ellos sin importar el stack.

Relacionado