El AIGENSA Labs

Donde ejecutamos experimentos con agentes y LLMs reales en producción. Medimos qué se rompe, qué escala y qué sobrevive. Dos herramientas lo lograron.

Herramientas Nacidas en el Lab

Eval Arena

Solo por Invitación

Nacido de más de 100 despliegues en producción en Seguros, Salud y GovTech. Eval Arena ofrece recomendaciones de evaluación específicas del negocio — enfocadas en el 20% de pruebas que previenen el 80% de fallas en producción.

Saber Más

jl — CLI de Jupyter

Código Abierto

Construido tras perder miles de tokens por la sobrecarga del esquema MCP en sesiones de Claude Code. jl reemplaza jupyter-mcp-server con un solo comando bash — REST API directa, kernel con estado, soporte SSH.

Ver en GitHub

Lo Que Estamos Estudiando

Patrones de Confiabilidad de AgentesOptimización de Costos LLMMetodología de EvaluaciónCoordinación Multi-AgenteEficiencia de Contexto

Siga la Investigación

Escribimos sobre lo que aprendemos — decisiones arquitectónicas, patrones de fallo y las compensaciones que no aparecen en los benchmarks.

Leer el Blog