MERRIN es uno de esos benchmarks que importan no porque confirmen lo que la industria quiere escuchar, sino porque tensan justo donde la narrativa más promete. El trabajo fue publicado en arXiv en abril de 2026 y plantea una evaluación para agentes con búsqueda web aumentada en entornos ruidosos, multimodales y abiertos. La pregunta no es solamente si un modelo puede llegar a una respuesta. La pregunta es si puede encontrar primero la evidencia correcta, integrarla y razonar sobre ella cuando la web se parece más al mundo real que a un entorno limpio de laboratorio.
Ahí está el valor del paper. En lugar de premiar al sistema que mejor responde con contexto ya disponible, MERRIN premia algo más difícil: buen criterio de recuperación. Los autores reportan un benchmark exigente incluso para agentes avanzados, con resultados que dejan claro que el desempeño todavía está lejos de lo que sugiere el hype actual sobre “deep research” y automatización de investigación.
La lectura editorial más importante es simple: el problema no es solo de conocimiento ni de generación, sino de selección de evidencia. Los agentes todavía exploran de más, se distraen con señales parcialmente relevantes y muestran una preferencia excesiva por el texto incluso cuando otra modalidad podría contener la pista decisiva.