Investigación

La matemática sigue siendo una frontera dura para la IA: MathNet expone los límites reales del razonamiento y el retrieval

MathNet reúne más de 30 mil problemas de olimpíada de 47 países y 17 idiomas para medir algo más exigente que un benchmark habitual: no solo si los modelos resuelven matemáticas difíciles, sino si son capaces de recuperar problemas equivalentes y mejorar con contexto útil.

La discusión sobre razonamiento en inteligencia artificial suele quedar atrapada entre dos exageraciones. Por un lado, está la idea de que los modelos actuales ya “razonan” casi como un humano entrenado. Por otro, la postura de que todo lo que hacen es una especie de imitación estadística sin profundidad real. MathNet, un nuevo benchmark presentado en arXiv y aceptado en ICLR 2026, es valioso precisamente porque obliga a abandonar ese falso binario y mirar un terreno más exigente: la matemática de nivel olimpíada, en múltiples idiomas, con problemas complejos, soluciones largas y tareas de retrieval que no se resuelven con simple coincidencia semántica.

El dataset es impresionante por escala y diseño. Reúne 30.676 problemas de competencia con sus soluciones, cubriendo 47 países, 17 idiomas y décadas de material oficial. Pero lo más importante no es solo el tamaño. MathNet fue pensado para medir tres habilidades conectadas pero distintas: si un modelo puede resolver problemas exigentes, si puede recuperar problemas matemáticamente equivalentes o estructuralmente similares, y si puede mejorar su resolución cuando recibe contexto recuperado de calidad.

No es solo otro benchmark de matemáticas

Ese diseño importa mucho. Muchos benchmarks matemáticos evalúan si un modelo acierta una respuesta. MathNet agrega una capa más realista y más difícil: la de encontrar problemas comparables dentro de un corpus grande. Eso acerca la evaluación a un tipo de trabajo que sí existe en práctica matemática y educativa: reconocer estructuras, identificar analogías útiles y usar precedentes correctos para razonar mejor.

En ese sentido, el benchmark no mide solo “capacidad de contestar”. Mide algo más profundo: si los sistemas entienden la estructura matemática suficiente como para vincular problemas equivalentes, no solo similares en superficie. Esa distinción es clave, porque muchas veces el desafío en matemáticas no es recordar una respuesta sino reconocer qué clase de problema tienes delante.

Los mejores modelos siguen siendo desafiados

Los resultados dejan dos mensajes simultáneos. El primero es que los mejores modelos han mejorado mucho. MathNet reporta 78,4% para Gemini-3.1-Pro y 69,3% para GPT-5 en la tarea de resolución, cifras que serían impensables hace no demasiado tiempo en un benchmark de este nivel. El segundo mensaje, igual de importante, es que esos números no significan que el problema esté resuelto.

El paper y el sitio oficial del proyecto muestran que el retrieval sigue siendo una gran debilidad. En los experimentos reportados, Recall@1 se mantiene por debajo del 5% para todos los modelos evaluados en la recuperación de problemas equivalentes. Dicho de otro modo: los sistemas pueden acertar bastante al resolver, pero todavía fallan mucho al encontrar el antecedente matemático correcto dentro de un corpus amplio.

Esa brecha es importante porque desmonta una idea cómoda: que si un modelo resuelve bastante bien, entonces también “entiende” bien qué recuperar. MathNet sugiere lo contrario. Resolver y recuperar no son la misma capacidad. Y cuando el retrieval es malo, el rendimiento de la resolución aumentada también se resiente.

El verdadero cuello de botella: recuperar bien

Uno de los hallazgos más interesantes del benchmark es que el rendimiento con RAG depende muchísimo de la calidad del contexto recuperado. Cuando el retrieval es bueno, los resultados suben. Cuando es malo, el contexto puede aportar poco o incluso desviar. El paper destaca, por ejemplo, mejoras de hasta 12% en ciertos escenarios de retrieval-augmented problem solving, con DeepSeek-V3.2-Speciale como mejor sistema en esa dimensión.

Esto convierte a MathNet en una pieza especialmente útil para leer el momento actual de la IA. El mercado suele concentrarse en la capacidad del modelo generativo: cuán bien redacta, cuán convincentemente explica, cuán a menudo acierta una solución. MathNet recuerda que, en tareas difíciles, la calidad del razonamiento está entrelazada con otra capa menos glamorosa pero decisiva: la del acceso a evidencia realmente útil.

Un benchmark más global y más exigente

También hay un valor metodológico en el tipo de datos elegidos. MathNet no se apoya solo en fuentes informales o crowdsourcing. Su material viene de competencias oficiales, incluyendo archivos físicos escaneados, luego procesados con OCR, normalización y verificación humana. El resultado es un benchmark más limpio, más internacional y más representativo de una matemática exigente que no está diseñada para la comodidad de los modelos.

El sitio del proyecto destaca además que las soluciones de MathNet son considerablemente más largas que las de otros benchmarks. Eso incrementa la dificultad tanto para generación como para evaluación. No es un detalle menor: las tareas largas castigan errores de consistencia, capacidad de seguimiento y control de pasos intermedios, justo donde todavía suelen aparecer muchas fragilidades.

Qué dice MathNet sobre el razonamiento en IA

La lectura de fondo es bastante sobria. Los modelos actuales ya no están en un punto rudimentario. Pueden resolver una fracción muy significativa de problemas avanzados. Pero eso no equivale a haber cerrado la cuestión del razonamiento matemático. De hecho, MathNet muestra que todavía hay mucho espacio entre “resolver bastante” y “comprender con suficiente profundidad como para recuperar, transferir y reutilizar estructura matemática de manera fiable”.

Eso es importante porque gran parte de la próxima ola de IA para ciencia, educación y asistencia técnica va a depender menos de benchmarks vistosos y más de este tipo de capacidades compuestas: recuperar bien, usar bien el contexto y razonar de forma estable con evidencia correcta. En ese sentido, MathNet no es solo una prueba sobre matemáticas. Es una prueba sobre el tipo de inteligencia que realmente vamos a necesitar de los sistemas avanzados.

La conclusión, entonces, no es que la IA “fracase” en matemáticas. Sería injusto decirlo. La conclusión más interesante es otra: incluso cuando los mejores modelos parecen muy fuertes, la parte más difícil del problema puede estar en un lugar menos visible. No necesariamente en generar una solución elegante, sino en encontrar el problema correcto al que esa solución debería parecerse.

Fuentes principales: Shaden Alshammari et al., MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval, arXiv, 20 de abril de 2026; sitio oficial del proyecto mathnet.mit.edu.

Compartir esta investigación

Comentarios

Deja tu comentario
Tu email no será publicado.

No hay comentarios aprobados todavía. ¡Sé el primero en comentar!