Hay una frase que circula en los pasillos de los laboratorios de IA y que rara vez llega a los titulares: "No sabemos exactamente por qué funciona tan bien". Se dice en voz baja, con una mezcla de asombro y vértigo. Y es el mejor resumen del momento en que vivimos.
OpenAI lleva meses prometiendo GPT-5. Los rumores hablan de un salto cualitativo comparable al que hubo entre GPT-3 y GPT-4, pero más pronunciado. Se menciona razonamiento multimodal avanzado, capacidad de planificación a largo plazo y un manejo de la incertidumbre que los modelos actuales apenas rozan. Todo eso suena extraordinario. El problema es que ninguna de esas promesas viene acompañada de una respuesta satisfactoria a la pregunta más básica: ¿qué significa que una máquina "razone"?
El problema del benchmark
Cada vez que un nuevo modelo llega al mercado, el ritual es el mismo: una batería de benchmarks que el nuevo sistema supera con comodidad. MMLU, HumanEval, MATH, GSM8K. Los números suben, las gráficas se disparan hacia arriba y los comunicados de prensa celebran el "nuevo estado del arte". Lo que rara vez se explica es que esos benchmarks se van quedando obsoletos a medida que los modelos aprenden a optimizar para ellos, no para los problemas reales que se supone que miden.
El investigador de Google DeepMind François Chollet lleva años argumentando que la inteligencia general no puede medirse con tareas memorísticas, por complejas que sean. Su ARC-AGI benchmark, diseñado para medir razonamiento inductivo genuino, sigue siendo un muro para los mejores modelos actuales. GPT-4 ronda el 30% de aciertos. Los humanos medios superan el 85%.
Eso no significa que GPT-5 vaya a fracasar. Significa que el éxito depende de cómo definamos el objetivo.
La trampa del producto
OpenAI ya no es solo un laboratorio de investigación. Es una empresa con valoraciones que superan los 150.000 millones de dólares y compromisos con inversores que exigen crecimiento. Esa tensión entre investigación pura y producto comercial es la que más me preocupa cuando pienso en GPT-5.
Un modelo lanzado para cumplir un calendario de inversores es un modelo diferente a uno lanzado cuando el equipo de seguridad dice que está listo. Y la historia reciente de OpenAI —las salidas de figuras clave, las filtraciones internas, las cartas abiertas firmadas por exempleados— sugiere que esa tensión no se ha resuelto, sino que se ha normalizado.
Lo que sí sabemos
A pesar de todo, hay razones para el optimismo calibrado. GPT-4 demostró que los modelos de lenguaje grande pueden ser herramientas de productividad genuinas cuando se integran bien en flujos de trabajo reales. La programación asistida, la síntesis de documentos largos, la generación de código estructurado: estas aplicaciones funcionan y generan valor. GPT-5, sea lo que sea, probablemente las mejore de forma significativa.
Pero el problema no es si GPT-5 va a ser útil. Es si vamos a tener los marcos conceptuales, regulatorios y éticos para gestionarlo antes de que llegue. Y ahí, honestamente, la respuesta es no.
El umbral no es técnico. Es institucional. Y ese es el que nadie sabe cómo cruzar.
Comentarios
Deja tu comentario
No hay comentarios aprobados todavía. ¡Sé el primero en comentar!