La eficiencia ya no tiene que esperar al final
Una parte importante del costo de la inteligencia artificial moderna aparece antes de que el modelo llegue a produccion: durante el entrenamiento. Tradicionalmente, si un equipo quiere un modelo mas pequeno, debe entrenar uno grande y luego comprimirlo, podarlo o destilarlo. El problema es que ese camino sigue pagando gran parte del costo inicial.
El paper The Curious Case of In-Training Compression of State Space Models, desarrollado por investigadores de MIT CSAIL y colaboradores, propone una alternativa: comprimir ciertos modelos mientras aprenden. La tecnica se llama CompreSSM y se enfoca en modelos de espacio de estados, una familia relevante para tareas de secuencias largas y arquitecturas asociadas a Mamba.
Enlaces originales
- Paper en arXiv
- Ficha del paper en OpenReview / ICLR 2026
- Poster oficial de ICLR 2026
- Nota de MIT News
- Codigo del proyecto en GitHub
La idea central
Los modelos de espacio de estados mantienen una representacion interna que evoluciona a medida que procesan una secuencia. Esa dimension interna influye directamente en el costo computacional. Si se reduce demasiado, el modelo pierde capacidad; si se mantiene grande, el entrenamiento se vuelve mas caro.
CompreSSM usa herramientas de teoria de control para estimar que partes de esa representacion interna realmente aportan al comportamiento del modelo. La clave es que, segun los autores, la importancia relativa de esas dimensiones puede estabilizarse temprano. Eso permite eliminar componentes menos utiles durante el entrenamiento y continuar con una version mas compacta.
Que encontraron
La nota de MIT reporta que, en benchmarks de clasificacion de imagenes, los modelos comprimidos mantuvieron una precision cercana a sus versiones completas y entrenaron hasta 1,5 veces mas rapido. En una configuracion asociada a Mamba, se observaron aceleraciones cercanas a 4x al reducir fuertemente la dimension del modelo.
El punto mas interesante no es solo la mejora de velocidad, sino el mecanismo: los modelos que comienzan grandes y se reducen durante el entrenamiento parecen conservar estructuras relevantes que un modelo pequeno entrenado desde cero no logra aprender con la misma calidad.
Por que esto importa
Si esta linea de trabajo escala a mas arquitecturas, podria ayudar a reducir una barrera central de la IA: el costo de experimentar. Menos costo de entrenamiento significa mas capacidad para que laboratorios universitarios, startups y equipos fuera de las grandes tecnologicas prueben modelos propios o adapten arquitecturas a problemas especificos.
Para America Latina, esto es especialmente relevante. El acceso a computo avanzado sigue siendo desigual, y las tecnicas que hacen mas eficiente el entrenamiento pueden ampliar quien participa en la investigacion y desarrollo de IA.
Limites de la investigacion
CompreSSM no es una receta universal para todos los modelos. La tecnica esta pensada principalmente para modelos de espacio de estados y depende de propiedades matematicas que no siempre aparecen igual en otras arquitecturas. Los autores tambien reconocen que algunas extensiones hacia modelos mas modernos requieren mas trabajo.
Aun asi, el paper deja una pregunta poderosa para el futuro: que pasaria si los modelos no solo aprendieran la tarea, sino tambien la forma mas eficiente de representarla?