cs.LG Avanzado

CompreSSM: cuando un modelo de IA aprende a volverse mas liviano mientras entrena

Basado en: "The Curious Case of In-Training Compression of State Space Models"

Investigadores de MIT CSAIL y colaboradores presentan CompreSSM, una tecnica que comprime modelos de espacio de estados durante el entrenamiento usando herramientas de teoria de control. El resultado apunta a modelos mas eficientes sin pagar primero todo el costo de entrenar una version grande completa.

Makram Chahine, Philipp Nazari, Daniela Rus et al. 3 de octubre de 2025 6 min Paper original Compartir

La eficiencia ya no tiene que esperar al final

Una parte importante del costo de la inteligencia artificial moderna aparece antes de que el modelo llegue a produccion: durante el entrenamiento. Tradicionalmente, si un equipo quiere un modelo mas pequeno, debe entrenar uno grande y luego comprimirlo, podarlo o destilarlo. El problema es que ese camino sigue pagando gran parte del costo inicial.

El paper The Curious Case of In-Training Compression of State Space Models, desarrollado por investigadores de MIT CSAIL y colaboradores, propone una alternativa: comprimir ciertos modelos mientras aprenden. La tecnica se llama CompreSSM y se enfoca en modelos de espacio de estados, una familia relevante para tareas de secuencias largas y arquitecturas asociadas a Mamba.

Enlaces originales

La idea central

Los modelos de espacio de estados mantienen una representacion interna que evoluciona a medida que procesan una secuencia. Esa dimension interna influye directamente en el costo computacional. Si se reduce demasiado, el modelo pierde capacidad; si se mantiene grande, el entrenamiento se vuelve mas caro.

CompreSSM usa herramientas de teoria de control para estimar que partes de esa representacion interna realmente aportan al comportamiento del modelo. La clave es que, segun los autores, la importancia relativa de esas dimensiones puede estabilizarse temprano. Eso permite eliminar componentes menos utiles durante el entrenamiento y continuar con una version mas compacta.

Que encontraron

La nota de MIT reporta que, en benchmarks de clasificacion de imagenes, los modelos comprimidos mantuvieron una precision cercana a sus versiones completas y entrenaron hasta 1,5 veces mas rapido. En una configuracion asociada a Mamba, se observaron aceleraciones cercanas a 4x al reducir fuertemente la dimension del modelo.

El punto mas interesante no es solo la mejora de velocidad, sino el mecanismo: los modelos que comienzan grandes y se reducen durante el entrenamiento parecen conservar estructuras relevantes que un modelo pequeno entrenado desde cero no logra aprender con la misma calidad.

Por que esto importa

Si esta linea de trabajo escala a mas arquitecturas, podria ayudar a reducir una barrera central de la IA: el costo de experimentar. Menos costo de entrenamiento significa mas capacidad para que laboratorios universitarios, startups y equipos fuera de las grandes tecnologicas prueben modelos propios o adapten arquitecturas a problemas especificos.

Para America Latina, esto es especialmente relevante. El acceso a computo avanzado sigue siendo desigual, y las tecnicas que hacen mas eficiente el entrenamiento pueden ampliar quien participa en la investigacion y desarrollo de IA.

Limites de la investigacion

CompreSSM no es una receta universal para todos los modelos. La tecnica esta pensada principalmente para modelos de espacio de estados y depende de propiedades matematicas que no siempre aparecen igual en otras arquitecturas. Los autores tambien reconocen que algunas extensiones hacia modelos mas modernos requieren mas trabajo.

Aun asi, el paper deja una pregunta poderosa para el futuro: que pasaria si los modelos no solo aprendieran la tarea, sino tambien la forma mas eficiente de representarla?

Contribuciones principales
  • Propone una forma de compresion durante el entrenamiento para modelos de espacio de estados.
  • Conecta teoria de control con optimizacion moderna de modelos de IA.
  • Muestra que la importancia relativa de ciertos estados internos puede estabilizarse temprano.
  • Ofrece evidencia experimental de mejoras de eficiencia con perdida controlada de rendimiento.
  • Abre una ruta para investigar compresion temprana en arquitecturas relacionadas con Mamba y modelos de secuencia.
Implicaciones prácticas
  • Puede reducir el costo de experimentar con modelos de secuencias largas.
  • Ayuda a pensar la eficiencia como parte del entrenamiento, no solo como una optimizacion posterior.
  • Es relevante para equipos universitarios, startups y ecosistemas con acceso limitado a grandes clusters.
  • Apunta a modelos mas sostenibles en infraestructura, energia y tiempo de entrenamiento.

State Space Models (SSMs), developed to tackle long sequence modeling tasks efficiently, offer both parallelizable training and fast inference. At their core are recurrent dynamical systems that maintain a hidden state, with update costs scaling with the state dimension. A key design challenge is striking the right balance between maximizing expressivity and limiting this compu...

Leer paper completo en arXiv
Ver todos los papers Conceptos IA