Que es Mixture of Experts
Mixture of Experts, o MoE, es una arquitectura donde el modelo contiene multiples expertos y un mecanismo decide cuales activar para cada entrada. En vez de usar todos los parametros siempre, solo se activa una parte relevante.
Por que importa
La ventaja es eficiencia. Un modelo puede tener mucha capacidad total, pero usar menos computo por token o por consulta. Esto permite escalar modelos grandes sin que cada inferencia tenga el costo completo de activar toda la red.
Limites y riesgos
Sus desafios incluyen balancear carga entre expertos, evitar que algunos queden subutilizados y mantener estabilidad durante entrenamiento. Tambien puede hacer mas compleja la interpretacion del modelo y su despliegue en infraestructura.
Ejemplo practico
Un ejemplo intuitivo es un sistema con especialistas: uno para codigo, otro para matematicas, otro para lenguaje natural. El enrutador decide a quienes consultar segun la pregunta, aunque en la practica los expertos no son tan humanos ni tan separables.