Más grande ya no escala: activar solo lo necesario

La paradoja del despliegue

Los modelos de IA más grandes del mundo están encerrados detrás de APIs porque solo las empresas de billones de dólares pueden permitirse ejecutarlos. Si estás construyendo un sistema de agentes de IA para un hospital, un banco o un laboratorio de investigación, te enfrentas a una elección imposible: usar modelos más pequeños y baratos que fallan en razonamiento complejo, o pagar costes astronómicos por llamadas a APIs de modelos frontera. Esto crea una estructura de costes oculta donde los sistemas más capaces siguen siendo inaccesibles para cualquiera que no sea las organizaciones más grandes.

La industria ha perseguido un espejismo: simplemente hacer el modelo más grande. GPT-4 fue mejor que GPT-3.5, así que GPT-5 debería ser mejor que GPT-4. Pero este pensamiento lineal ha chocado contra un muro. Duplicar los parámetros aproximadamente duplica los costes y la latencia, y a cierta escala, esa matemática se desmorona económicamente.

La pregunta real que nadie hacía: ¿y si solo activas las partes que necesitas?

La apuesta sparse Mixture-of-Experts

Step 3.5 Flash utiliza una arquitectura Mixture-of-Experts (MoE), que es engañosamente simple en concepto: en lugar de una única red neuronal masiva procesando todo, tienes múltiples redes de expertos más pequeñas. Una red router aprende qué expertos activar para cada entrada. La magia es que puedes construir un modelo de 196 mil millones de parámetros donde solo 11 mil millones realmente computan algo para cualquier entrada individual.

Esta no es una idea nueva, pero los intentos previos de MoE disperso han tropezado con un problema crítico: el colapso de activación de expertos. Al principio del entrenamiento, el router aprende a enviar la mayoría de las entradas a solo uno o dos expertos porque es más fácil de optimizar. Los demás expertos dejan de aprender. Terminas con un modelo que es teóricamente 196B pero funcionalmente mucho más pequeño, anulando todo el propósito.

Step 3.5 Flash resuelve esto mediante decisiones arquitectónicas cuidadosas y un nuevo método de entrenamiento:

Atención con compuertas por cabezal (head-wise gated attention): diferentes "cabezales" del mecanismo de atención pueden enrutar hacia diferentes expertos. Esto da al sistema un control más granular y previene el simplista "enviar todo al Experto 3".
Patrón intercalado de ventana deslizante y atención completa: la atención por ventana deslizante (donde cada token solo atiende a tokens cercanos) es enormemente más barata que la atención completa (donde cada token atiende a todos los tokens previos), pero la atención completa captura dependencias de largo alcance. Al alternarlas, el modelo obtiene lo mejor de ambos mundos a un coste razonable.

El giro del Reinforcement Learning que lo cambia todo

Una arquitectura eficiente por sí sola no es suficiente. Step 3.5 Flash necesita ser inteligente, no solo rápido. El aprendizaje por refuerzo (RL) toma un modelo capaz pero genérico y lo moldea para las tareas específicas que importan: matemáticas, código y agentes.

El desafío del RL a escala es notorio: es inestable. El entrenamiento se vuelve ruidoso, los gradientes se disparan aleatoriamente y todo el sistema puede colapsar. Enfoques estándar como PPO (Proximal Policy Optimization) luchan cuando haces aprendizaje off-policy (entrenamiento con datos generados por versiones antiguas del modelo) a gran escala. Esto es especialmente brutal para modelos MoE dispersos, donde la inestabilidad de los expertos puede cascadear.

Step 3.5 Flash introduce MIS-PO, un nuevo algoritmo de RL que sustituye el PPO estándar por algo más estable. La idea clave es que, en lugar de intentar aprender de todos los datos recolectados por igual, MIS-PO filtra los datos de entrenamiento para usar solo las muestras más informativas. Cuando concentras el cómputo donde más importa, usas los datos de entrenamiento de forma más eficiente y evitas el ruido que desestabiliza los modelos dispersos.

La combinación ganadora

La inteligencia a nivel frontera viene de combinar estas piezas. La arquitectura te permite ser eficiente; el RL te permite ser inteligente sobre qué problemas resolver. La combinación es lo que empuja a Step 3.5 Flash a rendimiento competitivo con modelos 20 veces más grandes en tiempo de inferencia.

Domando la bestia de la inestabilidad

Los modelos MoE dispersos tienen un talón de Aquiles: la inestabilidad en la activación de expertos. A medida que avanza el entrenamiento, diferentes capas pueden desarrollar patrones radicalmente distintos de uso de expertos. Algunas capas pueden activar los mismos 3 expertos repetidamente, mientras otras activan todos por igual. Estos desequilibrios cascadean, desestabilizando gradientes y provocando que el entrenamiento diverja.

El paper identifica tres problemas específicos:

Las capas profundas desarrollan desequilibrios de expertos más severos que las capas superficiales.
Cuando algunos expertos están infrautilizados, los que sí se activan reciben gradientes enormes, provocando que el modelo sobrecorrija.
Al entrenar con datos de una versión antigua del modelo, la deriva del comportamiento amplifica estas inestabilidades.

Step 3.5 Flash aborda esto mediante varios mecanismos trabajando en conjunto. MIS-PO en sí mismo es crítico: al seleccionar qué muestras de entrenamiento usar basándose en su importancia, reduce el desplazamiento de distribución efectivo entre el comportamiento del modelo antiguo y el nuevo. No entrenas con datos que el modelo antiguo habría generado; entrenas con las partes donde el modelo antiguo estaba confiadamente correcto o confiadamente equivocado, que generalizan mejor al nuevo modelo. Adicionalmente, el modelo usa monitorización de activación de expertos por capa e inicialización cuidadosa de las redes de enrutamiento para prevenir el colapso temprano.

La prueba empírica

La teoría está bien, pero ¿funciona realmente? Step 3.5 Flash entrega rendimiento a nivel frontera en los benchmarks que más importan.

Los benchmarks elegidos son reveladores. No usan tareas genéricas de comprensión de lenguaje. En su lugar, prueban lo que los agentes realmente necesitan hacer:

Benchmark	Resultado	Qué mide
IMO-AnswerBench	85.4%	Pensamiento lógico agudo y capacidad de retroceder cuando un enfoque falla
LiveCodeBench	86.4%	Si el modelo escribe código que realmente funciona, no solo código que parece plausible
BrowseComp	69.0%	Decidir qué herramientas usar, en qué orden, y recuperarse de errores
Terminal-Bench	51.0%	Gestión de estado, manejo de errores y adaptación de planes en ejecución

Los resultados son genuinamente competitivos con modelos frontera como GPT-5.2 xHigh y Gemini 3.0 Pro, a pesar de usar 18 veces menos parámetros activos en inferencia. Esto no es una peculiaridad del benchmark. El modelo tiene éxito exactamente en las tareas donde la economía del despliegue más importa.

Por qué esto redibuja la frontera de eficiencia

Step 3.5 Flash redibuja la frontera de eficiencia. Anteriormente, la suposición era que o pagabas por modelos frontera como servicio o ejecutabas un modelo más pequeño y menos capaz in-house. Ahora hay una tercera opción: un modelo lo suficientemente eficiente para desplegarlo en cualquier lugar, lo suficientemente capaz para manejar razonamiento complejo.

Esto desbloquea una nueva clase de aplicaciones:

Un sistema hospitalario puede ahora ejecutar soporte sofisticado de decisiones clínicas sin enviar datos de pacientes a APIs externas.
Una startup puede ofrecer productos basados en agentes a un coste por uso que realmente tiene sentido de negocio, cuando antes habría sido prohibitivamente caro.
Las organizaciones pueden hacer fine-tuning de Step 3.5 Flash con sus propios datos y desplegarlo con la confianza de que los costes de inferencia no les arruinarán.
Al ser un modelo de pesos abiertos, los investigadores de seguridad pueden auditarlo, los investigadores de sesgos pueden estudiarlo y la comunidad puede mejorarlo.

La idea profunda

La capacidad frontera y la eficiencia computacional no están en tensión fundamental. La industria las ha confundido porque toda la inversión ha ido al enfoque de "lanzar parámetros al problema". Una vez que inviertes en eficiencia algorítmica (enrutamiento disperso), entrenamiento estable (MIS-PO) y enfoque en tareas (RL sobre razonamiento), la frontera se mueve. La nueva frontera es "capaz y asequible", no solo "capaz".

Las fronteras que quedan

El rendimiento del modelo en benchmarks de uso de herramientas (51% en Terminal-Bench 2.0) es notablemente inferior al de tareas de razonamiento puro (85-88%). Esto apunta al desafío restante: razonamiento agéntico en entornos dinámicos. Terminal-Bench requiere no solo resolver un problema único, sino gestionar estado, manejar errores con gracia y adaptar planes a mitad de ejecución. Esto es genuinamente difícil, y Step 3.5 Flash es mejor que modelos anteriores aquí pero aún tiene margen de crecimiento.

De forma similar, el rendimiento del modelo en tareas complejas de navegación web multi-turno (69% en BrowseComp) sugiere que integrar razonamiento visual con uso de herramientas sigue sin resolver. Estos no son fracasos tanto como reflejos honestos de dónde está realmente el campo.

Incluso el razonamiento a nivel frontera y la eficiencia juntos no pueden resolver todos los problemas de agentes. La próxima ola de mejoras probablemente vendrá de mejores modelos de entorno, mejores estrategias de exploración durante el entrenamiento RL y posiblemente integración multimodal. Ahí es donde la comunidad investigadora debería centrar sus esfuerzos.

Más grande ya no escala: activar solo lo necesario ​

La paradoja del despliegue ​

La apuesta sparse Mixture-of-Experts ​

El giro del Reinforcement Learning que lo cambia todo ​

Domando la bestia de la inestabilidad ​

La prueba empírica ​

Por qué esto redibuja la frontera de eficiencia ​

Las fronteras que quedan ​