Skip to content

Menos datos, más inteligencia: por qué 2.000 ejemplos pueden superar a 300.000


Ilustración conceptual de selección inteligente de datos para entrenamiento de modelos de lenguaje

El mantra que ya no funciona

Durante años hemos repetido la misma fórmula en inteligencia artificial:

Más datos = mejor modelo.

Pero ¿y si eso no fuera del todo cierto?

Un trabajo reciente aceptado en ACL 2025 demuestra algo contraintuitivo: puedes igualar el rendimiento de modelos entrenados con cientos de miles de ejemplos usando apenas unos miles... si eliges los correctos.

La clave no está en el texto que ves. Está en el espacio interno del modelo.


El error clásico: confundir variedad con diversidad real

Cuando generamos datos sintéticos para entrenar un modelo, solemos hacer algo así:

  • Cambiar palabras.
  • Reformular frases.
  • Variar el tono.
  • Añadir contexto.

Visualmente parecen distintos. Pero internamente, para el modelo, pueden ser casi idénticos.

Es como estudiar 100 ejercicios de matemáticas que en realidad practican exactamente la misma operación. Mucho volumen. Poco aprendizaje nuevo.

El espejismo del volumen

Hasta ahora medíamos la diversidad de datos con herramientas externas: n-gramas, distancias de embeddings, métricas estadísticas. Pero esas métricas no te dicen si el modelo está aprendiendo algo nuevo. Es como medir cuánto estudias, pero no cuánto entiendes.


Lo que realmente importa: las "features" internas

Los LLM no piensan en palabras como nosotros. Piensan en activaciones internas — patrones neuronales que se encienden cuando detectan ciertos conceptos.

Un texto puede activar simultáneamente:

  • Una feature de "instrucción formal".
  • Una feature de "razonamiento paso a paso".
  • Una feature de "tono médico".
  • Una feature de "estructura tipo checklist".

Si mil ejemplos activan exactamente las mismas combinaciones internas, el modelo no está aprendiendo nada nuevo después del primero. Ahí es donde aparece el desperdicio masivo.

Ya lo vimos en Más grande ya no escala: activar solo lo necesario: la tendencia clara en la industria es dejar de escalar ciegamente y empezar a activar solo lo que importa. Este paper lleva esa misma filosofía al terreno de los datos de entrenamiento.


La solución: Sparse Autoencoders para selección de datos

En lugar de preguntarnos:

"¿Estos textos son distintos?"

La pregunta correcta es:

"¿Activan partes distintas del modelo?"

Investigadores de Meta AI y la Universidad de Illinois propusieron exactamente esto en el paper "Diversity-driven Data Selection for Language Model Tuning through Sparse Autoencoder". El proceso funciona en tres pasos:

1. Mapear el espacio interno del modelo

Se utilizan Sparse Autoencoders (SAEs) — redes neuronales diseñadas para descomponer las activaciones internas de un LLM en features interpretables y monosemánticas. Cada feature captura un concepto específico que el modelo ha aprendido a reconocer.

Los investigadores entrenaron SAEs de tipo TopK sobre Llama-3.1-8B usando 10 mil millones de tokens del dataset RedPajama-V2, obteniendo un mapa detallado de las representaciones internas del modelo.

2. Detectar huecos de cobertura

Se analiza qué features importantes no están siendo activadas por el dataset actual. Cada ejemplo de entrenamiento se pasa por el modelo y se registran las features que activa. Si tu dataset de 300.000 ejemplos solo cubre el 40% de las features relevantes, estás desperdiciando el 60% del potencial de entrenamiento.

3. Generar datos dirigidos con selección inteligente

En lugar de seleccionar ejemplos al azar, los investigadores proponen dos algoritmos:

  • SAE-GreedSelect: Selección voraz que acepta un ejemplo solo si activa features que ningún ejemplo previo activó. Maximiza la cobertura de features nuevas en cada paso.
  • SAE-SimScale: Acepta ejemplos cuya similitud con los ya seleccionados esté por debajo de un umbral (0.8), diseñado para ser escalable a datasets industriales.

Resultado: cobertura inteligente en vez de volumen bruto.

El descubrimiento inesperado

Los investigadores encontraron una correlación de r = 0.92 entre la longitud del texto y la riqueza de features activadas. Esto explica mecánicamente por qué estrategias anteriores basadas en "seleccionar las respuestas más largas" funcionaban sorprendentemente bien — sin saber por qué, estaban maximizando la cobertura de features.


Los resultados: el volumen pierde contra la precisión

Con este método, los resultados hablan por sí solos:

ComparaciónResultado
3.000 ejemplos seleccionados con SAE-SimScaleSuperan al baseline con dataset completo de 70.000 (WizardLM) en IFEval
SAE-GreedSelectSupera consistentemente a todos los métodos de selección existentes
Cobertura de featuresLos datos seleccionados activan significativamente más features internas

Los benchmarks utilizados incluyen:

  • IFEval: Evaluación de seguimiento de instrucciones (métricas estrictas y laxas)
  • AlpacaEval 2.0: Evaluación por preferencia humana
  • MMLU, Winogrande, TruthfulQA, ARC, GSM8k: Tareas de conocimiento y razonamiento

Y lo validaron en múltiples modelos: Llama-2-13b, Llama-2-7b y Gemma-2-9b, confirmando que el método funciona de forma consistente a través de diferentes arquitecturas.


Por qué esto cambia las reglas del juego

Entrenamiento más barato

Menos datos significa menos coste, menos tiempo, menos energía. Si puedes lograr el mismo resultado con 150 veces menos datos, el ahorro en cómputo es brutal.

Más comprensión del modelo

Por primera vez, no solo seleccionas datos — entiendes qué partes internas estás entrenando realmente. Los Sparse Autoencoders abren la caja negra y te muestran exactamente qué features están cubiertas y cuáles no.

Transferibilidad entre modelos

Uno de los hallazgos más fascinantes: los SAEs entrenados sobre un modelo (Llama-3.1-8B) produjeron selecciones de datos que funcionaron igualmente bien en otros modelos como Gemma-2 y Llama-2. Esto sugiere que distintos modelos comparten estructuras internas similares, y que entender las features de uno puede ayudarte a mejorar otro.

Conexión con la interpretabilidad

Este trabajo se apoya en investigación pionera de Anthropic sobre monosemanticit y los SAEs escalables de OpenAI, que demostraron que es posible descomponer modelos masivos en features interpretables. La selección inteligente de datos es una aplicación práctica directa de esa investigación fundamental.


El "pero" necesario

Para implementar esto necesitas:

  • Analizar el espacio interno del modelo: Requiere ejecutar los datos a través del modelo y extraer activaciones.
  • Entrenar Sparse Autoencoders: No es trivial — los investigadores usaron 10 mil millones de tokens para entrenar los suyos.
  • Trabajo previo de interpretación: Identificar qué capas y features son más relevantes (la capa 31 superó consistentemente a la 29 en los experimentos).

No es automático. Pero es mucho más eficiente que el enfoque de fuerza bruta.


Conexión con la ingeniería de contexto

Este descubrimiento no vive aislado. Forma parte de una tendencia mayor en la IA: la era de la eficiencia inteligente.

Ya lo hemos analizado desde múltiples ángulos:

La misma filosofía aplica al entrenamiento: no necesitas más datos, necesitas los datos correctos. La inteligencia no escala linealmente con el volumen — escala con la cobertura de lo que el modelo realmente necesita aprender.


Reflexión final

Durante años la carrera fue:

Quién tiene más datos.

Ahora podría convertirse en:

Quién entiende mejor su modelo.

El futuro del entrenamiento no parece ser más grande. Parece ser más inteligente.

Los Sparse Autoencoders nos dan, por primera vez, una lente para mirar dentro de la caja negra y tomar decisiones de entrenamiento basadas en lo que el modelo realmente necesita, no en lo que nosotros creemos que necesita.

Y eso, en un campo donde entrenar un modelo cuesta millones de dólares, no es un detalle menor.


Referencias y enlaces