Aprendizaje por Refuerzo (Reinforcement Learning)

El aprendizaje por refuerzo (RL) es un paradigma de la inteligencia artificial donde un agente aprende a tomar decisiones óptimas interactuando directamente con un entorno. A diferencia del aprendizaje supervisado (donde se le dan las respuestas correctas), en RL el agente aprende por ensayo y error, recibiendo recompensas o penalizaciones según sus acciones. Es la técnica detrás de algunos de los logros más impresionantes de la IA, desde vencer a campeones mundiales de Go hasta alinear los LLMs actuales.

Cómo funciona

Los componentes fundamentales

Agente: La entidad que toma decisiones (el modelo de IA).
Entorno: El mundo con el que interactúa el agente (un juego, un simulador, el mundo real).
Estado: La situación actual del entorno tal como la percibe el agente.
Acción: Lo que el agente puede hacer en cada paso.
Recompensa: La señal numérica que indica si la acción fue buena o mala.
Política: La estrategia que el agente aprende para decidir qué acción tomar en cada estado.

El ciclo de aprendizaje

El agente observa el estado actual del entorno.
Basándose en su política, elige una acción.
El entorno responde con un nuevo estado y una recompensa.
El agente actualiza su política para maximizar la recompensa acumulada a largo plazo.
Este ciclo se repite millones o miles de millones de veces.

La clave del RL es que nadie le dice al agente qué hacer. Aprende solo qué acciones llevan a mejores resultados a través de la experiencia.

Tipos principales de RL

Model-Free (Sin modelo)

El agente aprende directamente de la experiencia sin construir un modelo interno del entorno:

Q-Learning / DQN: Aprende el valor de cada acción en cada estado. Deep Q-Networks (DQN) de DeepMind fue el primer algoritmo en dominar juegos de Atari a nivel sobrehumano (2013).
Policy Gradient: Aprende directamente la política óptima (la función que mapea estados a acciones) en lugar del valor de las acciones.
Actor-Critic: Combina ambos enfoques — un "actor" que decide las acciones y un "crítico" que evalúa qué tan buenas fueron.

Model-Based (Con modelo)

El agente construye un modelo interno del entorno y lo usa para planificar:

Puede "imaginar" el resultado de sus acciones antes de ejecutarlas.
Más eficiente en datos, pero requiere que el modelo del mundo sea preciso.
Usado en robótica y control donde los ensayos reales son costosos o peligrosos.

Algoritmos clave

PPO (Proximal Policy Optimization): El algoritmo más utilizado en la práctica. Estable, eficiente y el motor detrás de RLHF en ChatGPT y Claude. Desarrollado por OpenAI.
SAC (Soft Actor-Critic): Popular en robótica por su estabilidad y exploración eficiente.
GRPO (Group Relative Policy Optimization): Usado por DeepSeek para entrenar modelos de razonamiento de forma más eficiente que PPO.
DPO (Direct Preference Optimization): Alternativa simplificada a RLHF que entrena directamente sobre pares de preferencias humanas sin necesidad de un modelo de recompensa separado.

Hitos históricos

AlphaGo (DeepMind, 2016)

El momento que puso el RL en el mapa mundial:

Venció al campeón mundial de Go, Lee Sedol, 4-1.
Combinó redes neuronales profundas con RL y búsqueda de Monte Carlo.
El Go tiene más posiciones posibles que átomos en el universo — la fuerza bruta era imposible.
AlphaGo Zero (2017): Aprendió a jugar Go desde cero, sin datos de partidas humanas, superando a todas las versiones anteriores.

AlphaZero (DeepMind, 2017)

Generalización de AlphaGo a múltiples juegos:

Dominó Go, ajedrez y shogi partiendo solo de las reglas del juego.
En ajedrez, superó a Stockfish (el motor más fuerte del mundo) tras solo 4 horas de auto-entrenamiento.
Demostró que la misma arquitectura de RL podía dominar juegos completamente diferentes.

OpenAI Five (2019)

Equipo de 5 agentes de RL que venció al equipo campeón mundial de Dota 2:

Juego de estrategia en tiempo real con información incompleta y cooperación entre agentes.
Entrenó durante 10 meses de tiempo de juego acumulado (equivalente a ~45.000 años de partidas).
Demostró que el RL podía manejar entornos complejos de múltiples agentes.

AlphaFold (DeepMind, 2020)

Aunque no es RL puro, incorporó técnicas de RL para resolver uno de los mayores problemas de la biología:

Predijo la estructura 3D de proteínas con precisión atómica.
Resolvió un problema abierto durante 50 años en biología computacional.
Ha acelerado la investigación en fármacos, materiales y biotecnología.

RLHF: el puente con los LLMs

El Reinforcement Learning from Human Feedback (RLHF) es quizás la aplicación más impactante del RL en la actualidad. Es la técnica que convierte un LLM base (que solo predice la siguiente palabra) en un asistente útil y alineado.

Cómo funciona RLHF

Entrenamiento del modelo base: El LLM se pre-entrena sobre texto masivo.
Supervisión con instrucciones: Se ajusta con ejemplos de preguntas y respuestas curadas (SFT — Supervised Fine-Tuning).
Modelo de recompensa: Evaluadores humanos comparan pares de respuestas y eligen la mejor. Se entrena un modelo de recompensa con estas preferencias.
Optimización con RL: Se usa PPO (u otro algoritmo de RL) para ajustar el LLM y maximizar las puntuaciones del modelo de recompensa.

Alternativas al RLHF clásico

DPO (Direct Preference Optimization): Elimina la necesidad del modelo de recompensa separado. Más simple de implementar.
RLAIF (RL from AI Feedback): Usa otro modelo de IA como evaluador en lugar de humanos. Más escalable pero con riesgo de amplificar sesgos.
Constitutional AI (Anthropic): El modelo se auto-corrige siguiendo un conjunto de principios constitucionales, combinando RLHF con autoevaluación guiada.

Aplicaciones actuales del RL

Alineación de LLMs: RLHF/DPO es la técnica estándar para alinear modelos de lenguaje (ChatGPT, Claude, Gemini, Llama).
Robótica: Entrenamiento de robots para manipulación, locomoción y navegación (Tesla Bot, Figure, Boston Dynamics).
Conducción autónoma: Waymo y Tesla usan RL para la toma de decisiones en escenarios de tráfico complejos.
Optimización de recursos: Data centers de Google usan RL para reducir el consumo energético de refrigeración en un 40%.
Descubrimiento de fármacos: Diseño de moléculas optimizadas usando RL para explorar el espacio químico.
Sistemas de recomendación: YouTube, TikTok y Spotify usan RL para maximizar el engagement del usuario.
Trading algorítmico: Agentes de RL que aprenden estrategias de inversión a partir de datos de mercado.

Desafíos

Eficiencia de muestras: El RL clásico necesita millones de interacciones para aprender. En el mundo real (robótica), cada interacción tiene un coste.
Reward hacking: El agente encuentra formas inesperadas de maximizar la recompensa que no corresponden con el objetivo real. Es un problema directo de alineación.
Exploración vs. explotación: El dilema fundamental de decidir entre probar cosas nuevas (explorar) o repetir lo que ya funciona (explotar).
Sim-to-real gap: Las políticas entrenadas en simuladores no siempre funcionan bien en el mundo real.
Estabilidad del entrenamiento: El entrenamiento de RL es notoriamente inestable, con alta varianza entre ejecuciones.

El futuro del RL

El aprendizaje por refuerzo está experimentando un renacimiento gracias a su papel en la alineación de LLMs y la robótica:

Modelos de razonamiento: Los modelos o1/o3 de OpenAI y DeepSeek-R1 usan RL para aprender a "pensar" antes de responder, mejorando dramáticamente en matemáticas y lógica.
World models: Modelos que aprenden un modelo interno del mundo y planifican dentro de él, combinando lo mejor del RL model-based con deep learning.
RL multimodal: Agentes que aprenden de inputs visuales, lingüísticos y físicos simultáneamente.
Agentes autónomos: La combinación de LLMs + RL está creando agentes cada vez más capaces de operar en el mundo real.

El aprendizaje por refuerzo es, en muchos sentidos, el paradigma más cercano a cómo los seres vivos aprenden: a través de la experiencia, el error y la adaptación. Su integración con los grandes modelos de lenguaje está definiendo la próxima era de la inteligencia artificial.

Aprendizaje por Refuerzo (Reinforcement Learning) ​

Cómo funciona ​

Los componentes fundamentales ​

El ciclo de aprendizaje ​

Tipos principales de RL ​

Model-Free (Sin modelo) ​

Model-Based (Con modelo) ​

Algoritmos clave ​

Hitos históricos ​

AlphaGo (DeepMind, 2016) ​

AlphaZero (DeepMind, 2017) ​

OpenAI Five (2019) ​

AlphaFold (DeepMind, 2020) ​

RLHF: el puente con los LLMs ​

Cómo funciona RLHF ​

Alternativas al RLHF clásico ​

Aplicaciones actuales del RL ​

Desafíos ​

El futuro del RL ​