Skip to content

Redes Generativas Adversarias (GANs)

Las Generative Adversarial Networks (GANs), inventadas por Ian Goodfellow en 2014, fueron la primera arquitectura de deep learning capaz de generar contenido visual realista desde cero. Aunque los modelos de difusión las han desplazado en muchas tareas de generación de imágenes, las GANs siguen siendo fundamentales en áreas como super-resolución, transferencia de estilo, edición facial y generación en tiempo real.

Cómo funcionan

Las GANs se basan en un concepto simple pero brillante: dos redes neuronales compitiendo entre sí.

El Generador

  • Recibe como entrada ruido aleatorio (un vector de números al azar).
  • Su objetivo es generar datos (imágenes, audio, texto) que sean indistinguibles de datos reales.
  • Comienza produciendo basura total y mejora iterativamente.

El Discriminador

  • Recibe datos reales y datos generados por el Generador.
  • Su objetivo es distinguir cuáles son reales y cuáles son falsos.
  • Actúa como un "crítico de arte" que el Generador debe aprender a engañar.

El juego adversario

El entrenamiento funciona como un juego de suma cero:

  1. El Generador produce imágenes falsas.
  2. El Discriminador evalúa si son reales o falsas.
  3. El Generador recibe retroalimentación y mejora para engañar al Discriminador.
  4. El Discriminador mejora para detectar las nuevas falsificaciones.
  5. Este ciclo se repite miles de veces hasta que el Generador produce contenido tan realista que el Discriminador ya no puede distinguirlo.

El resultado es un equilibrio de Nash donde el Generador produce contenido indistinguible de la realidad.

Evolución de las GANs

DCGAN (2015)

Introducción de redes convolucionales en las GANs, permitiendo generar imágenes más estables y de mayor calidad. Estableció las mejores prácticas arquitectónicas que usarían todas las GANs posteriores.

Progressive GAN (2017)

Técnica de Nvidia donde las imágenes se generan desde resoluciones bajas (4x4) y se van escalando progresivamente hasta alta resolución (1024x1024). Esto estabilizó enormemente el entrenamiento.

StyleGAN / StyleGAN2 / StyleGAN3 (2018-2021)

La familia de GANs de Nvidia que definió el estado del arte en generación facial:

  • StyleGAN (2018): Introdujo el "espacio de estilos" que permite controlar aspectos específicos de la imagen (pose, color de pelo, iluminación) de forma independiente.
  • StyleGAN2 (2020): Eliminó artefactos visuales y mejoró la calidad hasta hacer las imágenes generadas prácticamente indistinguibles de fotos reales. El famoso sitio thispersondoesnotexist.com usa StyleGAN2.
  • StyleGAN3 (2021): Resolvió problemas de "texture sticking" para animaciones más fluidas.

CycleGAN (2017)

Permite transformar imágenes de un dominio a otro sin necesidad de pares de entrenamiento alineados:

  • Convertir fotos en pinturas al estilo Monet.
  • Transformar caballos en cebras.
  • Convertir imágenes de verano a invierno.

Pix2Pix (2016)

GAN para traducción imagen-a-imagen con pares de entrenamiento:

  • Convertir bocetos en imágenes fotorrealistas.
  • Transformar mapas de segmentación en fotos de calles.
  • Colorear imágenes en blanco y negro.

GigaGAN (2023)

Intento de escalar las GANs para competir con los modelos de difusión:

  • Generación de imágenes de 512 píxeles en 0.13 segundos (vs. segundos o minutos de los modelos de difusión).
  • Super-resolución 16x en tiempo real.
  • La velocidad sigue siendo la mayor ventaja de las GANs frente a la difusión.

GANs vs. Modelos de difusión

AspectoGANsDifusión
VelocidadMuy rápida (milisegundos)Lenta (segundos a minutos)
CalidadExcelente en dominios específicosSuperior en diversidad y realismo general
Estabilidad de entrenamientoDifícil (mode collapse)Más estable
DiversidadMenor (tiende a repetir patrones)Mayor variedad en las salidas
ControlLimitado a lo aprendidoMejor con guías como text prompts
Aplicaciones en tiempo realIdealDifícil sin optimización

Aplicaciones actuales

Aunque ya no son la arquitectura dominante para generación text-to-image, las GANs siguen siendo insustituibles en:

  • Super-resolución: Aumentar la resolución de imágenes y vídeo en tiempo real (ESRGAN, Real-ESRGAN).
  • Edición facial: Envejecimiento, cambio de expresión, modificación de atributos (FaceApp usa GANs).
  • Transferencia de estilo: Aplicar estilos artísticos a fotos y vídeos en tiempo real.
  • Generación en tiempo real: Donde la velocidad es crítica (videojuegos, streaming, AR/VR).
  • Inpainting: Rellenar regiones faltantes o dañadas de una imagen de forma realista.
  • Data augmentation: Generar datos sintéticos para entrenar otros modelos cuando los datos reales son escasos.
  • Medicina: Generar imágenes médicas sintéticas para entrenamiento de modelos de diagnóstico sin comprometer la privacidad del paciente.

Desafíos históricos y actuales

  • Mode collapse: El Generador aprende a producir solo unas pocas variaciones que engañan al Discriminador, en lugar de diversidad real. Es el problema más persistente de las GANs.
  • Inestabilidad de entrenamiento: El equilibrio entre Generador y Discriminador es frágil. Si uno domina demasiado al otro, el entrenamiento colapsa.
  • Evaluación: No existe una métrica única y fiable para evaluar la calidad de las imágenes generadas. Se usan FID (Fréchet Inception Distance) e IS (Inception Score), pero ambas tienen limitaciones.
  • Deepfakes: Las GANs fueron la primera tecnología capaz de generar deepfakes convincentes, lo que abrió un debate ético que sigue vigente.

El legado de las GANs

Aunque los modelos de difusión y los Transformers han tomado el protagonismo en la generación de contenido, las GANs fueron el punto de inflexión que demostró al mundo que la IA podía crear contenido visual indistinguible de la realidad. Conceptos introducidos por las GANs — como el entrenamiento adversario, los espacios latentes manipulables y la generación condicional — son fundamentales en arquitecturas modernas.

Las GANs siguen evolucionando y es probable que su velocidad de inferencia las mantenga relevantes en aplicaciones donde el tiempo real es esencial, como videojuegos, realidad aumentada y edición interactiva.