Fundamentos matemáticos de un LLM: de tokens a Transformers

titulo del artículo con fondo de fórmulas matemáticas relacionadas con LLM

¿Qué es un LLM?

Un LLM (Large Language Model) es un sistema de optimización matemática que opera sobre lenguaje representado como vectores. No piensa. No razona. Predice la siguiente palabra más probable dado un contexto, usando álgebra lineal, cálculo diferencial y estadística a escala masiva.

Existe mucha confusión sobre qué hace realmente un modelo de lenguaje por dentro. Se habla de "inteligencia", de "razonamiento", de "comprensión". Pero la realidad es más precisa y más elegante: todo se reduce a matemáticas.

Este artículo descompone, paso a paso, los fundamentos matemáticos que hacen funcionar a un LLM. Desde la tokenización hasta la arquitectura Transformer completa.

1. El punto de partida: lenguaje, datos y predicción

Un modelo de lenguaje recibe un prompt:

"El perro…"

Y debe predecir la palabra más probable siguiente:

"ladra"

Originalmente, los modelos eran autocompletadores estadísticos puros. La pregunta central siempre fue:

¿Cómo algo matemático puede predecir que "el perro" → "ladra"?

La respuesta involucra varias capas de abstracción matemática que se apilan de forma elegante.

2. Corpus, diccionario y tokens

El corpus

El corpus es el conjunto de datos textuales con los que se entrena el modelo. Incluye:

Libros
Wikipedia
Internet (páginas web filtradas)
Código fuente
Documentos académicos

Matiz importante

El corpus no contiene "todas las palabras posibles". Contiene las observadas en el dataset de entrenamiento. Lo que no aparece en el corpus, el modelo no lo conoce directamente.

Tokenización

El modelo no trabaja con letras ni palabras directamente. Convierte texto en tokens: unidades subléxicas optimizadas estadísticamente.

Texto	Tokens posibles
`"acción"`	1 token
`"satisfacción"`	`satis` + `facción`
`"extraordinario"`	`extra` + `ordinario`

Esto se logra con algoritmos como BPE (Byte Pair Encoding), que busca:

Minimizar el número total de tokens
Maximizar la eficiencia de representación

Meta exploró una alternativa radical a la tokenización con el Byte Latent Transformer (BLT), que elimina los tokens y trabaja directamente con bytes.

Texto original: "El perro ladra fuerte"

Tokenización BPE:
  "El"     → Token 152
  " perro" → Token 8934
  " ladra" → Token 23401
  " fuerte"→ Token 5672

Vector de entrada: [152, 8934, 23401, 5672]

Cada token se convierte en un número. Y con números, ya podemos hacer matemáticas.

3. Embeddings: el lenguaje como espacio vectorial

Cada token se convierte en un vector en un espacio de N dimensiones. Esto es la base de todo.

Ejemplo conceptual

Palabra	Dim. Género	Dim. Progenitor	Dim. Edad
papá	+hombre	+progenitor	+adulto
mamá	+mujer	+progenitor	+adulto
hijo	+hombre	−progenitor	−adulto

Esto permite operaciones algebraicas sobre el significado:

  papá − género_masculino ≈ progenitor
  progenitor + género_femenino ≈ mamá

  rey − hombre + mujer ≈ reina

Es álgebra vectorial aplicada al lenguaje.

Matiz importante

No existe una dimensión explícita llamada "género" o "progenitor". Estas propiedades emergen estadísticamente del entrenamiento. El modelo descubre estas relaciones por sí mismo a partir de los patrones del corpus.

Conceptos clave

Concepto	Representación
Cada palabra	Una coordenada en el espacio
Cada dimensión	Una característica semántica emergente
Operaciones	Sumas y restas vectoriales
Similitud	Distancia coseno entre vectores

  Espacio de Embeddings (2D simplificado)

       Progenitor
          ↑
    mamá  ●─────────● papá
          │         │
          │         │
    hija  ●─────────● hijo
          │
          └──────────────→ Género

En la realidad, los embeddings modernos tienen 768 a 12.288 dimensiones. Cada token es un punto en ese hiperespacio.

4. Perceptrón y redes neuronales

¿Qué es un perceptrón?

Es la unidad fundamental de computación neuronal. Un modelo matemático que:

Recibe entradas (x₁, x₂, ..., xₙ)
Las multiplica por pesos (w₁, w₂, ..., wₙ)
Suma todo y añade un sesgo (b)
Aplica una función de activación
Produce una salida

  Entradas          Pesos         Suma         Activación     Salida
  ─────────────────────────────────────────────────────────────────
  x₁ ──── w₁ ──┐
                ├──→ Σ(wᵢxᵢ + b) ──→ σ(z) ──→ ŷ
  x₂ ──── w₂ ──┤
                │
  x₃ ──── w₃ ──┘

Fórmula básica:

z = w₁x₁ + w₂x₂ + ... + wₙxₙ + b
ŷ = σ(z)

O en forma matricial: ŷ = σ(Wx + b)

Pesos (W)

Propiedad	Descripción
Tipo	Valores numéricos (float)
Inicialización	Aleatoria
Ajuste	Durante el entrenamiento (backpropagation)
Función	Determinan la importancia de cada entrada

Función de activación: la sigmoide

La función sigmoide transforma cualquier número real en un valor entre 0 y 1:

σ(x) = 1 / (1 + e⁻ˣ)

  Salida
  1.0 │                          ●●●●●●●●●●
      │                      ●●●●
      │                   ●●●
  0.5 │─ ─ ─ ─ ─ ─ ─ ─●●─ ─ ─ ─ ─ ─ ─ ─ ─
      │              ●●●
      │          ●●●●
  0.0 │●●●●●●●●●●
      └─────────────────────────────────────
     -6   -4   -2    0    2    4    6
                    Entrada (x)

Propiedades críticas:

Rango: (0, 1)
Es suave (continua)
Es derivable en todo punto
La derivabilidad permite aplicar cálculo diferencial → backpropagation

Nota

En modelos modernos se usan otras funciones como ReLU, GELU o SiLU, pero la sigmoide ilustra el principio fundamental.

5. Forward Pass: de texto a probabilidades

El forward pass es el proceso completo de convertir texto en predicciones:

Texto → Tokens → Embeddings → Capas neurales → Probabilidades

Paso 1: "El perro" → [152, 8934]
Paso 2: [152, 8934] → [[0.2, -0.5, 0.8, ...], [0.7, 0.1, -0.3, ...]]
Paso 3: Multiplicación por matrices de pesos W
Paso 4: Aplicación de funciones de activación
Paso 5: Capa final → distribución de probabilidad sobre todo el vocabulario

Ejemplo de salida

  Predicción siguiente palabra para "El perro..."

  camina ████████████████████████████ 0.35
  ladra  ██████████████████████████   0.30
  corre  ████████████████             0.18
  duerme █████████████                0.12
  vuela  ███                          0.05

El modelo produce una distribución de probabilidad sobre todas las palabras posibles del vocabulario (50.000+ tokens). La siguiente palabra se selecciona mediante muestreo de esta distribución.

6. Training Set vs Test Set

Para entrenar y evaluar, el dataset se divide:

  Dataset completo
  ╔══════════════════════════════════════════════╗
  ║  ENTRENAMIENTO (70-80%)    │  TEST (20-30%)  ║
  ║  El modelo aprende de      │  El modelo se   ║
  ║  estos datos               │  evalúa aquí    ║
  ╚══════════════════════════════════════════════╝

Conjunto	Propósito	Acceso del modelo
Training set	Ajustar pesos	Ve estos datos durante el entrenamiento
Test set	Evaluar rendimiento real	Nunca los ve durante el entrenamiento
Validation set	Ajustar hiperparámetros	Evaluación intermedia

¿Por qué dividir?

Para evitar el overfitting: que el modelo memorice los datos en lugar de aprender patrones generalizables.

  Si el modelo predice → "camina" (probabilidad 0.50)
  Pero el corpus dice  → "ladra"  (es la respuesta correcta)

  Error = diferencia entre predicción y realidad
  → El modelo debe ajustarse

Esa señal de error es exactamente lo que alimenta el siguiente paso: backpropagation.

7. Backpropagation: aprender del error

Backpropagation (retropropagación) es el algoritmo que permite al modelo aprender. Funciona en tres pasos:

  1. FORWARD PASS        2. CALCULAR ERROR       3. AJUSTAR PESOS
  ────────────────→     ──────────────────→     ←────────────────
  Entrada → Salida      Salida vs Esperado      Pesos actualizados
                        (función de pérdida)    (gradiente descendente)

La clave matemática: derivadas

La derivada de la función de pérdida respecto a cada peso indica:

Dirección: ¿subo o bajo el peso?
Magnitud: ¿cuánto lo ajusto?

  Función de pérdida L(w)

  L │
    │  ╲
    │   ╲         ← Pendiente (derivada) indica
    │    ╲           la dirección del ajuste
    │     ╲
    │      ╲
    │       ◉ ← Queremos llegar aquí (mínimo)
    │      ╱
    │     ╱
    └──────────────→ w (peso)

Regla de la cadena

En redes con múltiples capas, el error se propaga hacia atrás usando la regla de la cadena del cálculo:

∂L/∂w₁ = ∂L/∂ŷ × ∂ŷ/∂z × ∂z/∂w₁

Cada capa contribuye a su porción del gradiente. El proceso se repite por épocas (pasadas completas sobre el dataset) hasta que el error converge.

Concepto	Función
Función de pérdida	Mide qué tan mal predice el modelo
Gradiente	Vector de derivadas parciales
Learning rate	Controla el tamaño de cada ajuste
Época	Una pasada completa sobre el dataset

8. Parámetros: la escala de los LLM

Un parámetro = un peso ajustable en el modelo.

Modelo	Parámetros	Escala
GPT-2 (2019)	1.500 millones	1.5B
GPT-3 (2020)	175.000 millones	175B
GPT-4 (2023)	~1.8 billones (estimado, MoE)	~1.8T
Llama 3.1 (2024)	405.000 millones	405B
DeepSeek-V3 (2025)	671.000 millones (MoE)	671B

Cada parámetro es un número decimal que se ajusta durante el entrenamiento. Más parámetros no significa necesariamente mejor modelo, como explora el artículo sobre por qué más grande ya no escala y cómo las arquitecturas MoE (Mixture of Experts) activan solo una fracción de los parámetros por cada token.

Matiz importante

Cuando se habla de "un modelo de 70B parámetros", eso significa 70.000 millones de pesos individuales que fueron ajustados mediante backpropagation durante semanas o meses de entrenamiento en miles de GPUs.

9. Atención (Attention): el mecanismo que cambió todo

El problema

Sin atención, el modelo trata todas las palabras del contexto con la misma importancia. Pero el lenguaje no funciona así.

Ejemplo

"Me gusta la oscuridad. Quiero un gato."

Sin atención	Con atención
gato → genérico	gato → negro (influido por "oscuridad")

La atención permite al modelo ponderar dinámicamente qué partes del contexto son relevantes para cada predicción.

Query, Key, Value (Q, K, V)

Cada token genera tres vectores:

Vector	Analogía	Función
Query (Q)	"¿Qué estoy buscando?"	Lo que el token actual necesita saber
Key (K)	"¿Qué tengo para ofrecer?"	Lo que cada token puede aportar
Value (V)	"¿Qué información transfiero?"	El contenido real que se transmite

Fórmula de atención

Attention(Q, K, V) = softmax(Q × Kᵀ / √dₖ) × V

Donde:

Q × Kᵀ: Producto punto entre queries y keys (¿cuánto coinciden?)
√dₖ: Factor de escala (evita que los valores crezcan demasiado)
softmax: Convierte los scores en probabilidades (suman 1)
× V: Pondera los valores según la relevancia calculada

  Mecanismo de Atención (simplificado)

  Token:    "El"    "gato"   "negro"  "duerme"
             │        │        │        │
             ▼        ▼        ▼        ▼
  Query:    Q₁       Q₂       Q₃       Q₄
  Key:      K₁       K₂       K₃       K₄
  Value:    V₁       V₂       V₃       V₄

  Para predecir después de "duerme":
  Score("duerme", "El")    = Q₄·K₁ = 0.1  (poco relevante)
  Score("duerme", "gato")  = Q₄·K₂ = 0.6  (muy relevante)
  Score("duerme", "negro") = Q₄·K₃ = 0.2  (algo relevante)
  Score("duerme", "duerme")= Q₄·K₄ = 0.1

  Softmax → [0.08, 0.52, 0.22, 0.18]

  Salida = 0.08·V₁ + 0.52·V₂ + 0.22·V₃ + 0.18·V₄
         = embedding contextualizado de "duerme"

El resultado es un nuevo embedding contextualizado: la representación del token ya no depende solo de sí mismo, sino de todo el contexto ponderado.

Como se analiza en el mito del contexto infinito, este mecanismo tiene un coste O(n²) que limita la ventana práctica de atención, y la compactación del KV Cache es una de las técnicas para mitigar este problema.

10. Transformer: la arquitectura completa

El Transformer es la arquitectura que unifica todo lo anterior. Fue introducido en el paper "Attention Is All You Need" (Vaswani et al., 2017) y es la base de todos los LLM modernos.

Estructura de un bloque Transformer

  ┌─────────────────────────────────────┐
  │         BLOQUE TRANSFORMER          │
  │                                     │
  │  Input Embeddings + Pos. Encoding   │
  │           │                         │
  │           ▼                         │
  │  ┌─────────────────────┐            │
  │  │  Multi-Head Attention│           │
  │  │  (varias cabezas Q,K,V          │
  │  │   en paralelo)       │           │
  │  └─────────┬───────────┘            │
  │           │ + Residual              │
  │           ▼                         │
  │  ┌─────────────────────┐            │
  │  │   Layer Norm         │           │
  │  └─────────┬───────────┘            │
  │           │                         │
  │           ▼                         │
  │  ┌─────────────────────┐            │
  │  │   MLP (Feed Forward) │           │
  │  │   Perceptrón multicapa│          │
  │  └─────────┬───────────┘            │
  │           │ + Residual              │
  │           ▼                         │
  │  ┌─────────────────────┐            │
  │  │   Layer Norm         │           │
  │  └─────────┬───────────┘            │
  │           │                         │
  └───────────┼─────────────────────────┘
              │
              ▼  (se repite N veces)

Multi-Head Attention

En lugar de una sola atención, el Transformer usa múltiples cabezas en paralelo:

Cabeza	Puede aprender
Cabeza 1	Relaciones sintácticas (sujeto-verbo)
Cabeza 2	Relaciones semánticas (significado)
Cabeza 3	Relaciones posicionales (cercanía)
Cabeza N	Otros patrones lingüísticos

Cada cabeza opera de forma independiente y luego se concatenan los resultados.

MLP (Feed Forward)

Después de la atención, cada token pasa por un perceptrón multicapa:

FFN(x) = GELU(xW₁ + b₁)W₂ + b₂

El MLP actúa como una "memoria factual" que almacena conocimiento aprendido del corpus.

Un LLM completo

Un LLM es la repetición de este bloque N veces:

Modelo	Capas (bloques)	Cabezas de atención	Dim. embedding
GPT-2	48	25	1.600
Llama 3 (70B)	80	64	8.192
GPT-4 (estimado)	120+	96+	12.288+

  Un LLM es:

  Tokens → Embeddings → [Atención + MLP] × N capas → Probabilidades
                              │
                    Cada capa refina
                    la representación
                    del contexto

Resumen: la cadena completa

  ╔═══════════════════════════════════════════════════════════╗
  ║                   PIPELINE DE UN LLM                     ║
  ╠═══════════════════════════════════════════════════════════╣
  ║                                                           ║
  ║  1. TEXTO         "El perro ladra"                        ║
  ║       │                                                   ║
  ║       ▼                                                   ║
  ║  2. TOKENS        [152, 8934, 23401]                      ║
  ║       │                                                   ║
  ║       ▼                                                   ║
  ║  3. EMBEDDINGS    [[0.2, -0.5, ...], [0.7, 0.1, ...]]    ║
  ║       │            Vectores en espacio n-dimensional      ║
  ║       ▼                                                   ║
  ║  4. ATENCIÓN      Ponderar contexto relevante (Q, K, V)  ║
  ║       │                                                   ║
  ║       ▼                                                   ║
  ║  5. MLP           Transformación no lineal                ║
  ║       │                                                   ║
  ║       ▼ (repetir 4-5 por N capas)                         ║
  ║                                                           ║
  ║  6. SOFTMAX       Distribución de probabilidad            ║
  ║       │                                                   ║
  ║       ▼                                                   ║
  ║  7. PREDICCIÓN    "fuerte" (p=0.35)                       ║
  ║                                                           ║
  ║  ENTRENAMIENTO:                                           ║
  ║  8. ERROR         Comparar predicción vs corpus           ║
  ║       │                                                   ║
  ║       ▼                                                   ║
  ║  9. BACKPROP      Ajustar pesos con gradientes            ║
  ║       │                                                   ║
  ║       ▼ (repetir millones de veces)                       ║
  ║                                                           ║
  ║  10. MODELO       Miles de millones de pesos optimizados  ║
  ║      ENTRENADO                                            ║
  ║                                                           ║
  ╚═══════════════════════════════════════════════════════════╝

La idea central

Un LLM es optimización matemática sobre lenguaje representado como vectores.

No hay magia. No hay comprensión. No hay conciencia. Hay:

Componente	Matemática
Tokenización	Compresión estadística (BPE)
Embeddings	Álgebra lineal (vectores, matrices)
Perceptrón	Función lineal + activación no lineal
Forward pass	Composición de funciones
Backpropagation	Cálculo diferencial (regla de la cadena)
Atención	Producto punto + softmax
Transformer	Todo lo anterior, apilado N veces

El resultado es un sistema que, dado suficiente texto y suficiente computación, aprende a predecir la siguiente palabra con una precisión asombrosa. Y de esa simple tarea de predicción emerge lo que percibimos como "inteligencia".

La pregunta ya no es si puede predecir. Es qué emerge de la predicción a escala.

Para profundizar en cómo estos fundamentos se aplican en la práctica, consulta los artículos sobre Context Engineering y los modelos recursivos de lenguaje (RLM), que exploran cómo se están superando las limitaciones actuales.

Infografía sobre los fundamentos matemáticos de un modelo de lenguaje grande (LLM)

Referencias

Vaswani, A. et al. (2017). Attention Is All You Need. arXiv.
Mikolov, T. et al. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv (Word2Vec).
Sennrich, R. et al. (2016). Neural Machine Translation of Rare Words with Subword Units. arXiv (BPE).
Rumelhart, D. et al. (1986). Learning representations by back-propagating errors. Nature.

Fundamentos matemáticos de un LLM: de tokens a Transformers ​

1. El punto de partida: lenguaje, datos y predicción ​

2. Corpus, diccionario y tokens ​

El corpus ​

Tokenización ​

3. Embeddings: el lenguaje como espacio vectorial ​

Ejemplo conceptual ​

Conceptos clave ​

4. Perceptrón y redes neuronales ​

¿Qué es un perceptrón? ​

Pesos (W) ​

Función de activación: la sigmoide ​

5. Forward Pass: de texto a probabilidades ​

Ejemplo de salida ​

6. Training Set vs Test Set ​

¿Por qué dividir? ​

7. Backpropagation: aprender del error ​

La clave matemática: derivadas ​

Regla de la cadena ​

8. Parámetros: la escala de los LLM ​

9. Atención (Attention): el mecanismo que cambió todo ​

El problema ​

Ejemplo ​

Query, Key, Value (Q, K, V) ​

Fórmula de atención ​

10. Transformer: la arquitectura completa ​

Estructura de un bloque Transformer ​

Multi-Head Attention ​

MLP (Feed Forward) ​

Un LLM completo ​

Resumen: la cadena completa ​

La idea central ​

Referencias ​

Fundamentos matemáticos de un LLM: de tokens a Transformers

1. El punto de partida: lenguaje, datos y predicción

2. Corpus, diccionario y tokens

El corpus

Tokenización

3. Embeddings: el lenguaje como espacio vectorial

Ejemplo conceptual

Conceptos clave

4. Perceptrón y redes neuronales

¿Qué es un perceptrón?

Pesos (W)

Función de activación: la sigmoide

5. Forward Pass: de texto a probabilidades

Ejemplo de salida

6. Training Set vs Test Set

¿Por qué dividir?

7. Backpropagation: aprender del error

La clave matemática: derivadas

Regla de la cadena

8. Parámetros: la escala de los LLM

9. Atención (Attention): el mecanismo que cambió todo

El problema

Ejemplo

Query, Key, Value (Q, K, V)

Fórmula de atención

10. Transformer: la arquitectura completa

Estructura de un bloque Transformer

Multi-Head Attention

MLP (Feed Forward)

Un LLM completo

Resumen: la cadena completa

La idea central

Referencias