ARQUITECTURA

Transformer

Arquitectura de red neuronal basada en el mecanismo de atención que procesa secuencias en paralelo. Es la base de todos los grandes modelos modernos: GPT, Claude, Gemini, Llama.

Nivel · avanzado5 min de lecturaActualizado 23 may 2026
También conocido como: Arquitectura transformer, Transformer architecture

Definición

El transformer es una arquitectura de red neuronal introducida en 2017 en el paper Attention Is All You Need (Vaswani et al., Google). Su característica diferencial es procesar secuencias enteras en paralelo apoyándose en el mecanismo de self-attention, en lugar de procesarlas secuencialmente token a token como hacían las RNN y LSTM anteriores.

Esta arquitectura es la base técnica de prácticamente todos los grandes modelos modernos: GPT-5, Claude, Gemini, Llama, Mistral, DeepSeek, BERT, Stable Diffusion (que combina transformer con diffusion), y modelos multimodales como GPT-4o o Claude 4 Opus.

La frase "attention is all you need" no era metafórica: antes había arquitecturas mixtas con convoluciones, recurrencias y atención combinadas. El paper demostró que con solo atención y feed-forward se podían superar todos los benchmarks de traducción, y abrió la era moderna del deep learning.

Cómo funciona

Un transformer estándar se compone de bloques apilados, cada uno con dos sub-bloques principales:

  1. Multi-head self-attention: cada token de la secuencia "atiende" a todos los demás tokens, ponderando cuáles son relevantes para construir su nueva representación.
  2. Feed-forward network (FFN): capa densa de dos niveles aplicada token por token que añade no-linealidad y capacidad de transformación.

Cada sub-bloque se rodea de:

  • Residual connection: la entrada se suma a la salida del sub-bloque (clave para entrenar redes profundas sin vanishing gradient).
  • Layer normalization: estabiliza la distribución de activaciones.

El flujo completo desde texto a salida:

  1. Tokenización: el texto se rompe en tokens.
  2. Embedding: cada token se convierte en un vector denso (embedding) de dimensión típicamente 1024-8192.
  3. Positional encoding: como el transformer procesa la secuencia en paralelo (no secuencialmente), debe inyectarse información de posición en los embeddings. Esto se hace con encodings sinusoidales (original) o variantes modernas como RoPE (Rotary Position Embedding).
  4. Pila de N capas transformer: cada capa hace self-attention + FFN. GPT-3 tenía 96 capas; modelos actuales rondan 64-128.
  5. Capa de salida: proyección al tamaño del vocabulario, softmax, distribución de probabilidad sobre tokens.

Las dos grandes variantes

  • Encoder-only: BERT, RoBERTa. Procesan secuencia completa con atención bidireccional. Buenos para clasificación, NER, embedding.
  • Decoder-only: GPT, Claude, Llama, prácticamente todos los LLMs modernos. Atención causal (cada token solo ve los anteriores). Buenos para generación.
  • Encoder-decoder: T5, BART, modelos de traducción. Encoder procesa entrada, decoder genera salida atendiendo a ambos.

Hoy el paradigma dominante es decoder-only: una sola pila de capas con atención causal que genera token a token. GPT-3 marcó esta línea y el ecosistema entero la siguió.

Ejemplo práctico

Imagina un transformer pequeño (de juguete) procesando "El gato salta":

  1. Tokenización: ["El", " gato", " salta"] → IDs [1234, 5678, 9012].
  2. Embedding lookup: cada ID se proyecta a vectores de 512 dimensiones (random al inicio, aprendidos en entrenamiento).
  3. Se añade positional encoding (vector para posición 0, 1, 2).
  4. Primera capa transformer:
    • Self-attention: cada token consulta a todos los demás. "salta" puede atender fuertemente a "gato" para entender el sujeto.
    • FFN: transformación no lineal.
    • Residual + LayerNorm.
  5. Capa 2, capa 3, ..., capa N (típico 12-96).
  6. Última capa: para predecir el siguiente token, proyectamos el embedding final del último token al vocabulario → distribución de probabilidad.

En modelos reales, esos vectores tienen 4096 dimensiones, hay 64-96 cabezas de atención en paralelo por capa, y se entrenan en clusters de miles de GPUs.

Multi-head attention: el truco real

La self-attention no es una sola operación, sino varias en paralelo (típicamente 16-128 "cabezas"). Cada cabeza tiene proyecciones distintas y aprende a atender a aspectos diferentes:

  • Una cabeza puede aprender sintaxis (sujeto-verbo).
  • Otra puede aprender correferencia (pronombre → antecedente).
  • Otra, similitud semántica.

Luego se concatenan las salidas y se proyectan. El modelo decide qué cabezas son útiles durante el entrenamiento.

Por qué destronó a las RNN

Antes del transformer, las RNN y LSTM eran el estándar para texto. Sus limitaciones:

  • Procesamiento secuencial: no se podía paralelizar. Entrenar tardaba mucho.
  • Memoria limitada: el contexto temprano se desvanecía en secuencias largas.
  • Difícil escalar: añadir más capacidad no producía mejoras lineales.

El transformer:

  • Paralelizable: toda la secuencia se procesa de golpe. GPUs explotan al máximo.
  • Atención global: cualquier token puede atender directamente a cualquier otro, sin importar la distancia.
  • Escalable: a más datos, más cómputo y más parámetros, mejores resultados de forma predecible (scaling laws).

Coste: complejidad cuadrática en la longitud de secuencia, O(n²). Para contextos muy largos esto se vuelve caro y ha generado variantes (Flash Attention, atención lineal, sliding window) que lo mitigan.

Errores comunes al hablar de transformers

  • Confundir transformer con LLM: el transformer es la arquitectura. El LLM es un modelo concreto entrenado en muchísimo texto con esta arquitectura.
  • Pensar que es bidireccional siempre: los LLMs modernos son decoder-only con atención causal (solo miran hacia atrás). BERT sí es bidireccional.
  • Olvidar el positional encoding: sin él, el transformer trata la secuencia como un bag of words. Es fundamental.
  • No entender la complejidad cuadrática: cuadruplicar el contexto multiplica el coste por 16. Por eso entrenar con ventanas de 1M de tokens es brutalmente caro.
  • Subestimar el FFN: la mayoría de parámetros de un transformer están en los FFN, no en las atenciones. Es donde se almacena la mayoría del "conocimiento".

Variantes y evoluciones recientes

  • Flash Attention: implementación optimizada que reduce uso de memoria y acelera el cómputo significativamente.
  • MoE transformers (Mixtral, DeepSeek-V3, Grok): solo activan una fracción de los parámetros por token. Más eficientes.
  • Mamba / SSM: arquitecturas competidoras basadas en state-space models. Lineales en longitud, prometedoras pero aún minoritarias.
  • Sliding window attention (Mistral): atención local que mejora eficiencia en contextos largos.
  • Rotary Position Embedding (RoPE): la técnica dominante hoy para codificar posición en LLMs modernos.

Cuándo importa entender el transformer

Sí, conviene entenderlo si:

  • Trabajas con LLMs en producción y quieres optimizar coste/latencia.
  • Estás haciendo fine-tuning o entrenando modelos propios.
  • Quieres entender por qué los LLMs alucinan, fallan o destacan.
  • Debates de arquitectura (atención vs Mamba, dense vs MoE) te afectan profesionalmente.

Es menos crítico si:

  • Solo consumes APIs de LLMs y no tocas internals.
  • Tu trabajo es producto/UX donde basta saber qué hace el modelo, no cómo.

Referencias

Tagsiaarquitecturadeep-learningneural-networks