FUNDAMENTOS

LLM

Modelo de lenguaje de gran tamaño basado en redes neuronales tipo transformer, entrenado con cantidades masivas de texto para predecir el siguiente token de una secuencia.

Nivel · intermedio5 min de lecturaActualizado 23 may 2026

También conocido como: Large Language Model, Modelo de lenguaje grande, LLM foundation model

Definición

Un LLM (Large Language Model) es un modelo de lenguaje basado en redes neuronales profundas —típicamente con arquitectura transformer— entrenado con corpus masivos de texto (cientos de miles de millones a billones de tokens) para aprender la distribución estadística del lenguaje humano. Su tarea fundamental es muy simple: dada una secuencia de tokens, predecir cuál es el siguiente más probable.

Esa simplicidad esconde la capacidad emergente más sorprendente de la IA moderna: a partir de un objetivo de entrenamiento trivial (next-token prediction), surgen comportamientos complejos como razonar, traducir, programar, resumir, escribir código, mantener conversación coherente y simular roles. No es que el modelo "entienda" — es que ha comprimido tanta regularidad estadística del lenguaje humano que parece entender.

Ejemplos actuales conocidos: GPT-5, Claude Opus/Sonnet, Gemini, Llama, DeepSeek, Mistral, Qwen. Todos comparten el mismo paradigma: transformer + pretraining masivo + post-training (fine-tuning + RLHF).

Cómo funciona

El ciclo de vida típico de un LLM moderno tiene tres fases:

Pretraining: el modelo se entrena durante semanas o meses en miles de GPUs procesando billones de tokens de texto crudo (web, libros, código, papers). Objetivo: predecir el siguiente token. Esta fase es la que consume el 95% del cómputo y produce un "base model" que ya sabe muchísimo del mundo pero responde de forma caótica.
Post-training / alineamiento:
- Fine-tuning supervisado (SFT): con datos curados por humanos (instrucción + respuesta ideal), el modelo aprende a seguir instrucciones.
- RLHF o variantes (DPO, RLAIF): con preferencias humanas, se afina para ser útil, honesto e inofensivo.
Inferencia: cuando lo usas en producción. Para cada petición, el modelo genera tokens uno por uno, condicionados por todos los anteriores (incluyendo tu prompt).

En cada paso de generación, el modelo:

Tokeniza la secuencia de entrada.
Convierte cada token en un embedding (vector denso).
Pasa esos embeddings por decenas o cientos de capas transformer con atención.
Produce una distribución de probabilidad sobre todo el vocabulario (cientos de miles de tokens posibles).
Muestrea (con temperature, top-p, etc.) un token de esa distribución.
Lo añade a la secuencia y repite hasta que se cumple una condición de parada.

Por qué "predicen el siguiente token" produce inteligencia aparente

La gran sorpresa científica de los últimos 10 años es que el objetivo de next-token prediction, llevado a escala masiva, produce capacidades emergentes (razonamiento, código, traducción, matemáticas) que no estaban explícitamente programadas. Cuando un modelo de 1B parámetros no las tiene y uno de 70B sí, hablamos de un "salto emergente". Esa es la base del scaling hypothesis: a más parámetros + más datos + más cómputo, más capacidades.

La realidad es algo más compleja: no es escala pura, sino escala combinada con buenos datos, alineamiento humano y arquitectura. Pero la idea central se ha confirmado experimentalmente una y otra vez.

Ejemplo práctico

Cuando preguntas "¿cuál es la capital de Francia?" a un LLM, técnicamente está ocurriendo esto:

Tu texto se tokeniza en, digamos, 9 tokens.
El modelo recibe esos 9 tokens y proyecta cada uno a un vector de embedding de dimensión 4096 (típico).
Esos vectores pasan por 64 capas transformer, donde cada token "atiende" a todos los demás tokens del contexto.
La salida final es una distribución de probabilidad sobre las ~100.000 entradas del vocabulario. Para el token siguiente, "Par" tendrá probabilidad muy alta.
Se muestrea "Par" → se añade al contexto.
Se repite el proceso con 10 tokens: ahora "ís" tiene probabilidad alta. Se muestrea.
Continúa hasta generar la respuesta completa: "La capital de Francia es París."

Cada token generado es una pasada completa por todo el modelo. Un modelo de 70B parámetros hace ~140 GFLOPS por token. Por eso la inferencia es cara y se mide en tokens/segundo.

Tamaños y categorías de LLMs

Pequeños (< 10B parámetros): Llama 3.1 8B, Mistral 7B, Phi-3. Caben en una GPU consumer, baratos, útiles en edge.
Medianos (10B–100B): Llama 70B, Mistral Large, Claude Haiku. Buen balance precio/capacidad.
Grandes (100B–1T+): GPT-5, Claude Opus, Gemini Ultra. Capacidades top, inferencia cara, suelen ser cerrados.
MoE (Mixture of Experts): Mixtral, DeepSeek-V3, Grok. Tienen muchos parámetros totales pero activan solo una fracción por token. Más eficientes en inferencia.

Una métrica que ya no se usa tanto: parámetros totales. Hoy importa más rendimiento en benchmarks (MMLU, HumanEval, GPQA, SWE-bench) y especialmente coste por token.

Errores comunes al pensar en LLMs

"Piensa" o "entiende": el LLM no razona como un humano. Aproxima razonamiento por estadística sobre patrones de texto similares vistos en entrenamiento.
"Sabe la verdad": no tiene mecanismo de verificación factual. Puede generar texto coherente pero falso (alucinaciones).
"Tiene memoria": por defecto no. Cada conversación es independiente; toda la "memoria" debe caber en la ventana de contexto del momento.
"Aprende de mí": por defecto, NO. La conversación no se incorpora al modelo. Para que aprenda algo permanentemente, requiere fine-tuning explícito.
"Más parámetros = mejor": ya no es cierto. Un Llama 70B bien afinado puede superar a un modelo de 200B mal entrenado en tareas específicas.

Cuándo usar un LLM

Sí, son adecuados cuando:

La tarea implica lenguaje natural: clasificar, resumir, traducir, generar, conversar.
Hay variabilidad y matiz en la entrada (no es un caso estructurado simple).
El coste por inferencia es asumible para el valor que aporta cada llamada.
Puedes verificar o tolerar cierto error (no son determinísticos).

No son adecuados para:

Cálculos numéricos exactos (usa una calculadora o un script).
Búsquedas factuales que requieren precisión absoluta (combina con RAG y verificación).
Procesos donde el coste y la latencia son críticos y un sistema de reglas o un modelo pequeño funciona igual.

Referencias

Attention Is All You Need (Vaswani et al., 2017) — el paper que introdujo el transformer
GPT-3 paper · Language Models are Few-Shot Learners — el paper que estableció el paradigma moderno de LLMs
The Annotated Transformer (Harvard NLP) — implementación paso a paso del transformer

Tagsiamodelosnlptransformers

TÉRMINOS RELACIONADOS

Explora también

Inteligencia Artificial

Transformer

Arquitectura de red neuronal basada en el mecanismo de atención que procesa secuencias en paralelo. Es la base de todos los grandes modelos modernos: GPT, Claude, Gemini, Llama.

Leer

Inteligencia Artificial

Token

Unidad mínima que un modelo de lenguaje procesa, generada por un tokenizador. No es una palabra ni un carácter: es una pieza intermedia optimizada para compresión y vocabulario.

Leer

Inteligencia Artificial

Embedding

Vector denso de números reales que representa un token, palabra, frase o documento en un espacio donde la cercanía geométrica refleja similitud semántica.

Leer

Inteligencia Artificial

Attention

Mecanismo central de los transformers que permite a cada token de una secuencia ponderar la relevancia de todos los demás tokens al construir su nueva representación.

Leer

Inteligencia Artificial

Pretraining

Primera fase de creación de un modelo de lenguaje: entrenarlo desde cero con cantidades masivas de texto y un objetivo simple (predecir el siguiente token) durante semanas o meses en miles de GPUs.

Leer

Inteligencia Artificial

Foundation model

Modelo de IA entrenado con datos masivos y diseñado para servir de base general sobre la que construir aplicaciones específicas mediante prompting, fine-tuning o RAG.

Leer

← Volver al diccionario de Inteligencia Artificial