Definición
Un LLM (Large Language Model) es un modelo de lenguaje basado en redes neuronales profundas —típicamente con arquitectura transformer— entrenado con corpus masivos de texto (cientos de miles de millones a billones de tokens) para aprender la distribución estadística del lenguaje humano. Su tarea fundamental es muy simple: dada una secuencia de tokens, predecir cuál es el siguiente más probable.
Esa simplicidad esconde la capacidad emergente más sorprendente de la IA moderna: a partir de un objetivo de entrenamiento trivial (next-token prediction), surgen comportamientos complejos como razonar, traducir, programar, resumir, escribir código, mantener conversación coherente y simular roles. No es que el modelo "entienda" — es que ha comprimido tanta regularidad estadística del lenguaje humano que parece entender.
Ejemplos actuales conocidos: GPT-5, Claude Opus/Sonnet, Gemini, Llama, DeepSeek, Mistral, Qwen. Todos comparten el mismo paradigma: transformer + pretraining masivo + post-training (fine-tuning + RLHF).
Cómo funciona
El ciclo de vida típico de un LLM moderno tiene tres fases:
- Pretraining: el modelo se entrena durante semanas o meses en miles de GPUs procesando billones de tokens de texto crudo (web, libros, código, papers). Objetivo: predecir el siguiente token. Esta fase es la que consume el 95% del cómputo y produce un "base model" que ya sabe muchísimo del mundo pero responde de forma caótica.
- Post-training / alineamiento:
- Fine-tuning supervisado (SFT): con datos curados por humanos (instrucción + respuesta ideal), el modelo aprende a seguir instrucciones.
- RLHF o variantes (DPO, RLAIF): con preferencias humanas, se afina para ser útil, honesto e inofensivo.
- Inferencia: cuando lo usas en producción. Para cada petición, el modelo genera tokens uno por uno, condicionados por todos los anteriores (incluyendo tu prompt).
En cada paso de generación, el modelo:
- Tokeniza la secuencia de entrada.
- Convierte cada token en un embedding (vector denso).
- Pasa esos embeddings por decenas o cientos de capas transformer con atención.
- Produce una distribución de probabilidad sobre todo el vocabulario (cientos de miles de tokens posibles).
- Muestrea (con temperature, top-p, etc.) un token de esa distribución.
- Lo añade a la secuencia y repite hasta que se cumple una condición de parada.
Por qué "predicen el siguiente token" produce inteligencia aparente
La gran sorpresa científica de los últimos 10 años es que el objetivo de next-token prediction, llevado a escala masiva, produce capacidades emergentes (razonamiento, código, traducción, matemáticas) que no estaban explícitamente programadas. Cuando un modelo de 1B parámetros no las tiene y uno de 70B sí, hablamos de un "salto emergente". Esa es la base del scaling hypothesis: a más parámetros + más datos + más cómputo, más capacidades.
La realidad es algo más compleja: no es escala pura, sino escala combinada con buenos datos, alineamiento humano y arquitectura. Pero la idea central se ha confirmado experimentalmente una y otra vez.
Ejemplo práctico
Cuando preguntas "¿cuál es la capital de Francia?" a un LLM, técnicamente está ocurriendo esto:
- Tu texto se tokeniza en, digamos, 9 tokens.
- El modelo recibe esos 9 tokens y proyecta cada uno a un vector de embedding de dimensión 4096 (típico).
- Esos vectores pasan por 64 capas transformer, donde cada token "atiende" a todos los demás tokens del contexto.
- La salida final es una distribución de probabilidad sobre las ~100.000 entradas del vocabulario. Para el token siguiente, "Par" tendrá probabilidad muy alta.
- Se muestrea "Par" → se añade al contexto.
- Se repite el proceso con 10 tokens: ahora "ís" tiene probabilidad alta. Se muestrea.
- Continúa hasta generar la respuesta completa: "La capital de Francia es París."
Cada token generado es una pasada completa por todo el modelo. Un modelo de 70B parámetros hace ~140 GFLOPS por token. Por eso la inferencia es cara y se mide en tokens/segundo.
Tamaños y categorías de LLMs
- Pequeños (< 10B parámetros): Llama 3.1 8B, Mistral 7B, Phi-3. Caben en una GPU consumer, baratos, útiles en edge.
- Medianos (10B–100B): Llama 70B, Mistral Large, Claude Haiku. Buen balance precio/capacidad.
- Grandes (100B–1T+): GPT-5, Claude Opus, Gemini Ultra. Capacidades top, inferencia cara, suelen ser cerrados.
- MoE (Mixture of Experts): Mixtral, DeepSeek-V3, Grok. Tienen muchos parámetros totales pero activan solo una fracción por token. Más eficientes en inferencia.
Una métrica que ya no se usa tanto: parámetros totales. Hoy importa más rendimiento en benchmarks (MMLU, HumanEval, GPQA, SWE-bench) y especialmente coste por token.
Errores comunes al pensar en LLMs
- "Piensa" o "entiende": el LLM no razona como un humano. Aproxima razonamiento por estadística sobre patrones de texto similares vistos en entrenamiento.
- "Sabe la verdad": no tiene mecanismo de verificación factual. Puede generar texto coherente pero falso (alucinaciones).
- "Tiene memoria": por defecto no. Cada conversación es independiente; toda la "memoria" debe caber en la ventana de contexto del momento.
- "Aprende de mí": por defecto, NO. La conversación no se incorpora al modelo. Para que aprenda algo permanentemente, requiere fine-tuning explícito.
- "Más parámetros = mejor": ya no es cierto. Un Llama 70B bien afinado puede superar a un modelo de 200B mal entrenado en tareas específicas.
Cuándo usar un LLM
Sí, son adecuados cuando:
- La tarea implica lenguaje natural: clasificar, resumir, traducir, generar, conversar.
- Hay variabilidad y matiz en la entrada (no es un caso estructurado simple).
- El coste por inferencia es asumible para el valor que aporta cada llamada.
- Puedes verificar o tolerar cierto error (no son determinísticos).
No son adecuados para:
- Cálculos numéricos exactos (usa una calculadora o un script).
- Búsquedas factuales que requieren precisión absoluta (combina con RAG y verificación).
- Procesos donde el coste y la latencia son críticos y un sistema de reglas o un modelo pequeño funciona igual.
Referencias
- Attention Is All You Need (Vaswani et al., 2017) — el paper que introdujo el transformer
- GPT-3 paper · Language Models are Few-Shot Learners — el paper que estableció el paradigma moderno de LLMs
- The Annotated Transformer (Harvard NLP) — implementación paso a paso del transformer