Definición
Un reasoning model (modelo de razonamiento) es un tipo de LLM entrenado específicamente para razonar paso a paso de forma explícita antes de producir una respuesta final. En lugar de generar la respuesta directamente, primero genera una cadena interna de pensamiento (a veces oculta al usuario, a veces visible) donde el modelo "piensa": plantea hipótesis, las explora, descarta caminos, verifica, y solo entonces compone la respuesta.
El paradigma se popularizó con o1 de OpenAI (septiembre 2024), DeepSeek-R1 (enero 2026) y Claude Extended Thinking (Anthropic). Frente a un LLM clásico que responde en uno o dos segundos, un reasoning model puede dedicar decenas de segundos o minutos a "pensar" antes de contestar.
A cambio: en benchmarks de razonamiento matemático, código complejo, ciencia avanzada o lógica, los reasoning models superan drásticamente a los LLMs clásicos del mismo tamaño. En AIME, GPQA, MATH, SWE-Bench, Codeforces, las brechas son del 20-50%.
Es el cambio de paradigma más importante en LLMs desde la introducción de RLHF.
Cómo funciona
La técnica clave es entrenar al modelo para generar cadenas de razonamiento (CoT — Chain of Thought) muy largas y de calidad antes de la respuesta final. Esto se logra combinando varias técnicas:
- SFT inicial con datos de razonamiento: ejemplos curados de problemas + cadenas de razonamiento + soluciones, generados por humanos o por modelos previos.
- RL con recompensa en resultado (no en proceso): el modelo intenta resolver problemas con respuesta verificable (matemáticas, código), y se le premia cuando la respuesta es correcta — sin importar cómo razonó. DeepSeek-R1 fue pionero en este enfoque "RL puro".
- Aprender a auto-corregirse: el modelo aprende a decir "espera, esto está mal, déjame reconsiderar" y volver atrás.
- Aprender a explorar caminos múltiples: probar varias estrategias, descartar las que no funcionan.
El resultado es un modelo que, ante un problema difícil, genera 1.000-50.000 tokens de "pensamiento" antes de responder. Esos tokens son internos (en o1 están ocultos al usuario; en Claude Extended Thinking opcionalmente visibles; en DeepSeek-R1 visibles).
Por qué funciona: test-time compute
La gran insight detrás de los reasoning models es lo que se llama test-time compute scaling: en lugar de hacer el modelo más grande (entrenamiento), invertir más cómputo durante la inferencia del modelo (test-time) para problemas difíciles.
Tradicionalmente: más parámetros = más capacidad. Y eso sigue cierto.
Ahora también: más tokens de razonamiento = mejor respuesta. Y la curva escala predeciblemente.
Esto cambia la economía: en lugar de entrenar GPT-6 con 10× más parámetros (carísimo), entrenas un modelo más modesto pero que puede usar 10× más cómputo cuando enfrenta un problema difícil. Más flexible, más adaptable al tipo de problema.
Ejemplo práctico
Vamos a pedirle a un reasoning model que ayude con un cálculo de IMDICA: "Si compramos 1.500 destornilladores Makita a 28€/unidad con descuento del 12% por volumen, los vendemos a 42€/unidad con margen del 18% sobre precio venta como comisión al comercial, ¿cuánto es nuestro margen neto real por unidad?"
Un LLM clásico responde directo, a veces bien, a veces mal por algún paso saltado.
Un reasoning model como o1 o Claude Extended Thinking:
- Lee y reformula el problema internamente.
- Identifica variables: precio compra base, descuento, precio venta, comisión.
- Calcula precio compra real: 28 × (1 - 0.12) = 24.64€.
- Considera la comisión: 18% sobre 42 = 7.56€.
- Calcula margen neto: 42 - 24.64 - 7.56 = 9.80€.
- Verifica con cálculo alternativo (por porcentajes): 9.80 / 42 = 23.3% sobre venta.
- Sospecha el cálculo, lo repite por otro camino para confirmar.
- Responde: "9,80€ por unidad de margen neto real, equivalente al 23,3% del PVP."
Todo este razonamiento es interno. Tiempo: 15-30 segundos. Pero la fiabilidad es brutalmente mayor que un LLM clásico haciendo el mismo cálculo en 2 segundos.
Los modelos top de la frontera
A mediados de 2026:
| Modelo | Empresa | Características |
|---|---|---|
| o1, o3, o4 | OpenAI | Razonamiento oculto; muy buenos en ciencias |
| Claude Extended Thinking | Anthropic | Razonamiento opcional y visible; balance excelente |
| DeepSeek-R1, R2 | DeepSeek | Razonamiento visible; abierto en pesos; el pionero en RL puro |
| Gemini 2 Thinking | Integrado al modelo principal, configurable | |
| QwQ, Qwen3 Thinking | Alibaba | Abierto, competitivo |
| Grok 4 Heavy | xAI | Razonamiento profundo con agentes paralelos |
Casi todos los frontier models de 2026 ofrecen variantes de razonamiento, y la tendencia es que el razonamiento se vuelva una capacidad nativa del modelo, configurable por el usuario.
Reasoning vs Chain of Thought clásico
Chain of Thought (CoT) en un LLM normal es una técnica de prompting: le pides al modelo "piensa paso a paso" y mejora.
Un reasoning model es distinto:
- CoT clásico: 200-500 tokens de razonamiento, calidad limitada por capacidades naturales del modelo.
- Reasoning model: 1.000-50.000 tokens de razonamiento de alta calidad, entrenamiento específico para ello.
- CoT clásico: prompting opcional, no entrenado para razonar largo.
- Reasoning model: entrenamiento dedicado, mucho más fiable.
Un reasoning model es a CoT clásico lo que un piloto profesional es a alguien que sabe conducir. Mismo principio, pero diferencia abismal en ejecución.
Errores comunes al hablar de reasoning models
- Pensar que "piensan como humanos": producen tokens de razonamiento que parecen razonamiento. Si emerge inteligencia real es debate filosófico abierto.
- Usarlos para todo: son caros y lentos. Para preguntas simples, un LLM clásico es mejor.
- Pensar que "no alucinan": alucinan menos en tareas verificables, pero pueden alucinar en cualquier dominio.
- Confundir reasoning con multi-step: un agente que llama herramientas en pasos no es lo mismo. Reasoning es razonamiento interno antes de responder.
- Esperar transparencia perfecta: los tokens de razonamiento muestran un proceso, pero el modelo puede engañar (post-hoc rationalization).
- Pagar por razonamiento donde no aporta: en escritura creativa o conversación casual, reasoning no añade nada y multiplica el coste por 10-50×.
Cuándo usar un reasoning model
Sí, úsalo cuando:
- El problema requiere razonamiento multi-paso verificable (matemáticas, lógica, código complejo).
- Quieres minimizar errores en respuestas críticas (legal, médico, financiero).
- Tienes tiempo de espera aceptable y presupuesto para tokens elevados.
- El coste del error es alto.
No es la elección si:
- La pregunta es factual o conversacional simple.
- Necesitas latencia baja (<2 segundos).
- El coste por petición es crítico.
- Tu caso es generación creativa, no análisis.
Referencias
- DeepSeek-R1 paper — el report técnico que abrió el paradigma de RL puro para razonamiento
- OpenAI · o1 release notes — anuncio fundacional del paradigma o1
- Anthropic · Claude Extended Thinking — implementación con razonamiento opcional y visible