PATRONES

Reasoning model

Modelo de lenguaje entrenado para razonar explícitamente antes de responder, generando largas cadenas internas de pensamiento que mejoran drásticamente su rendimiento en problemas complejos.

Nivel · avanzado6 min de lecturaActualizado 24 may 2026
También conocido como: Reasoning LLM, Thinking model, o1, DeepSeek R1, Extended thinking

Definición

Un reasoning model (modelo de razonamiento) es un tipo de LLM entrenado específicamente para razonar paso a paso de forma explícita antes de producir una respuesta final. En lugar de generar la respuesta directamente, primero genera una cadena interna de pensamiento (a veces oculta al usuario, a veces visible) donde el modelo "piensa": plantea hipótesis, las explora, descarta caminos, verifica, y solo entonces compone la respuesta.

El paradigma se popularizó con o1 de OpenAI (septiembre 2024), DeepSeek-R1 (enero 2026) y Claude Extended Thinking (Anthropic). Frente a un LLM clásico que responde en uno o dos segundos, un reasoning model puede dedicar decenas de segundos o minutos a "pensar" antes de contestar.

A cambio: en benchmarks de razonamiento matemático, código complejo, ciencia avanzada o lógica, los reasoning models superan drásticamente a los LLMs clásicos del mismo tamaño. En AIME, GPQA, MATH, SWE-Bench, Codeforces, las brechas son del 20-50%.

Es el cambio de paradigma más importante en LLMs desde la introducción de RLHF.

Cómo funciona

La técnica clave es entrenar al modelo para generar cadenas de razonamiento (CoT — Chain of Thought) muy largas y de calidad antes de la respuesta final. Esto se logra combinando varias técnicas:

  1. SFT inicial con datos de razonamiento: ejemplos curados de problemas + cadenas de razonamiento + soluciones, generados por humanos o por modelos previos.
  2. RL con recompensa en resultado (no en proceso): el modelo intenta resolver problemas con respuesta verificable (matemáticas, código), y se le premia cuando la respuesta es correcta — sin importar cómo razonó. DeepSeek-R1 fue pionero en este enfoque "RL puro".
  3. Aprender a auto-corregirse: el modelo aprende a decir "espera, esto está mal, déjame reconsiderar" y volver atrás.
  4. Aprender a explorar caminos múltiples: probar varias estrategias, descartar las que no funcionan.

El resultado es un modelo que, ante un problema difícil, genera 1.000-50.000 tokens de "pensamiento" antes de responder. Esos tokens son internos (en o1 están ocultos al usuario; en Claude Extended Thinking opcionalmente visibles; en DeepSeek-R1 visibles).

Por qué funciona: test-time compute

La gran insight detrás de los reasoning models es lo que se llama test-time compute scaling: en lugar de hacer el modelo más grande (entrenamiento), invertir más cómputo durante la inferencia del modelo (test-time) para problemas difíciles.

Tradicionalmente: más parámetros = más capacidad. Y eso sigue cierto.

Ahora también: más tokens de razonamiento = mejor respuesta. Y la curva escala predeciblemente.

Esto cambia la economía: en lugar de entrenar GPT-6 con 10× más parámetros (carísimo), entrenas un modelo más modesto pero que puede usar 10× más cómputo cuando enfrenta un problema difícil. Más flexible, más adaptable al tipo de problema.

Ejemplo práctico

Vamos a pedirle a un reasoning model que ayude con un cálculo de IMDICA: "Si compramos 1.500 destornilladores Makita a 28€/unidad con descuento del 12% por volumen, los vendemos a 42€/unidad con margen del 18% sobre precio venta como comisión al comercial, ¿cuánto es nuestro margen neto real por unidad?"

Un LLM clásico responde directo, a veces bien, a veces mal por algún paso saltado.

Un reasoning model como o1 o Claude Extended Thinking:

  1. Lee y reformula el problema internamente.
  2. Identifica variables: precio compra base, descuento, precio venta, comisión.
  3. Calcula precio compra real: 28 × (1 - 0.12) = 24.64€.
  4. Considera la comisión: 18% sobre 42 = 7.56€.
  5. Calcula margen neto: 42 - 24.64 - 7.56 = 9.80€.
  6. Verifica con cálculo alternativo (por porcentajes): 9.80 / 42 = 23.3% sobre venta.
  7. Sospecha el cálculo, lo repite por otro camino para confirmar.
  8. Responde: "9,80€ por unidad de margen neto real, equivalente al 23,3% del PVP."

Todo este razonamiento es interno. Tiempo: 15-30 segundos. Pero la fiabilidad es brutalmente mayor que un LLM clásico haciendo el mismo cálculo en 2 segundos.

Los modelos top de la frontera

A mediados de 2026:

ModeloEmpresaCaracterísticas
o1, o3, o4OpenAIRazonamiento oculto; muy buenos en ciencias
Claude Extended ThinkingAnthropicRazonamiento opcional y visible; balance excelente
DeepSeek-R1, R2DeepSeekRazonamiento visible; abierto en pesos; el pionero en RL puro
Gemini 2 ThinkingGoogleIntegrado al modelo principal, configurable
QwQ, Qwen3 ThinkingAlibabaAbierto, competitivo
Grok 4 HeavyxAIRazonamiento profundo con agentes paralelos

Casi todos los frontier models de 2026 ofrecen variantes de razonamiento, y la tendencia es que el razonamiento se vuelva una capacidad nativa del modelo, configurable por el usuario.

Reasoning vs Chain of Thought clásico

Chain of Thought (CoT) en un LLM normal es una técnica de prompting: le pides al modelo "piensa paso a paso" y mejora.

Un reasoning model es distinto:

  • CoT clásico: 200-500 tokens de razonamiento, calidad limitada por capacidades naturales del modelo.
  • Reasoning model: 1.000-50.000 tokens de razonamiento de alta calidad, entrenamiento específico para ello.
  • CoT clásico: prompting opcional, no entrenado para razonar largo.
  • Reasoning model: entrenamiento dedicado, mucho más fiable.

Un reasoning model es a CoT clásico lo que un piloto profesional es a alguien que sabe conducir. Mismo principio, pero diferencia abismal en ejecución.

Errores comunes al hablar de reasoning models

  • Pensar que "piensan como humanos": producen tokens de razonamiento que parecen razonamiento. Si emerge inteligencia real es debate filosófico abierto.
  • Usarlos para todo: son caros y lentos. Para preguntas simples, un LLM clásico es mejor.
  • Pensar que "no alucinan": alucinan menos en tareas verificables, pero pueden alucinar en cualquier dominio.
  • Confundir reasoning con multi-step: un agente que llama herramientas en pasos no es lo mismo. Reasoning es razonamiento interno antes de responder.
  • Esperar transparencia perfecta: los tokens de razonamiento muestran un proceso, pero el modelo puede engañar (post-hoc rationalization).
  • Pagar por razonamiento donde no aporta: en escritura creativa o conversación casual, reasoning no añade nada y multiplica el coste por 10-50×.

Cuándo usar un reasoning model

Sí, úsalo cuando:

  • El problema requiere razonamiento multi-paso verificable (matemáticas, lógica, código complejo).
  • Quieres minimizar errores en respuestas críticas (legal, médico, financiero).
  • Tienes tiempo de espera aceptable y presupuesto para tokens elevados.
  • El coste del error es alto.

No es la elección si:

  • La pregunta es factual o conversacional simple.
  • Necesitas latencia baja (<2 segundos).
  • El coste por petición es crítico.
  • Tu caso es generación creativa, no análisis.

Referencias

Tagsiarazonamientomodelosfrontera