ENTRENAMIENTO

RLHF

Técnica de alineamiento donde un modelo de lenguaje se ajusta mediante aprendizaje por refuerzo usando preferencias humanas (qué respuesta es mejor) como señal de recompensa.

Nivel · avanzado6 min de lecturaActualizado 23 may 2026

También conocido como: Reinforcement Learning from Human Feedback, Alineamiento por refuerzo, RLAIF, DPO

Definición

El RLHF (Reinforcement Learning from Human Feedback) es la técnica de alineamiento que convierte un modelo de lenguaje preentrenado —que ya sabe muchísimo pero responde de forma caótica— en un asistente útil, honesto e inofensivo. La idea: en lugar de decirle al modelo qué responder con datos etiquetados (como en fine-tuning supervisado), le enseñas qué tipo de respuestas prefieren los humanos mediante comparaciones.

Es el ingrediente que diferencia un base model crudo de un asistente útil como ChatGPT, Claude o Gemini. Antes de RLHF, los LLMs eran impredecibles, contradictorios y a menudo inseguros. Con RLHF (y sus variantes modernas: DPO, RLAIF, Constitutional AI), nacieron los modelos conversacionales que conocemos.

Se popularizó con InstructGPT y ChatGPT (OpenAI, 2022). Hoy es estándar en toda la frontera, aunque las técnicas exactas varían: Anthropic usa Constitutional AI + RLAIF, OpenAI variantes de PPO, otros han migrado a DPO por simplicidad.

Cómo funciona

El RLHF clásico (InstructGPT) tiene tres fases bien diferenciadas:

Supervised Fine-Tuning (SFT):
- Se toma un base model preentrenado.
- Se le hace fine-tuning con un dataset curado de instrucciones + respuestas ideales escritas por humanos.
- Resultado: el modelo aprende a seguir instrucciones de forma decente.
Reward Model (RM):
- Se generan múltiples respuestas para cada prompt.
- Humanos las comparan por pares ("¿cuál prefieres, A o B?"), produciendo un dataset de preferencias.
- Se entrena un modelo separado (típicamente derivado del mismo LLM) para predecir qué respuesta preferiría un humano. Recibe respuesta como input, produce un score.
Reinforcement Learning con PPO:
- El modelo SFT genera respuestas a prompts.
- El reward model puntúa cada respuesta.
- Esa puntuación se usa como señal de recompensa para un algoritmo de refuerzo (típicamente PPO – Proximal Policy Optimization).
- El modelo ajusta sus pesos para producir respuestas que el reward model puntúe alto.
- Se añade un término KL para que el modelo no se aleje demasiado del SFT (evita "hacking" del reward).

Resultado: un modelo que produce respuestas que humanos calificaron sistemáticamente como mejores: más útiles, más honestas, menos tóxicas, menos confusas.

Por qué se necesita RLHF

Un base model "sin alinear" tiene tres problemas:

No sigue instrucciones bien: completa texto siguiendo la distribución de internet, no haciendo lo que pides.
Puede ser inútil, falso o dañino: aprendió todo lo que está en internet, lo bueno y lo malo.
Estilo inconsistente: a veces formal, a veces tóxico, a veces incoherente.

RLHF resuelve los tres a la vez sin necesidad de datasets perfectos. Solo necesitas humanos comparando respuestas — más barato y más escalable que escribir respuestas perfectas para cada caso.

Ejemplo práctico

Imagina entrenar un modelo de soporte al cliente para IMDICA. Sin RLHF:

Cliente: "Mi pedido no ha llegado, llevo 5 días esperando."
Base model sin alinear (posible respuesta): "El paquete podría haberse perdido. La tasa de pérdida de paquetes en España es del 0.3% anual según datos de Correos..."

Con RLHF:

Cliente: "Mi pedido no ha llegado, llevo 5 días esperando."
Modelo alineado: "Lo siento mucho por el retraso, Antonio. Voy a revisar tu pedido ahora mismo. ¿Me das el número de referencia para localizarlo?"

La diferencia no es de conocimiento; es de comportamiento. El modelo alineado aprendió que esa segunda forma de responder es lo que los humanos prefieren: empatía + acción + petición concreta de información.

Variantes modernas

El RLHF clásico (SFT + RM + PPO) es complejo: requiere entrenar 3 modelos, infraestructura distribuida, hiperparámetros frágiles. Surgieron alternativas más simples:

DPO (Direct Preference Optimization): elimina el reward model. Optimiza directamente sobre el dataset de preferencias usando una función de pérdida cerrada. Más simple, similar calidad, mucho más usado hoy.
ORPO: combina SFT y preferencias en una sola fase. Aún más eficiente.
KTO (Kahneman-Tversky Optimization): requiere solo etiquetas binarias (buena/mala), no comparaciones.
RLAIF (RL from AI Feedback): las preferencias las da otro modelo de IA (más rápido y barato que humanos). Anthropic lo usa con Constitutional AI.
Constitutional AI (Anthropic): el modelo se auto-critica siguiendo una "constitución" (principios escritos), generando datos de preferencia sin humanos en cada iteración.

DPO ha desplazado a PPO en muchos pipelines por simplicidad. RLAIF y Constitutional AI están ganando terreno por su escalabilidad.

El problema del reward hacking

Si el modelo se optimiza puramente para maximizar el reward, encuentra trucos no deseados: respuestas que el reward model puntúa alto pero que en realidad son malas. Ejemplos:

Respuestas muy largas que parecen completas pero no aportan.
Verbosidad excesiva, repetición.
Excesiva cautela ("Como modelo de lenguaje, no puedo...").
Estilo demasiado servil ("¡Excelente pregunta!").

El término KL ayuda, pero el reward hacking sigue siendo el principal desafío técnico del RLHF moderno. Por eso las empresas top dedican equipos enormes solo a curar preferencias, detectar hacking y refinar el reward model.

Errores comunes al hablar de RLHF

Confundir RLHF con fine-tuning: SFT (parte 1) es fine-tuning. RLHF añade el refuerzo basado en preferencias.
Pensar que RLHF añade conocimiento: alinea comportamiento, no enseña hechos nuevos.
Asumir que es "perfecto": introduce sesgos de los anotadores, problemas de reward hacking, costes operativos altos.
Subestimar el coste humano: el dataset de preferencias requiere miles de horas de anotación calidad.
Pensar que RLHF = alineamiento total: alineamiento incluye RLHF, red-teaming, evals, refusals, safety training. RLHF es solo una pieza.

Quién hace RLHF en serio hoy

Solo un puñado de empresas: OpenAI, Anthropic, Google DeepMind, Meta, xAI, Cohere, Mistral, DeepSeek, Qwen (Alibaba). Cada una con su receta:

Anthropic: Constitutional AI + RLAIF. Modelo se autoalinea siguiendo principios.
OpenAI: variantes de PPO + DPO + procesos internos confidenciales.
Meta (Llama): SFT + DPO + safety training, todo abierto.
xAI (Grok): se sospecha que minimiza RLHF para un estilo más "libre".
DeepSeek: pioneros en RL puro (sin H humano) para razonamiento — DeepSeek-R1.

Cuándo importa entender RLHF

Sí, conviene profundizar si:

Trabajas en alignment, safety o evaluación de modelos.
Vas a fine-tunear un modelo con preferencias propias (DPO accesible para teams pequeños).
Quieres entender por qué los LLMs se comportan como lo hacen (rechazan ciertas peticiones, son excesivamente cautelosos, etc.).
Estás en un equipo que decide qué modelo desplegar y por qué su comportamiento es relevante.

Menos crítico si:

Solo consumes APIs y el alineamiento te lo da el proveedor.
Tu producto no depende del estilo o tono específicos del modelo.

Referencias

Ouyang et al. · InstructGPT paper (OpenAI) — el paper que estableció el pipeline RLHF moderno
Rafailov et al. · Direct Preference Optimization (DPO) — la alternativa simplificada que dominó después
Anthropic · Constitutional AI — el enfoque de Anthropic para alineamiento

Tagsiaentrenamientoalineamientorefuerzo

TÉRMINOS RELACIONADOS

Explora también

Inteligencia Artificial

Pretraining

Primera fase de creación de un modelo de lenguaje: entrenarlo desde cero con cantidades masivas de texto y un objetivo simple (predecir el siguiente token) durante semanas o meses en miles de GPUs.

Leer

Inteligencia Artificial

Fine-tuning

Proceso de tomar un modelo preentrenado y continuar su entrenamiento con datos específicos para adaptarlo a una tarea, dominio o estilo concretos.

Leer

Inteligencia Artificial

LLM

Modelo de lenguaje de gran tamaño basado en redes neuronales tipo transformer, entrenado con cantidades masivas de texto para predecir el siguiente token de una secuencia.

Leer

Inteligencia Artificial

Transformer

Arquitectura de red neuronal basada en el mecanismo de atención que procesa secuencias en paralelo. Es la base de todos los grandes modelos modernos: GPT, Claude, Gemini, Llama.

Leer

Inteligencia Artificial

Inference

Proceso de usar un modelo ya entrenado para generar predicciones o respuestas en tiempo real. Es la fase de explotación: cada vez que llamas a un LLM en producción, estás haciendo inference.

Leer

Inteligencia Artificial

DPO

Algoritmo de alineamiento que optimiza un modelo directamente sobre preferencias humanas (respuesta A es mejor que B) sin necesidad de entrenar un reward model intermedio.

Leer

← Volver al diccionario de Inteligencia Artificial