Definición
El RLHF (Reinforcement Learning from Human Feedback) es la técnica de alineamiento que convierte un modelo de lenguaje preentrenado —que ya sabe muchísimo pero responde de forma caótica— en un asistente útil, honesto e inofensivo. La idea: en lugar de decirle al modelo qué responder con datos etiquetados (como en fine-tuning supervisado), le enseñas qué tipo de respuestas prefieren los humanos mediante comparaciones.
Es el ingrediente que diferencia un base model crudo de un asistente útil como ChatGPT, Claude o Gemini. Antes de RLHF, los LLMs eran impredecibles, contradictorios y a menudo inseguros. Con RLHF (y sus variantes modernas: DPO, RLAIF, Constitutional AI), nacieron los modelos conversacionales que conocemos.
Se popularizó con InstructGPT y ChatGPT (OpenAI, 2022). Hoy es estándar en toda la frontera, aunque las técnicas exactas varían: Anthropic usa Constitutional AI + RLAIF, OpenAI variantes de PPO, otros han migrado a DPO por simplicidad.
Cómo funciona
El RLHF clásico (InstructGPT) tiene tres fases bien diferenciadas:
-
Supervised Fine-Tuning (SFT):
- Se toma un base model preentrenado.
- Se le hace fine-tuning con un dataset curado de instrucciones + respuestas ideales escritas por humanos.
- Resultado: el modelo aprende a seguir instrucciones de forma decente.
-
Reward Model (RM):
- Se generan múltiples respuestas para cada prompt.
- Humanos las comparan por pares ("¿cuál prefieres, A o B?"), produciendo un dataset de preferencias.
- Se entrena un modelo separado (típicamente derivado del mismo LLM) para predecir qué respuesta preferiría un humano. Recibe respuesta como input, produce un score.
-
Reinforcement Learning con PPO:
- El modelo SFT genera respuestas a prompts.
- El reward model puntúa cada respuesta.
- Esa puntuación se usa como señal de recompensa para un algoritmo de refuerzo (típicamente PPO – Proximal Policy Optimization).
- El modelo ajusta sus pesos para producir respuestas que el reward model puntúe alto.
- Se añade un término KL para que el modelo no se aleje demasiado del SFT (evita "hacking" del reward).
Resultado: un modelo que produce respuestas que humanos calificaron sistemáticamente como mejores: más útiles, más honestas, menos tóxicas, menos confusas.
Por qué se necesita RLHF
Un base model "sin alinear" tiene tres problemas:
- No sigue instrucciones bien: completa texto siguiendo la distribución de internet, no haciendo lo que pides.
- Puede ser inútil, falso o dañino: aprendió todo lo que está en internet, lo bueno y lo malo.
- Estilo inconsistente: a veces formal, a veces tóxico, a veces incoherente.
RLHF resuelve los tres a la vez sin necesidad de datasets perfectos. Solo necesitas humanos comparando respuestas — más barato y más escalable que escribir respuestas perfectas para cada caso.
Ejemplo práctico
Imagina entrenar un modelo de soporte al cliente para IMDICA. Sin RLHF:
- Cliente: "Mi pedido no ha llegado, llevo 5 días esperando."
- Base model sin alinear (posible respuesta): "El paquete podría haberse perdido. La tasa de pérdida de paquetes en España es del 0.3% anual según datos de Correos..."
Con RLHF:
- Cliente: "Mi pedido no ha llegado, llevo 5 días esperando."
- Modelo alineado: "Lo siento mucho por el retraso, Antonio. Voy a revisar tu pedido ahora mismo. ¿Me das el número de referencia para localizarlo?"
La diferencia no es de conocimiento; es de comportamiento. El modelo alineado aprendió que esa segunda forma de responder es lo que los humanos prefieren: empatía + acción + petición concreta de información.
Variantes modernas
El RLHF clásico (SFT + RM + PPO) es complejo: requiere entrenar 3 modelos, infraestructura distribuida, hiperparámetros frágiles. Surgieron alternativas más simples:
- DPO (Direct Preference Optimization): elimina el reward model. Optimiza directamente sobre el dataset de preferencias usando una función de pérdida cerrada. Más simple, similar calidad, mucho más usado hoy.
- ORPO: combina SFT y preferencias en una sola fase. Aún más eficiente.
- KTO (Kahneman-Tversky Optimization): requiere solo etiquetas binarias (buena/mala), no comparaciones.
- RLAIF (RL from AI Feedback): las preferencias las da otro modelo de IA (más rápido y barato que humanos). Anthropic lo usa con Constitutional AI.
- Constitutional AI (Anthropic): el modelo se auto-critica siguiendo una "constitución" (principios escritos), generando datos de preferencia sin humanos en cada iteración.
DPO ha desplazado a PPO en muchos pipelines por simplicidad. RLAIF y Constitutional AI están ganando terreno por su escalabilidad.
El problema del reward hacking
Si el modelo se optimiza puramente para maximizar el reward, encuentra trucos no deseados: respuestas que el reward model puntúa alto pero que en realidad son malas. Ejemplos:
- Respuestas muy largas que parecen completas pero no aportan.
- Verbosidad excesiva, repetición.
- Excesiva cautela ("Como modelo de lenguaje, no puedo...").
- Estilo demasiado servil ("¡Excelente pregunta!").
El término KL ayuda, pero el reward hacking sigue siendo el principal desafío técnico del RLHF moderno. Por eso las empresas top dedican equipos enormes solo a curar preferencias, detectar hacking y refinar el reward model.
Errores comunes al hablar de RLHF
- Confundir RLHF con fine-tuning: SFT (parte 1) es fine-tuning. RLHF añade el refuerzo basado en preferencias.
- Pensar que RLHF añade conocimiento: alinea comportamiento, no enseña hechos nuevos.
- Asumir que es "perfecto": introduce sesgos de los anotadores, problemas de reward hacking, costes operativos altos.
- Subestimar el coste humano: el dataset de preferencias requiere miles de horas de anotación calidad.
- Pensar que RLHF = alineamiento total: alineamiento incluye RLHF, red-teaming, evals, refusals, safety training. RLHF es solo una pieza.
Quién hace RLHF en serio hoy
Solo un puñado de empresas: OpenAI, Anthropic, Google DeepMind, Meta, xAI, Cohere, Mistral, DeepSeek, Qwen (Alibaba). Cada una con su receta:
- Anthropic: Constitutional AI + RLAIF. Modelo se autoalinea siguiendo principios.
- OpenAI: variantes de PPO + DPO + procesos internos confidenciales.
- Meta (Llama): SFT + DPO + safety training, todo abierto.
- xAI (Grok): se sospecha que minimiza RLHF para un estilo más "libre".
- DeepSeek: pioneros en RL puro (sin H humano) para razonamiento — DeepSeek-R1.
Cuándo importa entender RLHF
Sí, conviene profundizar si:
- Trabajas en alignment, safety o evaluación de modelos.
- Vas a fine-tunear un modelo con preferencias propias (DPO accesible para teams pequeños).
- Quieres entender por qué los LLMs se comportan como lo hacen (rechazan ciertas peticiones, son excesivamente cautelosos, etc.).
- Estás en un equipo que decide qué modelo desplegar y por qué su comportamiento es relevante.
Menos crítico si:
- Solo consumes APIs y el alineamiento te lo da el proveedor.
- Tu producto no depende del estilo o tono específicos del modelo.
Referencias
- Ouyang et al. · InstructGPT paper (OpenAI) — el paper que estableció el pipeline RLHF moderno
- Rafailov et al. · Direct Preference Optimization (DPO) — la alternativa simplificada que dominó después
- Anthropic · Constitutional AI — el enfoque de Anthropic para alineamiento