ENTRENAMIENTO

Pretraining

Primera fase de creación de un modelo de lenguaje: entrenarlo desde cero con cantidades masivas de texto y un objetivo simple (predecir el siguiente token) durante semanas o meses en miles de GPUs.

Nivel · avanzado6 min de lecturaActualizado 23 may 2026
También conocido como: Pre-entrenamiento, Foundation model training, Base model training

Definición

El pretraining o pre-entrenamiento es la primera y más costosa fase del ciclo de creación de un modelo de lenguaje. Consiste en entrenar una red neuronal (típicamente un transformer decoder-only) desde cero con cantidades masivas de texto crudo (billones de tokens) y un objetivo simple: predecir el siguiente token.

El resultado es un base model o foundation model: una red con cientos de miles de millones de parámetros que ha "comprimido" una parte enorme del conocimiento humano disponible en texto digital. Aún no responde bien a instrucciones —para eso vendrá el post-training—, pero ya tiene capacidades emergentes como razonar, traducir, programar y generar lenguaje coherente.

Pretraining es lo que distingue empresas con capital y compute brutal (OpenAI, Anthropic, Google, Meta, xAI, DeepSeek) de quienes solo hacen fine-tuning sobre modelos abiertos. Pretrainings completos cuestan entre decenas y cientos de millones de dólares.

Cómo funciona

El proceso simplificado del pretraining:

  1. Recolección de datos: scraping masivo de la web (Common Crawl), libros (Books2/3), código (GitHub), papers (arXiv), Wikipedia, foros, redes sociales. Total: 15-50 trillones de tokens para modelos top.
  2. Filtrado y deduplicación: limpieza de spam, contenido tóxico, datos duplicados, baja calidad. Esta fase es CRÍTICA: la calidad del dataset determina más el resultado que la cantidad bruta.
  3. Tokenización: todo el corpus se convierte en tokens usando un tokenizador entrenado para el modelo.
  4. Entrenamiento:
    • El modelo se inicializa con pesos aleatorios.
    • Se procesan batches enormes (millones de tokens por step).
    • Para cada token, el modelo predice cuál es el siguiente.
    • La predicción se compara con el real → loss (cross-entropy).
    • Backpropagation calcula gradientes; el optimizador (AdamW típicamente) ajusta los pesos.
    • Se repite billones de veces.
  5. Hyperparameter tuning: learning rate, batch size, schedule de calentamiento y enfriamiento, regularización, mixed precision (BF16/FP8), checkpointing.

El entrenamiento corre en clusters de miles a decenas de miles de GPUs (H100, MI300, TPU v5) durante semanas o meses, con comunicación constante entre nodos para sincronizar gradientes.

Cuánto cuesta entrenar un modelo top

Cifras orientativas (basadas en información pública parcial):

ModeloTokens entrenamientoGPUs (aprox)TiempoCoste estimado
GPT-3 (175B)~300B~10.000 V1001 mes~5M $
GPT-4 (rumor)~13T~25.000 A100meses~100M $
Llama 3 (70B)15T24.000 H100meses~80M $
Llama 4 (rumor)>40T>100k H100meses>500M $
GPT-5 (rumor)>100T>200kmeses>1.000M $

Las cifras reales son confidenciales. Lo único cierto: el coste sigue escalando exponencialmente con la frontera.

Por eso solo un puñado de empresas hace pretraining real: el resto del ecosistema construye sobre estos foundation models mediante fine-tuning, RAG, prompting o agents.

Scaling laws

Una de las observaciones empíricas más importantes de la última década es la existencia de leyes de escalado predecibles (Kaplan et al., 2020; Chinchilla, 2022): el loss del modelo cae como ley de potencia con respecto a tres variables que se pueden invertir mediante recursos:

  • Parámetros (N): tamaño del modelo.
  • Datos (D): tokens de entrenamiento.
  • Cómputo (C): FLOPs totales aplicados.

Chinchilla estableció el ratio óptimo: ~20 tokens por parámetro. Un modelo de 70B parámetros debería entrenarse con ~1,4 trillones de tokens para óptimo de cómputo. Modelos modernos suelen sobreentrenar más allá de Chinchilla para mejorar inferencia (a costa de eficiencia de entrenamiento).

Esta predictibilidad es lo que permite a las empresas planificar inversiones de cientos de millones con confianza en el resultado.

Calidad de datos: el factor olvidado

Durante años se creyó que la cantidad de datos era lo único que importaba. Hoy sabemos que la calidad bate a la cantidad en muchos casos:

  • Phi-3 (Microsoft) entrenó solo con datos "educativos" sintéticos y compite con modelos 10× mayores.
  • DeepSeek invierte mucho en deduplicación y filtrado.
  • Anthropic / OpenAI tienen pipelines complejos de selección de datos.

Las prácticas modernas incluyen:

  • Filtros por perplejidad de un modelo previo.
  • Deduplicación a nivel de párrafo y documento.
  • Eliminación de datos contaminados (parte de los benchmarks usados luego para evaluar).
  • Síntesis de datos por LLMs existentes (datos sintéticos de calidad).
  • Curación específica para razonamiento, código, matemáticas.

Ejemplo práctico

Imagina entrenar un modelo de 7B parámetros con 2T tokens (cifras típicas de un modelo "pequeño" tipo Llama 3 8B):

  1. Dataset preparado: 2T tokens de web filtrada + código + libros + Wikipedia.
  2. Cluster: 256 H100 (~32 nodos de 8 GPUs).
  3. Batch size global: ~4M tokens por step.
  4. Steps totales: 2T / 4M = 500.000 steps.
  5. Tiempo por step: ~3 segundos (aproximación).
  6. Tiempo total: ~17 días corriendo 24/7.
  7. Coste de GPU (en cloud a 4 $/hora por H100): 256 × 24 × 17 × 4 = ~420.000 $.

Y eso es un modelo "pequeño" sin contar I/O, dev, fails, recovery, salarios. Para un modelo de 400B, multiplica por ~60×.

Errores comunes al hablar de pretraining

  • Confundir pretraining con fine-tuning: pretraining crea el base model desde cero. Fine-tuning lo adapta a una tarea.
  • Pensar que más datos siempre mejora: hay un sweet spot (Chinchilla); más allá, retornos decrecientes.
  • Asumir que pretraining es "todo": el post-training (SFT + RLHF) define mucho del comportamiento útil real.
  • Subestimar el papel de la calidad: 200B tokens limpios pueden batir a 1T sucios.
  • Creer que un modelo pretrained "entiende": solo predice tokens. La capacidad de seguir instrucciones, ser útil y no decir tonterías la aporta el alineamiento.
  • Pensar que se "ajusta solo": hay un equipo enorme detrás (ML, infra, data, eval) durante meses.

Qué incluye el pipeline moderno completo

  1. Pretraining (esta fase): foundation model con conocimiento amplio.
  2. Mid-training (cada vez más usado): entrenamiento adicional con datos específicos curados (código, matemáticas, dominios técnicos).
  3. Supervised Fine-Tuning (SFT): instrucción + respuesta humana ideal.
  4. Preference learning: RLHF, DPO, RLAIF — alineamiento a preferencias humanas.
  5. Safety training: red-teaming, filtros, comportamientos rechazados.
  6. Evaluation: benchmarks (MMLU, GPQA, HumanEval, SWE-bench), eval humana.
  7. Inferencia: cuantización, distillation, optimización para deploy.

El pretraining es la fase más cara, pero todas las demás son necesarias para tener un modelo útil en producción.

Cuándo importa entender el pretraining

Sí, conviene profundizar si:

  • Estás considerando entrenar un modelo propio (caro, normalmente injustificable).
  • Decides qué foundation model usar como base.
  • Investigas o trabajas en una de las pocas empresas que hacen pretraining.
  • Quieres entender el origen de capacidades y limitaciones de un modelo.

Es menos crítico si:

  • Tu trabajo es aplicar modelos existentes mediante prompting, RAG o fine-tuning.
  • Estás en producto/UX y solo necesitas entender qué modelo elegir.

Referencias

Tagsiaentrenamientodeep-learningmodelos