Definición
Un foundation model (modelo fundacional) es un modelo de IA de propósito general, entrenado con datos masivos y diversos, diseñado para servir de base sobre la que construir aplicaciones específicas sin necesidad de reentrenamiento completo. El término fue acuñado por el Stanford CRFM en 2021 para englobar la nueva generación de modelos como GPT-3, BERT o CLIP que ya no eran "modelos para una tarea" sino plataformas reutilizables.
La idea es transformadora: en lugar de entrenar un modelo nuevo para cada problema (clasificar emails, traducir, detectar fraude), entrenas una sola vez un modelo muy capaz, y lo adaptas a cada caso con prompting, fine-tuning, RAG o agents.
Hoy los foundation models dominan el ecosistema: los LLMs (GPT-5, Claude, Gemini, Llama), los modelos visuales (DINOv2, SAM, CLIP), generativos (diffusion models como Sora o Flux), y emergentes en otros dominios (AlphaFold para proteínas, modelos para robótica).
Características que los definen
Stanford propuso cuatro propiedades:
- Emergence: capacidades que aparecen "solas" al escalar, no por programación explícita.
- Homogeneity: una misma arquitectura sirve para muchas tareas distintas.
- Transfer learning: el conocimiento aprendido en pretraining se transfiere a tareas downstream.
- Scale: requieren datos, cómputo y parámetros masivos.
Y, en la práctica, los foundation models comparten:
- Entrenamiento con corpus masivo y diverso (a menudo trillones de tokens).
- Tamaño grande (cientos de millones a cientos de miles de millones de parámetros).
- Coste de entrenamiento enorme (millones a cientos de millones de €).
- Pocas empresas capaces de entrenarlos (OpenAI, Anthropic, Google, Meta, xAI, DeepSeek, Mistral, Qwen).
- Despliegue como API o pesos abiertos para que terceros construyan encima.
Cómo se construyen sobre ellos
El ecosistema típico:
- Empresas frontera: invierten cientos de millones en pretraining + alineamiento. Resultado: foundation models top.
- Empresas medianas/desarrolladores: usan estos foundation models como base:
- Vía API (OpenAI, Anthropic, Google).
- Hosting de pesos abiertos (Llama en Together AI, Fireworks, Groq).
- Fine-tuning ligero (LoRA) sobre pesos abiertos.
- Aplicaciones finales: producto SaaS, agentes verticales, copilotos, asistentes. Construyen el "último km" sobre la base.
Esta jerarquía es similar a otras industrias: pocas refinerías de crudo (foundation models) → muchas distribuidoras (cloud + API) → infinitos usuarios finales.
Ejemplo práctico
Antes de los foundation models (digamos, 2018):
- IMDICA quiere clasificar emails entrantes → entrena un clasificador de email desde cero.
- IMDICA quiere extraer datos de facturas escaneadas → entrena un OCR + extractor desde cero.
- IMDICA quiere un chatbot interno → entrena un modelo de diálogo desde cero.
Cada proyecto: 3-12 meses, decenas de miles de euros, calidad mediocre, requiere ML engineers especializados.
Hoy con foundation models:
- Clasificación de email → prompt a Claude/GPT con ejemplos, listo en 2 horas.
- Extracción de facturas → modelo multimodal lee la imagen, extrae estructurado en JSON, listo en 1 día.
- Chatbot interno → foundation model + RAG sobre documentación, listo en 1 semana.
La gran disrupción no es la calidad de cada caso individual (a veces lo entrenado custom hubiera sido mejor). Es la economía: lo que antes costaba 50.000 € ahora cuesta 500 € y un fin de semana.
Foundation models por modalidad/tarea
A 2026:
| Dominio | Foundation models top |
|---|---|
| LLM general | GPT-5, Claude Opus 4, Gemini 2 Ultra, Llama 4, DeepSeek-V3 |
| LLM código | Claude Code, Codestral, DeepSeek-Coder, GPT-5 |
| Razonamiento | o1, DeepSeek-R1, Claude Extended Thinking |
| Imagen generación | Flux, SD3.5, Imagen 4, DALL-E 4 |
| Imagen embedding | CLIP, SigLIP, DINOv2 |
| Vídeo | Sora, Veo 2, Runway Gen-4, Kling |
| Audio (voz) | Whisper, ElevenLabs, GPT-4o Voice |
| Proteínas | AlphaFold 3, ESM-3 |
| Robotica | Gemini Robotics, Helix, RT-2 |
| Multimodal | GPT-5, Claude Opus, Gemini 2 |
La frontera se mueve cada pocos meses. Lo top de hoy es el "histórico" de mañana.
Open weights vs closed (API)
Una distinción crítica entre foundation models:
- Closed (API only): OpenAI, Anthropic, Google. Solo accesibles vía API. Mejor servicio, pero dependes del proveedor, datos pasan por su infraestructura, sin posibilidad de fine-tuning profundo, posible cambio de precios.
- Open weights: Meta (Llama), Mistral, DeepSeek, Qwen, Cohere (parcial). Puedes descargar los pesos, autohospedar, fine-tunear, modificar. Más complejo operacionalmente pero soberanía total.
La estrategia empresarial moderna típicamente combina ambos:
- API para casos críticos donde la calidad top importa.
- Open weights autohospedados para casos sensibles (datos privados, regulación, coste a escala).
Errores comunes al hablar de foundation models
- Confundir foundation model con LLM: LLM es un tipo de foundation model. Hay foundation models para visión, audio, biología.
- "Es un modelo": foundation model es una plataforma sobre la que construir, no la solución final.
- Asumir que más grande es mejor para tu caso: para muchos casos, un modelo de 7B fine-tuneado bate a GPT-5 con prompting.
- Pensar que "ya está resuelto todo": foundation models son potentes pero necesitan ingeniería seria (prompting, RAG, agents, evals) para producto real.
- Subestimar el lock-in: depender de un foundation model API único te ata. Diseña para poder cambiar.
- Confundir "open source" con "open weights": la mayoría de los modelos "abiertos" son open weights (puedes usar los pesos) pero el código de entrenamiento o los datos no son públicos. Open source completo es rarísimo.
Cuándo importa el concepto
Sí, conviene entenderlo si:
- Decides arquitectura de producto basado en IA.
- Valoras alternativas API vs autohospedado.
- Estás definiendo estrategia de IA a medio plazo en una empresa.
- Quieres entender el panorama industrial y sus dinámicas.
Es menos crítico si:
- Trabajas en aplicaciones muy específicas donde el modelo es opaco para tu producto.
- Tu rol es puramente técnico de implementación sin decisión arquitectónica.
Referencias
- Bommasani et al. · On the Opportunities and Risks of Foundation Models (Stanford) — el paper que acuñó y definió el término
- Stanford CRFM · Foundation Models site — recurso académico de referencia
- a16z · The Foundation Model Landscape — análisis de mercado y dinámicas industriales