ARQUITECTURA

Foundation model

Modelo de IA entrenado con datos masivos y diseñado para servir de base general sobre la que construir aplicaciones específicas mediante prompting, fine-tuning o RAG.

Nivel · intermedio5 min de lecturaActualizado 24 may 2026

También conocido como: Foundation model, Modelo fundacional, Base model, General-purpose model

Definición

Un foundation model (modelo fundacional) es un modelo de IA de propósito general, entrenado con datos masivos y diversos, diseñado para servir de base sobre la que construir aplicaciones específicas sin necesidad de reentrenamiento completo. El término fue acuñado por el Stanford CRFM en 2021 para englobar la nueva generación de modelos como GPT-3, BERT o CLIP que ya no eran "modelos para una tarea" sino plataformas reutilizables.

La idea es transformadora: en lugar de entrenar un modelo nuevo para cada problema (clasificar emails, traducir, detectar fraude), entrenas una sola vez un modelo muy capaz, y lo adaptas a cada caso con prompting, fine-tuning, RAG o agents.

Hoy los foundation models dominan el ecosistema: los LLMs (GPT-5, Claude, Gemini, Llama), los modelos visuales (DINOv2, SAM, CLIP), generativos (diffusion models como Sora o Flux), y emergentes en otros dominios (AlphaFold para proteínas, modelos para robótica).

Características que los definen

Stanford propuso cuatro propiedades:

Emergence: capacidades que aparecen "solas" al escalar, no por programación explícita.
Homogeneity: una misma arquitectura sirve para muchas tareas distintas.
Transfer learning: el conocimiento aprendido en pretraining se transfiere a tareas downstream.
Scale: requieren datos, cómputo y parámetros masivos.

Y, en la práctica, los foundation models comparten:

Entrenamiento con corpus masivo y diverso (a menudo trillones de tokens).
Tamaño grande (cientos de millones a cientos de miles de millones de parámetros).
Coste de entrenamiento enorme (millones a cientos de millones de €).
Pocas empresas capaces de entrenarlos (OpenAI, Anthropic, Google, Meta, xAI, DeepSeek, Mistral, Qwen).
Despliegue como API o pesos abiertos para que terceros construyan encima.

Cómo se construyen sobre ellos

El ecosistema típico:

Empresas frontera: invierten cientos de millones en pretraining + alineamiento. Resultado: foundation models top.
Empresas medianas/desarrolladores: usan estos foundation models como base:
- Vía API (OpenAI, Anthropic, Google).
- Hosting de pesos abiertos (Llama en Together AI, Fireworks, Groq).
- Fine-tuning ligero (LoRA) sobre pesos abiertos.
Aplicaciones finales: producto SaaS, agentes verticales, copilotos, asistentes. Construyen el "último km" sobre la base.

Esta jerarquía es similar a otras industrias: pocas refinerías de crudo (foundation models) → muchas distribuidoras (cloud + API) → infinitos usuarios finales.

Ejemplo práctico

Antes de los foundation models (digamos, 2018):

IMDICA quiere clasificar emails entrantes → entrena un clasificador de email desde cero.
IMDICA quiere extraer datos de facturas escaneadas → entrena un OCR + extractor desde cero.
IMDICA quiere un chatbot interno → entrena un modelo de diálogo desde cero.

Cada proyecto: 3-12 meses, decenas de miles de euros, calidad mediocre, requiere ML engineers especializados.

Hoy con foundation models:

Clasificación de email → prompt a Claude/GPT con ejemplos, listo en 2 horas.
Extracción de facturas → modelo multimodal lee la imagen, extrae estructurado en JSON, listo en 1 día.
Chatbot interno → foundation model + RAG sobre documentación, listo en 1 semana.

La gran disrupción no es la calidad de cada caso individual (a veces lo entrenado custom hubiera sido mejor). Es la economía: lo que antes costaba 50.000 € ahora cuesta 500 € y un fin de semana.

Foundation models por modalidad/tarea

A 2026:

Dominio	Foundation models top
LLM general	GPT-5, Claude Opus 4, Gemini 2 Ultra, Llama 4, DeepSeek-V3
LLM código	Claude Code, Codestral, DeepSeek-Coder, GPT-5
Razonamiento	o1, DeepSeek-R1, Claude Extended Thinking
Imagen generación	Flux, SD3.5, Imagen 4, DALL-E 4
Imagen embedding	CLIP, SigLIP, DINOv2
Vídeo	Sora, Veo 2, Runway Gen-4, Kling
Audio (voz)	Whisper, ElevenLabs, GPT-4o Voice
Proteínas	AlphaFold 3, ESM-3
Robotica	Gemini Robotics, Helix, RT-2
Multimodal	GPT-5, Claude Opus, Gemini 2

La frontera se mueve cada pocos meses. Lo top de hoy es el "histórico" de mañana.

Open weights vs closed (API)

Una distinción crítica entre foundation models:

Closed (API only): OpenAI, Anthropic, Google. Solo accesibles vía API. Mejor servicio, pero dependes del proveedor, datos pasan por su infraestructura, sin posibilidad de fine-tuning profundo, posible cambio de precios.
Open weights: Meta (Llama), Mistral, DeepSeek, Qwen, Cohere (parcial). Puedes descargar los pesos, autohospedar, fine-tunear, modificar. Más complejo operacionalmente pero soberanía total.

La estrategia empresarial moderna típicamente combina ambos:

API para casos críticos donde la calidad top importa.
Open weights autohospedados para casos sensibles (datos privados, regulación, coste a escala).

Errores comunes al hablar de foundation models

Confundir foundation model con LLM: LLM es un tipo de foundation model. Hay foundation models para visión, audio, biología.
"Es un modelo": foundation model es una plataforma sobre la que construir, no la solución final.
Asumir que más grande es mejor para tu caso: para muchos casos, un modelo de 7B fine-tuneado bate a GPT-5 con prompting.
Pensar que "ya está resuelto todo": foundation models son potentes pero necesitan ingeniería seria (prompting, RAG, agents, evals) para producto real.
Subestimar el lock-in: depender de un foundation model API único te ata. Diseña para poder cambiar.
Confundir "open source" con "open weights": la mayoría de los modelos "abiertos" son open weights (puedes usar los pesos) pero el código de entrenamiento o los datos no son públicos. Open source completo es rarísimo.

Cuándo importa el concepto

Sí, conviene entenderlo si:

Decides arquitectura de producto basado en IA.
Valoras alternativas API vs autohospedado.
Estás definiendo estrategia de IA a medio plazo en una empresa.
Quieres entender el panorama industrial y sus dinámicas.

Es menos crítico si:

Trabajas en aplicaciones muy específicas donde el modelo es opaco para tu producto.
Tu rol es puramente técnico de implementación sin decisión arquitectónica.

Referencias

Bommasani et al. · On the Opportunities and Risks of Foundation Models (Stanford) — el paper que acuñó y definió el término
Stanford CRFM · Foundation Models site — recurso académico de referencia
a16z · The Foundation Model Landscape — análisis de mercado y dinámicas industriales

Tagsiamodelosarquitecturaestrategia

TÉRMINOS RELACIONADOS

Explora también

Inteligencia Artificial

LLM

Modelo de lenguaje de gran tamaño basado en redes neuronales tipo transformer, entrenado con cantidades masivas de texto para predecir el siguiente token de una secuencia.

Leer

Inteligencia Artificial

Pretraining

Primera fase de creación de un modelo de lenguaje: entrenarlo desde cero con cantidades masivas de texto y un objetivo simple (predecir el siguiente token) durante semanas o meses en miles de GPUs.

Leer

Inteligencia Artificial

Fine-tuning

Proceso de tomar un modelo preentrenado y continuar su entrenamiento con datos específicos para adaptarlo a una tarea, dominio o estilo concretos.

Leer

Inteligencia Artificial

Transformer

Arquitectura de red neuronal basada en el mecanismo de atención que procesa secuencias en paralelo. Es la base de todos los grandes modelos modernos: GPT, Claude, Gemini, Llama.

Leer

Inteligencia Artificial

RAG

Patrón arquitectónico que combina un LLM con un sistema de recuperación: antes de generar respuesta, el modelo busca información relevante en una base externa y la incluye en su contexto.

Leer

Inteligencia Artificial

MoE (Mixture of Experts)

Arquitectura en la que un modelo tiene muchos parámetros totales pero solo activa una pequeña fracción de ellos por cada token, gracias a un router que elige qué expertos consultar.

Leer

← Volver al diccionario de Inteligencia Artificial