Definición
Un modelo multimodal es una red neuronal capaz de procesar y/o generar varios tipos de datos —texto, imagen, audio, vídeo, código, datos sensoriales— dentro de un mismo sistema unificado, en lugar de requerir modelos separados especializados por modalidad.
Hasta ~2023, lo habitual era tener un modelo de visión, otro de texto, otro de audio, y conectarlos con tuberías frágiles. Los modelos modernos como GPT-4o (Omni), Claude Opus 4, Gemini 2 Ultra, Sora, Veo son nativamente multimodales: aceptan imagen + texto + audio como entrada y generan texto, imagen o audio como salida.
La consecuencia práctica: puedes mostrarle una foto del salpicadero de tu coche, decirle "el icono ámbar de la izquierda, ¿qué significa?", y recibir respuesta. O pasarle un PDF escaneado y conversar sobre su contenido. O subir un audio y pedir resumen. Todo con el mismo modelo, sin pipelines intermedias.
Cómo funciona
El truco fundamental: convertir cada modalidad a una representación común que el modelo (típicamente un transformer) pueda procesar como secuencia de tokens.
- Texto: tokenización clásica con BPE → IDs de tokens.
- Imagen: se rompe en parches (típicamente 14x14 o 16x16 píxeles), cada parche se proyecta a un embedding. Esto es la base del ViT (Vision Transformer).
- Audio: se convierte a espectrograma, se divide en frames temporales, cada frame se embebe. Whisper y modelos similares lo hacen así.
- Vídeo: combinación: secuencia temporal de frames + audio.
Una vez todo está en el espacio de embeddings, el transformer procesa los tokens en una misma secuencia, sin importar de qué modalidad vienen. La self-attention puede relacionar un token de imagen con uno de texto, exactamente igual que dos tokens de texto.
Para generar, los modelos modernos típicamente generan tokens que se decodifican a la modalidad de salida:
- Tokens de texto → texto.
- Tokens de imagen → decoder de imagen (diffusion o autoregresivo) → píxeles.
- Tokens de audio → decoder vocoder → señal de audio.
Arquitecturas multimodales modernas
Hay varias formas de construir multimodalidad:
- Adaptadores sobre LLM (LLaVA, MiniGPT-4): tomar un LLM ya entrenado, congelarlo, y entrenar un pequeño adaptador que conecta un encoder visual (típicamente CLIP) con el espacio del LLM. Económico, no estado del arte.
- Multimodal nativo (GPT-4o, Claude 4, Gemini 2): el modelo se entrena desde el principio con todas las modalidades mezcladas en el corpus. Resultado: mejor integración, capacidades emergentes nuevas.
- Multimodal con decoders separados (Sora, Veo): un transformer cerebro decide qué generar, decoders especializados convierten a píxeles o audio.
GPT-4o y Gemini 2 son ejemplos de modelos end-to-end multimodales: la voz no se transcribe primero a texto y luego se procesa; entra como audio directo al modelo, lo cual permite captar entonación, sarcasmo, énfasis.
Ejemplo práctico
En IMDICA, un cliente nos manda por WhatsApp una foto del motor de su torno con un cable suelto y un mensaje de voz diciendo "esto se ha desconectado, ¿podemos pedir el repuesto?".
Con un modelo multimodal moderno integrado a nuestro chatbot:
- La foto + el audio + el contexto de cliente entran al modelo en una sola petición.
- El modelo identifica visualmente la marca del motor (Siemens), el tipo de conector, el sector del cable suelto.
- Comprende el audio: necesidad urgente de repuesto.
- Cruza con nuestro catálogo: encuentra la referencia del conector + cable correcto.
- Responde con la referencia, precio, disponibilidad y un mensaje listo para enviar al cliente.
Antes de los multimodales: necesitabas una pipeline con OCR + reconocimiento de imagen + speech-to-text + LLM. Ahora: una sola llamada al modelo.
Modalidades soportadas hoy
Estado a mediados de 2026:
| Modalidad | Estado |
|---|---|
| Texto in/out | Universal |
| Imagen in | Universal (GPT-5, Claude, Gemini, Llama) |
| Imagen out | Modelos generativos (Sora, Flux, Imagen, GPT-4o) |
| Audio in | GPT-4o, Claude Voice, Gemini 2 |
| Audio out | GPT-4o, ElevenLabs, Gemini 2 |
| Vídeo in | Gemini 1.5/2, Claude Opus 4 |
| Vídeo out | Sora, Veo, Runway, Kling |
| 3D, robotics | Investigación temprana, Gemini Robotics |
La frontera se mueve cada mes. Modelos como Gemini 2 ya hacen "Project Astra" en tiempo real: cámara + micro + pantalla + texto, todo a la vez.
Errores comunes al hablar de multimodal
- Confundir "tiene API de imagen" con "es multimodal": si el modelo procesa imagen llamando a otro modelo por debajo, no es multimodal de verdad.
- Asumir misma calidad en todas las modalidades: muchos modelos son excelentes en texto pero mediocres en imagen, o viceversa.
- Pensar que reemplazan a especializados: para tareas de visión muy específicas (detección de defectos industriales, imagen médica), modelos especializados aún ganan.
- Subestimar coste: una imagen puede consumir 1000-3000 tokens de input. Vídeo, decenas de miles. La factura escala rápido.
- Pensar que "ven" como humanos: procesan parches y aprenden estadísticas. Pueden fallar en cosas obvias (contar objetos, leer texto en imagen borrosa).
Por qué importa para producto
Multimodal abre casos de uso que antes eran imposibles o muy caros:
- Soporte visual: el cliente manda foto, recibe diagnóstico.
- Análisis de documentos: facturas escaneadas, contratos PDF, formularios manuscritos, todo procesable.
- Asistentes con voz natural: conversación verdaderamente bidireccional sin latencia de TTS+STT separado.
- Educación: explicar un diagrama, una ecuación, una pieza musical.
- Accesibilidad: describir entorno visual a personas ciegas en tiempo real.
- Análisis de vídeo: revisar grabaciones de cámaras buscando eventos específicos.
Cuándo usar multimodal
Sí, considéralo cuando:
- Tu caso de uso requiere combinar entrada de distintos tipos.
- Eliminar pipelines (OCR, STT, image classification por separado) simplifica radicalmente tu stack.
- La latencia importa: una sola llamada multimodal es más rápida que tres llamadas secuenciales.
No es necesario si:
- Tu caso es puramente texto-a-texto.
- Necesitas precisión extrema en una sola modalidad y existe un especializado mejor.
- El coste por petición es crítico y multimodal lo dispara.
Referencias
- GPT-4o Technical Report (OpenAI) — referencia técnica del primer multimodal nativo end-to-end masivo
- Flamingo paper (DeepMind) — uno de los papers fundamentales del paradigma visual-lingüístico moderno
- Gemini 1.5 Technical Report — multimodal nativo con ventana de 1M tokens