ARQUITECTURA

Multimodal

Modelo que procesa y genera múltiples tipos de datos —texto, imagen, audio, vídeo— dentro de la misma red neuronal, en lugar de necesitar modelos separados especializados por tipo.

Nivel · intermedio5 min de lecturaActualizado 24 may 2026

También conocido como: Multimodal model, Modelo multimodal, Cross-modal

Definición

Un modelo multimodal es una red neuronal capaz de procesar y/o generar varios tipos de datos —texto, imagen, audio, vídeo, código, datos sensoriales— dentro de un mismo sistema unificado, en lugar de requerir modelos separados especializados por modalidad.

Hasta ~2023, lo habitual era tener un modelo de visión, otro de texto, otro de audio, y conectarlos con tuberías frágiles. Los modelos modernos como GPT-4o (Omni), Claude Opus 4, Gemini 2 Ultra, Sora, Veo son nativamente multimodales: aceptan imagen + texto + audio como entrada y generan texto, imagen o audio como salida.

La consecuencia práctica: puedes mostrarle una foto del salpicadero de tu coche, decirle "el icono ámbar de la izquierda, ¿qué significa?", y recibir respuesta. O pasarle un PDF escaneado y conversar sobre su contenido. O subir un audio y pedir resumen. Todo con el mismo modelo, sin pipelines intermedias.

Cómo funciona

El truco fundamental: convertir cada modalidad a una representación común que el modelo (típicamente un transformer) pueda procesar como secuencia de tokens.

Texto: tokenización clásica con BPE → IDs de tokens.
Imagen: se rompe en parches (típicamente 14x14 o 16x16 píxeles), cada parche se proyecta a un embedding. Esto es la base del ViT (Vision Transformer).
Audio: se convierte a espectrograma, se divide en frames temporales, cada frame se embebe. Whisper y modelos similares lo hacen así.
Vídeo: combinación: secuencia temporal de frames + audio.

Una vez todo está en el espacio de embeddings, el transformer procesa los tokens en una misma secuencia, sin importar de qué modalidad vienen. La self-attention puede relacionar un token de imagen con uno de texto, exactamente igual que dos tokens de texto.

Para generar, los modelos modernos típicamente generan tokens que se decodifican a la modalidad de salida:

Tokens de texto → texto.
Tokens de imagen → decoder de imagen (diffusion o autoregresivo) → píxeles.
Tokens de audio → decoder vocoder → señal de audio.

Arquitecturas multimodales modernas

Hay varias formas de construir multimodalidad:

Adaptadores sobre LLM (LLaVA, MiniGPT-4): tomar un LLM ya entrenado, congelarlo, y entrenar un pequeño adaptador que conecta un encoder visual (típicamente CLIP) con el espacio del LLM. Económico, no estado del arte.
Multimodal nativo (GPT-4o, Claude 4, Gemini 2): el modelo se entrena desde el principio con todas las modalidades mezcladas en el corpus. Resultado: mejor integración, capacidades emergentes nuevas.
Multimodal con decoders separados (Sora, Veo): un transformer cerebro decide qué generar, decoders especializados convierten a píxeles o audio.

GPT-4o y Gemini 2 son ejemplos de modelos end-to-end multimodales: la voz no se transcribe primero a texto y luego se procesa; entra como audio directo al modelo, lo cual permite captar entonación, sarcasmo, énfasis.

Ejemplo práctico

En IMDICA, un cliente nos manda por WhatsApp una foto del motor de su torno con un cable suelto y un mensaje de voz diciendo "esto se ha desconectado, ¿podemos pedir el repuesto?".

Con un modelo multimodal moderno integrado a nuestro chatbot:

La foto + el audio + el contexto de cliente entran al modelo en una sola petición.
El modelo identifica visualmente la marca del motor (Siemens), el tipo de conector, el sector del cable suelto.
Comprende el audio: necesidad urgente de repuesto.
Cruza con nuestro catálogo: encuentra la referencia del conector + cable correcto.
Responde con la referencia, precio, disponibilidad y un mensaje listo para enviar al cliente.

Antes de los multimodales: necesitabas una pipeline con OCR + reconocimiento de imagen + speech-to-text + LLM. Ahora: una sola llamada al modelo.

Modalidades soportadas hoy

Estado a mediados de 2026:

Modalidad	Estado
Texto in/out	Universal
Imagen in	Universal (GPT-5, Claude, Gemini, Llama)
Imagen out	Modelos generativos (Sora, Flux, Imagen, GPT-4o)
Audio in	GPT-4o, Claude Voice, Gemini 2
Audio out	GPT-4o, ElevenLabs, Gemini 2
Vídeo in	Gemini 1.5/2, Claude Opus 4
Vídeo out	Sora, Veo, Runway, Kling
3D, robotics	Investigación temprana, Gemini Robotics

La frontera se mueve cada mes. Modelos como Gemini 2 ya hacen "Project Astra" en tiempo real: cámara + micro + pantalla + texto, todo a la vez.

Errores comunes al hablar de multimodal

Confundir "tiene API de imagen" con "es multimodal": si el modelo procesa imagen llamando a otro modelo por debajo, no es multimodal de verdad.
Asumir misma calidad en todas las modalidades: muchos modelos son excelentes en texto pero mediocres en imagen, o viceversa.
Pensar que reemplazan a especializados: para tareas de visión muy específicas (detección de defectos industriales, imagen médica), modelos especializados aún ganan.
Subestimar coste: una imagen puede consumir 1000-3000 tokens de input. Vídeo, decenas de miles. La factura escala rápido.
Pensar que "ven" como humanos: procesan parches y aprenden estadísticas. Pueden fallar en cosas obvias (contar objetos, leer texto en imagen borrosa).

Por qué importa para producto

Multimodal abre casos de uso que antes eran imposibles o muy caros:

Soporte visual: el cliente manda foto, recibe diagnóstico.
Análisis de documentos: facturas escaneadas, contratos PDF, formularios manuscritos, todo procesable.
Asistentes con voz natural: conversación verdaderamente bidireccional sin latencia de TTS+STT separado.
Educación: explicar un diagrama, una ecuación, una pieza musical.
Accesibilidad: describir entorno visual a personas ciegas en tiempo real.
Análisis de vídeo: revisar grabaciones de cámaras buscando eventos específicos.

Cuándo usar multimodal

Sí, considéralo cuando:

Tu caso de uso requiere combinar entrada de distintos tipos.
Eliminar pipelines (OCR, STT, image classification por separado) simplifica radicalmente tu stack.
La latencia importa: una sola llamada multimodal es más rápida que tres llamadas secuenciales.

No es necesario si:

Tu caso es puramente texto-a-texto.
Necesitas precisión extrema en una sola modalidad y existe un especializado mejor.
El coste por petición es crítico y multimodal lo dispara.

Referencias

GPT-4o Technical Report (OpenAI) — referencia técnica del primer multimodal nativo end-to-end masivo
Flamingo paper (DeepMind) — uno de los papers fundamentales del paradigma visual-lingüístico moderno
Gemini 1.5 Technical Report — multimodal nativo con ventana de 1M tokens

Tagsiaarquitecturamultimodalvisión

TÉRMINOS RELACIONADOS

Explora también

Inteligencia Artificial

LLM

Modelo de lenguaje de gran tamaño basado en redes neuronales tipo transformer, entrenado con cantidades masivas de texto para predecir el siguiente token de una secuencia.

Leer

Inteligencia Artificial

Transformer

Arquitectura de red neuronal basada en el mecanismo de atención que procesa secuencias en paralelo. Es la base de todos los grandes modelos modernos: GPT, Claude, Gemini, Llama.

Leer

Inteligencia Artificial

Embedding

Vector denso de números reales que representa un token, palabra, frase o documento en un espacio donde la cercanía geométrica refleja similitud semántica.

Leer

Inteligencia Artificial

Diffusion model

Modelo generativo que aprende a producir imágenes, vídeo o audio partiendo de ruido aleatorio y eliminándolo progresivamente paso a paso, guiado por un condicionamiento textual.

Leer

Inteligencia Artificial

Token

Unidad mínima que un modelo de lenguaje procesa, generada por un tokenizador. No es una palabra ni un carácter: es una pieza intermedia optimizada para compresión y vocabulario.

Leer

Inteligencia Artificial

ViT (Vision Transformer)

Adaptación del transformer al procesamiento de imágenes que las divide en parches y los trata como una secuencia de tokens, eliminando la necesidad de convoluciones.

Leer

← Volver al diccionario de Inteligencia Artificial