ARQUITECTURA

Mamba (SSM)

Arquitectura de modelos de secuencia basada en State Space Models que escala linealmente con la longitud del contexto, posicionada como alternativa al transformer en contextos muy largos.

Nivel · avanzado5 min de lecturaActualizado 24 may 2026

También conocido como: State Space Model, SSM, S4, Selective SSM

Definición

Mamba es una arquitectura de modelos de secuencia basada en SSM (State Space Models) introducida por Albert Gu y Tri Dao en 2023. Es la primera alternativa seria al transformer que ha demostrado capacidad de competir en lenguaje a escala media (~7B parámetros) y, sobre todo, que escala linealmente con la longitud de la secuencia —en lugar de cuadráticamente como la attention.

La promesa: contextos masivos (millones de tokens) que en transformer serían prohibitivos en cómputo y memoria. Y velocidad de inferencia muy alta porque no necesita la pesada KV cache.

¿La realidad a mediados de 2026? Mamba y sus derivados son útiles, especialmente en arquitecturas híbridas, pero no han desplazado al transformer en LLMs frontera. Modelos como Jamba (AI21), Falcon Mamba, Codestral Mamba existen y rinden decentemente, pero los GPT-5, Claude Opus, Gemini siguen siendo transformer puro o transformer + MoE.

Cómo funciona

Los SSM tienen raíces en teoría de control clásica. La idea: un sistema dinámico con un estado oculto que se actualiza con cada nueva entrada, siguiendo ecuaciones lineales:

h_t = A · h_{t-1} + B · x_t      (actualización del estado)
y_t = C · h_t                     (salida)

Donde:

x_t es el token de entrada en posición t.
h_t es el estado oculto de dimensión fija.
A, B, C son matrices aprendibles que controlan cómo evoluciona el estado.

A diferencia del transformer, el coste por token es constante, no depende de la longitud de la secuencia. Procesar 1.000 tokens cuesta lo mismo por token que procesar 1.000.000. El estado oculto sirve como "memoria comprimida" de todo lo visto hasta ahora.

La innovación clave de Mamba (S6) sobre SSMs anteriores (S4): selectividad. Las matrices A, B, C dependen de la entrada x_t — no son fijas. Esto permite al modelo "decidir" qué información comprimir en el estado y cuál olvidar, dándole una capacidad similar a la atención de elegir a qué prestar atención.

Mamba vs Transformer

Aspecto	Transformer	Mamba
Complejidad por token	O(n) en decode, O(n²) en prefill	O(1) en decode, O(n) en prefill
Memoria por contexto	KV cache crece linealmente	Estado oculto de tamaño fijo
Paralelización en entrenamiento	Excelente	Buena (con scan algorithm)
Calidad a escala 7B	Muy alta	Comparable o ligeramente menor
Calidad a escala 70B+	Muy alta	Sin pruebas concluyentes
Recuperación exacta (recall)	Excelente	Limitada (cuello de botella del estado)
Ecosistema (tooling)	Maduro	Inmaduro

El trade-off fundamental: transformer puede mirar cualquier token pasado directamente (atención). Mamba solo tiene el estado comprimido — si un dato importante quedó "olvidado" en el estado, no se puede recuperar. Por eso transformer gana en tareas de recall (encontrar literalmente un dato en un contexto largo).

Variantes y arquitecturas híbridas

La realidad práctica es que los híbridos están ganando sobre los modelos puramente Mamba:

Jamba (AI21): alterna bloques Mamba y bloques transformer + MoE. Combina lo mejor de ambos.
Zamba (Zyphra): arquitectura híbrida con bloques compartidos.
Mamba-2: la evolución directa con mejor entrenamiento.
Hawk, Griffin (DeepMind): variantes recurrentes que se acercan a Mamba.
RWKV: arquitectura recurrente moderna independiente de Mamba pero con espíritu similar.

La intuición: usar Mamba para procesar la mayoría del contexto (rápido y barato) + algunas capas transformer para tareas de recall preciso = mejor coste/calidad que cualquiera de los dos puros.

Ejemplo práctico

Imagina procesar un libro completo de 200.000 tokens:

Transformer estándar: O(n²) = 40 mil millones de operaciones de atención. Cara la prefill, KV cache de varios GB.
Flash Attention: misma complejidad pero implementación optimizada → 2-4× más rápido.
Mamba: O(n) = 200 mil operaciones de scan + estado fijo de ~50KB. Mucho más eficiente.
Híbrido Jamba: 80% Mamba + 20% atención → ~5× más rápido que transformer puro, con capacidad de recall razonable.

Para casos de uso de contexto extremo (analizar repositorios de código enteros, procesar transcripciones largas, conversaciones de semanas), los híbridos con Mamba prometen ser el futuro.

Por qué no ha "matado" al transformer

A pesar del hype inicial:

Recall es crítico: gran parte del valor de los LLMs frontera está en encontrar/usar datos específicos del contexto. Mamba sufre aquí.
El ecosistema importa muchísimo: optimizaciones (Flash Attention, paged attention, speculative decoding, hardware kernels) están todos hechas para transformer. Reentrenar todo el stack es prohibitivo.
Calidad a escala: nadie ha mostrado un Mamba de 200B+ que compita con un transformer de 200B. Posible que escale, pero no demostrado.
Inversión en transformers: las empresas frontera tienen miles de millones invertidos en infraestructura específica para transformer.
Híbridos ganan a Mamba puro: incluso si Mamba aporta valor, suele ser en combinación, no como reemplazo total.

Errores comunes al hablar de Mamba

"Reemplaza al transformer": aún no. En combinación, sí aporta valor.
Confundir SSM con RNN: comparten el espíritu (estado recurrente) pero SSM moderno usa scan paralelo, no es lento como una RNN clásica.
"Es siempre más rápido": en contextos cortos (1-10k tokens), transformer + optimizaciones modernas es comparable o más rápido.
Asumir que el estado fijo guarda todo: si la información importante "no entra" en el estado comprimido, se pierde. Por diseño.
"Solucionará las alucinaciones": no. La arquitectura no resuelve el problema fundamental de los LLMs.

Cuándo conviene conocer Mamba

Sí, profundiza si:

Trabajas con contextos extremadamente largos (cientos de miles a millones de tokens).
Investigas arquitecturas o trabajas en empresas que las entrenan.
Estás optimizando costes de inferencia a escala muy grande.
Te interesa el frontera técnico que puede cambiar el paradigma.

Es menos crítico si:

Usas APIs de LLMs estándar (transformer underneath, opaco para ti).
Tu caso de uso vive cómodamente en ventanas de 200k tokens o menos.

Referencias

Mamba paper (Gu & Dao, 2023) — el paper original que popularizó Mamba
Mamba-2 paper — la evolución directa con mejor entrenamiento
Jamba (AI21) — el primer híbrido Transformer-Mamba-MoE de gran escala

Tagsiaarquitecturadeep-learningsecuencias

TÉRMINOS RELACIONADOS

Explora también

Inteligencia Artificial

Transformer

Arquitectura de red neuronal basada en el mecanismo de atención que procesa secuencias en paralelo. Es la base de todos los grandes modelos modernos: GPT, Claude, Gemini, Llama.

Leer

Inteligencia Artificial

Attention

Mecanismo central de los transformers que permite a cada token de una secuencia ponderar la relevancia de todos los demás tokens al construir su nueva representación.

Leer

Inteligencia Artificial

LLM

Modelo de lenguaje de gran tamaño basado en redes neuronales tipo transformer, entrenado con cantidades masivas de texto para predecir el siguiente token de una secuencia.

Leer

Inteligencia Artificial

Inference

Proceso de usar un modelo ya entrenado para generar predicciones o respuestas en tiempo real. Es la fase de explotación: cada vez que llamas a un LLM en producción, estás haciendo inference.

Leer

Inteligencia Artificial

Pretraining

Primera fase de creación de un modelo de lenguaje: entrenarlo desde cero con cantidades masivas de texto y un objetivo simple (predecir el siguiente token) durante semanas o meses en miles de GPUs.

Leer

Inteligencia Artificial

Diffusion model

Modelo generativo que aprende a producir imágenes, vídeo o audio partiendo de ruido aleatorio y eliminándolo progresivamente paso a paso, guiado por un condicionamiento textual.

Leer

← Volver al diccionario de Inteligencia Artificial