ARQUITECTURA

Mamba (SSM)

Arquitectura de modelos de secuencia basada en State Space Models que escala linealmente con la longitud del contexto, posicionada como alternativa al transformer en contextos muy largos.

Nivel · avanzado5 min de lecturaActualizado 24 may 2026
También conocido como: State Space Model, SSM, S4, Selective SSM

Definición

Mamba es una arquitectura de modelos de secuencia basada en SSM (State Space Models) introducida por Albert Gu y Tri Dao en 2023. Es la primera alternativa seria al transformer que ha demostrado capacidad de competir en lenguaje a escala media (~7B parámetros) y, sobre todo, que escala linealmente con la longitud de la secuencia —en lugar de cuadráticamente como la attention.

La promesa: contextos masivos (millones de tokens) que en transformer serían prohibitivos en cómputo y memoria. Y velocidad de inferencia muy alta porque no necesita la pesada KV cache.

¿La realidad a mediados de 2026? Mamba y sus derivados son útiles, especialmente en arquitecturas híbridas, pero no han desplazado al transformer en LLMs frontera. Modelos como Jamba (AI21), Falcon Mamba, Codestral Mamba existen y rinden decentemente, pero los GPT-5, Claude Opus, Gemini siguen siendo transformer puro o transformer + MoE.

Cómo funciona

Los SSM tienen raíces en teoría de control clásica. La idea: un sistema dinámico con un estado oculto que se actualiza con cada nueva entrada, siguiendo ecuaciones lineales:

h_t = A · h_{t-1} + B · x_t      (actualización del estado)
y_t = C · h_t                     (salida)

Donde:

  • x_t es el token de entrada en posición t.
  • h_t es el estado oculto de dimensión fija.
  • A, B, C son matrices aprendibles que controlan cómo evoluciona el estado.

A diferencia del transformer, el coste por token es constante, no depende de la longitud de la secuencia. Procesar 1.000 tokens cuesta lo mismo por token que procesar 1.000.000. El estado oculto sirve como "memoria comprimida" de todo lo visto hasta ahora.

La innovación clave de Mamba (S6) sobre SSMs anteriores (S4): selectividad. Las matrices A, B, C dependen de la entrada x_t — no son fijas. Esto permite al modelo "decidir" qué información comprimir en el estado y cuál olvidar, dándole una capacidad similar a la atención de elegir a qué prestar atención.

Mamba vs Transformer

AspectoTransformerMamba
Complejidad por tokenO(n) en decode, O(n²) en prefillO(1) en decode, O(n) en prefill
Memoria por contextoKV cache crece linealmenteEstado oculto de tamaño fijo
Paralelización en entrenamientoExcelenteBuena (con scan algorithm)
Calidad a escala 7BMuy altaComparable o ligeramente menor
Calidad a escala 70B+Muy altaSin pruebas concluyentes
Recuperación exacta (recall)ExcelenteLimitada (cuello de botella del estado)
Ecosistema (tooling)MaduroInmaduro

El trade-off fundamental: transformer puede mirar cualquier token pasado directamente (atención). Mamba solo tiene el estado comprimido — si un dato importante quedó "olvidado" en el estado, no se puede recuperar. Por eso transformer gana en tareas de recall (encontrar literalmente un dato en un contexto largo).

Variantes y arquitecturas híbridas

La realidad práctica es que los híbridos están ganando sobre los modelos puramente Mamba:

  • Jamba (AI21): alterna bloques Mamba y bloques transformer + MoE. Combina lo mejor de ambos.
  • Zamba (Zyphra): arquitectura híbrida con bloques compartidos.
  • Mamba-2: la evolución directa con mejor entrenamiento.
  • Hawk, Griffin (DeepMind): variantes recurrentes que se acercan a Mamba.
  • RWKV: arquitectura recurrente moderna independiente de Mamba pero con espíritu similar.

La intuición: usar Mamba para procesar la mayoría del contexto (rápido y barato) + algunas capas transformer para tareas de recall preciso = mejor coste/calidad que cualquiera de los dos puros.

Ejemplo práctico

Imagina procesar un libro completo de 200.000 tokens:

  • Transformer estándar: O(n²) = 40 mil millones de operaciones de atención. Cara la prefill, KV cache de varios GB.
  • Flash Attention: misma complejidad pero implementación optimizada → 2-4× más rápido.
  • Mamba: O(n) = 200 mil operaciones de scan + estado fijo de ~50KB. Mucho más eficiente.
  • Híbrido Jamba: 80% Mamba + 20% atención → ~5× más rápido que transformer puro, con capacidad de recall razonable.

Para casos de uso de contexto extremo (analizar repositorios de código enteros, procesar transcripciones largas, conversaciones de semanas), los híbridos con Mamba prometen ser el futuro.

Por qué no ha "matado" al transformer

A pesar del hype inicial:

  1. Recall es crítico: gran parte del valor de los LLMs frontera está en encontrar/usar datos específicos del contexto. Mamba sufre aquí.
  2. El ecosistema importa muchísimo: optimizaciones (Flash Attention, paged attention, speculative decoding, hardware kernels) están todos hechas para transformer. Reentrenar todo el stack es prohibitivo.
  3. Calidad a escala: nadie ha mostrado un Mamba de 200B+ que compita con un transformer de 200B. Posible que escale, pero no demostrado.
  4. Inversión en transformers: las empresas frontera tienen miles de millones invertidos en infraestructura específica para transformer.
  5. Híbridos ganan a Mamba puro: incluso si Mamba aporta valor, suele ser en combinación, no como reemplazo total.

Errores comunes al hablar de Mamba

  • "Reemplaza al transformer": aún no. En combinación, sí aporta valor.
  • Confundir SSM con RNN: comparten el espíritu (estado recurrente) pero SSM moderno usa scan paralelo, no es lento como una RNN clásica.
  • "Es siempre más rápido": en contextos cortos (1-10k tokens), transformer + optimizaciones modernas es comparable o más rápido.
  • Asumir que el estado fijo guarda todo: si la información importante "no entra" en el estado comprimido, se pierde. Por diseño.
  • "Solucionará las alucinaciones": no. La arquitectura no resuelve el problema fundamental de los LLMs.

Cuándo conviene conocer Mamba

Sí, profundiza si:

  • Trabajas con contextos extremadamente largos (cientos de miles a millones de tokens).
  • Investigas arquitecturas o trabajas en empresas que las entrenan.
  • Estás optimizando costes de inferencia a escala muy grande.
  • Te interesa el frontera técnico que puede cambiar el paradigma.

Es menos crítico si:

  • Usas APIs de LLMs estándar (transformer underneath, opaco para ti).
  • Tu caso de uso vive cómodamente en ventanas de 200k tokens o menos.

Referencias

Tagsiaarquitecturadeep-learningsecuencias