INTELIGENCIA ARTIFICIAL

Diccionario de Inteligencia Artificial

Arquitecturas, procesos de entrenamiento y técnicas que construyen los modelos modernos de inteligencia artificial.

32 términos

A

Sistema en el que un LLM toma decisiones autónomas, usa herramientas externas y ejecuta tareas en varios pasos hasta cumplir un objetivo, en lugar de limitarse a responder un mensaje.

Attention

Mecanismo central de los transformers que permite a cada token de una secuencia ponderar la relevancia de todos los demás tokens al construir su nueva representación.

B

Backpropagation

Algoritmo que calcula cómo cada parámetro de una red neuronal debe modificarse para reducir el error, propagando los gradientes desde la salida hacia atrás a través de las capas.

C

Chain of Thought

Técnica de prompting que pide al modelo razonar paso a paso antes de dar la respuesta final, mejorando significativamente su rendimiento en problemas que requieren multi-step reasoning.

Context window

Cantidad máxima de tokens que un modelo de lenguaje puede procesar a la vez en una sola petición, incluyendo prompt, contexto recuperado, historial de conversación y respuesta.

D

Diffusion model

Modelo generativo que aprende a producir imágenes, vídeo o audio partiendo de ruido aleatorio y eliminándolo progresivamente paso a paso, guiado por un condicionamiento textual.

Distillation

Técnica que entrena un modelo pequeño (alumno) para imitar el comportamiento de un modelo grande (profesor), preservando gran parte de su calidad con una fracción del coste.

DPO

Algoritmo de alineamiento que optimiza un modelo directamente sobre preferencias humanas (respuesta A es mejor que B) sin necesidad de entrenar un reward model intermedio.

E

Embedding

Vector denso de números reales que representa un token, palabra, frase o documento en un espacio donde la cercanía geométrica refleja similitud semántica.

F

Fine-tuning

Proceso de tomar un modelo preentrenado y continuar su entrenamiento con datos específicos para adaptarlo a una tarea, dominio o estilo concretos.

Foundation model

Modelo de IA entrenado con datos masivos y diseñado para servir de base general sobre la que construir aplicaciones específicas mediante prompting, fine-tuning o RAG.

Function calling

Capacidad de un LLM para invocar herramientas externas estructuradas decidiendo qué función llamar y con qué argumentos, en lugar de limitarse a generar texto.

G

Gradient descent

Algoritmo de optimización que ajusta iterativamente los parámetros de un modelo en la dirección opuesta al gradiente del error, hasta encontrar el mínimo que produce las mejores predicciones.

H

Hallucination

Fenómeno por el que un LLM genera información que suena coherente y plausible pero es factualmente falsa o inventada, derivado de su naturaleza estadística de predicción de tokens.

I

Inference

Proceso de usar un modelo ya entrenado para generar predicciones o respuestas en tiempo real. Es la fase de explotación: cada vez que llamas a un LLM en producción, estás haciendo inference.

K

KV cache

Mecanismo de cacheo durante la inferencia de un transformer que guarda las matrices Key y Value de cada token ya procesado, evitando recomputarlas en cada paso de generación.

L

LLM

Modelo de lenguaje de gran tamaño basado en redes neuronales tipo transformer, entrenado con cantidades masivas de texto para predecir el siguiente token de una secuencia.

LoRA

Técnica de fine-tuning eficiente que adapta modelos grandes entrenando solo pequeñas matrices de baja dimensionalidad, en lugar de modificar los pesos originales del modelo.

M

Mamba (SSM)

Arquitectura de modelos de secuencia basada en State Space Models que escala linealmente con la longitud del contexto, posicionada como alternativa al transformer en contextos muy largos.

MCP (Model Context Protocol)

Protocolo abierto creado por Anthropic en 2024 que estandariza cómo los modelos de IA se conectan a herramientas, datos y entornos externos. El USB-C de los LLMs.

MoE (Mixture of Experts)

Arquitectura en la que un modelo tiene muchos parámetros totales pero solo activa una pequeña fracción de ellos por cada token, gracias a un router que elige qué expertos consultar.

Multimodal

Modelo que procesa y genera múltiples tipos de datos —texto, imagen, audio, vídeo— dentro de la misma red neuronal, en lugar de necesitar modelos separados especializados por tipo.

P

Pretraining

Primera fase de creación de un modelo de lenguaje: entrenarlo desde cero con cantidades masivas de texto y un objetivo simple (predecir el siguiente token) durante semanas o meses en miles de GPUs.

Prompt engineering

Disciplina de diseñar instrucciones, contexto y formato de los prompts enviados a un LLM para maximizar la calidad, consistencia y eficiencia de las respuestas que produce.

Q

Quantization

Técnica que reduce la precisión numérica de los pesos de un modelo (de 32 bits a 16, 8, 4 o incluso 2 bits) para hacerlo más pequeño y rápido, sacrificando un mínimo de calidad.

R

RAG

Patrón arquitectónico que combina un LLM con un sistema de recuperación: antes de generar respuesta, el modelo busca información relevante en una base externa y la incluye en su contexto.

Reasoning model

Modelo de lenguaje entrenado para razonar explícitamente antes de responder, generando largas cadenas internas de pensamiento que mejoran drásticamente su rendimiento en problemas complejos.

RLHF

Técnica de alineamiento donde un modelo de lenguaje se ajusta mediante aprendizaje por refuerzo usando preferencias humanas (qué respuesta es mejor) como señal de recompensa.

T

Token

Unidad mínima que un modelo de lenguaje procesa, generada por un tokenizador. No es una palabra ni un carácter: es una pieza intermedia optimizada para compresión y vocabulario.

Transformer

Arquitectura de red neuronal basada en el mecanismo de atención que procesa secuencias en paralelo. Es la base de todos los grandes modelos modernos: GPT, Claude, Gemini, Llama.

V

Vector database

Base de datos especializada en almacenar y buscar vectores de embeddings de alta dimensionalidad por similitud, pieza fundamental del stack moderno de RAG y búsqueda semántica.

ViT (Vision Transformer)

Adaptación del transformer al procesamiento de imágenes que las divide en parches y los trata como una secuencia de tokens, eliminando la necesidad de convoluciones.