SEO TECNICO

Crawl budget

Cantidad de páginas que el rastreador de Google está dispuesto y es capaz de visitar en un sitio durante un periodo determinado, condicionada por su autoridad y salud técnica.

Nivel · avanzado5 min de lecturaActualizado 23 may 2026

También conocido como: Presupuesto de rastreo, Crawl rate, Capacidad de rastreo

Definición

El crawl budget o presupuesto de rastreo es la cantidad de páginas que Googlebot (u otro rastreador) está dispuesto y es capaz de visitar en tu sitio durante un periodo determinado. No es un número fijo ni publicado: Google lo asigna dinámicamente combinando dos factores, según ellos mismos documentan:

Crawl rate limit (capacidad de rastreo): cuántas peticiones puede hacer tu servidor sin caerse o ralentizarse. Un sitio rápido y sano permite más rastreo.
Crawl demand (demanda de rastreo): qué interés tiene Google en rastrear tu sitio. Páginas populares, frescas y autoritativas reciben más visitas del bot.

Para una web pequeña (digamos, menos de unos miles de URLs), el crawl budget casi nunca es un problema real. Google lo dijo explícitamente: "si tu sitio tiene menos de unas pocas miles de URLs, no necesitas preocuparte por el crawl budget".

Donde sí importa: e-commerce gigantes con cientos de miles de productos, portales de clasificados, news sites con publicación constante, agregadores. Ahí, optimizar el crawl budget puede ser la diferencia entre que Google descubra tus páginas nuevas en horas o en semanas.

Cómo funciona

Googlebot mantiene una cola priorizada de URLs por rastrear, alimentada por:

Tu sitemap.xml: lista explícita de URLs importantes.
Enlaces internos descubiertos al rastrear: el bot navega tu web siguiendo enlaces.
Enlaces externos desde otros sitios que apuntan al tuyo.
URLs históricas ya conocidas que rastrea periódicamente para detectar cambios.

Para cada URL, decide:

¿Rastreo ahora o más tarde? Prioriza por importancia (autoridad, frescura).
¿Cuánto tiempo dedico? Si el servidor responde lento, reduce frecuencia.
¿Indexo? Tras rastrear, decide si la página merece estar en el índice.

Si tu sitio tiene 100.000 URLs y Google solo rastrea 5.000 al día, las páginas profundas pueden tardar semanas en ser descubiertas o actualizadas.

Ejemplo práctico

En IMDICA, si crecemos a un catálogo digital de 50.000 productos con filtros (color, marca, formato, voltaje, sector), el sistema puede generar millones de URLs combinatorias. Sin gestión, Googlebot perdería su presupuesto rastreando combinaciones inútiles:

/productos?marca=makita
/productos?marca=makita&color=azul
/productos?marca=makita&color=azul&voltaje=18v
...

Mientras tanto, los productos reales (la página de cada SKU) reciben menos atención del bot y aparecen tarde en Google.

La solución:

robots.txt: bloquear el rastreo de URLs con parámetros que no aportan valor SEO.
rel=canonical: consolidar variantes hacia la URL base.
noindex en páginas de filtro intermedio.
Sitemap limpio: solo URLs canónicas, una por producto.
Eliminar enlaces internos hacia URLs basura (no nofollow — directamente no enlazar).

Resultado: Googlebot dedica el 100% de su presupuesto a rastrear los 50.000 productos reales, y nuestras páginas nuevas se indexan en horas en lugar de semanas.

Cómo detectar problemas de crawl budget

Señales claras:

Cobertura en Search Console: muchas URLs "Detectadas, no rastreadas" o "Rastreadas, no indexadas".
Páginas nuevas tardan mucho en aparecer en Google: días o semanas en lugar de horas.
Tu log del servidor muestra que Googlebot dedica el 70% de sus visitas a URLs irrelevantes: filtros, búsquedas internas, paginaciones infinitas.
Sitemap con 30.000 URLs pero Search Console reporta solo 8.000 indexadas tras meses.

Para diagnosticar a fondo, hay que analizar los logs del servidor con herramientas como Screaming Frog Log Analyzer, Botify u OnCrawl.

Cómo optimizarlo

Bloquea por robots.txt todo lo que no debe ser rastreado: filtros, búsquedas internas, paginaciones combinatorias, áreas privadas.
Limpia enlaces internos: no enlaces a páginas que no quieres rastreadas.
Usa canonical bien: consolida señales en la URL preferida.
Mejora velocidad del servidor: TTFB bajo permite que Googlebot rastree más en el mismo tiempo.
Sitemap quirúrgico: solo URLs importantes y canónicas. Actualízalo dinámicamente.
Devuelve códigos correctos: 404 reales para lo que no existe, 410 para lo eliminado, 301 para redirecciones permanentes.
Evita redirecciones encadenadas: cada salto en la cadena consume presupuesto.
Reduce páginas zombies: las que no tienen tráfico, no aportan valor y solo gastan rastreo deberían fusionarse o eliminarse.

Errores comunes

Bloquear por noindex esperando que ahorre crawl budget: noindex no impide rastreo, solo indexación. Para impedir rastreo, robots.txt.
Sitemap inflado con URLs irrelevantes: lo que pones en el sitemap le dices a Google "esto importa". Si dices que importan 50.000 URLs cuando solo 5.000 sí, le confundes.
Paginación infinita o scroll infinito sin alternativa: el bot puede no llegar a los items del final.
Faceted navigation sin control: cada combinación de filtros genera una URL nueva. Sin canonical/robots, explotas el presupuesto.
Servidor lento: si Googlebot detecta tiempos de respuesta altos, baja la frecuencia automáticamente.

Cuándo preocuparse

Sí, optimiza el crawl budget cuando:

Tienes más de 10.000 URLs y notas que páginas nuevas no se indexan rápido.
Eres e-commerce con catálogo grande y filtros faceted.
Search Console te avisa de muchas URLs "descubiertas pero no rastreadas".
Tu equipo SEO necesita acortar el tiempo de indexación tras publicar.

No te preocupes cuando:

Tu sitio tiene < 5.000 URLs. Google lo rastrea entero sin problema.
Acabas de publicar contenido nuevo. La indexación tarda lo que tarda; ten paciencia.
Estás obsesionándote con métricas en lugar de mejorar contenido y enlaces.

Referencias

Google Search Central · Gestionar el rastreo de un sitio grande — referencia oficial
Botify · Crawl budget optimization — guía técnica con casos enterprise
Screaming Frog Log File Analyser — herramienta clave para auditar logs de rastreo

Tagsseoindexaciónrendimientotécnico

TÉRMINOS RELACIONADOS

Explora también

SEO

Sitemap

Archivo XML que lista todas las URLs de tu sitio para que los buscadores las descubran e indexen. Imprescindible para SEO en sitios con muchas páginas.

Leer

SEO

Canonical

Etiqueta HTML que indica a los buscadores cuál es la URL preferida cuando existen varias versiones del mismo contenido, evitando contenido duplicado.

Leer

SEO

Core Web Vitals

Conjunto de métricas de Google que miden la experiencia real del usuario en una web — carga, interactividad y estabilidad visual. Factor de ranking desde 2021.

Leer

SEO

SERP

Página de resultados que muestra un buscador tras una consulta, con resultados orgánicos, anuncios y bloques especiales como featured snippets o People Also Ask.

Leer

SEO

CLS (Cumulative Layout Shift)

Métrica de Core Web Vitals que mide cuánto se mueven inesperadamente los elementos visuales de la página durante la carga. Indicador de estabilidad visual.

Leer

SEO

E-E-A-T

Marco de evaluación de calidad de Google basado en Experiencia, Pericia, Autoridad y Confianza, usado por los evaluadores humanos para juzgar la calidad de las páginas.

Leer

← Volver al diccionario de SEO