Definición
El crawl budget o presupuesto de rastreo es la cantidad de páginas que Googlebot (u otro rastreador) está dispuesto y es capaz de visitar en tu sitio durante un periodo determinado. No es un número fijo ni publicado: Google lo asigna dinámicamente combinando dos factores, según ellos mismos documentan:
- Crawl rate limit (capacidad de rastreo): cuántas peticiones puede hacer tu servidor sin caerse o ralentizarse. Un sitio rápido y sano permite más rastreo.
- Crawl demand (demanda de rastreo): qué interés tiene Google en rastrear tu sitio. Páginas populares, frescas y autoritativas reciben más visitas del bot.
Para una web pequeña (digamos, menos de unos miles de URLs), el crawl budget casi nunca es un problema real. Google lo dijo explícitamente: "si tu sitio tiene menos de unas pocas miles de URLs, no necesitas preocuparte por el crawl budget".
Donde sí importa: e-commerce gigantes con cientos de miles de productos, portales de clasificados, news sites con publicación constante, agregadores. Ahí, optimizar el crawl budget puede ser la diferencia entre que Google descubra tus páginas nuevas en horas o en semanas.
Cómo funciona
Googlebot mantiene una cola priorizada de URLs por rastrear, alimentada por:
- Tu sitemap.xml: lista explícita de URLs importantes.
- Enlaces internos descubiertos al rastrear: el bot navega tu web siguiendo enlaces.
- Enlaces externos desde otros sitios que apuntan al tuyo.
- URLs históricas ya conocidas que rastrea periódicamente para detectar cambios.
Para cada URL, decide:
- ¿Rastreo ahora o más tarde? Prioriza por importancia (autoridad, frescura).
- ¿Cuánto tiempo dedico? Si el servidor responde lento, reduce frecuencia.
- ¿Indexo? Tras rastrear, decide si la página merece estar en el índice.
Si tu sitio tiene 100.000 URLs y Google solo rastrea 5.000 al día, las páginas profundas pueden tardar semanas en ser descubiertas o actualizadas.
Ejemplo práctico
En IMDICA, si crecemos a un catálogo digital de 50.000 productos con filtros (color, marca, formato, voltaje, sector), el sistema puede generar millones de URLs combinatorias. Sin gestión, Googlebot perdería su presupuesto rastreando combinaciones inútiles:
/productos?marca=makita/productos?marca=makita&color=azul/productos?marca=makita&color=azul&voltaje=18v- ...
Mientras tanto, los productos reales (la página de cada SKU) reciben menos atención del bot y aparecen tarde en Google.
La solución:
robots.txt: bloquear el rastreo de URLs con parámetros que no aportan valor SEO.rel=canonical: consolidar variantes hacia la URL base.noindexen páginas de filtro intermedio.- Sitemap limpio: solo URLs canónicas, una por producto.
- Eliminar enlaces internos hacia URLs basura (no nofollow — directamente no enlazar).
Resultado: Googlebot dedica el 100% de su presupuesto a rastrear los 50.000 productos reales, y nuestras páginas nuevas se indexan en horas en lugar de semanas.
Cómo detectar problemas de crawl budget
Señales claras:
- Cobertura en Search Console: muchas URLs "Detectadas, no rastreadas" o "Rastreadas, no indexadas".
- Páginas nuevas tardan mucho en aparecer en Google: días o semanas en lugar de horas.
- Tu log del servidor muestra que Googlebot dedica el 70% de sus visitas a URLs irrelevantes: filtros, búsquedas internas, paginaciones infinitas.
- Sitemap con 30.000 URLs pero Search Console reporta solo 8.000 indexadas tras meses.
Para diagnosticar a fondo, hay que analizar los logs del servidor con herramientas como Screaming Frog Log Analyzer, Botify u OnCrawl.
Cómo optimizarlo
- Bloquea por robots.txt todo lo que no debe ser rastreado: filtros, búsquedas internas, paginaciones combinatorias, áreas privadas.
- Limpia enlaces internos: no enlaces a páginas que no quieres rastreadas.
- Usa canonical bien: consolida señales en la URL preferida.
- Mejora velocidad del servidor: TTFB bajo permite que Googlebot rastree más en el mismo tiempo.
- Sitemap quirúrgico: solo URLs importantes y canónicas. Actualízalo dinámicamente.
- Devuelve códigos correctos: 404 reales para lo que no existe, 410 para lo eliminado, 301 para redirecciones permanentes.
- Evita redirecciones encadenadas: cada salto en la cadena consume presupuesto.
- Reduce páginas zombies: las que no tienen tráfico, no aportan valor y solo gastan rastreo deberían fusionarse o eliminarse.
Errores comunes
- Bloquear por
noindexesperando que ahorre crawl budget: noindex no impide rastreo, solo indexación. Para impedir rastreo, robots.txt. - Sitemap inflado con URLs irrelevantes: lo que pones en el sitemap le dices a Google "esto importa". Si dices que importan 50.000 URLs cuando solo 5.000 sí, le confundes.
- Paginación infinita o scroll infinito sin alternativa: el bot puede no llegar a los items del final.
- Faceted navigation sin control: cada combinación de filtros genera una URL nueva. Sin canonical/robots, explotas el presupuesto.
- Servidor lento: si Googlebot detecta tiempos de respuesta altos, baja la frecuencia automáticamente.
Cuándo preocuparse
Sí, optimiza el crawl budget cuando:
- Tienes más de 10.000 URLs y notas que páginas nuevas no se indexan rápido.
- Eres e-commerce con catálogo grande y filtros faceted.
- Search Console te avisa de muchas URLs "descubiertas pero no rastreadas".
- Tu equipo SEO necesita acortar el tiempo de indexación tras publicar.
No te preocupes cuando:
- Tu sitio tiene < 5.000 URLs. Google lo rastrea entero sin problema.
- Acabas de publicar contenido nuevo. La indexación tarda lo que tarda; ten paciencia.
- Estás obsesionándote con métricas en lugar de mejorar contenido y enlaces.
Referencias
- Google Search Central · Gestionar el rastreo de un sitio grande — referencia oficial
- Botify · Crawl budget optimization — guía técnica con casos enterprise
- Screaming Frog Log File Analyser — herramienta clave para auditar logs de rastreo