案例分享
2026/04/08
Análisis en profundidad del límite de rastreo de 2MB de Googlebot: Guía práctica de optimización técnica para páginas de sitios web de comercio exterior
Gary Illyes de Google ha revelado en detalle la arquitectura del rastreador Googlebot y los aspectos técnicos del límite de 2MB. Este artículo analiza el impacto de estos parámetros técnicos en la indexación de páginas desde una perspectiva práctica de construcción de sitios web de comercio exterior y proporciona soluciones de optimización específicas.

Google revela por primera vez detalles técnicos de la arquitectura del rastreador
Gary Illyes de Google publicó recientemente un importante blog técnico, revelando sistemáticamente por primera vez el diseño arquitectónico del sistema de rastreo Googlebot y detalles técnicos a nivel de bytes. Esta información es crucial para comprender cómo Google rastrea e indexa páginas web, especialmente para la optimización técnica de sitios web de comercio exterior, ya que tiene un significado directo como guía.
Hallazgo clave: Googlebot es solo un cliente de una plataforma compartida
Illyes reveló un detalle arquitectónico previamente desconocido: Googlebot es solo uno de los "usuarios" de una plataforma de rastreo centralizada interna de Google. Otros productos como Google Shopping y AdSense también envían solicitudes de rastreo a través de la misma plataforma, pero utilizan sus propios nombres de rastreador.
Cada cliente puede configurar de forma independiente sus propios ajustes, incluyendo la cadena de agente de usuario, tokens de robots.txt y límites de bytes. Cuando ves Googlebot en los registros del servidor, ese es el rastreador de Google Search; otros clientes aparecen con sus respectivos nombres de rastreador.
La verdad técnica completa del límite de 2MB
El límite de rastreo de Googlebot para cualquier URL es de 2MB (excepto archivos PDF, cuyo límite es de 64MB). Los rastreadores sin límite especificado utilizan un límite predeterminado de 15MB. A continuación se detalla el comportamiento técnico del límite de 2MB:
Las cabeceras de solicitud HTTP también cuentan para el límite de 2MB. Esto significa que para páginas cercanas al límite, las cabeceras de solicitud pueden "ocupar" espacio del contenido real.
Las páginas que superan los 2MB no son rechazadas. Googlebot detiene el rastreo al alcanzar los 2MB, luego envía el contenido truncado al sistema de indexación de Google y al servicio de renderizado web (WRS). Estos sistemas tratan el archivo truncado como un archivo completo; todo el contenido después de los 2MB no será rastreado, renderizado o indexado.
Los recursos externos tienen contadores de bytes independientes. Los archivos CSS y JavaScript referenciados en HTML tienen cada uno su propio límite de 2MB, que no cuenta para la cuota de la página principal. Sin embargo, WRS no rastrea imágenes, videos, fuentes y ciertos "archivos especiales".
WRS no tiene estado. El servicio de renderizado web borra los datos de almacenamiento local y de sesión entre cada solicitud. Las funciones de JavaScript que dependen de localStorage o sessionStorage no están disponibles en el renderizado de Google.
Análisis del impacto real en sitios web de comercio exterior
La mayoría de los sitios web de comercio exterior no deben preocuparse
Los datos de HTTP Archive muestran que la gran mayoría de las páginas web tienen un volumen HTML muy por debajo del umbral de 2MB. El tamaño HTML típico de una página de producto de comercio exterior suele estar entre 100KB y 500KB, dejando un amplio margen hasta los 2MB.
Pero estos tipos de páginas deben tener cuidado
Los siguientes tipos de páginas web de comercio exterior pueden acercarse o superar el límite de 2MB:
- Páginas de catálogo de productos grandes – páginas de categoría que contienen docenas o incluso cientos de tarjetas de productos
- Páginas que utilizan imágenes Base64 en línea – codificando imágenes directamente en HTML
- Páginas con mucho CSS/JavaScript en línea – sin externalizar estilos y scripts
- Menús de navegación muy grandes – estructuras de navegación gigantes que contienen cientos de enlaces
- Páginas de descripción de productos con texto largo – páginas que contienen muchas especificaciones técnicas y estilos en línea
El costo oculto de las cabeceras de solicitud HTTP
Para sitios web de comercio exterior que utilizan muchas cookies, cabeceras personalizadas o mecanismos de autenticación complejos, las cabeceras de solicitud HTTP pueden ocupar un espacio considerable. Aunque en la mayoría de los casos esto no es un problema, para páginas cercanas al límite de 2MB, cada byte es importante.
Soluciones prácticas de optimización de páginas para sitios web de comercio exterior
1. Auditoría del volumen de la página
Primero, verifica si tu página tiene riesgo:
# Usa curl para verificar el tamaño HTML de la página
curl -sL -o /dev/null -w '%{size_download}' https://tu-sitio.com/tu-pagina
Si el valor de retorno se acerca o supera 1.5MB, es necesario optimizar seriamente.
Un enfoque más sistemático es usar el panel Network de Chrome DevTools, filtrar las solicitudes de documentos HTML y verificar Transfer Size y Response Size.
2. Contenido clave al principio
Google recomienda explícitamente: Las etiquetas Meta, las etiquetas title, los elementos link, las marcas canónicas y los datos estructurados deben aparecer en posiciones anteriores del HTML. Esto se debe a que si la página se trunca, el contenido posterior puede no indexarse en absoluto.
Recomendaciones específicas para sitios web de comercio exterior:
- Colocar la descripción Meta clave para SEO y los datos estructurados en
<head> - Asegurar que el nombre del producto, precio, descripción central y otra información clave aparezcan dentro del primer 1MB del código fuente HTML
- Colocar FAQ y contenido extenso después de la información central del producto
3. Externalizar CSS y JavaScript
Esta es la estrategia más efectiva para reducir el volumen. Cada archivo CSS y JavaScript externo tiene su propio límite de bytes de 2MB:
- Mover grandes bloques de CSS en línea a hojas de estilo externas
- Mover JavaScript en línea a archivos de script externos
- Usar CSS Sprites o SVG en lugar de imágenes Base64 en línea
Un error común en la construcción de sitios web de comercio exterior es incluir CSS y JS de herramientas de chat de terceros, scripts de análisis y componentes de traducción en línea en HTML, lo que infla el volumen de la página.
4. Optimizar la estructura de navegación
Los sitios web B2B de comercio exterior grandes a menudo tienen navegación de categorías de productos compleja, que puede contener cientos de enlaces. Recomendaciones de optimización:
- Usar JavaScript para cargar dinámicamente submenús – reducir el marcado de navegación en el HTML inicial
- Considerar usar navegación móvil simplificada – reducir HTML de navegación duplicado
- Usar razonablemente noindex/nofollow – evitar incluir enlaces a páginas de bajo valor en la navegación
5. Estrategia de paginación para páginas de catálogo de productos
Para páginas de categoría que contienen muchos productos:
- Limitar el número de productos por página – se recomienda no más de 24-36 productos por página
- Usar carga diferida – cargar más productos dinámicamente a través de JavaScript
- Implementar paginación razonable – usar rel=next/prev o marcas canónicas correctas
6. Optimización de datos estructurados
Los datos estructurados (JSON-LD) son clave para la optimización GEO de sitios web de comercio exterior, pero también aumentan el volumen de la página:
- Usar formato JSON-LD en lugar de Microdata – más compacto y no afecta la estructura HTML
- Marcar solo los atributos necesarios – evitar agregar atributos Schema redundantes
- Colocar datos estructurados al final de
<head>– asegurar que estén antes del posible punto de truncamiento
El límite de 2MB podría cambiar
Illyes mencionó específicamente en el blog: "Este límite de 2MB no es fijo y podría cambiar a medida que evoluciona la web y crece el tamaño de las páginas HTML." Esta es una señal importante: a medida que las páginas web se vuelven más complejas, Google podría aumentar este umbral en el futuro.
Pero hasta que se aumente el límite, la mejor práctica para la construcción de sitios web de comercio exterior sigue siendo mantener las páginas concisas y el contenido clave al principio.
Impacto de la característica sin estado de WRS en sitios web de comercio exterior
Si tu sitio web de comercio exterior utiliza las siguientes tecnologías, debes prestar especial atención:
- Carrito de compras basado en localStorage – Google no puede renderizar el estado del carrito
- Visualización de productos dependiente de sesión – cada visita de Google es un estado completamente nuevo
- Herramientas de prueba A/B – asegurar que Google vea la versión predeterminada
- Contenido regionalizado – Google no conserva el estado de selección de región
Asegúrate de que tu información central del producto se presente completamente en un entorno de renderizado sin estado.
Perspectiva de 01CodeTech
El límite de 2MB de Googlebot no es un problema urgente para la mayoría de los sitios web de comercio exterior, pero comprender estos detalles técnicos es la base de la construcción profesional de sitios web y la optimización profunda de SEO. En el competitivo mercado de comercio exterior, cada detalle del SEO técnico puede convertirse en una ventaja para superar a la competencia.
01CodeTech en la construcción de sitios web de comercio exterior siempre ha mantenido la filosofía de que "la base técnica determina el límite de optimización". Ayudamos a los clientes a establecer desde el principio una arquitectura de página que cumpla con las especificaciones técnicas de Google, evitando pagar por deudas técnicas en el futuro. Si deseas asegurarte de que tu sitio web de comercio exterior se adapte completamente a los requisitos de arquitectura del rastreador de Google, bienvenido a seguir a 01CodeTech para obtener soporte técnico profesional.
Fuente técnica: Google Developers Blog (Gary Illyes), Search Off the Record Podcast Episodio 105