案例分享
2026/04/08
Analyse approfondie de la limite de crawl de 2 Mo de Googlebot : Guide pratique d'optimisation technique des pages pour les sites web d'exportation
Gary Illyes de Google a détaillé l'architecture du robot d'exploration Googlebot et les spécificités techniques de la limite de 2 Mo. Cet article analyse l'impact de ces paramètres techniques sur l'indexation des pages du point de vue pratique des sites d'exportation et propose des solutions d'optimisation concrètes.

Google révèle pour la première fois les détails techniques de l'architecture de son robot d'exploration
Gary Illyes de Google a récemment publié un article technique important, dévoilant systématiquement pour la première fois la conception de l'architecture du système de robot d'exploration Googlebot et les détails techniques au niveau des octets. Ces informations sont cruciales pour comprendre comment Google explore et indexe les pages web, et ont une signification directe pour l'optimisation technique des sites web d'exportation.
Découverte clé : Googlebot n'est qu'un client d'une plateforme partagée
Illyes révèle un détail architectural peu connu : Googlebot n'est qu'un "utilisateur" parmi d'autres d'une plateforme de crawl centralisée interne à Google. D'autres produits comme Google Shopping et AdSense envoient également des requêtes de crawl via la même plateforme, mais utilisent leurs propres noms de robots.
Chaque client peut configurer ses paramètres indépendamment, y compris la chaîne d'agent utilisateur, les jetons robots.txt et les limites d'octets. Lorsque vous voyez Googlebot dans les journaux de serveur, c'est le robot de Google Search ; les autres clients apparaissent avec leurs propres noms de robots.
La vérité technique complète sur la limite de 2 Mo
Googlebot a une limite de crawl de 2 Mo pour toute URL (à l'exception des fichiers PDF, dont la limite est de 64 Mo). Les robots sans limite spécifiée utilisent par défaut une limite de 15 Mo. Voici le comportement technique détaillé de la limite de 2 Mo :
Les en-têtes HTTP sont également comptés dans la limite de 2 Mo. Cela signifie que pour les pages proches de la limite, les en-têtes de requête peuvent "empiéter" sur l'espace du contenu réel.
Les pages dépassant 2 Mo ne sont pas rejetées. Googlebot arrête le crawl à 2 Mo, puis envoie le contenu tronqué aux systèmes d'indexation de Google et au service de rendu web (WRS). Ces systèmes traitent le fichier tronqué comme un fichier complet — tout contenu après 2 Mo n'est pas exploré, rendu ou indexé.
Les ressources externes ont des compteurs d'octets indépendants. Les fichiers CSS et JavaScript référencés dans le HTML ont chacun une limite indépendante de 2 Mo, qui ne compte pas dans le quota de la page parente. Cependant, le WRS n'explore pas les images, vidéos, polices et certains "fichiers spéciaux".
Le WRS est sans état. Le service de rendu web efface les données de stockage local et de session entre chaque requête. Les fonctionnalités JavaScript dépendant de localStorage ou sessionStorage ne sont pas disponibles dans le rendu Google.
Analyse de l'impact pratique sur les sites web d'exportation
La plupart des sites d'exportation n'ont pas à s'inquiéter
Les données de HTTP Archive montrent que la grande majorité des pages web ont un volume HTML bien inférieur au seuil de 2 Mo. Une page produit typique pour l'exportation a généralement une taille HTML de 100 Ko à 500 Ko, laissant une marge confortable avant 2 Mo.
Mais ces types de pages doivent être surveillés
Les pages web d'exportation suivantes peuvent approcher ou dépasser la limite de 2 Mo :
- Pages de catalogue de produits volumineuses — pages de catégorie contenant des dizaines voire des centaines de fiches produits
- Pages utilisant des images Base64 intégrées — encodant directement les images dans le HTML
- Pages avec beaucoup de CSS/JavaScript intégré — n'ayant pas externalisé les styles et scripts
- Menus de navigation très grands — structures de navigation géantes contenant des centaines de liens
- Pages de description de produits avec de longs textes — contenant de nombreuses spécifications techniques et styles intégrés
Le coût caché des en-têtes HTTP
Pour les sites d'exportation utilisant de nombreux cookies, en-têtes personnalisés ou mécanismes d'authentification complexes, les en-têtes HTTP peuvent occuper un espace non négligeable. Bien que ce ne soit généralement pas un problème, chaque octet compte pour les pages proches de la limite de 2 Mo.
Solutions pratiques d'optimisation des pages pour les sites web d'exportation
1. Audit du volume des pages
Vérifiez d'abord si vos pages sont à risque :
# Utiliser curl pour vérifier la taille HTML de la page
curl -sL -o /dev/null -w '%{size_download}' https://votre-site.com/votre-page
Si la valeur retournée approche ou dépasse 1,5 Mo, une optimisation sérieuse est nécessaire.
Une approche plus systématique consiste à utiliser le panneau Network de Chrome DevTools, filtrer les requêtes de documents HTML et vérifier Transfer Size et Response Size.
2. Priorisation du contenu clé
Google recommande explicitement : Les balises Meta, title, link, les marqueurs canoniques et les données structurées doivent apparaître tôt dans le HTML. En effet, si la page est tronquée, le contenu situé plus tard peut ne pas être indexé du tout.
Recommandations spécifiques pour les sites d'exportation :
- Placer les métadonnées SEO cruciales et les données structurées dans
<head> - S'assurer que les informations clés comme le nom du produit, le prix et la description principale apparaissent dans le premier Mo du code source HTML
- Placer les FAQ et contenus longs après les informations principales du produit
3. Externalisation du CSS et du JavaScript
C'est la stratégie de réduction de volume la plus efficace. Chaque fichier CSS et JavaScript externe a sa propre limite indépendante de 2 Mo :
- Déplacer les grands blocs de CSS intégré vers des feuilles de style externes
- Déplacer le JavaScript intégré vers des fichiers de script externes
- Utiliser des CSS Sprites ou SVG au lieu d'images Base64 intégrées
Une erreur courante dans les sites d'exportation est d'intégrer le CSS et le JS des outils de chat tiers, des scripts d'analyse et des composants de traduction dans le HTML, ce qui gonfle le volume de la page.
4. Optimisation de la structure de navigation
Les grands sites B2B d'exportation ont souvent des navigations complexes par catégories de produits, pouvant contenir des centaines de liens. Recommandations d'optimisation :
- Utiliser le chargement dynamique des sous-menus via JavaScript — réduire le balisage de navigation dans le HTML initial
- Envisager une navigation mobile simplifiée — réduire la duplication du HTML de navigation
- Utiliser judicieusement noindex/nofollow — éviter d'inclure des liens vers des pages de faible valeur dans la navigation
5. Stratégie de pagination pour les pages de catalogue de produits
Pour les pages de catégorie contenant de nombreux produits :
- Limiter le nombre de produits par page — recommandation : pas plus de 24 à 36 produits par page
- Utiliser le chargement différé — charger dynamiquement plus de produits via JavaScript
- Mettre en œuvre une pagination raisonnable — utiliser rel=next/prev ou des marqueurs canoniques corrects
6. Optimisation des données structurées
Les données structurées (JSON-LD) sont essentielles pour l'optimisation GEO des sites d'exportation, mais augmentent aussi le volume de la page :
- Utiliser le format JSON-LD plutôt que Microdata — plus compact et n'affecte pas la structure HTML
- Ne marquer que les attributs nécessaires — éviter d'ajouter des attributs Schema redondants
- Placer les données structurées à la fin de
<head>— s'assurer qu'elles sont avant le point de troncature potentiel
La limite de 2 Mo pourrait évoluer
Illyes souligne dans son article : "Cette limite de 2 Mo n'est pas figée et pourrait changer avec l'évolution du web et la croissance de la taille des pages HTML." C'est un signal important — à mesure que les pages web deviennent plus complexes, Google pourrait augmenter ce seuil à l'avenir.
Mais avant que la limite ne soit relevée, la meilleure pratique pour les sites d'exportation reste de maintenir les pages légères et de prioriser le contenu clé.
Impact de la nature sans état du WRS sur les sites d'exportation
Si votre site d'exportation utilise les technologies suivantes, soyez particulièrement vigilant :
- Panier basé sur localStorage — Google ne peut pas rendre l'état du panier
- Affichage de produits dépendant de la session — chaque visite de Google est un nouvel état
- Outils de test A/B — s'assurer que Google voit la version par défaut
- Contenu régionalisé — Google ne conserve pas l'état de sélection de région
Assurez-vous que vos informations produits essentielles sont présentées complètement dans un environnement de rendu sans état.
Point de vue de 01CodeTech
La limite de 2 Mo de Googlebot n'est pas un problème urgent pour la plupart des sites d'exportation, mais comprendre ces détails techniques est la base d'un développement web professionnel et d'une optimisation SEO approfondie. Dans le marché concurrentiel de l'exportation, chaque détail du SEO technique peut devenir un avantage pour surpasser vos concurrents.
01CodeTech adhère au principe que "les bases techniques déterminent le plafond d'optimisation" dans le développement de sites d'exportation. Nous aidons nos clients à établir dès le départ une architecture de page conforme aux normes techniques de Google, évitant ainsi de payer plus tard pour la dette technique. Si vous souhaitez vous assurer que votre site d'exportation est entièrement adapté aux exigences de l'architecture des robots de Google, suivez 01CodeTech pour obtenir un support technique professionnel.
Source technique : Google Developers Blog (Gary Illyes), Search Off the Record Podcast Épisode 105