Gestion des sites volumineux : défis et solutions

Même en ayant l’habitude de travailler avec de nombreux clients et secteurs différents, Antoine Eripret a découvert un tout autre monde en arrivant chez Liligo, et aujourd’hui Docplanner. Un site volumineux entraîne de nouveaux challenges… décortiqués par Antoine !
Gestion des sites volumineux : défis et solutions - Antoine Eripret Gestion des sites volumineux : défis et solutions - Antoine Eripret

Dans le secteur du SEO, nous avons tendance à juger les autres professionnels par le prisme de nos connaissances sans réaliser que souvent nous avons le même nom de poste, mais des responsabilités et compétences bien différentes. 

J’ai commencé à travailler dans notre secteur en 2016, dans une agence basée à Barcelone (coucou SEOCOM) et ce fût une expérience extraordinaire, où j’ai pu développer mes compétences avec de nombreux clients dans des industries différentes. En 2020, je décide de quitter mon poste pour rejoindre l’aventure Liligo

Malgré mes 4 années en agence, ce poste fût comme une redécouverte du SEO. En effet, il s’agissait de la première fois que j’étais amené à travailler sur un projet de cette taille. Avec ses 50.000 pages par domaine, on était loin de la taille de mon employeur actuel (Docplanner – équivalent de Doctolib), et pourtant c’est bien à ce moment-là que j’ai compris que mettre en place une stratégie SEO pour un petit site et pour un site volumineux n’était pas la même histoire. 

Dans cet article, je veux vous expliquer quelles sont les grandes différences entre ces deux mondes et comment gérer efficacement les défis liés à la gestion de sites volumineux.

Ce que vous allez découvrir dans cet article :

  • Découvrez les défis que posent les sites comptant des centaines de milliers de pages et comment les aborder efficacement.
  • De Screaming Frog aux crawlers cloud, en passant par la construction d’un crawler personnalisé, explorez les options pour analyser et optimiser un site de grande taille.
  • Apprenez pourquoi les outils classiques ne suffisent plus et comment passer à des méthodes d’analyse avancées pour traiter des millions de lignes de données.
  • Optimisez la structure de votre site pour maximiser son indexabilité et sa visibilité dans les moteurs de recherche.
  • Maîtrisez l’impact financier des outils SEO et des requêtes SQL mal optimisées pour éviter les mauvaises surprises budgétaires.

Crawling: le premier défi de taille 

L’outil (payant) le plus populaire du secteur (à raison) est sans aucun doute Screaming Frog. Couteau suisse qui ne cesse de s’améliorer, je ne conçois pas travailler dans ce secteur sans pouvoir l’utiliser de temps en temps.

Screaming Frog : crawl des sites volumineux

Cependant, l’outil souffre d’un problème majeur: il n’est pas pensé pour être utilisé sur des sites avec des centaines de milliers de pages. Certes, l’outil est capable de le faire, mais il n’est pas pensé pour.

Les problèmes en vrac: 

  • Vous êtes limités par la capacité de votre machine 
  • Vous êtes limités par l’espace disponible sur votre machine: un crawl de 500.000 URLs occupera environ 10GB. Cependant, si vous commencez à exporter des données en CSV, l’espace nécessaire peut rapidement exploser.  
  • Les fichiers générés via le bulk export peuvent être massifs (pour le crawl ci-dessus, le fichier all_inlinks.csv pèse 10GB et comporte 70M de lignes). Bonne chance pour analyser cela sans passer par une base de données (même avec du Python vous pourriez avoir du mal). 

Certes, vous pouvez utiliser une machine virtuelle, mais cette solution n’est pas simple et ne résout pas tous les problèmes mentionnés ci-dessus.  

Dans ce cas, vous devrez trouver une alternative plus robuste.

Rejoignez la communauté Réacteur

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Canalplus
Saint-Gobain
Radio France
Orange
Inserm
CCI Paris
Cultura
Harmonie Mutuelle
Quechua