AprÚs avoir exploré la configuration de l'outil Screaming Frog et initié l'interprétation des crawls effectués les mois précédents, faisons place ce mois-ci à deux problématiques importantes : la présentation des derniÚres fonctionnalités de la version 14 de l'outil, ainsi que ses différentes (et nombreuses) possibilités de représentation graphique de l'arborescence d'un site. Et, là aussi, les fonctionnalités sont nombreuses !
Â
TroisiĂšme article de la sĂ©rie sur le crawler Screaming Frog, aprĂšs avoir vu comment bien configurer plusieurs paramĂštres son crawl, et analyser une partie des rĂ©sultats tout en Ă©vitant des erreurs dâinterprĂ©tation.
Nous verrons dans cet article les fonctionnalitĂ©s de visualisation de lâoutil, ainsi que lâoption dâanalyse dâexploration qui permet de calculer un certain nombre de mĂ©triques post-crawl.
Mais avant tout chose, nous allons rapidement passer en revue les nouveautĂ©s de la version 14.0 de lâoutil, sortie le 23 novembre dernier.
Nouveautés de la version 14.0
Modification de la couleur de l'interface (Menu Configuration > User interface > Theme)
Hormis lâarrivĂ©e de lâinterface « Dark Mode » qui peut ĂȘtre plus agrĂ©able Ă lâĆil, voici des nouveautĂ©s qui vous seront plus utiles dâun point de vue opĂ©rationnel:
- Possibilité de générer des exports via Google Sheets en ayant préalablement connecté votre compte (option également disponible pour les crawls préprogrammés et leurs exports) ;
- Extraction de lâensemble des en-tĂȘtes http pour chaque requĂȘte : cela peut sâavĂ©rer trĂšs pratique pour identifier les directives de cache sur les URL spĂ©cifiques ;
- Possibilité de collecter les informations contenues dans les cookies.
Â
Structure de site agrégée
Lâapparition dâune nouvelle colonne dans lâonglet « Internal » peut sâavĂ©rer pertinente pour certains sites : il sâagit de la possibilitĂ© de connaitre le nombre dâURL en fonction de leur structure par rĂ©pertoire (ou chemin, parfois virtuel via la rĂ©ecriture dâURL) :
Â
Structure agrégée du site avec le nombre d'URL par répertoire
On visualise ainsi rapidement le nombre de pages pour chaque catégorie du site, ce qui permet de se faire une bonne idée de ses contenus.
En complĂ©ment, la partie graphique « Site structure » situĂ©e dans la colonne de droite de lâoutil, permet dâavoir cette vision avec la possibilitĂ© de naviguer niveau par niveau (Ă condition que les niveaux des rĂ©pertoires reprĂ©sentent lâarborescence rĂ©elle des contenus pour que cela ait du sens) :
Vision « Site structure > Indexability » : regroupement des pages en niveau 2 des répertoires (en fonction des URL)
La navigation entre les niveaux de la structure des répertoires (à ne pas confondre avec la profondeur réelle des contenus, visible en utilisant « Crawl depth » dans le menu déroulant de ce volet) peut se faire grùce aux boutons « + » et « - ».
On peut ainsi voir pour chaque regroupement de contenu (en fonction des rĂ©pertoires dans lâURL), diffĂ©rentes donnĂ©es dont :
- la répartition des codes réponses ;
- la profondeur des contenus ;
- lâindexabilitĂ©.
Ces donnĂ©es relatives Ă lâindexabilitĂ© aident Ă mieux visualiser les types dâĂ©lĂ©ments qui ne peuvent pas ĂȘtre indexĂ©s, comme les Ă©lĂ©ments contenus dans le rĂ©pertoire « /evenements/ » dans lâexemple ci-dessus.
Pour ce qui est des codes rĂ©ponses, on pourra rapidement isoler lâensemble dâun rĂ©pertoire pour lesquels les Ă©lĂ©ments quâil contient rĂ©pondent en 404 :
Vision "Site structure" par codes réponses
Â
Lâune des derniĂšres nouveautĂ©s de la version 14.0 se trouve dans le graphique de cet onglet « Site structure », et permet de visualiser les codes rĂ©ponses (et la crawlabilitĂ© restreinte via le robots.txt) des contenus en fonction de leur profondeur :
Profondeur des URL en fonction des codes réponses
Nous constatons ici un nombre particuliĂšrement Ă©levĂ© dâerreurs 4xx (403, 404, etc.) au cinquiĂšme niveau de profondeur, ainsi que de nombreuses redirections en niveau 4 et 5.
Visualisation
Depuis 2 ans, Screaming Frog dispose de différents outils de visualisations. Ils permettent de mettre en avant certaines faiblesses SEO de sites, mais encore faut il bien comprendre la façon dont fonctionnent ces outils
Maillage
Dans les diffĂ©rents menus, le menu « Visualisations » permet dâavoir une reprĂ©sentation visuelle du site de deux façons diffĂ©rentes :
- « Force-Directed Directory Tree Diagram » permet dâeffectuer une visualisation de la structure du site en fonction de lâarborescence des rĂ©pertoires ;
- « Force-Directed crawl Diagram » permet dâeffectuer une visualisation du maillage du site, en fonction du niveau de profondeur des URL.
Attention cependant, « Force-Directed crawl Diagram » ne reprĂ©sente pas lâintĂ©gralitĂ© du maillage interne, mais uniquement une partie de la navigation descendante, oĂč ne sont affichĂ©s que le chemin le plus rapide via les liens pour arriver Ă chaque URL. Par exemple, si une page CatĂ©gorie est accessible depuis la page dâaccueil, mais Ă©galement via une page de sous-catĂ©gorie, câest le chemin le plus rapide (via la homepage) qui sera dessinĂ©.
Visualisation - navigation descendante
Cette fonction, largement paramétrable, permet de visualiser différentes problématiques en fonction de la configuration effectuée :
Paramétrage de la visualisation
La largeur de chaque cercle (reprĂ©sentant une URL prĂ©cise) peut reprĂ©senter diffĂ©rents KPI. Par dĂ©faut, ce diamĂštre est associĂ© Ă la profondeur de lâURL (plus le rond est petit, plus lâURL est profonde).
Le fait de pouvoir afficher en rouge (couleur modifiable) les pages identifiées comme « Non-indexable » (URL non canoniques, pages en « noindex », pages redirigées », etc.) peut mettre en avant des fuites de popularité, avec du pagerank interne diffusé de à des pages non indexées :
URL maillées mais non indexables
Â
Dans lâexemple ci-dessous, nous constatons la prĂ©sence de nombreuses pages avec une URL canonique (aprĂšs avoir survolĂ© une partie des points rouges pour avoir le dĂ©tail par URL), ce qui signifie la prĂ©sence de liens vers ces pages qui dĂ©sĂ©quilibrent la structure du site, et augmente probablement le taux de crawl sur des URL pouvant ĂȘtre considĂ©rĂ©es comme dupliquĂ©es :
Présence d'un nombre important de pages avec une balise canonique en rouge
Â
Pour isoler visuellement certaines URL en fonction de leur structure, il est possible dâutiliser des expressions rĂ©guliĂšres, via le champ suivant dans les paramĂštres de la visualisation. Ici, nous allons mettre en avant les URL qui contiennent des paramĂštres (ex : /path?cle=valeur) :
Utilisation d'expressions réguliÚres dans la visualisation
Â
Nous utilisons lâĂ©criture suivante pour indiquer que nous cherchons les URL qui contiennent « = » dans lâURL : https:\/\/.+=.+
Lâutilisation dâun mode de calcul du PageRank interne est Ă©galement possible. Il faudra au prĂ©alable lancer un « Crawl analysis » dans le menu correspondant. Avant cela, en modifiant le « Scale item » sur « Unique Inlinks », on pourra visualiser les pages peu maillĂ©es (ou Ă lâinverse les pages fortement maillĂ©es) :
Les cercles les plus larges correspondent aux pages recevant de nombreux liens uniques
Â
De la mĂȘme maniĂšre, une fois connectĂ© Ă la Search Console, on pourra visualiser de façon rapide oĂč se situent les pages qui gĂ©nĂšrent le plus de trafic (« Scale item » > « GSC clicks »), et mettre en avant les pages relativement hautes dans lâarborescence qui en gĂ©nĂšrent peuâŠ
Cette visualisation est disponible au global, mais Ă©galement Ă partir dâune URL prĂ©cise ce qui permettra une vision plus claire sur un groupe de pages :
Visualisation sur une URL spécifique
La mĂȘme visualisation pour des URL spĂ©cifiques est Ă©galement possible via un clic-droit directement sur le diagramme, puis lâoption « Focus here » :
Focus à partir d'une URL spécifique
Dans lâexemple ci-dessous, nous pouvons facilement identifier un dĂ©faut de maillage sur la version mobile du site crawlĂ©e :
Visualisation d'un défaut de maillage sur une version mobile
Ce site vitrine avec des boutiques ayant pignon sur rue possĂšde bien un lien depuis sa page dâaccueil vers le store locator, mais uniquement dans sa version pour Ordinateur. La version mobile du site possĂšde un menu diffĂ©rent, et ne propose pas de liens vers le store locator depuis la page dâaccueil. Il est nĂ©cessaire de passer par la page « Plan du site » pour accĂ©der aux boutiques, ce qui nâest pas idĂ©al dâun point de vue utilisateur, et ne facilite pas la transmission de popularitĂ© vers les pages boutiques (et dĂ©partement) via la navigation descendante.
Â
Ancres et corps dâune page
Dâautres outils de visualisation sont disponibles, dont un qui permet de mettre en avant les principales occurrences dans un contenu, via un clic-droit sur une URL, puis « Visualisation » > « Body text word cloud » :
 Visualisation des occurrences les plus fréquentes dans un contenu
Â
Pour utiliser cette fonction, il est nĂ©cessaire dâextraire lâensemble du code HTML pendant le crawl (Configuration > Extraction > Store HTML). Cela peut sâavĂ©rer pratique pour mettre en avant les principaux termes dâune page, et sâassurer quâils sont en corrĂ©lation avec les requĂȘtes cibles.
En complĂ©ment, il est Ă©galement possible de crĂ©er un nuage de tags pour mettre en avant les ancres de liens les plus utilisĂ©es vers une URL (Visualisation > Inlink anchor text word cloud). Cela permettra de favoriser les variations sĂ©mantiques via les ancres de liens, dans une optique dâamĂ©lioration du maillage interne. Dans lâexemple ci-dessous, les ancres ne sont pas les plus pertinentes en terme de transmission de sĂ©mantique :
Nuage des ancres de liens vers une page
Cela ne renforce pas le poids de la page sur des requĂȘtes plus ciblĂ©es (les mois de lâannĂ©e Ă©tant peut pertinent).
Â
Analyse approfondie avec « Crawl analysis »
Cette fonction, Ă exĂ©cuter une fois le crawl terminĂ©, permet entre autres dâexĂ©cuter un certain nombre de comparaison entre les URL trouvĂ©es via diffĂ©rents moyens, et les URL crawlĂ©es.
On dĂ©tectera ainsi les URL orphelines (URL trouvĂ©es mais ne recevant pas de liens), afin de mettre en Ă©vidence des problĂšmes de maillage (et/ou de configuration). Un calcul du pagerank interne (Link Score) pourra Ă©galement ĂȘtre exĂ©cutĂ©.
Crawl analysis
Â
Â
Voici les diffĂ©rentes comparaisons qui peuvent ĂȘtre effectuĂ©es entre les URL crawlĂ©es via des liens, et celles dĂ©couvertes par dâautres biais que des liens :
- URL de pagination (balises prev/next) ne recevant pas de liens ;
- Balises hreflang manquantes ou non maillées ;
- URL AMP qui ne répondent pas correctement ou absence de bi-directionnalité (canonical vs AMP URL) ;
- URL maillées et absentes des sitemaps, URL présentes dans les sitemaps et non maillées, URL non-indexables dans les sitemaps, etc. ;
- URL détectées dans Google Search Console ou Google Analytics (ayant potentiellement généré du trafic ou des impressions), mais non découvertes via le systÚme de liens.
Concernant les sitemaps, il aura fallu paramétrer en amont du crawl les URL de ces derniers :
Utilisation des Sitemaps dans le cadre du crawl
Pour ce qui est des outils de Google, il est possible de les connecter a posteriori (Configuration > API access), puis de lancer des requĂȘtes aux API avant de lancer la fonction « Crawl analysis » :
RequĂȘtes vers les API afin de dĂ©couvrir des URL orphelines
Pour chacun des éléments observés, de nouveaux filtres seront disponibles dans les onglets concernés. Voici un exemple pour la partie « Sitemaps » :
URL des Sitemap vs crawl : nécessité de lancer une analyse
Un fois lâanalyse de crawl lancĂ©e, on pourra identifier la prĂ©sence dâURL dĂ©tectĂ©es dans les Sitemaps, mais qui ne reçoivent pas de liens via le maillage interne, afin de mener Ă bien les optimisations adĂ©quates.
Un export de lâensemble des URL orphelines est disponible dans le menu « Report » (Orphan pages), afin de dĂ©couvrir lâensemble des URL trouvĂ©es et non maillĂ©es, ainsi que leur provenance (Sitemap, Search Console, etc.). Cette fonction offre de rĂ©elles opportunitĂ©s, afin de permettre une amĂ©lioration du maillage interne, les URL orphelines nâĂ©tant pas rares sur de nombreux sites web.
Une meilleure distribution de la popularitĂ©, tout en respectant les affinitĂ©s sĂ©mantiques entre vos pages vous permettra donc dâamĂ©liorer votre visibilitĂ©.
Saviez-vous que les outils de crawl comme Screaming Frog recelaient tant de fonctionnalités ?
Â
Â
Aymeric Bouillat, Consultant SEO senior chez Novalem (https://www.novalem.fr/)
Â
Â
Â