AprÚs avoir exploré la configuration de l'outil Screaming Frog et initié l'interprétation des crawls effectués les mois précédents, faisons place ce mois-ci à deux problématiques importantes : la présentation des derniÚres fonctionnalités de la version 14 de l'outil, ainsi que ses différentes (et nombreuses) possibilités de représentation graphique de l'arborescence d'un site. Et, là aussi, les fonctionnalités sont nombreuses !

 

TroisiĂšme article de la sĂ©rie sur le crawler Screaming Frog, aprĂšs avoir vu comment bien configurer plusieurs paramĂštres son crawl, et analyser une partie des rĂ©sultats tout en Ă©vitant des erreurs d’interprĂ©tation.

Nous verrons dans cet article les fonctionnalitĂ©s de visualisation de l’outil, ainsi que l’option d’analyse d’exploration qui permet de calculer un certain nombre de mĂ©triques post-crawl.

Mais avant tout chose, nous allons rapidement passer en revue les nouveautĂ©s de la version 14.0 de l’outil, sortie le 23 novembre dernier.

Nouveautés de la version 14.0

Modification de la couleur de l'interface (Menu Configuration > User interface > Theme)

Hormis l’arrivĂ©e de l’interface « Dark Mode » qui peut ĂȘtre plus agrĂ©able Ă  l’Ɠil, voici des nouveautĂ©s qui vous seront plus utiles d’un point de vue opĂ©rationnel:

  • PossibilitĂ© de gĂ©nĂ©rer des exports via Google Sheets en ayant prĂ©alablement connectĂ© votre compte (option Ă©galement disponible pour les crawls prĂ©programmĂ©s et leurs exports) ;
  • Extraction de l’ensemble des en-tĂȘtes http pour chaque requĂȘte : cela peut s’avĂ©rer trĂšs pratique pour identifier les directives de cache sur les URL spĂ©cifiques ;
  • PossibilitĂ© de collecter les informations contenues dans les cookies.

 

Structure de site agrégée

L’apparition d’une nouvelle colonne dans l’onglet « Internal » peut s’avĂ©rer pertinente pour certains sites : il s’agit de la possibilitĂ© de connaitre le nombre d’URL en fonction de leur structure par rĂ©pertoire (ou chemin, parfois virtuel via la rĂ©ecriture d’URL) :

 

Structure agrégée du site avec le nombre d'URL par répertoire

On visualise ainsi rapidement le nombre de pages pour chaque catégorie du site, ce qui permet de se faire une bonne idée de ses contenus.

En complĂ©ment, la partie graphique « Site structure » situĂ©e dans la colonne de droite de l’outil, permet d’avoir cette vision avec la possibilitĂ© de naviguer niveau par niveau (Ă  condition que les niveaux des rĂ©pertoires reprĂ©sentent l’arborescence rĂ©elle des contenus pour que cela ait du sens) :

Vision « Site structure > Indexability » : regroupement des pages en niveau 2 des répertoires (en fonction des URL)

La navigation entre les niveaux de la structure des répertoires (à ne pas confondre avec la profondeur réelle des contenus, visible en utilisant « Crawl depth » dans le menu déroulant de ce volet) peut se faire grùce aux boutons « + » et « - ».

On peut ainsi voir pour chaque regroupement de contenu (en fonction des rĂ©pertoires dans l’URL), diffĂ©rentes donnĂ©es dont :

  • la rĂ©partition des codes rĂ©ponses ;
  • la profondeur des contenus ;
  • l’indexabilitĂ©.

Ces donnĂ©es relatives Ă  l’indexabilitĂ© aident Ă  mieux visualiser les types d’élĂ©ments qui ne peuvent pas ĂȘtre indexĂ©s, comme les Ă©lĂ©ments contenus dans le rĂ©pertoire « /evenements/ » dans l’exemple ci-dessus.

Pour ce qui est des codes rĂ©ponses, on pourra rapidement isoler l’ensemble d’un rĂ©pertoire pour lesquels les Ă©lĂ©ments qu’il contient rĂ©pondent en 404 :

Vision "Site structure" par codes réponses

 

L’une des derniĂšres nouveautĂ©s de la version 14.0 se trouve dans le graphique de cet onglet « Site structure », et permet de visualiser les codes rĂ©ponses (et la crawlabilitĂ© restreinte via le robots.txt) des contenus en fonction de leur profondeur :

Profondeur des URL en fonction des codes réponses

Nous constatons ici un nombre particuliĂšrement Ă©levĂ© d’erreurs 4xx (403, 404, etc.) au cinquiĂšme niveau de profondeur, ainsi que de nombreuses redirections en niveau 4 et 5.

Visualisation

Depuis 2 ans, Screaming Frog dispose de différents outils de visualisations. Ils permettent de mettre en avant certaines faiblesses SEO de sites, mais encore faut il bien comprendre la façon dont fonctionnent ces outils

Maillage

Dans les diffĂ©rents menus, le menu « Visualisations » permet d’avoir une reprĂ©sentation visuelle du site de deux façons diffĂ©rentes :

  • « Force-Directed Directory Tree Diagram » permet d’effectuer une visualisation de la structure du site en fonction de l’arborescence des rĂ©pertoires ;
  • « Force-Directed crawl Diagram » permet d’effectuer une visualisation du maillage du site, en fonction du niveau de profondeur des URL.

Attention cependant, « Force-Directed crawl Diagram » ne reprĂ©sente pas l’intĂ©gralitĂ© du maillage interne, mais uniquement une partie de la navigation descendante, oĂč ne sont affichĂ©s que le chemin le plus rapide via les liens pour arriver Ă  chaque URL. Par exemple, si une page CatĂ©gorie est accessible depuis la page d’accueil, mais Ă©galement via une page de sous-catĂ©gorie, c’est le chemin le plus rapide (via la homepage) qui sera dessinĂ©.

Visualisation - navigation descendante

Cette fonction, largement paramétrable, permet de visualiser différentes problématiques en fonction de la configuration effectuée :

Paramétrage de la visualisation

La largeur de chaque cercle (reprĂ©sentant une URL prĂ©cise) peut reprĂ©senter diffĂ©rents KPI. Par dĂ©faut, ce diamĂštre est associĂ© Ă  la profondeur de l’URL (plus le rond est petit, plus l’URL est profonde).

Le fait de pouvoir afficher en rouge (couleur modifiable) les pages identifiées comme « Non-indexable » (URL non canoniques, pages en « noindex », pages redirigées », etc.) peut mettre en avant des fuites de popularité, avec du pagerank interne diffusé de à des pages non indexées :

URL maillées mais non indexables

 

Dans l’exemple ci-dessous, nous constatons la prĂ©sence de nombreuses pages avec une URL canonique (aprĂšs avoir survolĂ© une partie des points rouges pour avoir le dĂ©tail par URL), ce qui signifie la prĂ©sence de liens vers ces pages qui dĂ©sĂ©quilibrent la structure du site, et augmente probablement le taux de crawl sur des URL pouvant ĂȘtre considĂ©rĂ©es comme dupliquĂ©es :

Présence d'un nombre important de pages avec une balise canonique en rouge

 

Pour isoler visuellement certaines URL en fonction de leur structure, il est possible d’utiliser des expressions rĂ©guliĂšres, via le champ suivant dans les paramĂštres de la visualisation. Ici, nous allons mettre en avant les URL qui contiennent des paramĂštres (ex : /path?cle=valeur) :

Utilisation d'expressions réguliÚres dans la visualisation

 

Nous utilisons l’écriture suivante pour indiquer que nous cherchons les URL qui contiennent « = » dans l’URL : https:\/\/.+=.+

L’utilisation d’un mode de calcul du PageRank interne est Ă©galement possible. Il faudra au prĂ©alable lancer un « Crawl analysis » dans le menu correspondant. Avant cela, en modifiant le « Scale item » sur « Unique Inlinks », on pourra visualiser les pages peu maillĂ©es (ou Ă  l’inverse les pages fortement maillĂ©es) :

Les cercles les plus larges correspondent aux pages recevant de nombreux liens uniques

 

De la mĂȘme maniĂšre, une fois connectĂ© Ă  la Search Console, on pourra visualiser de façon rapide oĂč se situent les pages qui gĂ©nĂšrent le plus de trafic (« Scale item » > « GSC clicks »), et mettre en avant les pages relativement hautes dans l’arborescence qui en gĂ©nĂšrent peu


Cette visualisation est disponible au global, mais Ă©galement Ă  partir d’une URL prĂ©cise ce qui permettra une vision plus claire sur un groupe de pages :

Visualisation sur une URL spécifique

La mĂȘme visualisation pour des URL spĂ©cifiques est Ă©galement possible via un clic-droit directement sur le diagramme, puis l’option « Focus here » :

Focus à partir d'une URL spécifique

Dans l’exemple ci-dessous, nous pouvons facilement identifier un dĂ©faut de maillage sur la version mobile du site crawlĂ©e :

Visualisation d'un défaut de maillage sur une version mobile

Ce site vitrine avec des boutiques ayant pignon sur rue possĂšde bien un lien depuis sa page d’accueil vers le store locator, mais uniquement dans sa version pour Ordinateur. La version mobile du site possĂšde un menu diffĂ©rent, et ne propose pas de liens vers le store locator depuis la page d’accueil. Il est nĂ©cessaire de passer par la page « Plan du site » pour accĂ©der aux boutiques, ce qui n’est pas idĂ©al d’un point de vue utilisateur, et ne facilite pas la transmission de popularitĂ© vers les pages boutiques (et dĂ©partement) via la navigation descendante.

 

Ancres et corps d’une page

D’autres outils de visualisation sont disponibles, dont un qui permet de mettre en avant les principales occurrences dans un contenu, via un clic-droit sur une URL, puis « Visualisation » > « Body text word cloud » :

 Visualisation des occurrences les plus fréquentes dans un contenu

 

Pour utiliser cette fonction, il est nĂ©cessaire d’extraire l’ensemble du code HTML pendant le crawl (Configuration  > Extraction > Store HTML). Cela peut s’avĂ©rer pratique pour mettre en avant les principaux termes d’une page, et s’assurer qu’ils sont en corrĂ©lation avec les requĂȘtes cibles.

En complĂ©ment, il est Ă©galement possible de crĂ©er un nuage de tags pour mettre en avant les ancres de liens les plus utilisĂ©es vers une URL (Visualisation > Inlink anchor text word cloud). Cela permettra de favoriser les variations sĂ©mantiques via les ancres de liens, dans une optique d’amĂ©lioration du maillage interne. Dans l’exemple ci-dessous, les ancres ne sont pas les plus pertinentes en terme de transmission de sĂ©mantique :

Nuage des ancres de liens vers une page

Cela ne renforce pas le poids de la page sur des requĂȘtes plus ciblĂ©es (les mois de l’annĂ©e Ă©tant peut pertinent).

 

Analyse approfondie avec « Crawl analysis »

Cette fonction, Ă  exĂ©cuter une fois le crawl terminĂ©, permet entre autres d’exĂ©cuter un certain nombre de comparaison entre les URL trouvĂ©es via diffĂ©rents moyens, et les URL crawlĂ©es.

On dĂ©tectera ainsi les URL orphelines (URL trouvĂ©es mais ne recevant pas de liens), afin de mettre en Ă©vidence des problĂšmes de maillage (et/ou de configuration). Un calcul du pagerank interne (Link Score) pourra Ă©galement ĂȘtre exĂ©cutĂ©.

Crawl analysis

 

 

Voici les diffĂ©rentes comparaisons qui peuvent ĂȘtre effectuĂ©es entre les URL crawlĂ©es via des liens, et celles dĂ©couvertes par d’autres biais que des liens :

  • URL de pagination (balises prev/next) ne recevant pas de liens ;
  • Balises hreflang manquantes ou non maillĂ©es ;
  • URL AMP qui ne rĂ©pondent pas correctement ou absence de bi-directionnalitĂ© (canonical vs AMP URL) ;
  • URL maillĂ©es et absentes des sitemaps, URL prĂ©sentes dans les sitemaps et non maillĂ©es, URL non-indexables dans les sitemaps, etc. ;
  • URL dĂ©tectĂ©es dans Google Search Console ou Google Analytics (ayant potentiellement gĂ©nĂ©rĂ© du trafic ou des impressions), mais non dĂ©couvertes via le systĂšme de liens.

Concernant les sitemaps, il aura fallu paramétrer en amont du crawl les URL de ces derniers :

Utilisation des Sitemaps dans le cadre du crawl

Pour ce qui est des outils de Google, il est possible de les connecter a posteriori (Configuration > API access), puis de lancer des requĂȘtes aux API avant de lancer la fonction « Crawl analysis » :

RequĂȘtes vers les API afin de dĂ©couvrir des URL orphelines

Pour chacun des éléments observés, de nouveaux filtres seront disponibles dans les onglets concernés. Voici un exemple pour la partie « Sitemaps » :

URL des Sitemap vs crawl : nécessité de lancer une analyse

Un fois l’analyse de crawl lancĂ©e, on pourra identifier la prĂ©sence d’URL dĂ©tectĂ©es dans les Sitemaps, mais qui ne reçoivent pas de liens via le maillage interne, afin de mener Ă  bien les optimisations adĂ©quates.

Un export de l’ensemble des URL orphelines est disponible dans le menu « Report » (Orphan pages), afin de dĂ©couvrir l’ensemble des URL trouvĂ©es et non maillĂ©es, ainsi que leur provenance (Sitemap, Search Console, etc.). Cette fonction offre de rĂ©elles opportunitĂ©s, afin de permettre une amĂ©lioration du maillage interne, les URL orphelines n’étant pas rares sur de nombreux sites web.

Une meilleure distribution de la popularitĂ©, tout en respectant les affinitĂ©s sĂ©mantiques entre vos pages vous permettra donc d’amĂ©liorer votre visibilitĂ©.

Saviez-vous que les outils de crawl comme Screaming Frog recelaient tant de fonctionnalités ?

 

 

Aymeric Bouillat, Consultant SEO senior chez Novalem (https://www.novalem.fr/)

 

 

Â