Tout site web doit gérer à un moment donné de son existence, et de façon plus ou moins forte, la problématique des erreurs 404 (page non disponible à l'URL demandée). En SEO, un travail doit également être effectué pour éviter un crawl inutile par les robots des moteurs, mais également pour récupérer des backlinks ainsi perdus. Bien qu'un trop grand nombre d'erreurs 404 ne génère aucune pénalité de la part de Google, malgré une croyance largement répandue, il est nécessaire de traiter avec efficacité ce problème, ne serait-ce que pour améliorer l'expérience utilisateur, gagner en popularité et améliorer son indexation.
Début de l'article :
Les erreurs 404 sont souvent problématiques pour le SEO : leur origine peut être diverse, et en fonction des pages impactées, les effets pour le trafic d’un site et son positionnement dans les pages de résultats des moteurs de recherche sont parfois non négligeables. La problématique des erreurs 404 touche aujourd’hui la majeure partie des sites web. Bien qu’il soit indispensable de les surveiller dan toute stratégie SEO pour optimiser le crawl et les performances globales du site, elles ne sont pas toujours néfastes et font partie du cycle de vie de tout site web. Nous allons voir dans cet article comment mieux les appréhender et analyser le degré de gravité de ces dernières pour le SEO.
Pourquoi il faut limiter leur nombre
Pour rappel, Google attribue un certain temps machine à chaque site en fonction de différents critères (autorité, profondeur du site, nombre total de pages, etc.). Plus un site aura d'URL qui répondent avec un code erreur 404 et qui répondait en 200 auparavant, plus Google passera de temps sur des pages qu’il risque de déclasser dans les pages de résultats et moins il se concentrera à crawler et analyser les pages pertinentes d’un site. Mais, contrairement à un mythe courant dans le landerneau du SEO, il n’inflige pas directement une pénalité à un site, sous prétexte que celui-ci contient des erreurs 404, comme expliqué dans cet article : http://www.abondance.com/actualites/20150812-15406-404-et-penalites-backlinks-sur-des-soft-404-pipes-dans-les-url-quelques-infos-seo-sur-lalgorithme-google.html
Les erreurs de crawl dans la Google Search Console (voir fig. 1) permettent de visualiser rapidement l’étendue des dégâts. Au-delà des problématiques que les erreurs 404 peuvent engendrer, il faut savoir qu’une URL qui renvoie un code 404 à plusieurs reprises disparaitra des pages de résultats après quelques semaines, Google ne souhaitant pas proposer de contenus « introuvables » à ces utilisateurs, ce qui est somme toute assez logique.
Au-delà de l’aspect moteur, n’oublions pas qu’une URL renvoyant une erreur 404 peut aussi recevoir des liens en provenance d’autres sites : blogs, forums, réseaux sociaux, sites éditos,… et donc avoir un effet négatif pour l’expérience utilisateur de visiteurs provenant de sites référents.
Google peut d’ailleurs parfois remonter des erreurs 404 par rapport à des URL que ses crawlers auraient tenté de visiter, après avoir vu un élément s’apparentant à une URL dans les liens Javascript par exemple : <a href="bonjour.pdf" onClick="_gaq.push(['_trackPageview','/télécharger-bonjour']);">PDF Bonjour</a>
Google perçoit « /télécharger-bonjour » comme étant un lien, qu’il va tenter de visiter, alors qu’il s’agit ici d’un marqueur pour Google Analytics. Cela provoquera l’affichage d’une page d’erreur 404 dans les « Erreurs d’exploration » de Google Search Console, une restriction dans le robots.txt dans ce type de cas corrigera le problème. Google appelle cela des « Erreurs 404 inattendues » dans sa documentation en ligne (https://support.google.com/webmasters/answer/93641?hl=fr), nous pourrions appeler ça « crawlers trop gourmands ! » ...
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).