La question de l'hébergement est souvent évoquée lorsqu'on parle de SEO, parfois à tort d'ailleurs. Le pays où le serveur est hébergé est-il important ? Faut-il se méfier de "voisins" spammeurs, présents sur la même machine ? Doit-on opter pour un serveur mutualisé, dédié ou une autre solution ? Qu'est-ce qu'un "bon" et un "mauvais" hébergeur en termes de SEO ? Cet article a pour ambition de faire un point clair et précis sur tous ces sujets, parfois assez proches des légendes urbaines...
Lorsqu’un projet de site web est lancé, ou lorsqu’un projet de migration vers une nouvelle plateforme ou une nouvelle version est initié, il est fréquent que le sujet des implications SEO du choix de l’hébergement soit tout bonnement ignoré. Pourtant, l’impact sur votre référencement d’un mauvais hébergement peut être extrêmement fort.
Quel type d’hébergement choisir ? Quels sont les points d’attention ?
Nous allons nous efforcer de répondre à ces questions au cours de cet article, en tordant le cou au passage à certaines idées reçues et quelques légendes urbaines qui ont cours dans le petit monde des référenceurs.
Fig. 1. Une salle d’un hébergeur de sites web.
La localisation des serveurs pour des sites internationaux : est-ce réellement important ?
En théorie oui. Mais pas en pratique.
La question de la présence de vos pages dans le bon index pays
En l’absence de tout autre signal, la localisation géographique des serveurs (établie à partir de leur adresse IP) est utilisée par les moteurs de recherche pour associer une page web à une localisation. Pour Google ou Bing, cela signifie que l’index pays dans lequel la page apparaîtra peut être choisi en fonction de ce critère.
En pratique, d’autres critères sont utilisés en priorité :
- Le ccTLD (la terminaison du domaine) : un .fr sera considéré comme site à afficher en priorité sur Google France, un .de sur Google Allemagne, etc. ;
- La géolocalisation déclarée dans les Webmaster Tools (Search Console) des moteurs de recherche ;
- Les informations trouvées dans les balises hreflang.
Ce qui signifie que l’emplacement géographique des serveurs n’est pas un obstacle à une présence dans le bon index pays : on peut toujours « corriger » l’indication envoyée par la géolocalisation via l’IP.
Le problème du temps de latence
Les performances de votre site web sont importantes pour l’expérience utilisateur et ont une influence sur votre référencement. Le temps que doit attendre un utilisateur pour voir la page s’afficher dépend notamment du « temps de latence », c’est-à-dire le temps nécessaire pour que les paquets d’une requête envoyée par un navigateur fassent le parcours qui les sépare du serveur web. Le temps de latence dépend de la longueur du fil de cuivre (ou de la fibre optique, ou de la transmission via satellite) à parcourir. Par exemple, si votre site est hébergé en France, ce temps de latence est important pour un visiteur chinois ou américain.
Pour diminuer ce temps de latence, il n’existe qu’une seule solution : rapprocher la machine, le serveur donc, des utilisateurs. Certains propriétaires de site choisissent ainsi d’héberger leurs sites internationaux chez différents hébergeurs locaux pour tenir compte de cette contrainte. Mais ceci est complexe, lourd et coûteux.
C’est pourquoi la solution la plus communément adoptée est d’utiliser un service de CDN (Content Delivery Network). Le plus connu est Akamai. Ces fournisseurs de service ont installé des réseaux de proxies locaux (baptisés serveurs « edge »), qui conservent en cache les pages et les ressources des sites web, et les délivrent aux utilisateurs les plus proches de la localisation des « Edges ».
Fig. 2. Schéma montrant le fonctionnement d’un CDN (ici celui de Jokercache).
Conclusion : dans la pratique, on peut donc choisir d’héberger son site où l’on veut. Pour le SEO international, on pourra toujours corriger les inconvénients techniques de telle ou telle solution.
Une exception à noter : certains pays (Russie, Chine par exemple) demandent pour des raisons administratives (contrôle, censure, protection des données personnelles) que certains sites web soient hébergés localement.
Est-ce que je dois me préoccuper de la réputation de mes « voisins », c’est-à-dire les clients du même hébergeur ?
En règle générale, non, cela n’a aucune importance.
Les pénalités pour les « rogue freehosts »
Dans des cas extrêmes, il existe bien une « pénalité » que Google inflige aux fournisseurs de service qui hébergent un grand nombre de sites violant ses consignes de qualité. Historiquement, ce type de pénalité est surtout tombé sur des hébergeurs « gratuits », qui ne contrôlaient pas leurs utilisateurs. Et ces pénalités sont rarissimes…
Le mauvais voisinage et les IP de classe C
Pour des raisons pratico-techniques, les serveurs loués chez un même hébergeur, même s’ils ont des adresses IP différentes, font souvent partie de la même série d’IP (on dit qu’ils partagent une adresse IP de classe C).
Fig. 3. Les 3 premiers octets d’une adresse IPv4 définissent la classe C.
Cette caractéristique permet en théorie d’identifier une certaine proximité entre sites : il est fréquent par exemple que des sites appartenant à la même organisation partagent la même classe C d’IP.
Depuis longtemps, on soupçonne Google d’exploiter cette information pour :
- Identifier des sites appartenant à un même spammeur
- Ou identifier des backlinks provenant de la même organisation
En fait, cette information ne peut pas à elle seule être prise en compte pour étiqueter un site comme spammy. Google tente forcément de détecter ce que l’on appelle « l’empreinte » (le « footprint ») laissée par les blackhat ou les spammeurs pour identifier les sites web leur appartenant. Mais ce point n’est qu’un critère parmi tant d’autres.
Un site légitime, hébergé sur un même serveur qu’un site de spam ou illicite, ne sera pas forcément pénalisé par cette situation. Dans ce cas pourtant, ils partagent probablement une même adresse IP. C’est vrai a fortiori s’il s’agit de sites associés à des IP différentes, mais partageant le même identifiant de classe C.
Si vous êtes un spammeur ou un blackhat, c’est différent : éliminer un élément caractérisant votre « footprint » devient important. Il sera donc important d’éviter que tous vos sites soient considérés comme « voisins ». Et choisir un ou plusieurs hébergeurs qui vous permettent d’obtenir des IP dont l’identifiant de classe C est différent devient un critère de choix.
Notons qu’avec la bascule progressive du web en IPv6, ce critère perd un peu de sa pertinence (mais pas totalement).
Fig. 4. Schéma d’une adresse IP en format IPv6.
L’influence des différents types d’hébergement
Il existe des types d’hébergement variés, mais on les classe habituellement en trois catégories :
- Le serveur dédié ;
- Le serveur mutualisé ;
- La machine virtuelle (ou VPS).
Fig. 5. En hébergement mutualisé, plusieurs sites web (appartenant à des clients différents) sont hébergés sur la même machine. La mémoire et le temps processeur de ce serveur sont donc partagés. En serveur dédié, un seul client héberge plusieurs sites sur un serveur unique. Les ressources de ce serveur sont dédiées à cet unique serveur. Avec une machine virtuelle, les ressources de plusieurs machines sont associées et réallouées pour former plusieurs « machines virtuelles », qui se comportent comme des serveurs dédiés.
Le serveur mutualisé : une solution souvent problématique pour le SEO
Dans le cas d’un hébergement mutualisé, plusieurs contraintes peuvent avoir des conséquences fâcheuses pour le SEO.
Le problème des voisins encombrants
Si votre site est hébergé sur le même serveur qu’un autre client très consommateur de ressources, il y a de fortes chances que votre site soit lent, voire régulièrement indisponible. Nous verrons plus loin que c’est un point d’attention important.
Un seul paramétrage pour tous les clients
Comme plusieurs sites sont hébergés sur un serveur commun, l’hébergeur propose un paramétrage unique pour tous ses clients. Si ce paramétrage n’est pas compatible avec vos besoins en SEO, il sera impossible de procéder à des changements. Par exemple on peut rencontrer les problèmes suivants :
- Robots.txt imposé par l’hébergeur ;
- .htaccess non modifiable ;
- Réécriture d’URL impossible ;
- Impossible d’installer un certificat et passer en https.
Etc.
Bref, le recours à un serveur mutualisé peut s’avérer pénalisant si vous souhaitez avoir un site 100% optimisé. Mais ceci est juste gênant, sans être un élément réellement bloquant.
Le serveur dédié : une compatibilité SEO assurée, mais coûteuse
A l’inverse, un hébergement de type « serveur dédié » vous permet de maîtriser le paramétrage du serveur, d’installer dessus ce que vous voulez (services, serveurs webs, langages, bases de données etc…). Il n’y a donc aucune contre-indication pour ce type d’hébergement.
Les machines virtuelles : un serveur dédié au prix d’un hébergement mutualisé
Avec le temps, les hébergeurs ont commencé à proposer une nouvelle solution, qui présente les mêmes avantages qu’un serveur dédié, mais en mutualisant les ressources de plusieurs machines, ce qui permet de limiter les coûts d’hébergement et d’offrir une grande flexibilité d’évolution : les serveurs privés virtuels (VPS).
Le client d’un hébergement de type VPS administre une machine virtuelle qui présente toutes les caractéristiques d’un serveur dédié (ou presque). L’emploi de ce type d’hébergement ne présente en principe aucun inconvénient pour le SEO. Prenez garde toutefois, car les hébergeurs, pour des raisons de sécurité, ont tendance à « bloquer » l’accès à certains paramétrages, dont certains peuvent être utiles pour le SEO.
Les VPS (qui s’appuyaient sur des machines louées par ou appartenant à l’hébergeur) sont de plus en plus supplantées par des machines encore plus virtuelles hébergées dans le cloud. Ce type d’hébergement, de plus en plus populaire, ne pose pas non plus de problèmes en théorie pour le SEO, dès lors qu’aucun des réglages utiles n’est bloqué : ce qui arrive de plus en plus rarement.
L’impact de la mauvaise qualité d’un hébergement
Même si vous avez choisi un type d’hébergement permettant de rendre votre site 100% compatible SEO, tous les hébergements ne se valent pas.
Le problème de la bande passante et des temps de latence
Le coût de la bande passante a baissé, donc il est plus rare aujourd’hui de voir aujourd’hui des hébergeurs dont la bande passante disponible est insuffisante. Une bande passante trop faible sera la cause de ralentissements et de temps de latence élevés.
Tester les temps de latence et les performances d’un futur hébergement fait partie des précautions indispensables avant de choisir un hébergeur.
La disponibilité (« uptime »)
Un mauvais hébergement se caractérise aussi par une indisponibilité répétée du serveur et des sites web hébergés. C’est évidemment très gênant pour les utilisateurs.
Pour le référencement, il faut que ces indisponibilités soient très prolongées (plusieurs jours), ou répétées (plusieurs fois par jour) pour commencer à voir un véritable impact pour le SEO. Mais évidemment, un taux de disponibilité élevé fait partie des critères d’un bon hébergement pour le SEO.
Les problèmes de sécurité
Le principal problème aujourd’hui avec des hébergements « low cost » et/ou de mauvaise qualité, ce sont les problèmes de sécurité. Dans le meilleur des cas, une attaque DDos peut provoquer une indisponibilité prolongée des serveurs.
Dans le pire des cas, vos sites peuvent être hackés parce que l’hébergeur aura oublié de mettre à jour un composant, où aura laissé une « backdoor » ouverte permettant d’installer un logiciel malicieux sur votre serveur.
Associer un domaine à votre site web
Attention, certains hébergeurs ne vous permettent pas d’avoir des URL associées à votre domaine. Cela peut arriver en particulier avec des services gratuits. C’est évidemment handicapant pour le SEO.
Hébergement et infrastructure
Les sites web demandent de plus en plus la mise en place d’infrastructures complètes adaptées. Classiquement, on retrouve les composants suivants :
- Serveurs de bases de données, dédiés, ou sous formes de « shards » (serveurs de bases de données virtualisées) ;
- Serveurs frontaux multiples, permettant de supporter la charge ;
- Système de caches et de reverse proxies, pour diminuer la charge supportées par les frontaux et/ou les serveurs de données ;
- Load balancers (dispositif de répartition de charge entre les différents composants d’une architecture redondante) ;
- Serveurs edge et CDN : pour améliorer les performances des sites internationaux.
Fig. 6. Un schéma montrant une architecture classique pour un site web à forte volumétrie de données, forte audience.
Certains hébergements permettent une mise en place aisée de ce type d’architecture, mais pour d’autres, des contraintes peuvent apparaître, avec des conséquences fâcheuses pour le SEO. Une architecture mal dimensionnée, mal paramétrée, ou inappropriée, cause le plus souvent :
- Des problèmes d’exploration par les moteurs de recherche : mauvaise gestion des urls, des 404, des 30x, duplicate content de type DUST etc. ;
- Des problèmes de performances : indisponibilités, erreurs 50x etc.
Fig. 7. Dans une architecture de site web, la base de données est souvent le « maillon faible ». Les problèmes de surcharge des serveurs proviennent souvent des requêtes sur les bases de données. Dans une moindre mesure, la génération des pages web à l’aide d’un langage serveur crée également de la charge. Un serveur hébergeant une base de données ne se paramètre pas comme un serveur hébergeant un serveur web, donc on les sépare souvent dans les architectures.
Fig. 8. Pour un site web très visité, séparer les serveurs « front » générant les pages de la base de données ne suffit pas. On utilise donc plusieurs « frontaux » et plusieurs serveurs de bases de données. A chaque visite, un dispositif de répartition de charge dispatche les requêtes en fonction de la charge des serveurs. Ces « load balancers » peuvent être des boîtiers physiques ou des logiciels..
Le reverse proxy, l’élément clé de l’infrastructure d’un site web performant
Pour garantir de bonnes performances, et limiter le dimensionnement de l’infrastructure pour un « gros » site web, le recours à un serveur proxy est une solution classique. On le retrouve dans de nombreuses architectures.
Il faut toutefois que l’hébergement autorise l’installation de ces solutions et permette un paramétrage correct. Dans le cas contraire, on retrouvera les problèmes d’exploration et de performances évoqués plus haut.
Fig. 9. Schéma montrant le principe d’un « reverse proxy » (cache inversé en français). Le reverse proxy est soit hébergé sur une machine distincte, soit au même endroit que le serveur web. Le reverse proxy (ici une solution Varnish) conserve une copie en cache des pages web. Si une requête appelle une page existant dans le cache, et si la page est à jour, c’est le reverse proxy qui renvoie la page. La page étant précalculée, les performances sont améliorées, et les serveurs frontaux ne sont pas sollicitées. Ces derniers ne sont mis à contribution pour générer la page que si l’url appelée ne figure pas dans le cache, ou si la page est obsolète.
Choisissez un bon hébergeur pour garantir de bonnes performances SEO
En conclusion, même si certains problèmes habituellement évoqués relèvent plus de la légende urbaine que de réels obstacles impactant sérieusement le SEO, le type et la qualité de votre hébergement reste un sujet à ne pas sous-estimer.
Le problème principal est que l’évolution de la technologie a conduit à sophistiquer de plus en plus les modes d’hébergement, mais aussi et surtout les architectures et les infrastructures des sites web. Et ce sont des sujets très techniques que tout le monde ne maîtrise pas.
Donc, outre la qualité de l’hébergement, le véritable point d’attention réside dans ces questions d’infrastructures : mon hébergeur me permettra-t’il d’avoir une architecture adaptée et de la paramétrer correctement. Ou va-t-il me créer des contraintes ?
Ces sujets demandent une expertise particulière. Si vous ne maîtrisez pas ces domaines, il n’y a qu’une seule chose à faire : faites-vous conseiller par des experts !
Phlippe Yonnet
Directeur Général de l'agence Search-Foresight, groupe My Media (http://www.search-foresight.com)