Nota : cet article a été écrit sur la base des informations fournies par l'équipe d'Echo qui gère le moteur de recherche Voila dans ses locaux de Sophia Antipolis. Toutes les informations indiquées ci-dessous ont été vérifiées, annotées, corrigées et validées par l'équipe d'Echo. Qu'ils soient ici remerciés de leur aide et du temps qu'ils ont passé à m'expliquer le fonctionnement de leur "bébé".
Présentation
-----------------------------------
La dernière version du moteur de recherche Voila (intitulée "KE" pour "Knowledge Engine") a été entièrement réécrite par rapport à la première version, lancée avec le moteur Voila en juillet 1998. Cette version "KE" a demandé deux années de travail à une cellule de quatre développeurs situés chez Echo, à Sophia Antipolis, où sont également hébergés les serveurs de Voila, entre autres.
L'index de Voila comporte aujourd'hui 12,9 millions de pages francophones et en contiendra prochainement beaucoup plus (chiffre encore indéfini, certainement supérieur à 20 millions de documents). Une "vague" de prise en charge de nombreux nouveaux sites est programmée pour bientôt (jusqu'à maintenant, le nombre d'url était limité dans l'index, mais cette limite va "sauter" très prochainement).
La nouvelle version du moteur est donc maintenant en ligne et pleinement opérationelle sur le site de Voila (http://www.voila.fr/). Elle sera implantée sur le site de Wanadoo (http://www.wanadoo.fr/bin/frame2.cgi?s=recherche) dans les prochaines semaines (restons prudents... ;-)). Les réponses moteur seront alors exactement les mêmes sur les deux outils. Une stratégie de montée en charge progressive des accès au moteur est la cause de ce décalage progressif entre les deux portails.
Facteurs bloquants à la soumission
-----------------------------------
Lorsque vous soumettez un site web au moteur Voila (http://www.voila.fr/Submit/), un certain nombre de facteurs peuvent entrer en ligne de compte et favoriser - ou bloquer - le référencement de vos pages. En voici une description :
* Pages dynamiques : les pages réalisés en Cold Fusion (suffixe .cfm) et en PHP (suffixes .php, .php3...) ne sont pas prises en compte du tout. En ce qui concerne les pages ASP, seule la page d'accueil du site (default.asp) est indexée. Les pages en .shtml sont prises en compte.
* URLs exotiques : les pages ayant une url contenant des caractères dits "exotiques" comme, notamment, le point d'interrogation (?), ne sont pas prises en compte.
* Pages graphiques : pour être reconnues par l'analyseur linguistique de Voila (qui n'accepte que les pages en langue française), le code HTML de la page web doit contenir assez de mots et de phrases en "bon français" pour être acceptée. Cela signifie que si une page est entièrement graphique à l'écran (composée uniquement d'images), la balise Meta Description devra être excellemment travaillée car elle sera le seul point de repère de l'analyseur linguistique pour y repérer des phrases en français. En effet, dans le cadre de cette reconnaissance, l'analyseur linguistique ne recherche pas uniquement des mots isolés issus d'un dictionnaire, mais bien des phrases construites selon une syntaxe significative de la langue de Molière. Cela signifie qu'une simple liste de mots clés, comme celle de la balise Meta Keywords, ne suffira pas à accepter un document HTML, puisqu'elle ne contient pas de véritable phrase de type "sujet - verbe - complément". Il est donc essentiel que la balise Meta Description d'une page très graphique contienne au minimum 150, et idéalement 250 caractères et surtout des phrases écrites en français "intelligible".
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).