L'outil de recherche Voila.fr a connu de nombreux changements depuis notre dernier article à son sujet (datant d'octobre 2000) dans cette lettre. Il était temps de faire un point sur les développements passés, présents et... à venir, sachant qu'un nouvel article sur l'outil de recherche vous sera proposé d'ici quelques mois, lorsque bon nombre de projets et fonctionnalités en cours auront été intégrés de façon opérationnelle sur l'outil (ils sont pour la plupart en test sur le "laboratoire" de Voila, "Voila pour les Geeks" à l'heure actuelle, voir plus loin).
Taille de l'index ~~~~~~~~~~~~
L'index actuel est composé de 58 millions de pages en langue française. Il est constitué sur la base d'un index plus global de 70 millions de documents, dédoublonné pour en enlever les pages identiques, les sites miroirs et les tentatives de spam (nombreuses et variées, voir plus loin).
Le délai de rafraîchissement de l'index est revenu à J+7, après quelques déboires. Ce délai a bien fonctionné de mars à septembre 2001. Puis, l'équipe technique s'est trouvée confrontée à un problème technique (capacité des disques durs disponibles), ce qui a entraîné un "trou" dans les mises à jour entre septembre et décembre 2001. Le problème technique est aujourd'hui résolu et les indexations à J+7 ont repris. Ce délai comprend à la fois la prise en compte des urls soumises sur l'interface de soumission manuelle ET le rafraîchissement des documents déjà présents dans l'index. En règle générale, ces mises à jour se font le mardi, même s'il ne s'agit pas d'une règle stricte. D'autre part, un site web qui a été intégré dans l'annuaire de Voila (le Guide) est automatiquement crawlé dans le moteur, même s'il n'est pas soumis manuellement.
5 à 6 millions de documents sont crawlés chaque nuit. Notons que, sur ce chiffre, 300 000 en moyenne ne "répondent pas", le plus souvent du fait d'une indisponibilité du serveur. Dans ce cas, cette indisponibilité est notifiée mais l'url ne disparaît pas de l'index. En revanche, au bout de trois indisponibilités consécutives, la page est ôtée de l'index, mais peut être resoumise par la suite sans problèmes (elle n'est pas black-listée).
Voila ne s'impose pas de limites dans la profondeur de son crawl : un site web peut être entièrement pris en compte, quel que soit le nombre de niveaux d'arborescence qu'il propose. Seuls certains sites peuvent poser problème s'ils ne répondent pas assez vite aux sollicitations du spider (comme ceux de certains grands groupes de presse que nous ne nommerons pas ici ;-))).
Critères de pertinence de Voila ~~~~~~~~~~~~~~~~~~~~~~
Les critères de pertinence de Voila à l'heure actuelle sont les suivants, par ordre d'importance décroissante :
- Nom de domaine : il s'agit du critère numéro un en ce moment. Sur le mot clé "voiture", les sites voiture.com et location-voiture.com seront automatiquement bien classés (hors indice de popularité, voir plus loin). Seul le nom de domaine est pris en compte, pas le sous-domaine. Par exemple, le mot clé "boutique" ne sera pas pris en considération pour le site boutique.abondance.com. Pour cette dernière adresse, seul le terme "abondance" est considéré comme pertinent pour Voila. Cette mesure a été prise car le spam devenait un peu trop "violent" dans ce domaine (c'est le cas de le dire...), certains sites déployant des galaxies de sous-domaines pour référencer leurs sites sur certains mots clés plus ou moins pertinents par rapport à leur activité.
- Titre (balise TITLE) : critère numéro 2. Classique...
- Densité de mots : critère numéro 3. Voila ne prend en compte que les six premières occurrences dans le fichier HTML d'un mot demandé (autrefois, la limite était à deux). Cependant, en plus de ce critère, la densité de mot (le nombre de fois où le mot clé est trouvé dans la page par rapport au nombre total de mots à l'intérieur du document) a également une importance. Si le mot demandé est très souvent présent dans la page, la densité sera prise en compte pour "réévaluer" le score dû au nombre de fois où le terme aura été identifié (donc certainement 6).
- Texte visible : critère numéro 4. Le contenu textuel d'une page est, bien entendu, très important sur Voila, ainsi que sa mise en exergue, notamment les balises <Hn> (<H1> à <H6>), le gras (<B>... </B>) et le fait que le texte fasse partie d'un lien (<A>... </A>). La taille du texte au travers de la balise <FONT SIZE> n'est pas prise en compte, de même que les feuilles de style. Les options ALT des balises <IMG> sont acceptées et indexées, mais pas les commentaires. D'autre part, plus les mots importants (termes demandés dans la requête de l'internaute) seront "en haut du code HTML", plus le "scoring" de ce document sera élevé.
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).