De nombreux articles traitent des dernières innovations dans la recherche sur Internet mais peu abordent, en revanche, le fonctionnement technique des moteurs de recherche. Nous vous proposons ici une analyse globale du fonctionnement des moteurs et des processus qui sont mis en œuvre pour traiter les documents, stocker les informations les concernant et restituer des résultats aux requêtes des utilisateurs.
Un moteur de recherche est un ensemble de logiciels parcourant le Web puis indexant automatiquement les pages visitées. Trois étapes sont indispensables à son fonctionnement :
- la collecte d'information.
- l'indexation des données collectées et la constitution d'une base de données.
- le traitement des requêtes, avec en particulier un système d'interrogation de la base de données et de classement des résultats en fonction de critères de pertinence.
Deux principaux types de contenus sont actuellement affichés par les moteurs dans leurs pages de résultats :
- les liens "organiques"ou "naturels", obtenus grâce au crawling du Web.
- les liens sponsorisés.
Nous allons nous concentrer ici en priorité sur les techniques utilisées par les moteurs pour indexer et retrouver des liens "naturels" et nous n'aborderons pas le traitement spécifique des liens sponsorisés.
Nota : Cet article constitue une première approche, la plus globale possible, du fonctionnement d'un moteur de recherche. Bien sûr, ce fonctionnement est souvent bien plus complexe lorsqu'on l'analyse en détail. Certains d'entre vous, déjà familiers du sujet, ou plus orientés vers les aspects techniques, pourront peut-être le trouver "simpliste"... Mais nous envisageons de vous proposer des articles plus précis sur certains points. N'hésitez pas à nous faire savoir si cela vous intéresse et quels "rouages" des moteurs de recherche vous semblent les plus abscons aujourd'hui, nécessitant des informations complémentaires dans les mois qui viennent... Merci !
Technologies utilisées par les principaux moteurs de recherche
En dehors des trois leaders du marché (Google, Yahoo et MSN), de nombreux moteurs n'utilisent pas leurs propres technologies de recherche mais ils sous-traitent cette partie auprès de grands moteurs.
Technologies de recherche actuellement utilisées par les principaux moteurs
Technologies de recherche | |||||||||
Moteurs anglophones
(parts de recherche – Monde - Nielsen Netratings -01/2005) |
Google (47%) | X | |||||||
Yahoo (21%) | X | ||||||||
MSN (13%) | X | ||||||||
AllTheWeb (Yahoo) | X | ||||||||
A9 (Amazon) | X | X | |||||||
AltaVista (Yahoo) | X | ||||||||
Ask Jeeves | X | ||||||||
Eurekster | X | ||||||||
Exalead | X | ||||||||
Hotbot | X | X | |||||||
Lycos | X | ||||||||
Mirago | X | ||||||||
Moteurs francophones
(parts de trafic – France - Weborama - Takezo/Brioude -01/2005) |
Google (80,14%) | X | |||||||
Yahoo (5,59%) | X | ||||||||
MSN (3,96%) | X | ||||||||
Wanadoo (3,48%) | X | ||||||||
AOL.FR (2,60%) | X | ||||||||
Free (1,96%) | X | ||||||||
Tiscali (<0,5%) | X | ||||||||
Club Internet (<0,5%) | X | ||||||||
Lycos (<0,5%) | X | ||||||||
Meceoo (Abondance) | X | ||||||||
La Poste | X | ||||||||
Ujiko (Kartoo) | X |
Sources : Abondance - Nielsen Netratings (01/2005) - Weborama - Takezo/Brioude (01/2005)
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).