A la genèse des moteurs de recherche, on trouve plusieurs méthodes de calcul de la pertinence d'une page par rapport à une requête donnée. Et parmi ces méthodes, la plus connue est certainement celle du cosinus de Salton, expliquée et illustrée dans cet article. Il est difficile de dire si Google et Bing l'utilisent encore, mais la compréhension de cette technique, certes âgée de 40 ans, reste essentielle dans la compréhension du fonctionnement des moteurs de recherche modernes...

Cet article fait partie de la Lettre Réacteur #156 du mois de février 2014

Début de l'article :

Cosinus SaltonLes moteurs de recherche construits depuis les années 60 ont implémenté de nombreuses techniques inventées par des linguistes, et en particulier des outils de statistique linguistique. Parmi ces outils, le plus connu est sans conteste le Cosinus de Salton, utilisé en particulier dans les années 90 par feu le moteur AltaVista.

On ne sait pas vraiment si Google utilise également cet outil mathématique dans son algorithme : les techniques ont beaucoup évolué depuis, et il est probable que le moteur de recherche de Google utilise des méthodes plus « modernes » et plus sophistiquées pour classer ses pages. Mais les principes à l'œuvre dans le Cosinus de Salton sont intéressants à connaître pour tous ceux qui s'intéressent aux moteurs de recherche et leurs rouages internes.

Gerard (Gerry) Salton

Gerard Salton était un chercheur informatique de l'université de Cornell. D'origine allemande (son vrai nom est : Gerhard Anton Sahlmann, qu'il a américanisé en Gerard Salton), il a inventé le concept de « modèle vectoriel », le poids « TF*IDF » et le fameux Cosinus de Salton. Il est également à l'origine de la première implémentation pratique de ces outils dans un moteur, le fameux système « SMART » développé à l'université de Harvard. Il est décédé en 1995. Ses travaux ont inspiré de très nombreuses recherches ultérieures jusqu'à aujourd'hui.

...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).