La notion de "machine learning" ou "apprentissage automatique" est de plus en plus utilisée dans les algorithmes des moteurs de recherche et notamment dans le cadre de la lutte contre le spam. AInsi, plusieurs indices laissent à penser que Google Panda est un filtre basé sur ces techniques d'apprentissage automatique. Pour en savoir plus sur ce sujet, nous vous proposons un article qui a pour but de vous expliquer, de la façon la plus simple possible, les caractéristiques de ce type d'algorithme et leurs applications au quotiden par les moteurs de recherche. Mieux connaître, mieux comprendre, permet également de mieux gérer certaines situations...

Cet article fait partie de la Lettre Réacteur #127 du mois de juin 2011

Début de l'article :

Le "machine learning" (pour "apprentissage automatique", parfois appelé également "apprentissage artificiel") est un domaine de la science informatique qui s'est révélé extraordinairement prolifique depuis une quinzaine d'années. C'est en particulier l'une des disciplines de l'intelligence artificielle dont les applications pratiques se sont le plus répandu dans notre vie quotidienne. On retrouve des algorithmes d'apprentissage automatique dans de nombreux dispositifs de reconnaissance de forme, dans des logiciels d'assistance médicale, ainsi que dans la robotique …

Mais l'apprentissage automatique permet également de résoudre de manière élégante des problèmes complexes qui se posent aux moteurs de recherche. De nombreux travaux de recherche, datant parfois de plus de dix ans, ont exploré cette voie et démontré que le "machine learning" était une voie intéressante pour améliorer les algorithmes des moteurs, en particulier pour identifier les pages de web spam et améliorer de manière subtile la pertinence des résultats.

Nous verrons que quelques indices peuvent laisser penser que Google utilise déjà activement ces approches dans son algorithme, et que Panda, en particulier, présente des caractéristiques qui font penser à une approche de type "machine learning".

Qu'est-ce que l'apprentissage automatique ?

L'apprentissage automatique est une approche radicalement différente dans l'écriture de programmes informatiques permettant de résoudre des problèmes complexes.

Dans l'approche traditionnelle, l'objectif est prévoir et de décrire le type de données qui vont alimenter le programme et de programmer les traitements sur ces données. Cela signifie que l'on est en mesure de connaître à l'avance les caractéristiques des données en entrée, et les lois à appliquer à ces données pour obtenir le comportement souhaité du programme.

...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).