Un point sur les brevets : Le Page Rank de Google

Nous en avons parlĂ© le mois dernier dans cette lettre, Google dĂ©tient un certain nombre de brevets  auprès de l’USPTO, organisme gĂ©rant les brevets aux Etats-Unis. Larry Page, co-fondateur de Google, est propriĂ©taire (pour The Board of Trustees of the Leland Stanford Junior University) du brevet dĂ©nommĂ© « Method for node ranking in a linked database » (numĂ©ro 6,285,999), qui dĂ©crit le principe du PageRank  (http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&p=1&u=/netahtml/search-bool.html&r=1&f=G&l=50&co1=AND&d=ptxt&s1=’Page+Lawrence’.INZZ.&OS=IN/ »Page+Lawrence »&RS=IN/ »Page+Lawrence« ). On peut d’ailleurs s’Ă©tonner que ce brevet n’appartienne pas Ă  Google mais Ă  l’universitĂ© de Stanford. Si Larry Page s’en allait de Google, qu’adviendrait-il de ses algorithmes de pertinence, fortement basĂ©s sur ce brevet ? Le mot « Google » n’est pas Ă©noncĂ© une seule fois dans le texte de ce brevet…

Nous nous sommes penchĂ© de façon approfondie sur les explications fournies sur le site de l’USPTO au sujet de ce brevet, afin de mieux comprendre les mĂ©canismes de classement de pertinence de Google.

Voici ce qu’il y est expliquĂ© : l’invention prĂ©sentĂ©e dans le document se rapporte Ă  l’analyse de l’interconnectivitĂ© de documents dans des bases de donnĂ©es comparables au Web. Plus particulièrement, elle se rapporte Ă  la façon de donner des classements, des notes, Ă  des « noeuds » de ces bases de donnĂ©es.

Le document relate tout d’abord un bref historique de la façon dont les algorithmes des moteurs de recherche ont Ă©tĂ© imaginĂ©s depuis le dĂ©but du web, selon certains critères de pertinence :

– Nombre d’occurrence du mot demandĂ©.

– Date de dernière modification du document.

– ProximitĂ© des termes demandĂ©s entre eux dans le document.

– Etc.

La première conclusion est que ces seules méthodologies ne sont pas assez précises pour fournir des résultats très pertinents. De plus, elles sont potentiellement fortement sujettes au spam.

Le projet HyperLink Search Engine (qui se trouvait Ă  l’adresse http://rankdex.gari.com/, mais celle-ci ne rĂ©pond plus) est citĂ© par Larry Page comme l’un des premiers outils de recherche Ă  avoir utilisĂ© l’analyse des liens entrants d’une page pour identifier du contenu pertinent. Cet outil utilisait le texte du lien pointant vers le document pour caractĂ©riser la pertinence de ce dernier. Exemple :

Si un document A a mis en place un lien vers un document B avec le texte indiqué (le lien est proposé sur le mot « assurance »), le document B sera bien classé sur le mot clé contenu dans le texte du lien du document A (donc, ici, « assurance »).

Cette idĂ©e d’associer la pertinence d’un document au texte des liens pointant vers lui avait Ă©tĂ© implĂ©mentĂ©e dans un premier temps sur l’outil de recherche World Wide Web Worm (http://www.inf.utfsm.cl/~vparada/html/wwww.html), un très ancien (Ă  l’Ă©chelle de l’Internet) moteur. Le but Ă©tait de se servir non pas du contenu de la page en question pour la classer, mais plutĂ´t de celui des pages pointant vers elle. IngĂ©nieux…

Un calcul basé sur la récursivité

Le brevet dĂ©posĂ© par Larry Page reprend l’idĂ©e de l’analyse des liens vers un document. Dans un premier temps, et de façon basique, il dĂ©finit, pour un document A, un « taux de citation » r(A) Ă©gal au nombre N de pages ayant placĂ© un lien vers lui :

r(A)=N

Mais, dans un univers hĂ©tĂ©rogène comme le Web, cette dĂ©finition simpliste n’est pas satisfaisante. Il est nĂ©cessaire d’aller plus loin et de ne pas noter la simple quantitĂ© des liens, mais Ă©galement leur « qualité ». C’est donc ici qu’entre en lice la notion de rĂ©cursivitĂ© du calcul du PageRank : le PageRank d’une page dĂ©pend non seulement du nombre de liens pointant vers elle, mais Ă©galement du PageRank des documents qui les contiennent.

Fichier PDF tĂ©lĂ©chargeable ici (la lettre RĂ©acteur n’Ă©tait Ă  cette Ă©poque-lĂ  disponible que sous cette forme).

Ajouter un commentaire Ajouter un commentaire

Article précédent

Les outils de recherche d'images (1ère partie)

Article suivant

Les balises Meta sur le Web francophone : une Ă©tude statistique