Pour en savoir plus sur les développements en cours dans ce domaine, nous avons interrogé deux responsables de projets Open Source européens. Wray Buntine (responsable d'un projet visant à créer un moteur sémantique Open Source sur une infrastructure peer to peer) et Dawid Weiss (chercheur polonais ayant contribué au développement d'un nouveau système de clustering) ont accepté de répondre à nos questions.
Wray Buntine – Directeur scientifique – Projet ALVIS (http://www.alvis.info)
Pouvez vous décrire le projet ALVIS ?
ALVIS est un projet de recherche européen visant à construire une infrastructure peer-to-peer dédiée à la recherche "sémantique"dans un environnement Open Source. Le consortium se compose de onze partenaires venant de six pays de l'Union Européenne ainsi que de la Chine et de la Suisse. Ces partenaires collaborent dans des domaines aussi variés et vastes que les topologies du réseau, les algorithmes de routage, les probabilités appliquées à la recherche de l'information, l'analyse linguistique ou encore la bioinformatique.
Les moteurs de recherche globaux nécessitent de disposer de moyens énormes. C'est pourquoi le projet a choisi de se fixer des objectifs plus modestes et auto-financés. Deux activités complémentaires sont poursuivies et intégrées : la construction d'outils ouverts pour fabriquer des moteurs de recherche de grande qualité spécialisés sur un sujet spécifique, et la mise en place d'une infrastructure compatible avec un réseau peer-to-peer. Les moteurs de recherche spécialisés seront dotés d'une certaine dose de reconnaissance sémantique basée sur une technologie d'extraction de l'information. Cela devrait satisfaire les utilisateurs que nous avons initialement ciblés, c'est-à-dire les organismes institutionnels, les groupes de recherche universitaires et les bibliothèques numériques. L'infrastructure peer-to-peer va rendre possible l'interopérabilité, le partage des ressources de recherche et la distribution des fonctionnalités de recherche. Nous souhaitons également nous appuyer sur des programmes en Open Source existants tels que Lucene, Terrier et Gate.
Qui est à l'origine du projet et quels sont les objectifs poursuivis ?
Le projet a été créé par le Professeur Henry Tirri et par le Docteur Wray Buntine en 2002. Il a pris un tour plus concret lorsque d'autres partenaires ont rejoint le projet, notamment Claire Nedellec de L'INRA, Adeline Nazarenko de l' Université Paris-Nord, Paris 13 et Exalead, la société parisienne spécialisée dans la recherche. La plupart d'entre nous sommes des fervents supporters de l'Open Source qui pensons que la recherche a besoin d'être menée de façon organisée et stratégique pour que l'Open Source devienne une réalité. De plus, nous sommes convaincus que cette recherche ne doit pas chercher à concurrencer des géants tels que Google et Yahoo ! Il faut commencer en ciblant une niche. Le bulletin de juin 2005 (volume 39) du forum SIGIR présente nos arguments en la matière, le business modèle que nous souhaiterions peut-être développer. Lorsque nous avons lancé le projet, nous pressentions que la recherche en Open Source allait faire beaucoup d'émules sur le web. Par exemple, Nutch est apparu à la même époque. Nous voulions que cette nouvelle technologie puisse s'appuyer sur un modèle réaliste capable de servir son développement.
De quels financements disposez vous ?
Le programme est co-financé par le 6ème programme-cadre de la Commission Européenne. Les 11 partenaires participent aux coûts liés au programme. Pour de plus amples informations, vous pouvez vous référer à la page web http://www.alvis.info. Vous y trouverez la liste des partenaires et des informations concernant le financement du projet.
Pouvez vous décrire les principales technologies qui ont été développées ?
Nous construisons une architecture pour que des développeurs de solutions Open Source puissent contribuer à créer des éléments d'un système. Nous ne pensons pas qu'un système de recherche monolithique ait un avenir. Il faut que divers groupes Open Source aient la possibilité de proposer leur expertise et d'apporter au projet des composants en matière de crawling, d'indexation, de traitement des résultats ou d'extraction d'information. C'est pourquoi, nous avons besoin d'une architecture et de standards ouverts capables de fédérer tous ces éléments. Certes, il existe déjà des standards de qualité mais il en faut davantage.
Les autres domaines où nous travaillons sont les suivants. Pour les moteurs de recherche spécialisés, nous assemblons et réutilisons des outils d'extraction de l'information, de hiérarchisation thématique et de ranking (basés sur le calcul des probabilités), ainsi que d'autres techniques qui devraient nous permettre de créer un "petit" système Web sémantique. Pour les systèmes peer–to-peer (P2P), le groupe EPFL [Ecole Polytechnique Fédéral de Lausanne] dirigé par Karl Aberer travaille sur une technologie capable d'adapter le peer-to-peer à nos moteurs de recherche thématiques.
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).