De plus en plus de technologies Open Source sont utilisées pour développer des outils de recherche (annuaires et moteurs). Nous vous proposons ici un état des lieux de l'utilisation des technologies "libres" par les moteurs, avec une présentation des technologies les plus répandues et des outils qui les ont adoptées.

L'Open Source est apparu en 1984 avec le lancement par Richard Stallman du projet GNU (acronyme de "GNU's Not UNIX) qui visait à créer un système d'exploitation "libre" et gratuit. De très nombreuses communautés de développeurs "bénévoles" ont ensuite essaimé dans le monde, évoluant pour certaines en communautés de contributeurs constituées en société.

Les applications en Open Source renvoient à des solutions dont l'accès au code source est autorisé par leurs auteurs afin de faciliter le développement de logiciels dérivés. Ces solutions sont le plus souvent développées selon un mode de travail collaboratif, une équipe "pilote" étant chargée de superviser le projet et la qualité des développements. Cette organisation permet de produire des logiciels dont le coût est limité et la technicité élevée.

Chacun est libre d'utiliser une solution en Open Source et de partager avec la communauté les améliorations qu'il apporte au produit. Le support technique est en général assuré par les utilisateurs eux-mêmes ou par les développeurs (par le biais de listes de discussion notamment).

Annuaire Open Directory Project (DMOZ)

L'Open Directory Project ou DMOZ (http://dmoz.org/) est le plus important annuaire de sites Web édités par des êtres humains bénévoles. Cet annuaire a été créé en 1998 dans l'esprit du mouvement Open Source, le nom DMOZ étant un raccourci pour Directory Mozilla.

La consultation de l'annuaire ou l'utilisation de son répertoire par les autres outils de recherche sont entièrement gratuites. L'ODP fournit son contenu au format RDF (Resources Description Framework), un format qui est une variante du XML. Les utilisateurs doivent ensuite utiliser leur propre script pour pouvoir exploiter ces données.

Le contenu de l'annuaire est "ouvert". On utilise d'ailleurs l'expression "Open Content" pour définir l'ODP et non "Open Source" car si le contenu est "ouvert", la base de données reste un système propriétaire.

A noter l'existence d'un autre annuaire appelé Zeal (http://www.zeal.com) qui s'inspire du principe de l'Open Directory puisqu'il est fondé sur le bénévolat des éditeurs. Racheté en 2000 par Looksmart, cet annuaire n'est toutefois pas un outil "Open Content" puisque l'utilisation des données par des tiers n'est pas autorisée.

Moteurs de recherche "complets" en Open Source

Panorama des solutions disponibles

Solution (URL) Pays - Année Auteur(s) Langage
ASPseek (http://www.aspseek.org/) US SWsoft C++
DataParkSearch (http://www.dataparksearch.org/) US - 2003 Maxim Zakharov C
Egothor (http://www.egothor.org/) Rép. Tchèque - 1997 Leo Galambos Java
Glimpse / WebGlimpse (http://webglimpse.net/) US - 1997 Internet WorkShop C / Perl
ht://Dig (http://www.htdig.org/) US - 1995 San Diego State University C++
Isearch (http://www.etymon.com/tr.html) US - 1994 Nassib Nassar C++
MnoGoSearch (http://mnogosearch.org/) Russie - 1998 Lavtech C
Namazu (http://www.namazu.org/) Japon - 2000 Namazu Project C / Perl
Nutch (http://www.nutch.org/) US - 2003 Doug Cutting Java
Perlfect Search (http://perlfect.com/freescripts/search/) UK - 1997 Perlfect Solutions Perl
PHPDig (http://www.phpdig.net/) US - 2001 Jelsoft Enterprises PHP
phpMySearch (http://web4.hm/phpmysearch/) Allemagne Webagentur web4.hm PHP
Zebra (http://indexdata.dk/zebra/) Danemark 1994 Index Data XML

Nutch

Lancé en 2003 aux Etats-Unis par Doug Cutting, l'un des anciens architectes du moteur Excite, Nutch est un moteur de recherche en Open Source. Ce moteur, qui est l'un des plus connus actuellement, s'est fixé pour objectif de contrecarrer deux "défauts" du marché des outils de recherche "commerciaux", à savoir la domination sur le marché de trois acteurs (MSN, Yahoo et Google) et le manque de transparence des critères de classification des résultats.


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).