DeepIndex : un nouvel outil de recherche

La sociĂ©tĂ© VirtuelPub a dernièrement mis en ligne le moteur de recherche Deepindex (http://www.deepindex.com/). Pourquoi mettre en ligne un nouvel outil Ă  une Ă©poque oĂą la tendance est plutĂ´t au resserrement de l’offre, ce marchĂ© se portant moyennement bien, subissant de plein fouet l’apathie du marchĂ© publicitaire ? Une bonne occasion pour essayer d’en savoir plus sur ce nouvel acteur de la recherche d’information en interviewant Gilbert Wayenborgh, responsable de la sociĂ©tĂ© VirtuelPub.

– Gibert Wayenborgh, pouvez-vous nous prĂ©senter en dĂ©tail le nouveau moteur DeepIndex ?

Le moteur de recherche DeepIndex se présente sous deux formes. La forme la plus classique avec un formulaire de recherche, et une forme plus assistée, avec des thèmes prédéfinis, et des mots clés prédéfinis dans le thème que nous appelons Miniportail. L’utilisateur peut rechercher un mot clé ou des combinaisons de mots clés et utiliser les opérateurs booléens. Enfin pour affiner ou limiter sa recherche, il peut rechercher dans le titre ou dans le corps du texte.

Pour terminer, nous reprenons également le contenu de la base de données de France-Sites (http://www.france-sites.com/), contenant pas moins de 50.000 sites francophones. Celle-ci sera mise en ligne d’ici quelques semaines.

L’utilisateur dispose Ă  tout moment d’une interface permettant de discuter avec les membres de DeepIndex pour critiquer par exemple nos rĂ©sultats de recherche, ou encore pour nous demander une recherche spĂ©cifique. Une Ă©quipe est prĂ©vue Ă  terme, mais tout au plus 3 Ă  4 personnes. Il est inutile  de charger financièrement l’exploitation et de faire les mĂŞmes erreurs que  d’autres outils disparus ont commis.

L’indexation est rĂ©alisĂ©e par un crawler appelĂ© DeepIndexer qui scrute quelques annuaires et qui suit ensuite tous les liens prĂ©sents. La technique qui est actuellement derrière DeepIndex est un applicatif « Open source »  (Aspseek http://www.aspseek.org ) auquel nous ajoutons nos outils internes et  systèmes ou plutĂ´t mĂ©thodes d’exploitation. L’indexation d’un site se dĂ©roule en gĂ©nĂ©ral en plusieurs phases. La première phase indexe une dizaine de pages, lors d’un deuxième passage les liens internes du site sont indexĂ©s. Le delais moyens pour une prise en compte payante est moins d’une semaine.  En version gratuite il faut attendre le « refresh », qui est actuellement trimestriel. Mais la version que nous dĂ©veloppons avec Multi Vision International doit nous  permettre une indexation beaucoup plus rapprochĂ©e.

Le robot suit les directives robots.txt et est calibré pour ne pas saturer les sites fragiles.

Techniquement il existe actuellement 2 serveurs principaux, dont l’un est hébergé en Aquitaine, et un deuxième à Montréal.

– Quelques chiffres (trafic actuel, configuration technique, taille de l’index, etc.) ?

Le trafic actuel est, vous vous en doutez, encore peu significatif, l’outil ayant Ă©tĂ© lancĂ© en juin dernier. NĂ©anmoins la progression est rapide et les partenariats Ă©tablis nous permettent de prĂ©voir des chiffres significatifs pour septembre. La configuration technique est basĂ©e sur deux serveurs avec un applicatif « Open source ». La taille de l’index est de 2.000.000 d’urls, ce qui peut paraĂ®tre modeste par rapport aux chiffres annoncĂ© dans vos colonnes. D’ici la fin de l’annĂ©e nous estimons que la taille devrait tourner autour de 20.000.000 d’urls, essentiellement francophones, mais nous prĂ©parons Ă©galement d’autres serveurs spĂ©cifiques tel qu’un serveur hispanique..

– Quel a Ă©tĂ© l’investissement financier et humain pour mettre en place un tel moteur ?

L’investissement a été essentiellement humain avant d’être financier. La configuration de base a été montée en Mars dernier, afin d’expliquer le projet et son intérêt à des partenaires. Les réels investissements ne font que commencer par une version DeepIndex redéveloppée et architecturée différemment, afin de pouvoir évoluer plus rapidement pour nous hisser dans les majors francophones rapidement. A l’heure actuelle 30 personnes sont impliquées dans le projet. Ce sont essentiellement des profils ingénieurs systèmes Unix/NT, dba, commerciaux, et 5 webmasters.

Fichier PDF tĂ©lĂ©chargeable ici (la lettre RĂ©acteur n’Ă©tait Ă  cette Ă©poque-lĂ  disponible que sous cette forme).

Ajouter un commentaire Ajouter un commentaire

Article précédent

Webchercheurs : un partenariat Webhelp / Voila / Wanadoo

Article suivant

Bruits et chuchotements (juillet 2002)