La société VirtuelPub a dernièrement mis en ligne le moteur de recherche Deepindex (http://www.deepindex.com/). Pourquoi mettre en ligne un nouvel outil à une époque où la tendance est plutôt au resserrement de l'offre, ce marché se portant moyennement bien, subissant de plein fouet l'apathie du marché publicitaire ? Une bonne occasion pour essayer d'en savoir plus sur ce nouvel acteur de la recherche d'information en interviewant Gilbert Wayenborgh, responsable de la société VirtuelPub.

- Gibert Wayenborgh, pouvez-vous nous présenter en détail le nouveau moteur DeepIndex ?

Le moteur de recherche DeepIndex se présente sous deux formes. La forme la plus classique avec un formulaire de recherche, et une forme plus assistée, avec des thèmes prédéfinis, et des mots clés prédéfinis dans le thème que nous appelons Miniportail. L’utilisateur peut rechercher un mot clé ou des combinaisons de mots clés et utiliser les opérateurs booléens. Enfin pour affiner ou limiter sa recherche, il peut rechercher dans le titre ou dans le corps du texte.

Pour terminer, nous reprenons également le contenu de la base de données de France-Sites (http://www.france-sites.com/), contenant pas moins de 50.000 sites francophones. Celle-ci sera mise en ligne d’ici quelques semaines.

L’utilisateur dispose à tout moment d’une interface permettant de discuter avec les membres de DeepIndex pour critiquer par exemple nos résultats de recherche, ou encore pour nous demander une recherche spécifique. Une équipe est prévue à terme, mais tout au plus 3 à 4 personnes. Il est inutile  de charger financièrement l'exploitation et de faire les mêmes erreurs que  d'autres outils disparus ont commis.

L’indexation est réalisée par un crawler appelé DeepIndexer qui scrute quelques annuaires et qui suit ensuite tous les liens présents. La technique qui est actuellement derrière DeepIndex est un applicatif "Open source"  (Aspseek http://www.aspseek.org ) auquel nous ajoutons nos outils internes et  systèmes ou plutôt méthodes d'exploitation. L’indexation d’un site se déroule en général en plusieurs phases. La première phase indexe une dizaine de pages, lors d’un deuxième passage les liens internes du site sont indexés. Le delais moyens pour une prise en compte payante est moins d'une semaine.  En version gratuite il faut attendre le "refresh", qui est actuellement trimestriel. Mais la version que nous développons avec Multi Vision International doit nous  permettre une indexation beaucoup plus rapprochée.

Le robot suit les directives robots.txt et est calibré pour ne pas saturer les sites fragiles.

Techniquement il existe actuellement 2 serveurs principaux, dont l’un est hébergé en Aquitaine, et un deuxième à Montréal.

- Quelques chiffres (trafic actuel, configuration technique, taille de l'index, etc.) ?

Le trafic actuel est, vous vous en doutez, encore peu significatif, l’outil ayant été lancé en juin dernier. Néanmoins la progression est rapide et les partenariats établis nous permettent de prévoir des chiffres significatifs pour septembre. La configuration technique est basée sur deux serveurs avec un applicatif "Open source". La taille de l’index est de 2.000.000 d’urls, ce qui peut paraître modeste par rapport aux chiffres annoncé dans vos colonnes. D’ici la fin de l’année nous estimons que la taille devrait tourner autour de 20.000.000 d’urls, essentiellement francophones, mais nous préparons également d'autres serveurs spécifiques tel qu'un serveur hispanique..

- Quel a été l'investissement financier et humain pour mettre en place un tel moteur ?

L’investissement a été essentiellement humain avant d’être financier. La configuration de base a été montée en Mars dernier, afin d’expliquer le projet et son intérêt à des partenaires. Les réels investissements ne font que commencer par une version DeepIndex redéveloppée et architecturée différemment, afin de pouvoir évoluer plus rapidement pour nous hisser dans les majors francophones rapidement. A l’heure actuelle 30 personnes sont impliquées dans le projet. Ce sont essentiellement des profils ingénieurs systèmes Unix/NT, dba, commerciaux, et 5 webmasters.

Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).