Nous continuons notre série d'articles sur les outils de recherche spécialisés sur certains formats spécifiques de fichiers ou de données : image, actualité, fichiers PDF, etc. Au cours des mois précédents, nous avons étudié les moteurs de recherche d'images avec les outils de recherche traditionnels (Google, Yahoo!, Lycos, etc.), les outils spécialisés (Ditto, PicSearch, Corbis) et les métamoteurs (Ithaki, Mamma, Fazzle, Ixquick et Metahoo).
Ce mois-ci, nous étudierons les outils de recherche qui permettent d'effectuer des requêtes spécifiquement sur les fichiers PDF.
Nous avons sélectionné les moteurs de recherche suivants :
- Google (http://www.google.fr/). Sa recherche avancée (http://www.google.fr/advanced_search?hl=fr) propose le filtre intitulé "Limiter les résultats au format de fichier", puis le choix "Adobe Acrobat PDF (.pdf)". Il est également possible d'utiliser la fonction filetype:pdf. Exemple : confidentiel filetype:pdf
- Fast/AllTheWeb (http://www.alltheweb.com/). Sa recherche avancée (http://www.alltheweb.com/advanced) propose le filtre intitulé "File Format - Only find results that are", puis le choix "Adobe PDF (.pdf)". Comme pour Google, il est également possible d'utiliser la fonction filetype:pdf. Exemple : confidentiel filetype:pdf
- AltaVista (http://www.altavista.fr/). Sa recherche avancée (http://fr.altavista.com/web/adv) propose le filtre intitulé "Type de fichier :", puis le choix "Seulement fichier PDF". Comme pour Google et AllTheWeb, il est également possible d'utiliser la fonction filetype:pdf. Exemple : confidentiel filetype:pdf
- Voila (http://www.voila.fr/). Pas de possibilité avec la recherche avancée, mais il est possible d'utiliser la fonction path:pdf pour restreindre sa recherche à ce type de fichier. Exemple : confidentiel path:pdf
- SearchPDF (http://searchpdf.adobe.com/). Moteur de recherche "officiel" d'Adobe.
La recherche avancée d'Inktomi, via HotBot (http://www.hotbot.com/adv.asp?prov=Inktomi&tab=web) propose le filtre intitulé "Page content", puis le choix "PDF (Acrobat)". Mais les résultats retournés sont en fait les pages qui contiennent un lien vers un document PDF. Le filtre proposé n'est donc pas spécifiquement sur le format PDF lui-même, c'est pourquoi nous n'avons pas inclus ce moteur dans notre comparatif.
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).