La recherche sur le Web ne se limite pas toujours à l'exploration des fichiers au formats HTML. D'autres possibilités (PDF, Word, Excel, Powerpoint, etc.) existent et les moteurs classiques les indexent et proposent même des syntaxes d'interrogation spécifiques. Nous les avons explorées le mois dernier. Ce mois-ci, nous allons comparer les différents outils de recherche qui utilisent le protocole FTP ainsi que les moteurs de partage de fichiers qui peuvent également, en dehors de leur image sulfureuse, nous aider dans nos investigations...

Par Christophe Deschamps


Le mois dernier nous avons passé en revue trois catégories de services permettant de récupérer des documents (PDF, PPT, DOC) et nous allons dans ce nouvel article continuer à explorer les familles d'outils utiles à ce type de recherche.

Les moteurs FTP

FTP est un protocole internet beaucoup plus ancien que le web puisque créé en 1971. C'est tout simplement l'acronyme de File Transfer Protocol (protocole de transfert de fichiers). Vérifier s'il peut encore nous être utile dans le cadre d'une recherche documentaire était donc une évidence.

L'accès à un serveur FTP se fait habituellement à partir d'un outil client spécifique comme Filezilla (https://filezilla-project.org/) ou Cyberduck (https://cyberduck.io/). Ainsi les résultats proposés doivent être copiés-collés dans ce logiciel afin de pouvoir être téléchargés.

Afin de tester ces services nous utiliserons les mêmes mots-clés que dans l'article précédent, à savoir « competitive intelligence » et « intelligence économique ». Seul problème, les expressions entre guillemets ne sont reconnues par quasiment aucun d'entre eux et les résultats peu évidents à apprécier en l'état.


Fig. 1. Différents outils de recherche FTP.


Fig. 2. Interface de recherche du moteur FTP Globalfilesearch.

Au vu de ces résultats décevants ,nous conseillons de n'utiliser les moteurs FTP qu'en fin de recherche, si aucun autres outil n'a donné de résultats et… avec des espérances limitées...

Des extensions pour rechercher sur les serveurs FTP

Est-ce tout ce que l'on peut attendre des antiques serveurs FTP ? Et bien non, des extensions pour Chrome et Firefox vont nous permettre d'aller plus loin, mais soyons clair, elles ne vont faire qu'un travail de traduction de requêtes pour interroger… Google.

En effet, sans surprise, ce dernier indexe depuis toujours les contenus des serveurs FTP qu'il découvre et peut donc être interrogé en ce sens. Attention, il n'utilise pas le protocole FTP mais les structures de dossiers laissées accessibles sur les serveurs web et sur lesquels il était courant de tomber au début des années 2000.


Fig. 3. Exemple de page Index reproduisant une arborescence FTP.

Fearch

L'extension Fearch peut être téléchargée ici :

Une fois Fearch installé dans votre navigateur :

  • Cliquez sur son logo dans votre barre d'outils ;
  • Une fenêtre apparaît :


Fig. 4. Interface de recherche de Fearch.

  • Tapez vos mots-clés ou expressions ;
  • Choisissez le type de contenus souhaité (Music, Video, Books) ;
  • Lancez la requête ;
  • Les résultats apparaissent dans Google.


Fig. 5. Résultats de la recherche lancée dans Fearch.

A la requête « competitive intelligence » nous obtenons 7 résultats pertinents et 5 qui le sont moins pour « intelligence économique ».

Simplex search

Cette extension n'existe que pour Google Chrome et peut être téléchargée ici : https://chrome.google.com/webstore/detail/simplex-search-direct-dow/pjbeoppcjalfpobcfcfcdndbjdoeikkl

Une fois installée :

  • Cliquez sur son logo dans la barre d'outils ;
  • Une fenêtre apparaît ;
  • Tapez vos mots-clés ou expressions ;


Fig. 6. Interface de recherche de Simplex Search.

  • Choisissez le type de contenu souhaité ;
  • Lancez la requête ;
  • Les résultats apparaissent dans Google.

On obtient 94 résultats pour « competitive intelligence » et 73 pour « intelligence économique ». C'est beaucoup mieux que Fearch mais il y a ici beaucoup de faux sites qui s'avèrent finalement inaccessibles. Malgré cela et sur nos deux requêtes, il s'avère globalement un peu supérieur à son concurrent.

Les sites d'hébergement et de partage de fichiers

Nous avons vu le mois dernier de nombreux services de visualisation de documents PPT ou PDF (Scribd, Slideshare) qui permettent à chacun de publier et partager ses propres contenus mais aussi de télécharger ceux des autres utilisateurs.

Il existe une autre catégorie de sites de partage de fichiers beaucoup moins ouverts, qui sont les descendants du célèbre et sulfureux Megaupload, fermé en 2012 par le FBI. Ces services proposent d'héberger des fichiers bureautiques mais s'en différencient en ce qu'ils permettent également de stocker des fichiers audio et video. Ceci explique probablement leur mauvaise réputation, mais dans ce cas comment les différencier de services comme Google Drive, Dropbox , OneDrive et bien sûr Youtube, qui proposent également le stockage et le partage/diffusion de contenus audio et video ? Les premiers sont-ils plus susceptibles d'héberger des contenus illégaux que les seconds ? Et si oui pour quelles raisons factuelles ? N'oublions pas qu'il y a eu durant l'année 2013 une importante polémique sur la récupération des fichiers légaux stockés sur Megaupload. Des étudiants auraient ainsi perdu leur travaux de thèse sans pouvoir jamais les récupérer (voir par exemple cet article de ZDNet). Le cas est tellement complexe qu'il n'a toujours pas été jugé 7 ans plus tard…

De fait, à la différence des sites de fichiers .torrent, ils ne se positionnent pas comme des services de partage de fichiers piratés. Alors peut-on rechercher dans ces services en toute légalité ? La réponse est oui, tout dépend des fichiers que vous choisirez ensuite d'y récupérer. Aucun souci s'il s'agit d'œuvres du domaine public ou proposées sous licences libres (comme Creative Commons), pour le reste vous prenez évidemment des risques.

Si vous êtes déjà allé sur des sites comme Mediafire, Turbobit ou Uploaded, vous aurez constaté que, sauf exception (4shared par exemple : https://www.4shared.com), ils ne proposent que très rarement un moteur de recherche. Pour les exploiter, il faut donc utiliser des métamoteurs ou multimoteurs spécifiques.

Ici nous avons choisi de simplifier le tableau comparatif, car  le nombre de résultats n'est définitivement pas pertinent pour au moins deux raisons :

  • Les métamoteurs et multimoteurs s'interrogent de manière différente et il serait très laborieux d'en comparer les résultats ;
  • Certains prennent en compte les expressions et d'autres non.


Fig. 7. Tableau comparatif des outils de recherche de partage de fichiers.


Fig. 8. Interface de résultats du métamoteur Filemirrors.info.

Même si les contenus présents sont très nombreux sur ces services, il est difficile d'y accéder tant les outils de recherche sont peu adaptés. Frustrant...

Globalement, excepté les extensions Fearch et Simplex, qui peuvent permettre des découvertes intéressantes, la pêche n'est pas fameuse ce mois-ci. Il fallait cependant tester ces outils pour s'apercevoir de leurs limites !

Conclusion : quels outils utiliser en priorité ?

En conclusion et après l'ensemble de ces tests, il nous semble que la stratégie à suivre pour optimiser une recherche documentaire sur le web (et hors articles scientifiques) devrait être la suivante :

  • Google avec l'opérateur « filetype : » ;
  • Un service de publication  de documents : Scribd ;
  • Un moteur de recherche vertical de documents : Findpdfdoc ;
  • Une extension de recherche de pages « Index. » : Fearch ou Simplex ;
  • Un métamoteur de recherche pour les sites de partage de fichiers : Sharedir ;
  • Un moteur FTP : Mamont.

Rendez-vous le mois prochain pour une nouvelle exploration du monde de la recherche sur Internet !


Christophe Deschamps,  Consultant-formateur : veille stratégique, intelligence économique, social KM, e-réputation, mindmapping, IST (http://www.outilsfroids.net/)