La recherche sur le Web ne se limite pas toujours à l'exploration des fichiers au formats HTML. D'autres possibilités (PDF, Word, Excel, Powerpoint, etc.) existent et les moteurs classiques les indexent et proposent même des syntaxes d'interrogation spécifiques. Mais bien d'autres moteurs verticaux sont disponibles et permettent parfois une exploration plus approfondie du Web pour les identifier. Cet article a pour but de les lister et de les comparer, car on trouve de tout à ce niveau aujourd'hui...
Les documents bureautiques sont présents en masse sur le Web et les moteurs de recherche généralistes comme Google et Bing y donnent un bon accès. Il existe cependant de nombreuses possibilités que nous ne pensons pas toujours à exploiter lorsque la recherche initiale n’a pas donné les résultats attendus.
Nous ne nous intéresserons cependant pas ici aux outils orientés spécifiquement sur la recherche d’informations scientifiques et techniques ou encore à ceux permettant de rechercher des documents issus de « leaks ».
Les moteurs généralistes et les métamoteurs
Afin de pouvoir comparer les résultats des différents types de services proposés ici, nous utiliserons pour chacun la requête « competitive intelligence ».
Google (https://www.google.com/)
Google est le premier moteur, à notre connaissance, à avoir proposé un opérateur permettant d’obtenir des documents bureautiques. Il s’agit bien sûr de « filetype: » auquel on accole l’extension du type de fichier que l’on souhaite obtenir.
Par exemple : "competitive intelligence" filetype:pdf
On pourra ainsi rechercher également des fichiers :
- Word : doc ou docx (attention la requête « doc » ne remonte pas de « docx », il faut donc faire deux requêtes pour être complet et il en va de même pour les autres formats propres à Windows : xls/xlsx, ppt/pptx, etc.). Cependant, vous pouvez utiliser l'opérateur OR comme ici : "competitive intelligence" filetype:doc OR filetype:docx.
Google trouve ici 405 000 résultats mais seuls 170 sont annoncés comme disponibles. Frustrant…
Fig.1. Résultats d'une recherche de fichiers dans Google.
Bing (https://www.bing.com)
Bing utilise le même opérateur que Google (filetype:) pour permettre la recherche de fichiers. Sur la même requête, il n’affiche « que » 384 000 résultats mais permet semble t-il d’accéder à tous.
Notons que Bing propose également un opérateur supplémentaire pour rechercher des fichiers bureautiques , il s’agit de « contains : ». A la différence de « filetype: » qui trouve et ouvre directement les fichiers PDF, cet opérateur signale des pages comportant des fichiers PDF en liens. Une méthode intéressante pour tomber sur des pages ressources, par exemple une page listant des documents consacrés aux méthodes et outils de la « Competitive intelligence » :
Fig.2. Page web découverte avec l’opérateur « contains: » de Bing.
DuckDuckGo (https://duckduckgo.com/)
Il s’agit ici d’un hybride, puisque DuckDuckGo est un métamoteur mais dispose également de ses propres robots d’indexation (voir la page DuckDuckBot ). Pour y rechercher des fichiers, on utilise également l’opérateur « filetype: ». La page de résultats n’indique pas le nombre total de fichiers identifiés mais un décompte manuel en trouve environ 250.
Qwant (https://www.qwant.com/)
Le service Qwant fonctionne sur le même modèle hybride que DuckDuckGo et utilise également l’opérateur « filetype: ». Sur cette requête il propose une cinquantaine de résultats.
Les moteurs verticaux de recherche de documents PDF
Il s’agit de moteurs de recherche qui ont été conçus pour n’indexer que des documents bureautiques (pas de pages HTML). Nombre d’entre eux sont conçus à partir de Google Custom Search Engine mais ils ne proposent pas les mêmes résultats puisque Google CSE permet justement « d’alimenter » chaque moteur créé avec des sources différentes.
Un tableau comparatif nous a semblé la meilleure manière de présenter ceux que nous avons repéré.
Fig.3. Tableau comparatif des différents outils verticaux.
Les services de publication et de partage de documents
Ces services permettent à tout un chacun d’uploader ses propres documents mais également de télécharger ceux proposés par d’autres utilisateurs. Initialement gratuits. Certains d’entre eux proposent maintenant des versions premium et vendent certains des ouvrages qu’ils hébergent . Par ailleurs, il faut parfois créer un compte si l’on souhaite récupérer des contenus. Ils diffèrent des sites de partage de fichiers (cf. article du mois prochain) en ce qu’ils ne permettent de partager que des fichiers bureautiques (pas de musiques ou de vidéos). Le plus connu est probablement Slideshare, créé en 2006 et racheté par Linkedin en 2012, mais il en existe beaucoup d’autres. Nous en avons ici sélectionné dix que nous comparons dans le tableau suivant :
Fig.4. Tableau comparatif des différents outils de publication et de partage.
Scribd nous semble ici un bon choix si l’on veut se donner rapidement le maximum de chances de trouver des contenus intéressants.
Les moteurs de recherche dans les fichiers publics des services de cloud
Les services de stockage de documents en cloud, comme Amazon S3, mais aussi ceux permettant de générer des documents bureautiques, comme Google Docs, permettent à leurs utilisateurs de laisser des fichiers publics. Ceux-ci peuvent alors être indexés par des moteurs, peu nombreux certes, mais qui ont le mérite d’exister.
Grayhatwarfare (https://buckets.grayhatwarfare.com/)
Ce service permet de rechercher gratuitement dans 20 millions de pages Amazon S3 sur les 480 millions indexées et accessibles en version payante.
Les résultats sur nos mots-clés sont mauvais (2 résultats) mais cela s’explique probablement par le fait que ce services est très utilisé par les développeurs et qu’on y trouve peu de contenus génériques. La requête « Python » donne par exemple 2 000 résultats.
Google CSE
Stefanie Proto (@sprp77) est spécialisée en OSINT est a créé de très nombreux moteur Google CSE pour exploiter les fichiers publics de ces services (et bien d’autres) que l’on retrouvera sur son portail Start.me (https://start.me/p/b5ynOQ/sprp77-search-engines). On retiendra notamment :
- Amazon Cloud search engine (https://cse.google.com/cse?cx=005797772976587943970:g-6ohngosio) :
- 1 860 résultats avec « competitive intelligence » et 10 avec « intelligence économique » ;
- Filtrage par types de fichiers ;
- Tri par dates.
Fig.5. Résultat d’une recherche Google CSE dans les fichiers publics d’Amazon S3.
- Google Docs search engine (https://cse.google.com/cse?cx=013991603413798772546:rse-4irjrn8) :
- 161 résultats sur « Competitive intelligence » ;
- 32 pour « intelligence économique » ;
- Filtrage par types de fichiers ;
- Tri par dates.
Fig.6. Résultat d’une recherche Google CSE dans les fichiers publics de Google Docs.
De fait, même si l’intention de cette spécialiste au travers de ses moteurs ciblés est louable, on obtiendra plus de résultats ici en utilisant l’opérateur « site: » de Google. Ainsi pour la requête : site:docs.google.com "intelligence économique", le moteur fournit 128 résultats (au lieu de 62). La même requête avec l’expression « competitive intelligence » en donnera 334 au lieu de 155.
Conclusion
Comme on peut le voir, qu'il s'agisse de manières d'interroger les moteurs, de types de sites de contenus ou de familles de moteurs, les possibilités offertes par le Web pour découvrir des documents bureautiques sont nombreuses. Il nous en reste pourtant d'autres à découvrir qui feront bien sûr l'objet de l'article du mois prochain.
Christophe Deschamps, Consultant-formateur : veille stratégique, intelligence économique, social KM, e-réputation, mindmapping, IST (http://www.outilsfroids.net/)