Nouveaux formats indexés sur Google

Vous en avez certainement entendu parler (la nouvelle a fait grand bruit…), Google indexe depuis peu de nouveaux formats de fichiers, dont notamment :

– PDF (.pdf), mais c’était déjà le cas depuis pas mal de temps (à ce jour, 22 millions de documents sont indexés par Google sous ce format). – Word (.doc)
– Excel (.xls)
– Powerpoint (.ppt)

– Rich Text Format (.rtf) – Postscript (.ps)

Ainsi, il est possible de visualiser des documents autres qu’au format HTML grâce à Google. Ces documents sont visualisés de deux façons différentes par le moteur :

– Soit en indiquant, entre crochets, le format en question, à gauche du titre : [PDF] Investment Strategy
ou :
[PPT] $6 Million Common Stock Offering

– Soit sous la forme d’une phrase affichée sous la ligne du titre : File Format: PDF/Adobe Acrobat – View as HTML
ou :
File Format: Unrecognized – View as HTML

Cette dernière indication (« View as HTML ») est intéressante : elle permet de lire un fichier Powerpoint, par exemple, au format HTML, car Google les

convertit auparavant en HTML, comme les fichiers PDF et autres.
Google permet, par la fonction « filetype: », d’effectuer une recherche spécifique sur un format donné. Exemple :

secret filetype:pdf confidential filetype:ppt

Bien entendu, si vous désirez restreindre votre recherche uniquement aux fichiers HTML, tapez : faq filetype:html

Fichier PDF téléchargeable ici (la lettre Réacteur n’était à cette époque-là disponible que sous cette forme).

Ajouter un commentaire Ajouter un commentaire

Article précédent

Comment signaler une tentative de spam à un moteur

Article suivant

Bilan de l'année 2001, par les acteurs et experts du domaine de la recherche d'information sur le Web