Google propose de plus en plus dans ses résultats des extraits de pages web, comme il l'a montré récemment en reprenant purement et simplement des tutoriels directement dans ses SERP sans demander l'avis des éditeurs les ayant créés sur leurs sites respectifs. A-t-il juridiquement le droit de mettre en place de telles pratiques ? Peut-il être attaqué pour "vol de contenu", ce à quoi peut être assimilé le "scraping" ? Réponses dans cet article...
Début de l'article :
Le post de Matt Cutts, en décembre 2013, sur le scraping et la mise à disposition d’un formulaire de signalement de ce type de cas (http://www.abondance.com/actualites/20131205-13450-matt-cutts-et-le-scraping-de-textes.html) a rouvert le débat autour de cette pratique. Et ce, d’autant plus étrangement que, concomitamment et de plus en plus, Google recopie quelques lignes de contenu de certains sites (comme Wikipédia) dans le cadre de la fourniture de résultats naturels (http://www.abondance.com/actualites/20140626-14037-knowledge-graph-commence-afficher-tutoriels-scrape-web-vergogne.html). La nature et les risques juridiques de cette pratique sont pourtant précis et ne souffrent pas de discussion. Les exemples de procès perdus par Google Actualités dans le cadre de la reprise de filets d’actualités, sont là pour en témoigner.
Le concept de « scraping »
Le terme « scraping » vient de l’anglais et peut signifier « racler » ou « prélever ». Ce terme est notamment utilisé dans un sens médical.
Il semble exister plusieurs cas de scraping :
- Selon Wikipedia (http://fr.wikipedia.org/wiki/Web_scraping), le Web scraping (parfois appelé Harvesting) est une technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte, par exemple le référencement ;
- Le scraping peut concerner uniquement les images ou vidéos, voire des écrans d’impression de sites ;
- Le scraping peut viser une technique d’aspiration de données structurées, dans une base de données, qui peut être réalisée entre deux applications (par exemple, en cas de clusterisation de données).
...
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).