Suite à l'article que nous avons publié le mois dernier sur l'archivage des données du Web, nous avons interrogé plusieurs responsables de grandes bibliothèques européennes pour connaître leur point de vue sur ce sujet. L'archivage et la mise à disposition des documents constituent en effet le cœur de métier des grandes bibliothèques nationales et ces institutions sont de plus en plus à l'origine de grands projets d'archivage du Web.
Jean-Noël Jeanneney (Président de la Bibliothèque nationale de France), Mark Middleton (l'un des responsables du UK Web Archiving Consortium) et trois responsables de la Bibliothèque nationale suédoise ont accepté de répondre à nos questions...
Jean-Noël Jeanneney – Président de la Bibliothèque nationale de France (www.bnf.fr)
Pouvez-vous nous décrire les projets actuels de la BnF en matière de numérisation et d'archivage du Web francophone ?
Dans le prolongement de ses missions de conservation patrimoniale et de dépôt légal, la BnF se doit d'assurer la préservation des contenus électroniques francophones et français publiés sur la Toile.
L'Assemblée nationale examinera, début juin 2005, un projet de loi de transposition d'une directive communautaire sur le droit d'auteur et les droits voisins dans la société de l'information, qui prévoit de confier à la Bibliothèque une responsabilité essentielle dans ce domaine.
Quels types de contenus seront archivés en priorité ? Selon quels critères ?
Il faut souligner que les travaux préparatoires à l'archivage de la Toile ont commencé à la BnF dès 1999. Ils nous ont conduit à adopter une stratégie en deux axes :
- d'une part la collecte automatisée dite "de surface" d'un périmètre représentatif de la production nationale ;
- d'autre part un archivage thématique "profond" plus sélectif, faisant appel à des collectes ciblées complétées par le dépôt des éditeurs de sites lorsque cela s'avérera nécessaire pour des raisons techniques, commerciales ou légales (accès protégés par mot de passe ou soumis à des contraintes de consultation particulières, etc.).
En effet dès lors que le dépôt est légal, les éditeurs doivent répondre à la sollicitation de la BnF (à la différence de la situation qui prévaut aux Royaume Uni). Cependant nous nous efforçons de limiter leur charge à ce qui ne peut être réglé par une collecte automatique.
Quel mode d'indexation pensez-vous adopter ?
Le mode d'indexation envisagé offrira des possibilités d'accès par URL, par date et par période d'archivage, ainsi qu'une recherche plein texte. A cet effet, la BnF participe à la mise au point d'un outil dans le cadre des travaux du consortium IIPC évoqué plus bas. Il s'agit d'un développement qui reprend, en l'internationalisant et en l'enrichissant, une interface d'accès développée par les pays scandinaves. Le consortium a par ailleurs opté pour l'intégration de Nutch et Lucene comme moteurs initiaux d'indexation. L'ensemble du système est conçu pour traiter des milliards de pages, avec une architecture ouverte sur les nécessaires évolutions qu'imposeront la croissance de la Toile et l'enrichissement de ses contenus. Les lecteurs qui désirent se familiariser avec ces travaux peuvent dès aujourd'hui consulter un site de démonstration (http://nwa.nb.no/demo/search.php).
Quel public aura accès aux sites archivés et comment ?
C'est la prochaine loi sur le droit d'auteur et les droits voisins et son décret d'application qui fixeront les règles d'accès aux archives électroniques. Notre mission n'est pas de nous substituer aux éditeurs à qui il revient d'assurer, s'ils en ont la volonté et les moyens, une diffusion pérenne des contenus auprès de tous les publics ; en revanche, c'est à la Bibliothèque d'en garder la trace durable à des fins d'étude et de recherche. Les lecteurs de la BnF devraient ainsi être les premiers bénéficiaires de ces archives. Nous nous attacherons également, autant que cela sera possible, à encourager les productions de contenus dérivés tirant le meilleur parti de ces ressources numériques, dont l'intérêt donnera naissance à des innovations éditoriales et de services qu'on ne peut envisager aujourd'hui.
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).