Contemporary history of Europe

Archives du Web, « le dur » à l’épreuve de la durée

Avec 336 milliards de pages Web collectées depuis 1996, la fondation Internet Archive propose un voyage temporel dans la Toile du passé qui a de quoi impressionner le chercheur et n’a rien à envier à la masse de tweets récupérés par la Library of Congress suite à un accord avec Twitter en 2010. Au plan national aussi nos institutions d’archivage - la Bibliothèque nationale de France (BnF) et l’Institut national de l’audiovisuel (Ina), collectent des volumes impressionnants (plus de 20 milliards de tweets archivés à la suite des attentats de novembre 2015 par l’Ina), invitant les chercheurs à penser des lectures et analyses outillées par des moyens informatiques afin d’approcher ces masses de données.
Après avoir montré dans quelle mesure chercheurs et institutions d’archivage ont pu proposer un virage vers la lecture distante en matière d’archives du Web, nous interrogerons les enjeux et limites du traitement de ces sources nativement numériques par des méthodes computationnelles ou encore des outils relevant des humanités numériques. Entre archives enfermées dans les enceintes des bibliothèques en vertu du dépôt légal, opacité de certaines collectes, lacune des fonds et division du travail de collecte et d’analyse, singularité des corpus et difficulté à les pérenniser ou encore à les partager, il s’agira enfin de proposer des pistes à la question : « Faut-il et le cas échéant où durcir les analyses liées aux archives du Web ? ».

http://hdl.handle.net/10993/37596