Histoire contemporaine européenne

Ouverture des données et archives du web : enjeux, pratiques et limites

L’entretien qui suit offre un témoignage sur les enjeux, pratiques et difficultés suscités par l’ouverture et l’exploitation des données du web et des réseaux sociaux numériques. Si de plus en plus d’enquêtes mobilisent sites web, discussions sur des forums, échanges sur les réseaux sociaux, etc., de fait, une multitude de pratiques existent au sein des sciences humaines et sociales (SHS) : des chercheures font leur propre collecte, d’autres utilisent des collections déjà créées ; certain·es croisent des données issues de plusieurs plateformes, quand d’autres se concentrent sur un réseau social numérique ; certain·es exploitent les contenus textuels exclusivement, alors que d’autres abordent aussi les images ou leur circulation (Julliard, 2022) ; enfin, certain·es ont une approche qualitative ou hybride, tandis que d’autres se penchent plus exclusivement sur l’analyse de masses de données (Boyd et Crawford, 2012). Ces pratiques n’échappent pas aux problèmes récurrents de l’ouverture des données – statut public ou privé des échanges en ligne, régimes juridiques applicables, enjeux d’anonymisation ou de consentement (Latzko-Toth et Proulx, 2013). Si des affaires documentées de rupture de confidentialité ont éclaté aux États-Unis (Zimmer, 2010), c’est encore peu le cas en France, ce qui n’empêche pas pour autant le développement d’une réflexion sur ces questions, dans le champ des sciences de l’information et de la communication (Barats dir., 2013), de la sociologie (Beuscart, 2017), des SHS en général (Debaets, 2018), de la sociologie de l’innovation et de l’histoire (Musiani et al., 2019), ou encore de l’archivistique et des bibliothèques (Carlin et Laborderie, 2021), pour ne citer que quelques exemples.

Depuis la loi DADVSI de 2006, en France, l’accès aux archives publiques du web français est uniquement accordé aux chercheur·es accrédité·es auprès des deux organismes habilités, la Bibliothèque nationale de France (BnF) et l’Institut national de l’audiovisuel (INA) – qui ont tous deux créé leur structure d’accompagnement au traitement des données (BnF DataLab et Le Lab à l’INA). Dix ans plus tard, le Règlement général sur la protection des données (RGPD) a accru l’attention vis-à-vis des enjeux de confidentialité des données personnelles. En réponse à un besoin de retours d’expériences, cet entretien croise les points de vue d’une archiviste du web, d’une historienne et d’un ethnographe. Dorothée Benhamou-Suesser (DBS), Fred Pailler (FP) et Valérie Schafer (VS) ont ainsi été interrogés sur les problématiques de l’ouverture des données du web à partir de projets auxquels ils ont collaboré (attentats de 2015, Gilets jaunes, Covid-19, viralité en ligne). Ils reviennent plus particulièrement sur les archives du web qui présentent un cas particulier au regard du web vivant, non seulement en termes de collecte, de sélection et curation, de préservation mais aussi d’accès. La réflexion qui suit s’ancre dans ces développements, depuis des projets de recherche commencés dans les années 2010 jusqu’à la volonté actuelle de penser plus pleinement le FAIR Data ou encore l’ouverture. En montrant différentes formes d’adaptation progressive et en interrogeant autant la collecte de données que leur analyse ou leur valorisation, cet entretien illustre le fait que la réflexion sur les problématiques de confidentialité et la conscience d’enjeux légaux et éthiques n’ont pas attendu le RGPD pour exister, dans le monde de la recherche comme dans les institutions patrimoniales.

Afficher cette publication dans notre dépôt institutionnel (orbi.lu).