Les archéologues du numérique
«Internet n’oublie jamais», assènent les experts inquiets de voir notre vie privée étalée sur le web. Mais rien n’est moins sûr: le changement constant des supports de l’information numérique et des formats des fichiers laisse derrière lui des montagnes d’informations qui, inexorablement, deviennent illisibles. Livrées à elles-mêmes, elles sont condamnées à l’oubli.
Cette problématique touche de plein fouet les résultats scientifiques, exprimés de plus en plus souvent sous forme de bases de données. Car celles-ci vieillissent très rapidement: les langages de programmation se révèlent obsolètes et les systèmes d’exploitation ne sont plus compatibles avec le nouveau serveur.
«C’est un vrai problème, souligne Lukas Rosenthaler, responsable du Centre de données et services pour les sciences humaines (DDZ), un projet consacré à assurer la pérennité des résultats scientifiques en sciences humaines (lire ci-dessous). Il est très rare que les chercheurs continuent à maintenir les infrastructures numériques une fois un projet – et son financement – terminé. Une base de données inaccessible est inutilisable, et ne pas l’entretenir revient à détruire une production scientifique. Paradoxalement, ce type de recherche numérique peut s’avérer bien plus fragile qu’un résultat publié sous forme d’article.»
Le directeur des Digital Humanities Lab à l’université de Bâle a pu sauver l’une des plus importantes bases de données consacrée à la mythologie grecque, le Lexicon Iconographicum Mythologiae Classicae, qui s’est arrêté en 2009, après trente ans de développement: «Elle était complètement hors service, et l’entreprise qui l’avait programmée était en faillite, poursuit Lukas Rosenthaler. Nous avons même dû pirater le site, car les mots de passe avaient disparu. Notre travail ressemble parfois à une sorte d’archéologie du numérique.» Ces efforts redonnent une seconde vie aux résultats de la recherche. L’université Harvard, par exemple, s’intéresse aujourd’hui à intégrer le Lexicon dans son commentaire d’Homère, en utilisant les «linked open data», une composante du web 3.0 qui permet de relier les informations en ligne de manière directe et dynamique.
Avec sa petite équipe, l’ancien physicien s’est appuyé sur la technologie sémantique pour créer une plateforme générique capable de structurer des données provenant de plateformes très variées. «J’estime que nous pouvons traduire 99% des bases de données utilisées en sciences humaines, et même certains projets en biologie. En trois ans, nous avons migré une trentaine de projets, de la mythologie grecque à une collection de photographies historiques de montagne.»
Le DDZ suit le concept de l’Open Archival Information System: copier les données régulièrement et les retranscrire dans un nouveau format plus actuel. Un processus difficile et coûteux, qu’il faut répéter régulièrement – le pendant digital du travail des moines copistes du Moyen Age. «La plupart des groupes de recherche n’ont pas les moyens de créer des outils stables, poursuit Lukas Rosenthaler. L’idéal est de travailler avec eux dès le début pour élaborer une base de données durable qui puisse ensuite être facilement mise à jour et migrée.»
Le mouvement de l’Open Research Data encourage les chercheurs à générer des résultats scientifiques accessibles à chacun et de manière interactive. Mais comme toute machine, l’outil exige un entretien régulier. Un travail de l’ombre essentiel pour éviter de voir cette connaissance disparaître à jamais.
Sauvegarder le sauveur
Voué à la préservation des archives numériques, le Centre de données et services pour les sciences humaines (DDZ) est lui-même en danger. «Nous nous battons depuis 2008 pour mettre en place une plateforme stable, déclare Markus Zürcher, secrétaire général de l’Académie suisse des sciences humaines, qui a lancé le projet. Toutes les personnes concernées soutiennent cette plateforme. La seule chose à régler, c’est le financement.» Le DDZ reste un projet pilote qui touche à son terme. «Nous avons déposé en mars 2015 une demande portant sur 2 millions de francs pour 2017-20 auprès du SEFRI (Secrétariat d’Etat à la formation, à la recherche et à l’innovation). D’ici là, nous sommes prêts à assurer le financement jusqu’en 2017, car une interruption du projet serait très néfaste.» Par comparaison, quelque 30 millions sont dépensés annuellement pour les bases de données dans les sciences humaines.
* Responsable de la communication scientifique du FNS. Paru dans Horizons n° 105, juin 2015, magazine du Fonds national suisse de la recherche scientifique (FNS).