Bases de données - sauvegarde et archivage

De Wiki du pôle Humanités numériques
Aller à : navigation, rechercher

Remarques générales

Cette page concerne en particulier les bases de données relationnelles (type MySQL, FileMaker Pro…)

La question de l'archivage des bases de données a été abordée relativement récemment. En témoigne ce constat dressé par le Centre informatique national de l'enseignement supérieur (CINES) en 2013 : "Actuellement, il existe peu ou pas de cadre précis concernant l’archivage des bases de données, que ce soit au niveau technique, organisationnel ou administratif. Pourtant l’enjeu est de taille dans la mesure où les bases de données sont au cœur de nos systèmes d’informations et où les évolutions technologiques nous amènent à penser que cela devrait continuer dans ce sens."

Dans le cadre d'Ausonius, les bases de données ont une importance d'autant plus particulière qu'elles rassemblent une grande partie des données de la recherche.

Une base de données est souvent multicouches et peut être accompagnée d'une application, d'une interface graphique, qui permet de la gérer, de l'alimenter et de l'exploiter. Selon les cas, il convient de déterminer si cette interface doit également être archivée.

Pourquoi et quand archiver une base de données ?

Comme tout document numérique, une base de données est susceptible de ne plus pouvoir être lue et/ou exploitée au bout de quelques années si elle n'est plus maintenue, que ce soit du fait de son obsolescence ou de la simple absence de connaissances la concernant. En effet, au-delà des conditions techniques, la redécouverte complète d'une base de données risque d'être incomplète, voire superficielle, si les personnes qui l'ont conçues ne sont plus en poste et que son contexte de production, la manière dont elle est structurée et la signification de chaque champ n'ont pas été documentés. Sans ces informations, il peut être difficile de comprendre et donc d'exploiter les données.

L'archivage des bases de données recouvre donc deux aspects : assurer techniquement la conservation et la lisibilité des données et assurer intellectuellement la conservation des informations (Guide méthodologique du CINES : "Une information est le sens que l'on peut tirer de l'exploitation d'une donnée. Une donnée n'a aucune signification en soi").

Catégories de bases de données et temporalités

Le guide méthodologique du CINES catégorise les bases de données en fonction des distinctions suivantes :

  • bases vivantes et bases figées (que l'on peut ramener aux notions classiques d'archives courantes et d'archives intermédiaires ou définitives) ;
  • bases de données fortement consultées ou non ;
  • bases de données cumulatives (dans lesquelles des nouvelles données sont créées sans modification et élimination des anciennes) ou dynamiques (avec modifications des données déjà saisies).

Bases de données figées

Les bases de données figées doivent bénéficier d'une procédure d'archivage complète.

Bases de données vivantes

Deux cas de figure peuvent se présenter pour les bases de données vivantes selon le schéma suivant : les bases "à durée déterminée" (projets délimités dans le temps, à durée plus ou moins courte, que ce soit pour des programmes de recherche précis ou des mémoires) et les bases "à durée indéterminée" développées et alimentées sur le temps long, sans date de fin programmée (par exemple : PETRAE).

  • Bases "à durée déterminée" : une préparation de l'archivage à venir de ces bases peut être effectuée en amont en renseignant les métadonnées et en répertoriant les éventuelles tables ou données qui pourraient être éliminées avant archivage ;
  • Bases "à durée indéterminée" :
    • lorsque la base est déjà relativement ancienne ou que sa structure s'apprête à être remaniée, l'éventualité d'en archiver une image à un instant T peut être étudiée ;
    • de même que pour les bases "à durée déterminée" vivantes, une préparation des métadonnées peut être intéressantes.

Sauvegarder une base de données

Que la base soit vivante ou figée, il convient d'en assurer une bonne sauvegarde. (Voir la section "Espaces de stockage" de la page Archivage électronique - les fondamentaux.)

Comment archiver une base de données ?

Principes

Description

A l'instar de l'ensemble des documents numériques, pour assurer la pérennité de la base et l'intelligibilité des données, les métadonnées de gestion, de description et de préservation doivent être récupérées et/ou renseignées. Voir Archivage électronique - les fondamentaux.

Le Guide méthodologique du CINES distingue trois niveaux de description spécifiques aux bases de données. Voici un résumé succinct de ces trois niveaux. (Il convient de se référer directement au guide pour plus de précisions.)

  1. Modèle conceptuel des données (MCD) : description des entités et des relations ;
  2. Modèle logique des données (MLD) : schéma SQL générique ;
  3. Modèle physique des données (MPD) : schéma SQL adapté au système de gestion des bases de données (SGBD) utilisé.

Le MCD permet en particulier de restituer la signification des entités et la manière dont l'information se dégage de leur imbrication. Le MLD, quant à lui, assure une conservation pérenne du schéma, tandis que le MPD permet d'importer ledit schéma au sein du SGBD pour lequel il a été conçu.

Format d'archivage pérenne

Pour assurer la conservation et la lisibilité des données, un format pérenne doit être utilisé. Comme pour tout document numérique, il est préférable que les bases de données à conserver soient directement créées dans un format libre largement utilisé. Le SGBD MySQL, par exemple, est indiqué, tandis que FileMaker Pro, propriétaire, est à éviter.

Un format d'archivage des bases de données a été développé par les Archives fédérales suisses : la solution SIARD (Software Independent Archiving of Relational Databases), combinée au logiciel gratuit SIARD Suite. Le format SIARD repose sur le langage XML et le logiciel permet de convertir les formats issus des SGBD Oracle, Microsoft SQL Server, MySQL et Microsoft Access. Il permet une description complète du contexte de production et des caractéristiques des bases de données et peut fournir des exports dans les formats couramment utilisés (cette fonction doit encore être améliorée). (Une base de données archivée au format SIARD en 2017 pourrait donc être exportée pour consultation et/ou exploitation en 2037 selon les critères techniques alors en place). Il s'agit donc d'un format stable et qui vise une réelle fonctionnalité.

Le fichier SIARD, qui correspond à une base de données, se présente comme un conteneur ZIP non compressé décomposé en un dossier de métadonnées (header) et un dossier rassemblant les données de la base (content). Les fichiers XML sont eux-mêmes décrits selon la syntaxe XML-Schemas. Les bases et le format sont donc suffisamment documentés pour permettre la pérennité de l'ensemble.

Procédure

Une base de données à archiver doit être signalée à l'archiviste. Dans un premier temps, son contexte de production, ses caractéristiques et sa structure seront étudiés et décrits en détail.

En fonction des éléments qui ressortiront de cette étude, une manière de procéder et une démarche seront proposées. L'archivage des bases de données ayant été développé récemment et chacune étant unique, avec des caractéristiques et des contraintes propres, il est difficile de définir une procédure commune a priori.

Selon les cas, un tri dans les données devra être effectué. Si l'utilisation de la base a été hétérogène, et que les données, par conséquent, le sont aussi, les questions d'export dans un format pérenne pourront se révéler complexes et demander un travail approfondi.

En fonction du SGBD au travers duquel elle a été conçue, la base de données ne sera pas nécessairement convertie dans un autre format. Dans tous les cas, elle sera transmise à l'archiviste dans son format d'origine avec la description qui aura été établie et, si elle est convertie par la suite, sa version originale sera conservée tant qu'elle est lisible.

Droits d'auteur et réutilisation

Pour les questions liées au droit d'auteur relatifs aux bases de données et à la réutilisation de celles-ci, voir la synthèse fournie par les deux ressources suivantes :

Sources