Archivage électronique - les fondamentaux

De Wiki du pôle Humanités numériques
Aller à : navigation, rechercher

Qu'appelle-t-on l'archivage électronique ?

Définition

L'archivage électronique désigne les procédures liées à la collecte, au classement, à la conservation et à la communication des documents numériques natifs. Il doit être distingué de la numérisation de documents papier, bien que les numérisations en elles-mêmes soient également des archives électroniques (Voir Numérisation d'archives - pré-requis et modalités).

Comme pour les archives papier, on peut parler de "documents", mais également de données (terme regroupant toute production numérique : documents bureautiques, bases de données, photographies, mails…) ou d'informations ("sens que l'on peut tirer de l'exploitation d'une donnée" selon le Centre informatique national de l'enseignement supérieur - CINES).

On rattache classiquement à l'archivage électronique plusieurs notions qui lui sont inhérentes : l'intégrité (conservation de l'information sans modification), l'authenticité (caractère d'un document dont le contenu et le producteur sont reconnus comme authentiques), la lisibilité (possibilité d'accéder aux informations), la traçabilité (connaissance des traitements opérés sur le document) et la pérennité (aptitude du document à traverser le temps).

On associe également à l'archivage électronique la gestion du cycle de vie des documents, à savoir le passage des documents du stade d'archives courantes à celui d'archives intermédiaires puis à celui d'archives définitives, en éliminant à chaque étape ceux qui n'ont plus d'utilité administrative et ne présentent pas d'intérêt historique.

On ne peut pas non plus parler d'archivage électronique sans que le stockage des données considérées soit sécurisé par un système de duplication sur un deuxième serveur (de préférence à distance du premier).

Assurer la conservation des informations

Afin de restituer une information numérique plusieurs années après sa production, elle doit être suffisamment documentée au travers de ses métadonnées pour que l'on puisse, techniquement, accéder aux données et, intellectuellement, les interpréter.

On distingue trois types de métadonnées à collecter et renseigner :

  • métadonnées de gestion (pour savoir comment et avec quels outils accéder au document),
  • métadonnées de description (c'est-à-dire la description archivistique pour comprendre le contexte de production et le contenu du document),
  • métadonnées de préservation (pour assurer la pérennité du document).

Conditions techniques

Pour être effectivement mis en place, l'archivage électronique suppose une infrastructure informatique spécifique.

Deux types de solutions existent :

  • les infrastructures de gestion électronique des documents (GED), dont la vocation et les caractéristiques techniques sont limitées aux archives courantes et intermédiaires (elles ne permettent pas de garantir l'authenticité et la pérennité des documents), mais dont le fonctionnement est relativement souple ;
  • les systèmes d'archivage électronique, sortes de GED améliorées (il est d'ailleurs en général conseillé de mettre en place une GED dans un premier temps pour ensuite installer plus facilement un SAE), qui permettent d'assurer l'authenticité et la pérennité des documents, notamment en facilitant le contrôle des formats, ainsi que de gérer leur cycle de vie et leur communicabilité.

Anticiper la conservation des documents dès leur création

Création et gestion des données au jour le jour

Le foisonnement et la complexité des données demandent à ce qu'une réflexion sur la gestion de celles-ci soit menée dès leur création. Cette démarche se fait d'ailleurs très souvent de manière plus ou moins consciente pour les productions papier.

Pour donner un exemple, on peut comparer le traitement de texte avec l'écriture manuelle. Si l'on veut prendre des notes rapides et brouillonnes, destinées à être éliminées rapidement, on peut utiliser du papier brouillon, des post-it ou des carnets dédiés à ce type de "gribouillage" sans aucune préoccupation pour l'intelligibilité des informations et leur mise en page. De la même manière, sur ordinateur, on peut créer un fichier word ou txt au titre quelconque ou bien utiliser des applications de notes/post-it. A l'extrême inverse, si l'on rédige un document d'importance, destiné à être conservé sur le long terme, on fait naturellement attention à prendre un papier de qualité, non souillé, à y inscrire des informations claires et mises en forme, ainsi qu'à le ranger à un emplacement particulier. Le pendant numérique de cette démarche est notamment d'utiliser un format pérenne, de nommer le fichier de manière raisonnée et de le placer de manière logique dans l'arborescence.

L'une des différences majeures entre la production papier et la production numérique réside dans l'apparente facilité de créer et de stocker des documents "dématérialisés" ainsi que de retrouver les informations. En conséquence, la manière de produire les documents électroniques est souvent moins réfléchie et penche aisément vers la (sur)abondance. Cette profusion des documents, des formats non pérennes ainsi que des espaces de stockage plus ou moins robustes peut ensuite poser des problèmes de stockage, d'accès aux fichiers anciens, voire de perte des fichiers.

Il est donc important de suivre un plan de classement, c'est-à-dire une arborescence logique, ainsi que de choisir des formats et des supports de stockage recommandés.

Autant que faire se peut, il convient de renseigner les métadonnées des fichiers. Cela s'effectue en général en accédant aux propriétés du document depuis le logiciel concerné.

En complément de l'arborescence, et éventuellement en lien avec celle-ci, il est conseillé de donner des noms clairs et structurés aux dossiers et documents (par exemple avec la date, le numéro de version etc.) Afin de pouvoir s'orienter parmi les documents et d'assurer leur caractère pérenne, des règles de nommage simples sont préconisées. (Voir Documents électroniques - règles de nommage à ce sujet.)

Formats

Dans la plupart des cas, pour qu'un format soit considéré comme pérenne, il faut qu'il soit ouvert (c'est-à-dire que l'on puisse accéder à ses spécifications pour ouvrir les fichiers sans recourir nécessairement au logiciel d'origine), qu'il soit largement utilisé (pour que son traitement ne soit pas un cas isolé mais ait le support d'une communauté) et qu'il soit suffisamment stable dans son développement. La notion d'utilisation large est bien entendu à relativiser selon le domaine.

Des analyses des formats ont été fournies par plusieurs institutions, dont les suivantes :

Précisions sur la gestion de la pérennité des formats : Si les différentes autorités tendent à s'accorder sur le fait que certains formats peuvent être considérés comme "pérennes", il est cependant admis qu'aucun n'est éternel. En outre, les avis divergent quant à la manière la plus fiable d'assurer une lecture des informations sur le long terme. Ainsi, selon les cas concrets et les politiques instituées, il peut être conseillé d'opter pour la conversion (de documents enregistrés sous des formats voués à l'obsolescence vers des formats alors couramment utilisés) ou pour l'émulation (reconstitution de l'environnement de production des données pour y accéder par leur format d'origine - exemple : ouvrir un fichier Word de 1998 avec un équivalent de la version d'époque du logiciel). Tous s'accordent cependant pour préconiser l'emploi, dès la création des documents, de formats reconnus comme pérennes car leur lecture directe, leur conversion ou leur émulation seront nécessairement facilités.

Concernant les formats, voir également PDF - fonctionnalités et génération de documents destinés à la conservation.

Espaces de stockage

Outre effectuer régulièrement un tri parmi ses fichiers pour s'y repérer aussi aisément que possible et ne pas encombrer ses espaces de stockages de documents devenus superflus, une attention particulière doit être portée aux supports utilisés. En effet, si une répartition des documents entre plusieurs ordinateurs, disques durs etc. peut être dommageable (perte de fichiers, difficulté à restituer les articulations entre eux etc.), tout stocker sur un support unique revient à s'exposer au risque de tout perdre si celui-ci est corrompu. Il convient donc de centraliser ses données tout en assurant leur duplication sur plusieurs supports, de préférence de types différents (serveurs, disques durs externes, CD-R etc.) et localisés sur des sites distants (par exemple une copie des projets de recherche à Ausonius et une copie au domicile) pour qu'ils ne soient pas exposés aux mêmes risques.

De même que pour les formats, les préconisations faites de toutes parts en matière de supports de stockage tiennent compte du fait qu'aucun outil n'est éternel. Tous les supports ont une durée de vie donnée et leur contenu devra être migré.

Les serveurs, surtout s'ils font l'objet de sauvegardes automatiques courantes, peuvent être considérés comme les plus fiables, car ils sont entretenus et maintenus.

Les disques durs des ordinateurs survivent généralement à l'ensemble des autres composants des machines mais sont sujets aux problèmes qui peuvent survenir sur celles-ci (virus, perte, vol etc.).

Les disques durs externes ont l'avantage d'être indépendants et sont généralement présentés, à raison, comme des moyens de stockage privilégiés sur le moyen terme. Cependant leur durée de vie moyenne est aux alentours de 10 ans et, comme tout support, plus ils sont utilisés, plus vite ils sont endommagés.

En ce qui concerne les CR-R et autres disques optiques, voir CD-R - stockage de données et gestion à long terme.

Les clefs USB peuvent avoir un temps de vie très court en raison de leurs capacités techniques ainsi que pour les raisons suivantes : fréquence d'utilisation, lecture et écriture sur des environnements multiples lors de l'échange de documents (alternance répétée par exemple entre Mac et PC), exposition relativement élevée à des facteurs extérieurs (lors de leur transport etc.), possibilité d'être perdues… Elles sont donc avant tout à utiliser comme moyen de transmission et de transport des informations, et non de stockage.

On prête aux cartes SD (cartes mémoires utilisées par les appareils photos) une durée de vie assez longue, mais elles peuvent être tout autant exposées aux facteurs extérieurs et à la perte que les clefs USB.

Cas particulier des bases de données

Voir Bases de données - sauvegarde et archivage.

Eléments spécifiques aux données issues des projets de recherche

Les autorités dont les compétences touchent à l'enseignement et à la recherche, notamment l'Union européenne au travers du programme Horizon 2020, sont de plus en plus nombreuses à préconiser l'établissement de plans de gestion des donnés (data management plans - DMP). Etablis lors de la soumission des projets pour financement, ils sont modifiés au fur et à mesure pour décrire les données produites et anticiper leur conservation et leur diffusion.

Pour plus d'informations à ce sujet, voir le guide "Réaliser un plan de gestion des données" de l'Université Paris Descartes et de l'Université Paris Diderot.

Archivage électronique à Ausonius - état et procédures

Sont pris en charge à Ausonius l'appui à la gestion quotidienne des documents électronique et leur conservation intermédiaire. Dans la mesure où l'on ne dispose pas des infrastructures d'un SAE, la conservation sur le long terme ne peut pas être assurée pleinement en interne.

Cependant, si des données s'y prêtent, un archivage au CINES, au travers de l'une des solutions que cette institution propose peut être envisagé (voir la page internet du CINES "Nos solutions d'archivage").

Sources

Association des archivistes français, Abrégé d'archivistique - Principes et pratiques du métier d'archiviste, Paris, 2012