Des archives ouvertes à l’ouverture d’archives

La circulation, l’accès et le partage de l’information scientifique entre chercheurs d’une communauté et plus largement l’ensemble des acteurs du web est au coeur du débat des archives ouvertes.

Ce type de réservoir qui repose actuellement le plus souvent sur le principe d’interopérabilité, d’auto-archivage et propose le stockage et la diffusion de multiples ressources primaires en texte intégral constitue un élément clé de l’accès à la connaissance en tant que patrimoine collectif.

L’évolution et l’impact des archives ouvertes sont intimement liés à la nature et la qualité d’indicateurs pertinents pour une évaluation stratégique et scientifique de l’activité de recherche, à l’échelle d’un organisme, d’un pays, d’une thématique....

Une information reprise du site « Open acces »
sur Le libre accès à l’information scientifique et technique

Un site sous licence Creative commons

Les archives ouvertes participent à la médiation scientifique ainsi qu’à la valorisation et la diffusion de connaissances mais également au développement et à la production des publications scientifiques. Elles sont intrinsèquement liées à une certaine capacité d’indépendance et d’autonomie des chercheurs et plus largement producteurs d’information scientifique et technique.

L’accès souvent gratuit, à ce type d’outil et à leur contenu, repose sur des initiatives ou expériences ponctuelles d’acteurs divers par exemple en France : universités (CITHER INSA Lyon, Cyberthèses Lyon2, Grisemenine SCD-UST Lille), organismes de recherche (CCSD-CNRS TEL et HAL ; INRA ....INSERM....), Grandes Ecoles (PASTEL-groupe Paristech) et de partenariats CNRS-ENSSIB (ArchiveSIC). L’idée force des archives ouvertes réside dans la constitution de réservoirs thématiques ou interdisciplinaires de documents en texte intégral accessibles rapidement après « publication » (ArXiv de P. Ginsparg) et facilement avec une interface de recherche « dépouillée » (type moteur de recherche), en ajoutant une certaine garantie de pérennité d’accès aux documents déposés (HAL).

L’alimentation de ces réservoirs est basée sur une démarche déclarative, le contenu d’un document peut être soit strictement sous la responsabilité du déposant (ArXiv), soit soumis au contrôle d’un modérateur (ArchiveSIC).

Les archives ouvertes sont des outils qui se développent de manière encore inégale selon les disciplines et les communautés. Les pionniers sont incontestablement les physiciens avec ArXiv, les mathématiciens avec Mathnet de la cellule Mathdoc, les Sciences Cognitives avec Cogprints. Aujourd’hui ce sont les Sciences Humaines et Sociales qui prennent le pas en particulier en Rhône-Alpes avec le réseau des MSH (Maison de l’Homme et de la Société) et ISIDORA.

L’intéropérabilité consiste à faciliter la recherche multibases et la possibilité de fonctionner indifféremment sur des réseaux spécifiques. Dans un mouvement parallèle, d’un point de vue technologique et technique, les ressources sont dites « open sources » pour offrir le code source en même temps que le programme proprement dit, par exemple : format XML apache, base de données MySQL, langage de programmation PHP... En SHS, des projets de plates-formes technologiques sont en préparation afin de -* proposer un outil collectif, accessible sans contrainte aux chercheurs et aux unités, basé sur la notion de réseau. Les archives ouvertes y ont naturellement leur place.

Les lacunes, voire l’absence de politique documentaire formalisée au sein des communautés scientifiques, corrélées à l’indépendance naturelle des chercheurs et équipes de recherche, contribuent à expliquer l’hétérogénéité du recensement de la production scientifique.

Pourtant aujourd’hui, une prise de conscience concernant l’importance croissante de recenser l’ensemble des publications d’une communauté, qu’il s’agisse d’articles publiés dans des revues avec peer review, de pré publications déposées dans une archive ouverte ou d’autres documents non concernés par le circuit commercial traditionnel.

De plus en plus d’institutions mettent en place des bases de données internes en vue de constituer des réservoirs exploitables, pérennes qui ne reposent pas uniquement sur la base du volontariat comme par exemple l’INRIA avec Thesauria, le CNRS avec PubliCNRS, l’INSERM...

Des modèles techniques d’archives numériques ouvertes existent, OAIS (Open Archival Information System), E-prints. Néanmoins toutes les questions fondamentales inhérentes à la gestion et au stockage de l’information ne sont pas résolues.

La normalisation de la structure des documents dont la diversité est importante (feuille de style, formats, typologie, images, vidéo, multiple version d’un même document...), l’évaluation scientifique et la prise en compte de la problématique par les différents organismes de recherche ainsi que les pratiques et les usages culturels par discipline sont autant d’aspects à débattre sans les sous estimer.

Quoi qu’il en soit la vraie question qui doit guider l’évolution et le développement des archives réside dans cette phrase : de quoi l’utilisateur final a-t-il réellement besoin ? En effet, au-delà de l’archivage, la diffusion, l’accès et la valorisation de la production scientifique électronique engagent des questions d’ordre juridique en l’occurrence sur la propriété intellectuelle, la propriété des résultats, les clauses de confidentialités.

Les premiers documents sujets à expérience outre les preprints sont les thèses avec Cyberthèses, Pelleas, TEL, CITHER... La diffusion et la dissémination pour une exploitation ultérieure sont des enjeux majeurs et cela passe par la récupération entre autre des métadonnées notamment Dublin Core mais pas uniquement. Un protocole issu directement du projet OAI, l’OAIPMH (protocole dédié aux échanges de métadonnées) se veut un moyen simple d’ancrer l’intéropérabilité dans les pratiques. Une initiative à travers le projet Magic (catalogue national de collection de rapports à l’université de Cranfield) concerne un autre type de document : les rapports, sans être réellement une plateforme OAI, celle-ci ouvre une voie dans ce sens grâce à son intéropérabilité.

Par ailleurs, l’ISDN (Institut des Sciences du Document Numérique) avec l’équipe RECODOC (université de Lyon1) ouvre des perspectives d’exploitation du document scientifique afin d’améliorer la recherche documentaire et une utilisation personnalisée à partir de fonctionnalités spécifiques sur un ensemble d’informations thématiques par exemple.

Les archives ouvertes sont idéalement l’occasion de constituer
facilement, à terme, des collections personnelles réorganisées en fonction de profils particuliers, en minimisant les contraintes techniques. Toutefois pour exister hors des cadres commerciaux, ces réservoirs doivent pouvoir garantir à la fois une préservation à long terme - inscrite dans une politique institutionnelle - et - outre la liste des archives ayant intégré les protocoles OAI - un ancrage dans un processus établi d’évaluation de la production scientifique, non seulement pour les preprints mais pour tous les autres types de documents. Pourquoi ne pas envisager un estamplillage scientifique par les pairs au même titre que les articles de revues ? En effet comme cela est évoqué dans un message sur la liste de diffusion Biblio.fr (février 2002), la question de l’évaluation du savoir est posée et l’on peut transposer l’interrogation qui semble naturelle pour les articles à tous les autres types de documents : comment estimer la valeur et la portée d’une production scientifique ? Peut-on imaginer des structures comme celle du CNRS incarnée par le Comité National pour jouer ce rôle ?

En conclusion, la notion d’archives ouvertes permet d’"exhumer" le fondement même de la production scientifique et ainsi de renouer avec l’objectif primordial, initial de la publication scientifique : le libre échange des idées. Plusieurs interrogations viennent à l’esprit afin d’asseoir les archives ouvertes dans le panorama de l’offre scientifique électronique, alors même qu’un consensus s’établit sur le rôle essentiel de ces outils, pour la recherche autant que pour le secteur socio-économique et la production d’information élaborée :

  • qui doit supporter les coûts de possession pour faire migrer les applications au fil des évolutions technologiques ?
  • quelle forme doit prendre l’auto-archivage par rapport au dépôt légal, pour quel type de document ?
  • peut-on conserver indéfiniment l’information et quelle information ?
  • quels modèles économique adopter ou inventer ?
  • quels indicateurs et critères d’évaluation proposer ?
Posté le 13 août 2003

©© a-brest, article sous licence creative common info