@ Brest

Relier et partager autour du web

Article publié par Vecam issu de l’ouvrage "enjeux de mots", édité par C & F Édition

Bibliothèques numériques

par Hervé Le Crosnier

Face à l’explosion documentaire provoquée par le réseau informatique, le rôle des bibliothèques dans l’organisation, la conservation et la mise à disposition des documents garde une place fondamentale. Contre l’illusion technique d’un univers documentaire « auto-organisé », ouvert à tous, dans lequel l’information circule librement, approcher la question à partir de l’expérience des bibliothèques nous permet de concevoir, au contraire, un équilibre entre innovations techniques et conditions sociales de création et diffusion des documents. L’accès au savoir pour tous a besoin de « bibliothèques » dans l’univers numérique... et les bibliothèques changent de nature et de fonction en se confrontant à la nécessité de remplir leurs missions sociales et culturelles dans le cyberespace.

Une définition socio-technique

Dans le sens traditionnel, une « bibliothèque » est un lieu dans lequel les livres sont :

- conservés pour les générations futures afin d’offrir une continuité à la production culturelle et constituer la mémoire collective ;

- organisés : la « classification » participe de l’émergence de nouveaux savoirs et facilite le repérage de documents ;

- et ouverts à la lecture par tous et en tout lieu. Un usager d’une bibliothèque peut consulter les livres « sur place » ou utiliser le « réseau des bibliothèques » afin d’obtenir dans sa propre ville des documents qui ne sont pas présents dans la collection locale.

Les bibliothèques fonctionnent depuis longtemps « en réseau », pour se partager le travail en créant des « catalogues collectifs », et pour garantir l’Accès Universel aux Publications. Dès l’invention des ordinateurs, les centres documentaires les ont mis à profit pour créer des « banques de données », véritables points d’accès aux références, notamment dans le domaine scientifique.

Les bibliothèques se trouvent ainsi responsables devant les lecteurs (leur permettre d’accéder à toute l’information du monde) et devant les documents (garantir qu’ils seront lisibles demain, et qu’ils seront décrits dans une banque de données classifiée). Leur expérience peut nous servir de cadre de travail pour penser aux « documents numériques » dans la durée et dans l’organisation du libre-accès au savoir.

Dès les années 1990, le monde des bibliothèques fait naître le concept de « bibliothèques numériques » et choisit de leur conférer aussi bien des préoccupations techniques que des missions sociales et culturelles. Christine Borgman[1] relève en 1999 deux approches distinctes qui sont utilisées parmi les professionnels des bibliothèques. Elle décrit « un ensemble de ressources et de capacités techniques pour créer, rechercher et utiliser l’information » mais souligne aussi que « les bibliothèques numériques sont conçues et organisées pour (et par) une communauté d’usagers, et ses moyens sont utilisés pour répondre aux besoins d’information et aux usages de cette communauté ». Une approche qui fut aussi proposée par le Virginia Tech Institute en 98 : « une bibliothèque numérique ne se résume pas à une collection numérisée et des outils de gestion de l’information. C’est aussi un ensemble d’activités qui lient ensemble les collections, les services et les usagers tout au long du cycle de la création, diffusion, usage et conservation des données, de l’information et des connaissances » [2] .

L’usage de l’informatique dans les bibliothèques numériques ne se limite plus à la création de catalogues ou de portails d’accès, mais couvre le stockage, la ¬recherche et la fourniture dans un format toujours lisible, des documents eux-mêmes, dans leur diversité. Pour l’Association of Research Libraries, « les collections des bibliothèques numériques ne se contentent pas de références, mais concernent tous les artefacts numériques qui ne peuvent pas être présentés ou représentés sous forme imprimée »[3]. La bibliothèque numérique est aussi une bibliothèque « multimédia ».

Numériser et archiver

Avec le développement des réseaux, la lecture des documents se fait de plus en plus au travers du numérique. Les bibliothèques se sont donc rapidement posé la question de la « numérisation » des documents imprimés, mais aussi de la transformation des films ou des enregistrements sonores, afin de faciliter leur diffusion. Elles ont aussi rapidement réalisé qu’il existait, en croissance rapide, un ensemble de documents qui étaient d’emblée numériques, notamment les sites web. Un autre aspect de leur travail s’est attaché à organiser la préservation de ceux-ci, à assurer leur duplication.

La numérisation d’ouvrages imprimés a été lancée dès le début des années quatre-vingt dix dans de très nombreuses bibliothèques et centres d’archives dans le monde. Ainsi, le programme Gallica de la Bibliothèque nationale de France propose plus de 70 000 ouvrages du 19ème siècle, 80 000 images et des dizaines d’heures d’enregistrements sonores [5]. Le programme « Google Print »[6], annoncé a grands renforts médiatiques en décembre 2004, se propose de numériser des centaines de milliers d’ouvrages de cinq bibliothèques des États-Unis. Cette annonce a fait couler beaucoup d’encre, notamment en France, où le Président de la Bibliothèque nationale de France a saisi l’occasion pour élargir Gallica vers un programme européen multilingue de numérisation [7]. L’accès à la culture du passé devient, au travers de la numérisation, non seulement un enjeu économique, mais aussi « géopolitique » [8] : il y a plusieurs regards sur le monde, et ceux-ci sont inscrits dans les livres. Pour construire la Paix, il faut faire cohabiter dans l’univers numérique toutes les formes linguistiques, mais aussi les diverses trajectoires historiques. La Chine et l’Inde, en lançant un partenariat avec Internet Archive et l’Université du Michigan [9] ; le monde arabe, malgré les pillages et destruction de la ¬Bibliothèque de Bagdad, lieu d’invention de l’écriture ; et l’Afrique pour les manuscrits du 13ème siècle trouvés à Tombouctou [10], ont des projets de numérisation qui peuvent ré-équilibrer une vision trop « occidentale » de la culture et de la connaissance.

Le danger est grand cependant que le financement par les pays développés ou les organisations internationales ne se traduise par un flux à sens unique de culture et de connaissance. Notamment parce que le statut juridique des œuvres numérisées n’est pas clairement établi. La numérisation donnerait de nouveaux droits à l’entreprise qui l’a réalisée, ce qui se traduirait par une nouvelle mainmise sur le patrimoine. L’exemple du Codex Leicester de Léonard de Vinci est significatif : acheté par Bill Gates, le manuscrit est dans un coffre de banque, la seule version disponible est numérique, et le copyright a été attribué à Corbis. Si nous n’y prenons garde, la numérisation peut se traduire par une nouvelle privatisation du domaine public.

L’autre pan de l’activité de constitution de bibliothèques numériques consiste à « archiver le web ». A l’instar d’Internet Archive [4], de nombreux programmes publics et privés visent à constituer des « collections » d’images numériques du passé pourtant proche de l’internet. Nous sommes alors confrontés à plusieurs problèmes :

- comment sélectionner la partie du web qui sera archivée (échantillonnage) ?

- un tel archivage doit-il se faire en liaison avec les éditeurs des sites web, ou bien une bibliothèque peut-elle considérer que ces documents disponibles peuvent être archivés par ses soins au nom de l’usage légitime (fair use) ?

- comment collecter ces documents dispersés sur des millions de machines ?

- comment transformer ces documents (pages web) afin de permettre au lecteur de demain d’approcher l’expérience qui a pu être celle d’un lecteur au moment de la parution (reproduire le plus fidèlement possible non seulement le contenu des sites, mais aussi leur ¬apparence) ?

- comment permettre à un lecteur de lire des documents qui n’existent plus sur l’internet, en raison de la disparition de sites, mais qui ne sont pas encore du domaine public ? On peut penser que de nombreux auteurs souhaitent que les œuvres qu’ils laissaient librement sur l’internet au moment de leur création puissent rester libres dans les archives des ¬bibliothèques.

Cette question de l’archivage du web pose aussi un problème plus fondamental de définition du document dans son passage au numérique [11]. Un des mythes de l’internet consiste à remplacer le « document », que l’on peut lire et relire, par le « flux d’information », toujours renouvelé, plus proche de la « communication audiovisuelle ». Ce mythe s’appuie sur une évolution bien réelle des pratiques sociales autour de l’écriture/lecture : blogs, mail, séquences vidéo, podcasts, sites évolutifs, wiki... Le statut des auteurs change. Comment garder trace de ce bouleversement ? Comment rendre disponibles les idées et les actions des années antérieures ? Bref, comment transformer le flux de l’internet d’aujourd’hui en documents qui resteront lisibles demain ?

Deux stratégies pour retrouver les documents numériques

Parce que l’ordinateur devient l’outil privilégié de la création de nouveaux documents, tant sur la table de l’écrivain(e) que pour le chercheur universitaire, tant pour le montage vidéo que pour la création musicale, le nombre de documents édités (en l’occurence placés sur le web) se multiplie sans commune mesure par rapport aux périodes antérieures. La question de l’identification des documents répondant au besoin d’un lecteur, que ce besoin soit scientifique, politique ou culturel, prend alors une place prépondérante. Comment retrouver une aiguille dans cette prolifération d’information ?

Deux stratégies sont mises en place :

- les « moteurs de recherche » (Google, Yahoo !, MSN) utilisent le contenu des documents pour effectuer la recherche. Ceci favorise les recherches précises, quand la question comporte de nombreux mots (par exemple la recherche d’une citation). Mais cela rend plus difficile la recherche sur des concepts.

- les classifications des bibliothèques numériques, et de plus en plus des outils proposés dans le cadre du « web sémantique »[12], visent à élaborer des « langages documentaires » dans lesquels on peut « naviguer » afin d’y trouver les documents qui se trouvent regroupés par proximité de sens.

Ces deux stratégies sont complémentaires[13]. Si la première s’appuie sur le calcul et donc la puissance informatique, la seconde demande une intervention humaine. La première est soumise aux imprécisions du langage, aux manipulations par les services de « référencement », et aux choix cachés des algorithmes ; la seconde souffre de visions souvent trop spécifiques et partiales de la classification des connaissances.

Chaque classification (depuis la Dewey des bibliothèques, jusqu’à l’annuaire de Yahoo !) est le reflet de regards sur le monde, des préoccupations « actuelles » du groupe qui la crée, la développe et l’utilise. Les classifications utlisées sur l’internet sont principalement, aujourd’hui, liées aux besoins et aux conceptions des pays développés. Disposer d’un système de classement évolutif, complet, à multiples facettes, et réellement mondial demande beaucoup d’investissement humain. Or nous disposons avec l’internet, de la capacité à faire coopérer de nombreuses personnes pour ces tâches. Les projets coopératifs comme l’Open Directory Project [14] ou la folksonomie [15] permettent aux lecteurs eux-mêmes de participer au classement des documents numériques. Un nouveau rôle des bibliothèques numériques, devient alors de trouver les moyens techniques et humains pour animer cette dynamique, pour garantir que les points de vue du monde entier soient bien respectés, et pour faciliter les traductions des concepts.

Le modèle calculatoire des moteurs de recherche est pour sa part biaisé par les contraintes économiques qui pèsent sur ces entreprises. Associer les recherches documentaires et les revenus publicitaires devient une nécessité qui pèse en retour sur l’équilibre de notoriété des documents retrouvés. Les documents qui apparaissent en premier dans une liste de réponses sont à leur tour cités, ce qui les rend plus connus encore. C’est un effet de type « médiatique » qui tend à diviser les documents entre un petit nombre très souvent lus et cités et les autres qui resteront presque inconnus. La question de la diversité culturelle et linguistique et celle de la qualification de la science (le contrôle par les pairs - peer review) ne peuvent être prises en compte par le modèle algorithmique des moteurs de recherche. Et cela plus encore quand il s’agit de documents longs, comme les livres [16].

Avec les grands moteurs de recherche, nous voyons émerger un réel « nouveau média » sur l’internet. Or ce média, outil de promotion, de vente d’espace publicitaire et amplificateur du « succès » d’audience, se présente uniquement sous l’angle d’un outil « technique » destiné à mieux exploiter les ressources du web. Sous cette apparente banalité nous pouvons cependant d’ores et déjà repérer les glissements qui vont favoriser les documents produits en anglais, dans les pays développés. Les documents « grand-public » vont être privilégiés par le système de décompte des liens (le page rank de Google) au détriment de la recherche et des œuvres critiques... Bref, loin de constituer un moyen d’accéder à toute l’information, le risque est grand de ne favoriser qu’une partie de l’information, celle qui a les moyens de constituer de l’audience grâce aux diverses techniques marketing visant à faire apparaître les sites en début de liste. Cette nouvelle domination médiatique en émergence a de quoi inquiéter les pays en développement. D’autant qu’aucune règle de limitation de la concentration, aucune loi anti-monopole n’est établie pour ce secteur.


Le libre-accès à la connaissance

Les bibliothèques, parce qu’elles permettent de lire des documents repérés et classifiés en dehors des règles du marché et en dehors des pressions religieuses ou idéologiques, sont des outils essentiels pour élargir au monde entier, et surtout en direction des femmes, le libre-accès à la connaissance. C’est parce qu’elles sont des services ouverts à tous (et toutes) que les bibliothèques ont toujours cherché à promouvoir la lecture, la réflexion, la pensée, pour toutes les catégories de la population. Pour assurer ces missions, et finalement améliorer le niveau de vie et de conscience des individus et des pays, les bibliothèques s’appuient sur des « limitations et exceptions » dans le cadre des lois sur les Droits de Propriété Intellectuelle. La lecture publique, l’usage des œuvres sous copyright dans les écoles et les universités, la diffusion de la science... sont rendus possibles par de nombreuses règles d’usage présentes dans les lois et la jurisprudence sur le droit d’auteur ou le copyright. Ainsi en est-il de la notion de « fair use » (usage légitime) qui permet aux bibliothèques de faire consulter à leur public, sur place ou à domicile, les ouvrages, les musiques ou les films et reportages qu’elles ont régulièrement acquis. Les achats des bibliothèques sont un moteur économique essentiel pour un grand nombre d’ouvrages, notamment les documents critiques, spécialisés, de haut niveau, ou dans les langues minoritaires au sein d’un pays donné.

Or ces exceptions et limitations sont profondément bousculées par le passage au numérique et plus encore par la diffusion des documents par la voie électronique en réseau.

L’IFLA (International Federation of Library Associations) recense ainsi [14] :

- l’instauration de nouvelles couches légales sur les lois de copyright, comme le « droit des bases de données » (l’organisation des informations en base de données confère une propriété, même si les informations ne sont pas soumises à copyright) ;

- les Mesures Techniques de Protection (DRM), qui empêchent les lecteurs d’utiliser les exceptions légales (par exemple la copie privée) ;

- les licences non-négociables qui outrepassent les règles sur les usages légitimes (chaque document numérique propose une « licence », contrat privé dont les termes, rédigés uniquement par l’éditeur, deviennent supérieur à la Loi).

Ajoutons que les règles de conservation des documents électroniques sont mises à mal par les pratiques des éditeurs. Or seuls des organismes indépendants, dûment mandatés, peuvent garantir l’impartialité et la complétude de l’archivage et de la préservation des documents. Les exemples abondent dans l’histoire de documents ayant disparu quand leur usage quitte la sphère économique.

Ajoutons aussi que les bibliothèques participent à l’extension des usages collectifs de l’internet. Elles sont des lieux qui hébergent des télécentres ou des lieux de création multimédia. Outils d’éducation populaire, les bibliothèques permettent à de nombreuses personnes de faire l’apprentissage collectif de la lecture des documents électroniques. Or les règles de droit, comme les pratiques du commerce, ne considèrent que des usages « individuels » des documents. Une telle conception restreinte touche en particulier les femmes dans les pays où elles sont soumises à une pression qui limite leur accès à l’école et à la connaissance, et pour lesquelles les bibliothèques sont des refuges culturels.

Dès lors, comment maintenir et élargir aux pays en développement et aux couches de la population qui ont peu accès à la lecture, le service que rendent les bibliothèques dans l’univers numérique ? Cette question constitue un enjeu fondamental pour un développement mondial soutenable. C’est aussi une question de santé publique (accès aux connaissances qui permettent de faire face aux pandémies), de construction de la Paix (par l’inter-compréhension des peuples et des cultures), et d’extension de la démocratie et des Droits de l’Homme. C’est une des raisons qui conduisent les bibliothécaires, notamment l’IFLA, à participer à la démarche de la société civile mondiale pour écrire un « Traité pour le libre-accès à la connaissance » [18].


Les trois enjeux des bibliothèques numériques

Nous avons repéré trois axes autour desquels il semble nécessaire de concevoir la construction de bibliothèques numériques. Ces trois axes recouvrent les activités traditionnelles des bibliothèques et ce faisant montrent que l’expérience acquise avec les livres et les revues dans les dernières décennies peut aussi servir dans une situation en évolution très rapide, plus marquée par la communication que par la gestion de l’information documentaire, comme c’est le cas de l’internet ¬actuellement.

- la conservation et la numérisation : comment choisir les documents à numériser, comment garantir la couverture de toutes les idées et de toutes les langues ? Comment archiver les flux d’informations qui circulent sur l’internet au profit des générations futures ? Comment conserver au sein des biens communs les documents du domaine public qui sont numérisés ?

- la recherche documentaire : comment articuler les modèles des moteurs de recherche et ceux des classifications afin d’éviter que la connaissance ne devienne qu’un enregistrement de la « popularité » de telle ou telle idée ou conception ? Comment développer le multilinguisme et la navigation par concepts promis par le « web sémantique » en associant tous les internautes du monde entier ?

- l’accès aux documents : comment maintenir les limitations et exceptions à la propriété intellectuelle qui permettent aux bibliothèques de participer à la libre circulation des connaissances dans l’univers numérique ? Comment éviter que de nouveaux droits et techniques de propriété associés aux documents numériques ne viennent réduire la capacité de tous et toutes à accéder à la connaissance ?

En regardant l’internet avec le regard des bibliothécaires, nous pouvons mieux percevoir le besoin de garder des traces de son activité bouillonnante. Nous pouvons mieux placer la réflexion dans la durée et nous trouver moins soumis aux emballements médiatiques. Nous pouvons enfin mesurer dans le domaine des idées l’importance de la mise en œuvre de normes de description (les métadonnées) et l’interopérabilité (la traduction, la coopération dans la description documentaire et la nécessité de reformater en permanence les documents pour qu’ils restent lisibles au fur et à mesure de l’évolution technique) qui sont au fondement des techniques de l’internet.

Ce faisant, nous rencontrons une conception sociale de l’information et de la connaissance, qui construit à la fois du patrimoine (les œuvres du passé) et de l’accès aux informations les plus actuelles (les publications scientifiques). Nous relativisons les visions strictement commerciales de la production de culture et de connaissance en nous plaçant du point de vue des biens communs informationnels et de leurs effets sur le développement des personnes et des pays.

Notes et Références

[1] Borgman, C. L. (1999). What are digital libraries ? Competing visions. Information Processing & Management, 35 (3), 227-243. cité par Mentor Cana, Socio-technological definition of “digital library”, 4 juin 2004 http://www.kmentor.com/socio-tech-info/archives/000694.html

[2] « The “digital library” is not merely equivalent to a digitized collection with information management tools. It is also a series of activities that brings together collections, services, and people in support of the full life cycle of creation, dissemination, use, and preservation of data, information, and knowledge. » Digital Library Definition for DLI2, 5 juin 1998 http://scholar.lib.vt.edu/DLI2/defineDL.html

[3] « digital library collections are not limited to document surrogates : they extend to digital artifacts that cannot be represented or distributed in printed formats. » Definition and Purposes of a Digital Library, In : Realizing Digital Libraries, Boston, may 1995. http://www.arl.org/arl/proceedings/126/2-defn.html

[4] « The Internet Archive is building a digital library of Internet sites and other cultural artifacts in digital form. Like a paper library, we provide free access to researchers, historians, scholars, and the general public. » http://www.archive.org

[5] http://gallica.bnf.fr

[6] http://print.google.com

[7] Quand Google défie l’Europe, plaidoyer pour un sursaut, Jean-Noël Jeanneney. - Ed.Fayard, coll. « Mille et une nuits » , 114 p., 9 €.
[8] Google Bubble - Politique et technologie : les enjeux de la numérisation. Hervé Le Crosnier. http://www.vecam.org/article.php3?id_article=431

[9] The million books project. « language independent digital library, widely available through free access on the Internet, will improve the global society in ways beyond measurement ». http://dli.iiit.ac.in

[10] Les manuscrits de Tombouctou. http://portal.unesco.org/ci/fr/ev.php-URL_ID=14224&URL_DO=DO_TOPIC&URL_SECTION=201.html

[11] Document : forme, signe et médium, les re-formulations du numérique. Roger T. Pédauque. Article. 08 juillet 2003. Working paper. http://archivesic.ccsd.cnrs.fr/documents/archives0/00/00/05/11/index_fr.html

[12] Le « web sémantique » est un projet lancé par Tim Berners-Lee qui vise à faire coopérer de nombreux robots s’appuyant sur des langages documentaires (thésaurus, ontologies, dictionnaires...) répartis sur le web. Extraire automatiquement des connaissances à partir des documents, classifier, traduire, échanger des informations... sont certainement des mythes difficiles à réaliser. Mais les retombées dans la gestion des documents numériques des outils du web sémantique seront rapidement importantes.

[13] Moteurs de recherche et bibliothèques numériques. Hervé Le Crosnier. juin 2005 http://www.vecam.org/article.php3?id_article=461

[14] Open directory projet http://dmoz.org

[15] « Folksonomy is a neologism for a practice of collaborative categorization using freely chosen keywords. More colloquially, this refers to a group of people cooperating spontaneously to organize information into categories. » http://en.wikipedia.org/wiki/Folksonomy

[16] Google and God’s Mind The problem is, information isn’t knowledge. Michael Gorman. Los Angeles Times, 17 décembre 2004 (M. Gorman est Président de l’American Library Association). http://www.scils.rutgers.edu/ lesk/spring05/lis553/ala-jan05.txt

[17] Joint statement of IFLA/FIAB et eIFL to the 4th session of the Permanent committee on cooperation for development related to intellectual property, 14-15 avril 2005. http://www.eifl.net/services/ipdocs/pcipd_joint_ifla_eifl.pdf

[18] Geneva Declaration on the Future of the World Intellectual Property Organization. http://www.cptech.org/ip/wipo/genevadeclaration.html
27 mars 2006

Ce texte est extrait du livre Enjeux de mots : regards multiculturels sur les sociétés de l’information. Ce livre, coordonné par Alain Ambrosi, Valérie Peugeot et Daniel Pimienta a été publié le 5 novembre 2005 par C & F Éditions.
Posté le 4 juin 2006
©© a-brest, article sous licence creative common info
flickr
Pointe Saint Mathieu
par Agnès Trevarain
Creative Commons BY-NC-SA