Open Data : la réponse de Savoirs com 1 à la consultation du ministère de la Culture

Open_Data_stickers

Introduction

Le collectif Savoirscom1 remercie le ministère de la Culture et de la Communication pour la consultation publique relative à l’ouverture de ses données publiques culturelles stratégiques. En effet, l’ouverture de données publiques culturelles stratégiques permettra tant d’accroître la diffusion de la culture, que de proposer de nouveaux services et de partager des connaissances.

Cette consultation intervient après les parutions successives du guide Dataculture1 et de la feuille de route Open Data du Ministère de la Culture2, qui contiennent des dispositions en faveur de l’ouverture que le collectif salue également.

En réponse à la question : « Quelles sont les données publiques culturelles stratégiques que vous souhaiteriez voir ouvertes à la réutilisation libre et gratuite ? », le collectif Savoirscom1 propose donc un ensemble de jeux de données publiques culturelles stratégiques qu’il souhaite voir ouverte à la réutilisation, tout en attirant l’attention du ministère de la Culture et de la Communication sur le fait que cette liste ne saurait être exhaustive.

Les données publiques culturelles devraient être considérées dans leur ensemble comme des informations stratégiques à ouvrir à la réutilisation, en leur appliquant le principe de gratuité qui a déjà été mis en place au niveau de l’Etat3.

Le collectif Savoirscom1 s’attache en outre à énoncer les conditions nécessaires à l’ouverture effective et pérenne de données publiques culturelles, notamment pour éviter les phénomènes d’enclosures, en incitant le Ministère de la Culture et ses établissements à utiliser des licences comportant des clauses de partage à l’identique.

La délimitation des données publiques culturelles stratégiques à ouvrir à la réutilisation libre et gratuite : de la présentation d’une liste non exhaustive au soutien d’une ouverture totale.

Le collectif Savoirscom1 a établi une liste non exhaustive de données stratégiques à ouvrir à la réutilisation libre et gratuite, la délimitation de l’intégralité des données publiques culturelles susceptibles d’être stratégiques s’avérant impossibles et confirmant la nécessaire intégration des données publiques culturelles dans le régime d’utilisation commun des données publiques.

Liste non exhaustive de données publiques culturelles stratégiques à ouvrir à la réutilisation libre et gratuite

Ministère de la Culture et de la Communication et ses opérateurs

  • L’ensemble des données statistiques sur le fonctionnement et l’évaluation des opérateurs (données budgétaires, statistiques de fonctionnements sur place et fréquentation des sites et toutes données des enquêtes et/ou études menées par les opérateurs ou financées par eux). Par exemple, les Chiffres clés, Muséostat, PatrimoStat, données sur la lecture publique mise à disposition sur le site « Observatoire de la lecture publique »4
  • Les données des rapports externes commandés par le MCC devraient systématiquement être placées sous licence ouverte toute exception devrait être dûment validée et faire référence à des critères réglementaires ou légaux (secret économique, etc.)
  • Les données des commissions relevant du MCC, notamment la commission permanente de contrôle des SPRD. Plus largement, une réflexion devrait être engagée pour que les données des sociétés de gestion collective fassent l’objet d’une diffusion en Open Data. On pense en particulier aux informations collectées par des sociétés dans le cadre d’une gestion collective obligatoire (CFC) ou d’une licence légale (SOFIA). Pour cette dernière société, en particulier les données qui permettraient d’avoir avec exactitude la part que représentent les acquisitions des bibliothèques dans le marché du livre en France. L’application des principes de l’Open Data aux sociétés de gestion collective constituerait un facteur important d’amélioration de la transparence.
  • L’ensemble des métadonnées des oeuvres culturelles, sur la base de la proposition suivante issue du rapport Lescure5 :
    • Créer, sous l’égide des organismes gestionnaires du dépôt légal, et en partenariat avec les sociétés de gestion collective et les organisations professionnelles, des registres ouverts de métadonnées.
    • Lancer une étude de faisabilité et proposer aux parties prenantes une démarche en deux temps :
      1. Création d’un portail d’identification des œuvres et des ayants droit
      2. Élaboration de mécanismes d’octroi simplifié d’autorisation.

    La proposition du rapport Lescure vise les métadonnées produites par les établissements dépositaires du dépôt légal : BnF, INA, CNC.

    Le collectif SavoirsCom1 souhaite insister sur l’importance de ces métadonnées qui constituent un socle incontournable pour développer des services commerciaux à valeur ajoutée sur des objets culturels tangibles ou numériques. A cet égard, il est particulièrement important de prévoir une clause de « partage à l’identique » pour ces données de manière à permettre le développement de modèles économiques tout en créant un cercle vertueux d’enrichissement des données fournies par les services publics. (cf partie II)

  • Pour l’INA, en plus des métadonnées sur les oeuvres comme indiqué ci-dessus, le Collectif SavoirsCom1 recommande de rendre librement et gratuitement réutilisables les archives audiovisuelles elles-mêmes, au moins pour les documents de l’ORTF jusqu’à 1968, dont le financement a été assuré exclusivement par les contribuables6
  • Les données relatives au montant et à l’évaluation des dispositifs législatifs, notamment l’impact des taxes et des aides accordées (en particulier la taxe sur la copie privée).

Bibliothèques opérateurs du MCC

  • L’ensemble des données bibliographiques des catalogues nationaux de la Bibliothèque Nationale de France y compris les données d’autorité, pour faire suite à la démarche d’ouverture entreprise dans le cadre de data.bnf.fr, y compris pour les données qui ne sont pas encore passées en RDF7
  • L’ensemble des données relatives au dépôt légal administré par la BnF, pour tous les types d’oeuvres concernées, y compris le dépôt légal du web
  • Les informations de la base ReLIRE gérée par la Bibliothèque nationale de France, dont les possibilités d’interrogation sont beaucoup trop limitées à l’heure actuelle
  • Les données correspondant à des oeuvres du domaine public numérisées (contenus par exemple dans la bibliothèque numérique Gallica, dans la base Mandragore ou dans la banque d’images du service de reproduction de la BnF). A l’heure actuelle, la BnF impose une restriction à l’usage commercial de ces fichiers, en négation de l’appartenance au domaine public des oeuvres reproduites.Dans son guide Dataculture, le MCC recommande lui-même l’usage de la Public Domain Mark pour les oeuvres du domaine public numérisées.Le rapport Lescure recommande de son côté « d’indiquer que les reproductions fidèles d’œuvres du domaine public appartiennent aussi au domaine public » et « d’affirmer la prééminence du domaine public sur les droits connexes ». La loi du 17 juillet 1978 ne devrait pas être utilisée ainsi pour restreindre la réutilisation du domaine public numérisé.

Centre National du Livre

  • L’ensemble des données statistiques sur l’attribution et l’usage des aides accordées
  • Les listes des acquisitions des bibliothèques qui font l’objet d’un dispositif d’aides du CNL.

Musées nationaux

  • Les données des catalogues des musées nationaux, en particulier les données en RDF produites par le Centre Pompidou dans le cadre du Centre Pompidou Virtuel. Dans sa feuille de route Open Data, le MCC indique souhaiter

    Investir les technologies du web sémantique et amorcer une dynamique de linked opendata dans le secteur culturel en contribuant au rayonnement de la culture française et de la francophonie sur Internet.

    Le Centre Pompidou a certes accepté d’ouvrir les données relatives à ses dossiers pédagogiques à l’occasion du Hackathon Dataculture qui aura lieu en octobre8, mais ce n’est pas suffisant. Il est incohérent de voir des établissements culturels relevant de la tutelle du MCC s’engager dans des démarches de production de données enrichies en RDF, sans ouvrir dans le même temps les données à la réutilisation libre et gratuite.

    D’autres projets de production de métadonnées enrichies en RDF sont en cours, notamment à la Cité de la Musique ou au Musée du Quai Branly : il importe que ces données soient diffusées en Open Data dès leur publication pour éviter l’incohérence dans laquelle se trouve actuellement le Centre Pompidou.

  • Pour les même raisons déjà détaillées ci-dessus pour les oeuvres du domaine public numérisées par la BnF, les images produites ou diffusées par la Réunion des Musées Nationaux (RMN) à partir d’oeuvres du domaine public devraient être placées sous Public Domain Mark. Actuellement, la réutilisation de ces images est empêchée, par des mentions de type « copyright : tous droits réservés » à la validité juridique douteuse où l’usage commercial est soumis à redevance, par invocation de la loi du 17 juillet 1978 sur les informations publiques.
  • Les informations contenues dans la base Joconde, Portail des collections des Musées de France, qu’il s’agisse des notices descriptives ou des oeuvres numérisées, lorsqu’elles appartiennent au domaine public (pour les raisons exposées ci-dessus).
  • Les informations relatives au prêt des oeuvres dans les musées nationaux.

SIAF et Archives nationales

  • L’ensemble des données statistiques transmises chaque année par le réseau des archives territoriales (régions, départements, communes et centres de gestion) et publiées par le SIAF9
  • Moyennant le respect des règles fixées par la loi du 6 janvier 1978 et par la CNIL concernant la protection des données personnelles, l’ensemble des métadonnées et informations produites par les Archives nationales pour élaborer ses instruments de recherche, inventaires, répertoires en ligne et bases de données10.
  • Au-delà des métadonnées, le Collectif SavoirsCom1 recommande de rendre réutilisables librement et gratuitement les documents numérisés par les différents services à compétence nationale des Archives nationales11.
  • Pour les mêmes raisons que signalées ci-dessus pour les oeuvres du domaine numérisées par la BnF et la RMN, l’ensemble des oeuvres du domaine public figurant dans la base ARCHIM. Les Archives nationales ont accepté de libérer une sélection de grands documents de l’histoire de France, à l’occasion du Hackathon Dataculture12, mais une telle démarche, qui reste exceptionnelle, confirme a contrario le principe du contrôle de la réutilisation du domaine public numérisé.

Les données publiques culturelles susceptibles de constituer des données culturelles stratégiques à ouvrir : l’ensemble des données publiques culturelles

Chaque donnée publique culturelle est susceptible de constituer une donnée publique culturelle à ouvrir et l’intégration des données publiques culturelles dans le régime d’utilisation commun des données publiques est juridiquement légitime.

De l’impossible élaboration d’une liste exhaustive de données publiques culturelles

Il s’avère totalement impossible de connaître à l’avance l’ensemble de données publiques culturelles que des acteurs pourront judicieusement valoriser. En effet, il n’y a que lorsque les données publiques sont à la disposition des acteurs, que ceux-ci peuvent se les approprier et déterminer, parfois suite à des essais successifs, les utilisations qu’ils pourront en faire.

C’est en conviant des designers, développeurs, porteurs de projets, créatifs, et autres curieux à piocher dans un vaste ensemble de jeux de données, que le Ministère de la Culture et de la Communication permettra à la créativité de se développer à partir des données publiques culturelles. Des personnes commenceront à réaliser d’amples études sur l’utilisation des données publiques culturelles dès lors qu’elles sauront que celles-ci sont effectivement ouvertes. Des innovations de rupture seront dès lors réalisées avec l’émergence d’usages inattendus de données.

Peu d’acteurs peuvent actuellement se permettre d’investir dans de vastes études d’utilisation de données publiques culturelles sans savoir s’ils auront la possibilité concrète de mettre à profit leurs études. Par ailleurs, il est difficile de se focaliser sur des données publiques culturelles précises lorsqu’on ignore la qualité de ces données. Or, toutes les données publiques n’ont pas la même qualité : des données peuvent être mises en ligne avec un contexte, de manière non filtrée, sous forme de données structurées, dans des formats non-propriétaires, dans des formats propriétaires, avec la possibilité d’utiliser des url pour identifier les données, etc…

L’ouverture de l’ensemble des données publiques culturelles permettra finalement aux institutions culturelles de devenir des espaces ouverts et inclusifs où chacun peut trouver sa place. Les institutions culturelles deviendront des espaces vivants qui évolueront avec leurs utilisateurs, un véritable réseau connecté à diverses communautés et entreprises aux intérêts variés. L’ensemble de la société bénéficiera du principe de l’externalité positive. Une concurrence équitable entre toutes les entreprises pourra s’instaurera. L’économie comme le tourisme seront stimulés.

En continuant à restreindre l’usage des données publiques culturelles face à des établissements étrangers engagés dans des démarches d’ouverture, on peut même estimer que la France risque de prendre un retard culturel et économique considérable. Le choix d’ouvrir ou non leurs données ne devrait plus être laissé aux établissements et services culturels, et ce d’autant plus que les données publiques culturelles pourraient être intégrées dans le régime d’utilisation commun des données publiques.

…à la légitimité de l’intégration des données publiques culturelles dans le régime d’utilisation commun des données publiques

Le Ministère de la Culture et de la Communication devrait imposer à l’ensemble des opérateurs culturels sous sa tutelle d’ouvrir leurs données culturelles tant pour des motifs économiques que juridiques.

Pour des motifs économiques

La possibilité de monétiser les données culturelles a longtemps été défendue au regard des besoins élevés d’investissement dans des opérations de numérisation complexe.

Cependant, le rapport Data Culture a mis en évidence la faiblesse des revenus financiers issus des redevances liées à l’exploitation des données publiques culturelles :

Une analyse fine du marché de la donnée publique dans le secteur culturel met en exergue qu’à l’exception des grands projets de réutilisation menés par de grands établissements publics, le plus souvent des établissements publics à caractère industriel et commercial, le bénéfice financier reste faible ou représente des revenus marginaux. à ce titre, une mise en balance des intérêts de l’Institution doit être réalisée entre les revenus financiers réalisés en matière de réutilisation de ses données et la stratégie numérique de dissémination, de visibilité et d’économie de notoriété qui peut être développée par une ouverture plus grande des données.

Et, plus qu’une source de revenu faible ou marginal, les redevances liées à l’exploitation des données publiques culturelles représentent bien souvent une charge pour les opérateurs publics culturels. En effet, opérateurs publics culturels, tel que les archives municipales de Toulouse13, ont constaté que l’exigence de redevance payante, ne serait-ce que pour un usage commercial, soulevait de nombreuses difficultés. En effet, les difficultés à établir clairement le caractère commercial de certains usages font que la plupart des agents sont perdus dans des méandres juridiques et dans l’incapacité de répondre rapidement à des demandes de réutilisation.

Pour des motifs juridiques

La nature même des données publiques culturelles ne justifie pas non plus leurs soumissions à un régime dérogatoire. En effet, s’il est indiqué sur le C/blog14 que l’exception culturelle est justifiée par la nécessité de protéger les données personnelles, la loi de 1978 prévoit déjà des dispositions protectrices en lien avec les données personnelles applicables à toutes les administrations en son article 13 :

Les informations publiques comportant des données à caractère personnel peuvent faire l’objet d’une réutilisation soit lorsque la personne intéressée y a consenti, soit si l’autorité détentrice est en mesure de les rendre anonymes ou, à défaut d’anonymisation, si une disposition législative ou réglementaire le permet. La réutilisation d’informations publiques comportant des données à caractère personnel est subordonnée au respect des dispositions de la loi du janvier 1978 relative à l’informatique, aux fichiers et aux libertés

Toutes les institutions publiques sont susceptibles d’être confrontées au problème des données personnelles et celles qui concernent les institutions culturelles ne sont pas particulièrement plus sensibles que les autres. Les données personnelles d’un service d’archives ne sont pas plus sensibles que celles d’un hôpital.

L’exception culturelle ne peut pas non plus être justifiée par le fait que les opérateurs culturels doivent

conserver une certaine latitude […] des données protégées par un droit de propriété littéraire et artistique ou industrielle

. En effet, là encore, les opérateurs culturels ne sont pas les seuls à détenir des documents potentiellement couverts par des droits de propriété intellectuelle et l’article 10 de la loi de 1978 a prévu le cas des données protégées par un droit de propriété littéraire et artistique ou industrielle en disposant que

Ne sont pas considérées comme des informations publiques, pour l’application du présent chapitre, les informations contenues dans des documents : [...] – sur lesquels des tiers détiennent des droits de propriété intellectuelle.

Le Conseil National du Numérique a d’ailleurs publié en 201215 un avis en faveur de l’intégration des données publiques culturelles dans le régime d’utilisation commun des données publiques :

Il ne semble pas proportionné de créer un régime d’exception à tout le secteur culturel s’il n’est justifié que par des cas très particuliers, qui restent d’ailleurs à définir précisément. Le CNNum propose donc d’intégrer les données culturelles dans le régime de réutilisation commun.

Pour arriver à un tel résultat, il existe un moyen simple, celui de réviser la circulaire du 26 mai 201116 qui maintient une dérogation en faveur des établissements publics culturels sous tutelle du MCC :

L’article 11 de la loi prévoit un régime dérogatoire pour les établissements et les institutions d’enseignement et de recherche ainsi que pour les établissements, organismes ou services culturels qui fixent, le cas échéant, leurs conditions de réutilisation de leurs informations publiques. Ces établissements ainsi que les collectivités territoriales et les personnes de droit public ou de droit privé chargées d’une mission de service public peuvent, s’ils le souhaitent, mettre à disposition leurs informations publiques sur le portail « data.gouv.fr ». Dans ce cas, une convention fixe les conditions de réutilisation de ces informations.

En supprimant ce régime dérogatoire, les établissements culturels se verraient soumis aux mêmes obligations que les autres administrations de l’Etat (en principe, publication et réutilisation libre et gratuite des données sur le portail data.gouv.fr).

Conditions nécessaires à l’ouverture effective et pérenne de données publiques culturelles stratégiques, évitement des phénomènes d’enclosure et partage à l’identique

Une ouverture effective et pérenne de données publiques culturelles stratégiques implique tant de gérer des éléments au carrefour de régime juridique variés que d’éviter des phénomènes d’enclosure. Nonobstant un accès gratuit aux données, le collectif affirme que cela doit se faire dans des conditions de »partage à l’identique » où ce qui est créé et vendu de manière exclusive ne doit pas être les données elles-mêmes, mais les services qui leurs sont associés17.

Le collectif souhaite attirer tout particulièrement l’attention sur l’importance de prévoir des clauses de reversement des ajouts ou enrichissements faits aux données (partage à l’identique avec des licences de type ODBL18, utilisée par de nombreuses collectivités territoriales en France dans le cadre de leurs projets Open Data). Ces clauses obligatoires pour les acteurs économiques ou associatifs peuvent être considérées comme un retour légitime auprès des acteurs publics des externalités positives produites par les réutilisateurs ainsi qu’un encouragement à des modèles économiques fondés sur les services et non sur la revente de données publiques.

Or à l’heure actuelle, un seul choix est possible pour l’ouverture des données du MCC ou de ses établissements : la Licence Ouverte d’Etalab, qui est requise pour diffuser des données via le portail data.gouv.fr. Le Guide Dataculture publié par le MCC recommande uniquement l’utilisation de cette licence, sans mentionner les possibilités de diffusion des données avec une clause de partage à l’identique.

Le collectif SavoirsCom1 recommande vivement qu’une possibilité soit laissée aux services et établissements culturels d’utiliser la licence ODbL ou d’autres licences compatibles. Les Archives municipales de Toulouse ont à ce titre mis en place un système original de licences, sur lequel le collectif SavoirsCom1 attire l’attention du MCC :

les Archives municipales de Toulouse ont fait le choix de proposer trois licences différentes :

  • Les œuvres dont la mairie détient les droits patrimoniaux sont placées sousCreative Commons, avec les conditions BY-SA (libre réutilisation, sous réserve de mention de la paternité et de partage à l’identique).
  • Les informations publiques, prises individuellement, sont placées sous le régime de la loi 78-753 (libre réutilisation, sous réserve de citer la source), auquel a été ajoutée une condition supplémentaire de partage à l’identique.
  • En cas de réutilisation d’une partie « substantielle » du contenu de la base (œuvres et/ou informations publiques), alors la licence ODbL s’applique (libre réutilisation, sous réserve de mentionner la paternité, de partager aux mêmes conditions et de garder ouvert le résultat de la réutilisation).

Le collectif SavoirsCom1 attire ici l’attention du Ministère sur le fait que les Archives de Toulouse ont construit un partage à l’identique directement à partir de la loi du 17 juillet 1978, qui porte sur les données elles-mêmes et pas seulement sur la base de données. Cette démarche apparaît particulièrement intéressante.

Le partage à l’identique, qui a déjà fait ses preuves dans le domaine du logiciel, constitue un mécanisme essentiel pour éviter les phénomènes d’enclosure, c’est-à-dire la réappropriation à titre exclusif de biens communs mis en partage19. Le partage à l’identique peut constituer un facteur de régulation des rapports entre le secteur public et le secteur privé, en prévenant l’apparition de situations de position dominante obtenue par de gros acteurs sur certains types de marchés et en favorisant la diversité et l’ouverture de l’écosystème de réutilisation.

En outre, le collectif souhaite insister sur l’usage de formats ouverts et interopérables pour toutes les données mises à disposition, condition nécessaire à leur réutilisation par des tiers.


  1. Guide Dataculture. Pour une stratégie numérique de diffusion et de réutilisation des données publiques numériques du secteur culturel. Mars 2013 : http://www.culture.fr/Professionnels/Reutilisation-de-ressources-Culture/Guide-Data-Culture
  2. Feuille de route Open Data du Ministère de la Culture et de la Communication. Juillet 2013 : http://cblog.culture.fr/wp-content/uploads/2013/07/Feuille-de-route-open-data-MCC.pdf
  3. Voir Décret et circulaire du 26 mai 2011 : http://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000024072788
  4. http://www.observatoirelecturepublique.fr/observatoire_de_la_lecture_publique_web/
  5. http://www.culturecommunication.gouv.fr/var/culture/storage/culture_mag/rapport_lescure/index.htm
  6. http://paigrain.debatpublic.net/?p=2515
  7. http://data.bnf.fr/
  8. http://www.culturecommunication.gouv.fr/Actualites/A-la-une/Education-artistique-L-Automne-numerique-en-trois-dates
  9. http://www.archivesdefrance.culture.gouv.fr/archives-publiques/chiffres-clefs-rapports-et-etudes/donnees-statistiques/
  10. http://www.archivesnationales.culture.gouv.fr/chan/chan/instruments-de-recherche.html
  11. http://www.archivesnationales.culture.gouv.fr/chan/chan/documents-en-ligne.html ou encore http://anom.archivesnationales.culture.gouv.fr/caomec2/
  12. http://www.culturecommunication.gouv.fr/Actualites/A-la-une/Education-artistique-L-Automne-numerique-en-trois-dates
  13. http://www.papiers-poussieres.fr/index.php/2013/09/22/toulouse-ouvre-ses-archives-la-fin-du-verrouillage/
  14. http://cblog.culture.fr/2011/03/01/la-valorisation-des-donnees-publiques-culturelles-moteur-dune-economie-numerique-de-la-culture
  15. http://docs.google.com/viewer?url=http://www.cnnumerique.fr/wp-content/uploads/2012/06/2012-06-05_AvisCNNum_12_OpenData.pdf et http://www.cnnumerique.fr/ouverture-des-donnees-publiques-lavis-du-cnnum/
  16. http://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000024072788
  17. Voir le Manifeste de SavoirsCom1 : http://www.savoirscom1.info/manifeste-savoirscom1/
  18. http://opendatacommons.org/licenses/odbl/
  19. Voir Jordi Navarro. Entre ouverture et enclosure : les biens communs contaminants. Papiers et Poussières, 5 août 2012 : http://www.papiers-poussieres.fr/index.php/2012/08/05/entre-ouverture-et-enclosure-les-biens-communs-contaminants/

Via un article de SavoirsCom1, publié le 21 octobre 2013

©© a-brest, article sous licence creative common info