Pour une véritable exception text mining dans la Loi sur le numérique !

Data

Lors de son adoption en janvier en première lecture à l’Assemblée Nationale, le projet de loi pour une République numérique a été amendé par l’article 18 bis prévoyant une exception au droit d’auteur pour les projets scientifiques d’extraction de texte et de données (Text and data mining ou TDM) financés par la recherche publique.

Le TDM constitue une pratique indispensable pour faire de l’information un bien commun circulant et s’assurer que les connaissances contenues dans les textes puissent circuler indépendamment de leur expression originale, soumise à protection. Le développement de Wikidata, le « Wikipédia des données », est appelé à reposer de plus en plus sur des procédures d’extraction automatisées garantissant la transformation des écrits scientifiques en séries de données structurées. Grâce à une exception adoptée au Royaume-Uni, le projet ContentMine ambitionne de réunir des centaines de millions de « faits » extraits de corpus scientifiques et de les déposer dans le domaine public (en licence Creative Commons « Zéro » CC0).

L’exception a été ajoutée au texte de la Loi pour une République numérique par les députés contre la volonté du gouvernement. Bien que rendus nécessaires par l’évolution des usages, les assouplissements du Code de la Propriété Intellectuelle font l’objet d’une opposition de principe du gouvernement. À défaut, la solution contractuelle est privilégiée. En janvier, le ministère de la culture a confié au président du Groupement Français de l’Industrie et de l’Information (GFII), Charles Huot, une « mission pour faciliter le recours à la fouille et l’exploration de textes et de données »  L’objectif était de parvenir à un accord entre éditeurs et communautés scientifiques « avant mars ». Ainsi délimitée, la mission ne pouvait qu’échouer : alors que le champ du text and data mining est potentiellement indéfini (en sciences humaines, il s’étend notamment aux textes littéraires ou journalistiques), l’accord envisagé serait d’emblée restreint aux seuls articles scientifiques.

Non seulement Huot ne parvient pas à trouver un accord, mais la mission accélère une scission déjà perceptible au sein du GFII : les principaux organismes de recherche public membre de l’organisation viennent d’en démissionner. La dissension autour du text mining a été l’un des éléments déclencheurs :

Plus que jamais, nos désaccords, qui sont patents, ne peuvent plus rester une affaire interne : nous ne partageons plus depuis déjà assez longtemps l’ensemble des positions et des méthodes de travail proposées par le GFII, et encore moins les propositions formulées officiellement par le Rapport de Charles Huot, Président du GFII, sur le Text and Data Mining, sur lequel s’exprimeront sans nul doute les désaccords de la recherche publique dès les prochains jours.

Dans la foulée, un communiqué de l’EPRIST dénonce les choix opérés par le rapport Huot :

Nous, professionnels de l’Information scientifique et technique et chercheurs des Organismes membres d’EPRIST, entendons très clairement faire savoir notre opposition à ces propositions dangereuses pour l’avenir et la place de notre pays : elles ont notamment conduit nos établissements à quitter le GFII, Association présidée par Charles HUOT, qui, s’écartant de sens objectifs initiaux, s’est faite à plusieurs reprises l’écho partial d’idées et de propositions qui sont en contradiction flagrante avec les positions de la recherche et de nos Etablissements. Ce départ permettra d’ailleurs d’imaginer de nouvelles modalités de travail en collaboration avec les industriels de l’information dans un cadre plus constructif.

Lors de l’examen en Commission des lois du Sénat début avril, le gouvernement a proposé la suppression complète de l’amendement en invoquant son incompatibilité avec la directive européenne « Infosoc » de 2001, qui prévoit une liste fermée d’exceptions. Cet argument purement formel, qui permet d’éviter de se prononcer frontalement sur les inconvénients de l’exception, est difficilement recevable : un autre pays européen, le Royaume-Uni, a adopté une exception en 2014 ; la mesure n’a jamais été invalidée. Loin de décourager la France dans cette voie, plusieurs membres de la Commission européenne ont d’ailleurs fait part de leur soutien à une exception (qui aurait pour effet d’accélérer les négociations au niveau européen).

Les sénateurs membres de la Commission des lois n’ont pas retenu le scénario de la suppression mais ont opté pour une réécriture complète, validant ainsi l’amendement soumis par la Commission Culture. Le nouveau dispositif constitue sans doute le moins mauvais compromis possible en l’absence d’une évolution du Code de la Propriété Intellectuelle : le text mining est autorisé pour l’ensemble des ressources acquises par les institutions de recherche « sans limitation technique ». Si les modalités retenues sont satisfaisantes (en l’absence de limitation technique, le droit d’extraire correspond pleinement au droit de lire), le périmètre des textes concernés est nécessairement restreint : les documents « en accès libre » mais qui n’ont pas fait l’objet d’un contrat explicite avec une institution scientifique en sont exclus. Or, le web comporte un grand nombre de ressources en « libre consultation » mais toujours protégées en principe par des droits d’auteur (ce qui exclut notamment la possibilité de diffuser des copies hors du « cercle de famille »).

Actuellement, le devenir de l’exception est incertain. Le texte remanié du projet de Loi pour une République numérique va être examiné au sénat à la fin du mois d’avril puis fera l’objet d’un dernier vote à l’Assemblée Nationale le 5 mai. La réforme limitée adoptée en Commission des lois a des chances d’être maintenue dans le texte final mais un retournement n’est pas à exclure. Comme le montre la démission collective du GFII, la mobilisation des institutions et des communautés scientifiques sur le sujet est plus vive que jamais. Le positionnement du gouvernement tend également à évoluer. Lors d’une conférence sur les aspects scientifiques de la Loi pour une République numérique, le secrétaire délégué à la recherche Thierry Mandon constatait que sans un assouplissement légal sur le TDM « on est mort ». Le contournement du problème par une exception européenne prendrait au minimum plusieurs années : d’ici là, les pays anglo-saxons disposant déjà d’une exception (Royaume-Uni, Canada, États-Unis) pourraient avoir acquis une avance irrattrapable.

Le collectif Savoirscom1 s’engage en faveur d’une exception étendue pour l’extraction des textes et des données et soutient la démarche des organismes publics démissionnaires du GFII. Nous avions déjà défendu le principe d’une exception lors d’une audition organisée par le Conseil Supérieur de la Propriété Littéraire et Artistique en février 2014. La limitation du champ d’application des activités de TDM aux publications scientifiques mises à disposition en vertu des « contrats conclus par un éditeur avec un organisme de recherche ou une bibliothèque » est une solution de compromis qui va aussi loin que possible en l’absence d’une révision du Code de la Propiété Intellectuelle. En transformant les textes en informations « de libre parcours », elle contribuera à l’enrichissement des communs de la connaissance.

Via un article de SavoirsCom1, publié le 23 avril 2016

©© a-brest, article sous licence creative common info