Text et Data Mining : l’absence d’exception pénalise bien à la recherche

Un article scientifique a été publié le 7 juin dernier qui démontre pour la première fois que les pratiques de Text et Data Mining (exploration de données) sont moins développées dans les pays où le niveau de protection par le droit d’auteur est le plus élevé et ne prévoit pas de mécanisme spécifique pour les sécuriser. Ecrit par Christian Handke, Lucie Guibault et Joan-Jospeh Vallbé, cet article s’intitule : « Is Europe Falling Behind Text et Data Mining : Copyright’s Impact On Data Mining In Academic Research » et il est disponible en Open Access ici. Il a également fait l’objet d’une communication à laquelle j’ai pu assister lors du dernier congrès de la Ligue des bibliothèques européennes de recherche (LIBER) qui s’est tenu la semaine dernière à Londres.

L’intérêt de ce travail de recherche réside d’abord dans sa méthodologie. Par une jolie mise en abyme, les trois chercheurs ont choisi de recourir au Text Mining pour vérifier si les rigidités du droit d’auteur avait ou non impact sur l’utilisation du TDM dans les activités de recherche. Ils ont eu pour cela l’idée de conduire une opération de fouille de texte au sein de l’outil Web of Science proposé par Thomson Reuters, qui recense des milliers de journaux académiques. Ils ont ainsi pu constater que sur une période s’étendant de 1992 à 2014 le nombre des articles utilisant le mot clé « Data mining » dans leur description s’accroît constamment pour atteindre un total de 18 441 travaux publiés par des chercheurs dans le monde.

tdm

Evolution du nombre d’articles scientifiques recourant au TDM en fonction du temps (le « creux » constaté en 2007 s’explique par une modification de l’abonnement à Web of Science contracté par l’université où la recherche a été conduite).

Examen des législations applicables au TDM dans le monde

Leur démarche a ensuite consisté à raffiner ces premiers résultats par pays, en croisant les chiffres avec l’état de la législation en vigueur au regard du Text et Data Mining. Les pratiques d’exploration de textes et de données sont en effet susceptibles de se heurter à différentes limitations comme le droit d’auteur portant sur les contenus, le droit contractuel ou (en Europe) le droit des bases de données. Lorsque de tels droits exclusifs sont applicables, les chercheurs ne peuvent conduire des opérations de Text et Data Mining qu’avec l’accord des différents titulaires de droits. Mais la législation peut aussi prévoir différentes formes d’exceptions ou limitations au droit d’auteur pour autoriser ces pratiques de recherche sans autorisation préalable.

Les auteurs de l’article ont établi une typologie à quatre entrées pour catégoriser les différentes législations dans le monde. Une première catégorie de pays est ceux où le Data Mining n’est pas autorisé. Il s’agit notamment des pays appliquant un système de droit d’auteur à la française, avec une liste fermée d’exceptions figurant dans la loi et aucune disposition spécifiquement applicable à l’exploration de données. On y trouve la plupart des pays européens, dont la France, et des pays comme la Russie, le Mexique ou l’Argentine. Une seconde catégorie correspond aux pays où le Data Mining n’est « probablement pas autorisé ». Il s’agit de ceux s’inspirant du régime du copyright en Angleterre où la loi prévoit un système de « fair dealing » (utilisation équitable). Ce moyen de défense permet de s’exonérer d’une autorisation préalable lorsque l’usage d’une oeuvre a été réalisé pour certaines finalités (en général, critique, analyse, citation, recherche) listées dans la loi. On trouve dans cette catégorie des pays du Common-Wealth comme l’Inde, l’Afrique du Sud ou l’Australie.

Source : Resources for life.

Le troisième groupe correspond à des pays où le Data Mining est « probablement autorisé ». Il s’agit de ceux qui s’inspirent du copyright américain et reconnaissent le « fair use » (usage équitable). Dans ce système, la loi prévoit un moyen de défense souple et ouvert, applicable lorsque l’usage d’une oeuvre est jugé loyal par rapport à des critères généraux, sans que la loi ne donne une liste déterminée de situations correspondantes. Les Etats-Unis sont bien sûr dans cette catégorie et la jurisprudence récente, rendue notamment dans l’affaire Google Books, a explicitement reconnu que le Data Mining était bien couvert par le fair use. Mais plusieurs pays ont eux aussi introduit ces dernières années le fair use dans leurs législations, en application de traités commerciaux avec les Etats-Unis, comme Taïwan en 2003, Singapour en 2005, Israël en 2008, la Corée ou la Chine en 2012. Le Canada a aussi rejoint cette catégorie en 2012 après une réforme de sa loi sur le droit d’auteur. La quatrième et dernière catégorie correspond à des pays où le Data Mining est autorisé avec certitude, parce qu’ils ont choisi d’introduire une exception spécifique pour l’exploration de données. Le premier pays au monde à le faire a été le Japon en 2010 et le Royaume-Uni l’a également fait en 2014 pour les « analyses computationelles » réalisées à des fins de recherche non-commerciale.

Impact négatif du droit d’auteur sur l’innovation

Les trois chercheurs ont utilisé cette grille comme variable, en pondérant les résultats obtenus avec plusieurs autres facteurs comme le nombre total d’articles scientifiques publiés par pays, le PIB, le nombre d’habitants et le degré général de respect de la loi. Au terme de ce traitement des données, ils arrivent à la conclusion suivante :

Nous avons démonté que dans les pays où les chercheurs académiques doivent obtenir une autorisation préalable des titulaires de droits pour conduire des opérations de Data Mining dans le respect de la loi, le nombre de travaux de recherche utilisant le Data Mining est significativement moins élevé par rapport au nombre total des articles produits. Le nombre des articles publiés par des chercheurs constitue un indicateur raisonnable de l’innovation au sein des milieux académiques. A notre connaissance, c’est la première fois qu’une étude empirique établit une corrélation négative entre le niveau de protection par le droit d’auteur et la production de nouvelles oeuvres. Du point de vue de la recherche s’appuyant sur le Text et Data Mining, le droit d’auteur semble donc avoir un impact négatif sur l’innovation.

allowed

Les pays qui sont dans la catégorie « Probably Allowed » produisent plus d’articles s’appuyant sur le TDM que ceux qui sont dans la catégorie « Not Allowed » ou « Probably Not Allowed »

On voit que dans les pays de fair use, les chercheurs produisent environ 3 fois plus d’articles s’appuyant sur des techniques de TDM que dans les pays de fair dealing ou s’inspirant du droit d’auteur à la française. Pour la catégorie des pays où le TDM est autorisé par une exception, les chercheurs nuancent les résultats obtenus en indiquant que plusieurs pays ont changé leurs législations au cours de la période étudiée et qu’il est trop tôt pour observer les effets de l’assouplissement de la loi, comme en Angleterre par exemple. Ils expliquent aussi que l’introduction d’une exception ne conduit pas non plus mécaniquement à une augmentation des travaux de recherche utilisant le TDM. Par ailleurs au Japon, la nouvelle exception votée en 2010 n’a pas eu d’effets significatifs, sans doute parce qu’elle est trop étroite (elle permet le TDM, mais seulement sur des bases de données qui n’ont pas été « conçues spécialement à cet effet », ce qui permet assez facilement aux éditeurs scientifiques de garder le contrôle).

Réforme du droit d’auteur en Europe

Néanmoins, les résultats obtenus dans le cadre de cette recherche sont importants, notamment dans la perspective de la réforme du droit d’auteur actuellement à l’étude en Europe. La position dominante des titulaires de droits consiste à affirmer qu’il est inutile de consacrer de nouvelles exceptions pour les usages numériques, car il suffirait de faire jouer les mécanismes du droit d’auteur en mettant en place un système de contrats pour les organiser. C’est d’ailleurs ce que commencent à faire les grands éditeurs scientifiques comme Springer ou Elsevier qui proposent des licences payantes pour autoriser les pratiques d’exploration de données sur les corpus qu’ils diffusent.

Face à cette position, les utilisateurs et notamment les représentants des bibliothèques expliquent au contraire que le recours aux licences est inadapté pour favoriser les usages de manière équilibrée et efficace. C’est la raison pour laquelle elles ont adopté au début de l’année la Déclaration de La Haye sur la découverte de la connaissance à l’heure du numérique, qui milite pour la consécration d’une exception au niveau européen en faveur du Text et Data Mining.

hague

Déclaration de la Haye sur la découverte de la connaissance à l’heure du numérique.

L’étude présentée dans cet article tend à donner raison aux utilisateurs face aux titulaires de droits, en démontrant que le système de l’autorisation préalable a bien un impact négatif sur l’innovation dans le domaine de la recherche. Pire, elle met en lumière que si certains pays au sein de l’Union, comme l’a fait l’Angleterre en 2014, introduisent des exceptions alors que d’autres ne le font pas, cela va créer des distorsions de compétitivité de la recherche en Europe. Sans compter que plusieurs aires géographiques, notamment les Etats-Unis et plusieurs pays d’Asie (Chine, Corée, Taïwan, Singapour) sont en train de prendre une avance significative en matière de fouille de données.

L’exception européenne en faveur du Text et Data Mining était l’un des points qui figuraient en bonne place dans le rapport Reda, visant à préparer la réforme européenne. Le vote en commission des affaires juridiques du Parlement européen qui a eu lieu la semaine dernière a atténué la formulation initiale proposée par Julia Reda, qui visait la reconnaissance d’une exception obligatoire. Mais le rapport mentionne encore :

qu’il est impératif d’évaluer avec soin la mise à disposition des techniques analytiques automatisées des textes et des données (par exemple la « fouille de textes et de données ») à des fins de recherche, étant entendu que la permission de lire l’œuvre doit avoir été acquise.

Le rapport Reda doit faire l’objet d’un dernier vote en séance plénière du Parlement européen le 8 juillet prochain. Il donnera des orientations (non contraignantes) à la Commission européenne, dont on espère – dans l’intérêt de la recherche en Europe – qu’elle retiendra l’idée d’introduire une exception solide et obligatoire pour sécuriser les pratiques de Text et Data Mining.

Classé dans :Uncategorized Tagged : data mining, droit d’auteur, exception, exploration de données, fouille de données, rapport Reda, recherche, TDM, text mining, Union européenne

Via un article de calimaq, publié le 2 juillet 2015

©© a-brest, article sous licence creative common info