Quel droit pour faire du text et du data mining ?

Rising & Falling After 2000 Flickr. Imnojustpatrick cc by-nc-ndLicences for Europe [1], initiative prise en février 2013 par la Commission européenne pour trouver des solutions juridiques en matière de droit d’auteur, un groupe de travail sur le Text et le Data Mining pour la recherche scientifique créé dans ce cadre, une discussion bloquée dès la première réunion, le 4 février 2013, et une lettre ouverte [2] adressée à la Commission européenne, un rapport récent sur la situation au Royaume-Uni, il n’en fallait pas plus pour reprendre ce sujet, détaillé en novembre 2011 [3].

Licence ou exception au droit d’auteur ?

Telle est la question. Pour la Commission européenne, la solution est dans les licences. N’est-ce pas le titre même de son initiative ? Mais les chercheurs qui y voient un blocage pour le potentiel scientifique que représente la fouille de textes et de données (ou exploration des contenus) ne partagent pas cet avis.

Avec les licences, ce sont de nouveaux droits à payer par les établissements de recherche et les bibliothèques, alors qu’ils disposent déjà d’un accès légal à ces données. Étendre ainsi le droit d’auteur ? Dans ce cas l’Europe serait désavantagée face à d’autres pays comme les États-Unis, le Japon, Taïwan et la Corée du Sud qui bénéficient d’exceptions pour de telles activités. Une question d’autant plus cruciale qu’à l’heure du Big Data, l’exploration des contenus a un potentiel économique et social très fort.

C’est pourquoi, comme le revendique la lettre ouverte envoyée à la Commission européenne, ce thème doit être abordé au niveau européen par plus d’acteurs [4], de manière plus approfondie, plus large et plus transparente.

Un flou juridique

Ce livre blanc auquel nous nous référons aujourd’hui présente, certes, la situation au Royaume-Uni. Mais, comme tous les pays de l’Union, ce pays a transposé les directives européennes et bien des informations relevées sont proches des nôtres. Quels éléments reprend-il ?

Que l’exploration des contenus présente des enjeux cruciaux, la chose est entendue. Mais la situation juridique est loin d’être claire, surtout lorsque les données utilisées proviennent d’autres pays, aux règles différentes, et que textes, données, œuvres multimédias, … extraits automatiquement pour créer du sens, obéissent chacun un régime juridique différent, tout comme les logiciels utilisés.

Pour extraire les données encore faut-il y accéder, quelquefois les copier (totalement ou en partie) pour les analyser. On les réutilise en les regroupant, en les modifiant … Et le résultat, valeur ajoutée aux données premières, est alors diffusé. Autant de tâches qui impliquent des autorisations.

Des exceptions ?

Telle est la préconisation faite notamment dans le rapport Hargreaves, au Royaume-Uni. Des données, donc des bases pour les regrouper et un droit spécifique pour les bases de données en Europe. Un droit d’auteur applicable ? Oui, si le choix des données et la structure de la base est une création intellectuelle originale. Mais, pour ceci, répondre à des exigences élevées en matière d’originalité, comme l’indiquent plusieurs procès, tout comme en matière d’investissements pour revendiquer un droit du producteur.

Souvent la base ne sera considérée comme une simple compilation non protégée par le droit d’auteur. Oui, le droit des bases de données créé par la Commission européenne pour lutter à armes égales avec les États-Unis n’a pas démontré son efficacité [5] et les décisions prises dans des procès minent progressivement son emprise.

Admettons que ce seuil soit franchi et que la base soit protégée par le droit d’auteur. Pour explorer des données, peut-on s’appuyer sur l’exception pour des « actes nécessaires » pour accéder à la base et l’utiliser [6] ? Sans doute pas, du moins dans l’état actuel du droit, ni même s’appuyer sur l’exception accordée à la recherche, l’exploration des données étant une activité qui va au-delà de la simple « illustration dans le cadre de la recherche » [7], nécessite un accord ad hoc au moment de la contractualisation. Admettons alors que l’exception puisse s’exercer ; dans ce cas elle ne peut se faire qu’à des fins non commerciales. Qu’en est-il du chercheur financé par un laboratoire pour faire sa recherche ? S’il y a protection par le droit d’auteur, l’exploration des contenus se traduirait bien souvent par des contrefaçons.

Admettons aussi que le droit du producteur soit reconnu, au regard de l’importance de son investissement. Dans ce cas, il peut s’opposer àl’extraction quantitativement ou qualitativement substantielle de sa base [8]. La situation risque de ne pas être claire là non plus.

D’où la nécessité d’exceptions au droit d’auteur et au droit des bases de données applicables à l’exploration des données à des fins non commerciales et, surtout, rendre impossible de contourner cette exception par contrat (précaution de la directive européenne sur les bases de données que l’on ne trouve pas dans la directive sur le droit d’auteur).

Des licences : un handicap ?

Les licences trop coûteuses  ? C’est le cas, même si elles devaient s’avérer gratuites. Libérer les droits auprès d’une myriade d’éditeurs (62% du temps d’un chercheurs, dans le cadre d’une activité d’exploration de données, découvre-t-on dans ce rapport), souvent tout simplement car les propriétaires de contenus n’ont pas pris le temps d’adopter une politique de réutilisation.

Le libre accès à un large éventail de publications donne des opportunités. Pour les auteurs du livre blanc, s’il faut naturellement poursuivre cette action, il convient toutefois d’analyser l’impact de données libres pour s’assurer que les décisions prises n’affectent pas des intérêts commerciaux légitimes, ce qui aurait aussi un impact négatif pour l’économie du Royaume-Uni.

L’Open data est une politique favorable elle aussi à l’exploration des données. Encore faudrait-il que les mentions légales sur la réutilisation soient claires et qu’il y ait une véritable harmonisation des standards techniques. Oui, les obstacles sont aussi techniques et non seulement juridiques. D’où les la série tout à fait intéressante de clauses et conditions standards applicables aux métadonnées, aux données, au dépôt et à la conservation préconisée à la fin de ce rapport.

Un large choix de licences ouvertes est d’ailleurs disponible aujourd’hui pour informer sur les conditions de la réutilisation. Trop large sans doute, car on se heurte facilement alors à des problèmes d’incompatibilité entre licences. L’interopérabilité des licences est de mise également. Et de préconiser une politique de réutilisation raisonnée imposée par le gouvernement et les établissements universitaires et de recherche, par des licences standards, les plus libres et les moins restrictives.

Un cadre légal clair

Voilà qui est indispensable pour dissiper les flous juridiques préjudiciables à l’exploration des données. Trois nécessités pour ceci : disposer d’un accès légitime pour cette activité, de licences qui ne limitent pas leur traitement et pouvoir diffuser les résultats. Tels sont les principes rappelés également dans ce rapport.

 Des travaux européens à suivre attentivement ….

 Illustration. Rising & Falling After 2000 Flickr. Imnojustpatrick cc by-nc-nd

Notes


[2] Open Letter regarding the Commission’s stakeholder dialogue on text and data mining, February 27 2013 Communia

[4] Inclure dans les discussions ouvertes par la DG Marché intérieur, la DG Recherche et Innovation, de la DG Education et Culture et Communications Networks, Content and Technology de la Commission européenne, ainsi que les chercheurs

[5] Inefficacité démontrée dans le résultat des études d’impact.

[6] Les actes nécessaires à l’accès au contenu d’une base de données électronique pour les besoins et dans les limites de l’utilisation prévue par contrat L 122-5 5°

[7] L 122-5 3° e)

[8] Pour apprécier les difficultés d’une interprétation, voir Protection des bases de données par le droit sui generis, Murielle Cahen, Droit & Technologies, 26 avril 2011

Via un article de Michèle Battisti, publié le 16 avril 2013

©© a-brest, article sous licence creative common info