Data mining : l’Europe s’oriente vers une exception

Un article repris du site sciences communes, un site sous licence CC0

L’organisation Statewatch vient de mettre en ligne un document confidentiel de la Commission européenne qui spécifie les principaux scénarios envisagés pour l’évolution du droit de la propriété intellectuelle des pays-membres. J’ai publié hier une présentation générale de ce document sur Rue89. Les perspectives ne sont pas très exaltantes. Au mieux, la Commission recommande une évolution timide (avec l’introduction d’une version allégée du fair use américain). Au pire, elle acte le développement d’une régulation exclusivement marchande, les industries culturelles et les industries du web se réconciliant sur le dos du consommateur et du citoyen…

Il y a pourtant une bonne surprise : le data mining. Pour rappel, le data mining désigne l’ensemble des techniques permettant d’extraire automatiquement des éléments présents dans un document : des textes (on parle alors de text mining), des images (grâce au logiciel de reconnaissances visuels), voire même des vidéos… Cette activité est en plein essor, grâce au développement d’outils d’extraction plus efficaces et plus accessibles. Le projet Text2Genome est ainsi parvenu à compiler plus de 3 millions d’articles scientifiques afin de dresser un état de l’art monumental de l’ensemble des travaux réalisés sur le génome humain. À ma petite échelle, je suis parvenu à récupérer plus de dix ans de chroniques boursières publiées dans le Journal des débats (sans être considérable, cela représente un corpus inhabituellement grand pour les études de la presse quotidienne).

Capture d’écran 2014-04-20 à 15.49.44

Pyllica, ma petite application de data mining développée pour Gallica

Les éditeurs scientifiques tentent de capter cette manne naissante, afin d’en tirer des avantages monétaires directs ou indirects. Elsevier tire ainsi parti de sa position quasi-monopolistique pour écrire sa propre loi sur le data mining, en imposant des contraintes qui servent au mieux ses intérêts économiques et symboliques (obligation de s’inscrire, ce qui permet de récolter des méta-données, tout projet passe par l’API, ce qui permet de pré-définir les catégories d’extraction…).

Le système de licences pour le data-mining préconisé par Springer

Le système de licences pour le data-mining préconisé par Springer

Échaudée par l’échec du processus Licences for Europe, qui préconisait l’élaboration de licences contractuelles sur le modèle du service de data mining d’Elsevier, la Commission européenne semble sérieusement acquise au principe d’une exception : dans ce cadre, le droit d’extraire ne dépendrait plus d’accords contractuels, souvent aléatoires, mais ferait l’objet d’une exception aux diverses protections offertes par le code de la propriété intellectuelle. Deux études récentes auguraient de ce retournement : une synthèse d’avis d’expert réalisée par le juriste britannique Hargreaves, partisan d’un assouplissement du droit des bases de données (et inspirateur de l’exception actuellement discutée au Royaume-Uni) et un rapport du juriste belge Jean-Paul Trialle, dévoilé début avril, qui pointait les limites du droit d’auteur.

Les scénarios les plus crédibles développés dans le document révélé par Statewatch recommandent, avec des variations plus ou moins importantes, d’intégrer le data mining dans une sorte de fair use : a minima, toute extraction à des fins non-commerciales serait autorisée, sans avoir à passer par un accord contractuel.

Un diagnostic équilibré

Avant de passer aux recommandations et aux « scénarios » (je ne peux m’empêcher de penser que les services juridiques de la Commission sont peuplés de cinéphiles…), le document développe une séries d’analyses sur les principaux enjeux d’une modernisation du copyright. L’analyse consacrée au data mining se déploie dans deux textes : une brève synthèse de deux pages (p. 35-36) et une version développée inclue en annexe, mais qui ne reprend pas non plus tous les points de la synthèse (p. 144-149). Pour ceux qui n’ont pas envie de scroller, il est possible de consulter ces extraits dans un autre document publié par Statewatch.

Le diagnostic posé par la synthèse et sa version développée est plutôt juste. Les auteurs soulignent que le data mining constitue une activité d’avenir en raison des importants gains de temps apportés au travail scientifique. Ils reprennent également les arguments stéréotypés en faveur du big data (avec plusieurs centaines de milliards de dollars de croissance en perspective). Pour autant, le data mining reste un trou noir juridique,

D’un point de vue légal, la nouveauté et le caractère évolutif des techniques d’extraction automatisée des textes et des données soulève de nombreuses incertitudes dans de nombreux champs d’applications de la loi (p. 144).

Cette lacune risque d’affecter négativement les recherches scientifiques européennes

Certaines parties prenantes s’inquiètent du retard pris par l’Union Européenne par contraste avec d’autres régions du monde ou l’extraction automatisée des textes et des données est devenu une pratique commune dans la recherche scientifique (p. 35)

Par contraste avec le processus Licences for Europe, la présentation des enjeux n’est pas unilatérale au profit des seuls éditeurs. Le point de vue des chercheurs et des bibliothécaire est correctement exposé. Le texte fait état du questionnement sur le lien irréductible entre droit de lire et droit d’extraire :

Dans ce contexte, chercheurs et institutions scientifiques (telles que les bibliothèques universitaires) considèrent que, tant qu’elles ont accès légalement à un contenu numérique, le droit de lire ce contenu devrait automatiquement entraîner le droit de l’extraire (p. 147).

Le texte décrit également en détail le point de vue des multinationales de l’édition scientifique. Il s’étend en particulier sur deux arguments-massue des éditeurs : la nécessité de préserver la sécurité et la stabilité des plate-forme (p. 148)) ; le risque d’une dissémination accrue de contenus protégés ( p. 149). Il est intéressant de voir que la défense des éditeurs repose sur un brouillage entre les droits d’auteurs et des enjeux totalement externes. La sécurité des infrastructures n’est absolument pas incompatible avec une politique progressive en matière de data mining. Par exemple, Wikipédia autorise toute forme d’extraction sous réserve de ne pas dépasser un nombre de requêtes plafonné (si mes souvenirs sont bons, cela tourne autour de plusieurs milliers de requêtes par heure). Et la création de dérivés est déjà permise au nom du domaine public de l’information (des données et métadonnées des articles de recherche sont déjà très largement disséminées sur Google Scholar, entre autres).

Le texte mentionne également un élément intéressant dont je n’avais pas connaissance, et qui alarme beaucoup les éditeurs : le développement d’un data mining pirate (on parle aussi de grey market), qui aurait pris de l’ampleur depuis plusieurs années (p. 148). J’imagine que certains chercheurs ayant d’excellentes compétences en programmation web n’hésitent pas à hacker les plate-forme existantes (le regretté Aaron Swartz avait montré la voie…). En l’occurrence, cet argument se retourne tout seul : les vrais hackers auront toujours un train d’avance sur les plate-forme des éditeurs ; par contre la très grande majorité des chercheurs sont coincés face à un trou noir juridique.

Ce diagnostic ne débouche pas sur une résolution claire. Néanmoins, par rapport au processus Licences for Europe, la position des éditeurs a été clairement fragilisée. Les recommandations exposées dans les différents « scénarios » de la commission iront plus loin encore…

Trois scénarios pour une exception

Le document de la Commission expose cinq scénarios distincts (en comptant les deux variantes du scénario n°3) en vue d’une modernisation de la législation sur la propriété intellectuelle en Europe. Je ne vais pas m’intéresser ici aux scénarios ne comprenant pas de dispositions explicites sur le data mining : le scénario n°1 recommande de ne rien changer, le scénario n°4 préconise de créer un code de la propriété intellectuelle européen sans ne rien dévoiler de son contenu éventuel. Reste donc le scénario n°2, le scénario n°3(a) et le scénario n°3(b).

En apparence, le scénario n°2 n’est pas du tout favorable à une exception. Il se présente comme un « soutien pour les initiatives du marché ». En clair, il s’agit de redéfinir les règles de la propriété intellectuelle directement avec les industries culturelles et les industries web (la société civile passant totalement à la trappe). On pourrait ainsi s’attendre à ce que les licences contractuelles promues dans le processus Licences for Europe soient directement reprises. Et là, ô surprise… le principe de l’exception n’est pas évacué.

La Commission développerait des recommandations à l’attention des États-membres afin de clarifier dans quelle mesure les activités et les techniques d’extraction automatisée sont couvert (ou non) par le droit de la propriété intellectuelle et dans quelle mesure ils s’insèrent dans le cadre des exceptions existantes pour les usages à des fins de recherche (en particulier en regard de la directive sur la société de l’information et de la directive sur le droit des bases de données). La Commission encouragerait l’implantation maximale, par les États-membres des limitations existantes pour la recherche scientifique à des fins commerciales (p. 54).

Cette disposition reste floue et utilise fréquemment le conditionnel. Les éditeurs pourraient certainement tirer partie de la faiblesse de ces recommandations pour imposer leurs propres usages. Néanmoins, il faut garder à l’esprit qu’il s’agit du pire scénario possible : même dans cette éventualité, la Commission promeut une interprétation aussi généreuse que possible des usages non-commerciaux tels que définis dans la Directive sur la société de l’information et qui ont toujours été intégrés a minima dans les législations nationales. Pour mémoire, l’article 5(3)(a) de cette directive était ainsi conçu :

[Les États membres peuvent prévoir des exceptions] lorsqu’il s’agit d’une utilisation à des fins exclusives d’illustration dans le cadre de l’enseignement ou de la recherche scientifique, sous réserve d’indiquer, à moins que cela ne s’avère impossible, la source, y compris le nom de l’auteur, dans la mesure justifiée par le but non commercial poursuivi.

Les scénarios n°3(a) et n°3(b) présentent un point commun : l’intervention législative (ce qui, concrètement, revient à introduire des exceptions). Seulement, le 3(b) va plus loin que le 3(a) en terme d’assouplissement des dispositions de la propriété intellectuelle. En p. 62-63 on trouve un résumé rapide de leurs implications pour le data mining.

Le scénario (a) s’apparente à un fair dealing sur le modèle de la disposition envisagée par le Royaume-Uni : la mise en place d’une exception pour le data mining serait obligatoire pour l’ensemble des pays européens ; n’importe qui peut extraire un contenu sous réserve d’y avoir accès (ce qui revient à lier indissolublement droit de lire et droit d’extraction) ; seuls les projets/initiatives non commerciales relèvent de cette exception (sans doute le point le plus problématique en raison de l’imprécision du « non-commercial » : les articles de recherche, édités dans des revues, peuvent sans doute intégrer cette définition). Les licences contractuelles ne peuvent se substituer à l’exception : « les arrangements contractuels permettant l’accès légal au contenu (i. e. un abonnement) ne devraient pas outrepasser l’exception » (p. 62).

Le scénario (b) reprend tous les termes du scénario (a) et les élargit pour admettre des usages commerciaux sous réserves que les réutilisateurs ne soient pas en concurrence avec les ayants-droits ou les détenteurs du service d’accès (« tant que les usages permis n’entrent pas en concurrence avec le contenu ou le service originel » (p. 62)).

Plus loin, le texte tente de définir les impacts de chaque scénario. L’évaluation du scénario n°2 ne mentionne pas le cas particulier du data mining. Néanmoins, la Commission n’est pas totalement convaincue par la démarche générale (recommandations non contraignantes visant à s’adapter au mieux à la situation du marché). Le scénario n°2 n’aurait qu’un « impact modéré » et ne parviendrait pas unifier les dispositions des États-membres (p. 71-72).

Le scénario 3(a) est jugé plutôt équilibré : « La recherche et l’innovation bénéficieraient d’une sécurité juridique qui prendrait la forme d’une exception pour le data mining. » (p. 67).

Inversement, le scénario 3(b) est assez sévèrement critiqué :

Même si, dans certains cas, la distinction entre un usage commercial et un usage non-commercial s’avère problématique, l’introduction d’une exception couvrant aussi bien le data mining non-commercial que commercial (même en spécifiant que les usages ne doivent pas entrer en concurrence avec le contenu ou le service originel) ne semble justifié par aucune défaillance du marché, étant donné l’existence d’un marché efficient de licences de data mining entre les éditeurs et les utilisateurs commerciaux, tels que le secteur pharmaceutique. (p. 68-69)

Le texte souligne cependant que tout n’est pas perdu pour les ayant-droit et les détenteurs de service d’accès :

En même temps, [le scénario 3(b)] peut encourager le développement de nouveaux modèles économiques, permettant aux détenteurs des droits de trouver de nouvelles sources de financement.(p. 69).

Les raisons d’un revirement

Par-delà les timidités ou les réticences de la Commission (qui se montre notamment assez rigide sur les usages non-commerciaux), il est assez fascinant de voir à quel point le discours a changé en un an. En avril 2013, le processus Licences for Europe rejetait d’emblée toute solution non contractuelle : faute de parvenir à quoi que ce soit, des associations comme le LIBER (association des bibliothèques européennes) ou l’OKFN avaient été contraintes de claquer la porte.

[nous quittons] un processus de décision dont le résultat est déjà pré-déterminé : l’ajout de nouvelles licences serait la seule solution envisageable aux multiples écueils rencontrés dès lors que l’on souhaite extraire automatiquement les données d’un contenu auquel l’on a déjà accès.

Depuis la situation s’est presque inversée. Les éditeurs et leurs licences contractuelles sont sur la défensive. Ils peuvent au mieux espérer que l’exception restera suffisamment floue pour ne pas empiéter sur leurs licences contractuelles.

Qu’est-ce qui a pu motiver un tel changement ? Plusieurs variables ont joué, sans doute, mais la plus importante figure en introduction de l’analyse développée par la commission : la peur du déclassement. Grâce à la souplesse du « fair use », les États-Unis se sont aisément adapté à ces pratiques émergentes. Le dernier procès contre Google Books met en évidence que, pour la justice américaine, le data mining n’est pas un trou noir juridique. En sécurisant une pratique appelée à jouer un rôle considérable dans la recherche scientifique et au-delà, les américains se dotent d’un avantage décisif sur les européens. Les anglais ne s’y sont pas trompés et devraient bientôt voter une exception assez proche du scénario n°3(a) prévu par l’Union Européenne.

La géopolitique a peut-être finalement eu raison des réticences politiques…

Sciences communes

URL: http://scoms.hypotheses.org/
Via un article de Pierre-Carl Langlais, publié le 13 mai 2014

©© a-brest, article sous licence creative common info