Text mining : une licence nationale contre l’exception ?

C’était une surprise inattendue : lors de l’examen de la Loi sur le numérique, le parlement a approuvé une exception au droit d’auteur au titre de l’extraction automatisée des textes et des données à des fins scientifiques. Ce vote positif s’opposait aux intentions du gouvernements— après avoir brièvement été évoquée dans un premier jet de la loi en juillet, le sujet avait été soigneusement remisé.

En dépit de ce retour surprise, le devenir de l’exception reste incertain. La loi sur le numérique doit faire l’objet d’un vote au sénat et, peut-être, d’un second vote à l’Assemblée. La poursuite de la procédure parlementaire était prévue pour avril mais, selon les derniers échos, elle ne devrait pas intervenir avant mai voire juin — et vu l’agenda chargé de cette période rien n’exclut un nouveau report au-delà des vacances parlementaires.

Ce hiatus laisse aux opposants à l’adoption le temps de s’organiser. Sciences communes a ainsi eu l’écho, informel, de tractations en cours en vu de créer une sorte de « licence nationale » accordée aux institution universitaire pour mener des projets de text mining (vraisemblablement en liaison avec la mission confiée par le Ministère de la Culture et le Ministère de la recherche à Charles Huot). Les contours de l’affaire sont encore flous mais, apparemment, il serait question de parvenir à un accord contractuel avec les principaux éditeurs scientifiques et d’arguer, dès lors, qu’une exception serait devenue parfaitement inutile. L’idée n’est pas totalement neuve : elle a déjà abouti à une mise en œuvre partielle dans le cadre du projet ISTEX. Même si les conditions négociées avec les grands éditeurs n’étaient pas exécrables, la démarche contractuelle s’est avérée peu concluante sur le long terme d’après les échos que j’ai pu en avoir.

La différence entre une exception et une licence nationale n’est pas qu’une question de « forme » juridique (en ce sens que l’on parviendrait au même résultat sans avoir à modifier explicitement la loi). De mon point de vue, une licence nationale telle qu’envisagée actuellement soulèverait quatre problèmes majeurs :

(1) Elle entérine l’idée que le droit d’extraire et de synthétiser automatiquement des informations est distinct du droit de lire. Dans ce cadre, les éditeurs revendiquent un droit de propriété additionnel sur leur corpus : non seulement comme « œuvre » mais aussi comme ensemble de « données textuelles », cette propriété seconde pouvant faire l’objet d’une vente à part. Ainsi une exception pour l’extraction automatisée ne permet pas seulement de légitimer des usages de facto illégaux (pour l’essentiel la constitution de bases de données transmises à d’autres chercheurs — soit un cadre qui excède le « cercle de famille »). Elle contribue également à clarifier les zones grises qui font l’objet d’une captation de plus en plus étendues. Les licences de data mining « maison » des grands éditeurs scientifiques édictent ainsi des restrictions multiples sur les recherches et les extractions possibles (par exemple en empêchant de récupérer des chaînes de plus de 200 caractères). L’enjeu n’est plus seulement de protéger un « capital » intellectuel, mais d’imposer de nouveaux droits conditionnant la transmission et l’accès à l’information : Elsevier en vient à écrire sa propre loi.

(2) Dans son principe même, une licence nationale est destinée à être limitée à quelques acteurs (en tout premier lieu les grands éditeurs scientifique). Par contraste, une exception est une universelle : tant qu’un chercheur à un accès licite à une source, il peut l’extraire automatiquement. Cette disjonction est particulièrement visible dans mon domaine de recherche, les sciences humaines et sociales. Je m’intéresse en effet surtout à des ressources textuelles non scientifiques. Ma thèse portait sur l’application de techniques de text mining à des corpus de presse généraliste ancienne ; l’introduction d’une exception permettrait d’étendre des mes recherches au-delà des collections disponibles dans le domaine public (ce qui serait strictement impossible dans le cadre d’une licence nationale limitée à quelques corpus, aussi gros soient-ils).

(3) Dans les pourparlers informels actuellement en cours, il serait question d’introduire une « somme forfaitaire » préalable à toute extraction. Cette restriction semble s’inspirer d’un dispositif prévu dans l’exception pédagogique (sorte de « fair use » ultra-restrictif à la française) : entre autres conditions préalables, la représentation ou la reproduction d’une œuvre protégée doit être compensée « par une rémunération négociée sur une base forfaitaire »… Dans la continuité du premier problème, ce dispositif va graver dans le marbre la séparation entre droit de lire et droit d’extraire (puisqu’il s’agira désormais de deux actes marchands distincts). Plus concrètement, alors que l’argent public finance déjà trois fois les recherches scientifiques (en tant que productions d’agents de l’´État jamais rétribués par l’éditeur, en tant que « droits d’écrire » faisant l’objet d’APC, en tant que droits de lire chèrement distribués par des bouquets d’abonnements), on nous propose ni plus ni moins de les payer une « quatrième fois », en tant que corpus de données textuelles.

(4) Le quatrième problème tient plus d’une dérive probable : par définition un accord contractuel est souvent plus « verbeux » qu’une loi, puisqu’il s’agit de définir un arrangement organique entre plusieurs acteurs et non une règle à vocation « universelle ». Les débats risquent d’aboutir à des dispositifs relativement complexes, assez proches des licences « maison » des grands éditeurs scientifiques (avec des restrictions d’autant plus occultes que la politique commerciale des éditeurs fait l’objet d’un secret systématique).

En tout et pour tout, une licence nationale ne compenserait que très imparfaitement l’absence d’exception. Surtout elle risque de retarder son adoption éventuelle — et ainsi de faire plus de mal que de bien.

L’enjeu commence pourtant à devenir pressant. Au-delà de la sécurisation juridique de certaines activités recherche, la France risque d’être peu présente dans le nouveau monde de la donnée scientifique : le Royaume-Uni et le Japon ont déjà voté des exceptions ; les États-Unis en disposent de facto d’une (via le fair use, consacré par le projet Google Books). C’est ainsi de l’autre côté de la Manche qu’a pu se créer un projet aussi ambitieux que « Content mine » — ici, il serait de facto interdit…

Ce risque bien réel est hypothéqué pour des gains éminemment symboliques. Dans la mesure où elles ne porterait que sur l’usage scientifique de sources accessibles « licitement » (ce qui, dans le cas d’Elsevier, impliquerait d’avoir au préalable un abonnement à Science Direct), ce nouveau droit ne pénalise en aucun cas les activités commerciales existantes.

URL: https://scoms.hypotheses.org/619