Comment fonctionne Content ID ?

C’est l’un des dispositifs clés de la future réforme européenne du droit d’auteur (dévoilée par la commission le 19 septembre). L’art. 13 prévoit de contraindre tous les services en ligne (« information society service » dans le jargon de la commission) à mettre en place des « mesures pour assurer l’application effective des accords avec les ayant-droit ». Ces mesures se traduiraient notamment (et essentiellement, en pratique) par l’usage de « technologies d’identification du contenu ».

La commission songe ici à un exemple emblématique : ContentID de YouTube. Mise en place graduellement depuis 2008, cette technologie scanne l’ensemble des vidéos soumises au service de Google. Dès qu’elle intègre, même approximativement, une œuvre protégée (préalablement envoyée à Google par ses ayants-droits), plusieurs options peuvent être activées au gré des choix de l’ayant-droit : suppression de la vidéo, monétisation forcée (au profit de l’ayant-droit) ou, inversement, impossibilité de monétiser (afin d’assurer qu’il n’y a qu’un usage non-marchand).

Ce dispositif est problématique plusieurs niveaux. Ce qui frappe notamment, c’est l’asymétrie d’information entre les ayant-droit et les industries du web d’une part et le public d’autre part. Nul ne sait comment fonctionne ContentID. N’ayant pas peur des explications techniques « brutes », j’ai essayé d’effectuer plusieurs recherches sur le sujet. Et je retombe toujours sur des présentations vagues (à l’image de celle-ci qui sort dans les premiers, mais il n’y a rien de mieux lorsqu’on creuse…). Cette asymétrie d’information est totalement assumée par la Commission européenne. Toujours selon l’art. 13 :

Les services devront apporter des informations adéquates aux ayant-droits sur le fonctionnement et le déploiement des mesures, ainsi que, chaque fois que nécessaire, des mises à jour appropriées (adequate reporting) sur les modalités de la reconnaissance automatisé, l’usage des œuvres protégées et d’autres sujets…

Bref, tout est mis en œuvre pour que le public ne connaisse pas les recettes de cette cuisine interne. Il peut à la rigueur tenter de les deviner (ce que fait tout youtubers un tantinet actif, parfois habitué à jouer au jeu du chat et de la souris en maquillant les contenus protégés). Mais les ressorts fondamentaux de cette infrastructure demeurent hors de sa portée. Ou pas ?

Paradoxalement, les bases théoriques de Content ID sont bien accessibles en ligne : une technique aussi stratégique ne peut pas ne pas laisser de traces dans la littérature scientifique spécialisée. Seulement, cela implique de contourner une autre forme d’opacité : les terminologies spécialisées.

Les techniques de reconnaissance portent le joli nom de « Perceptual Hash ». Les recherches sur le sujet sont tellement obscures que l’on ne trouve quasiment rien sur Wikipédia (juste une brève ébauche en anglais, jamais traduite en d’autres langues) et encore moins dans la presse (trois misérables résultats sur Google Actualités qui n’évoquent le terme qu’en passant).

La disproportion entre l’importance conférée à ces techniques (sur lesquelles reposent de plus en plus régulation numériques du droit d’auteur) et leur dissémination dans la sphère publique et politique au sens large est totale. Cet article vise à initier un début de correctif. Tout en nous limitant à quelques aspects fondamentaux, nous verrons que la généralisation du « Perceptual Hash » a des conséquences considérables sur l’évolution de nos pratiques et représentations culturelles.

Je vais essentiellement m’appuyer ici sur deux thèses. Tout d’abord un classique : Implementation and Benchmarking of Perceptual Image Hash Functions de Christoph Zauner (qui est à l’origine de l’un des outils les plus utilisés : PHash). Puis, Using Perceptual Hash Algorithms to Identify Fragmented and Transformed Video Files d’Ola Kjelsrud, qui a fait moins date mais, étant soutenue en 2014 et portant sur un sujet très à la mode, la détection de vidéo, elle présente l’avantage d’être très bien à jour.

Aux origines de la reconnaissance

Les premières expériences théoriques à l’origine de ContentID remonte au début des années 2000. À cette date, les industries culturelles misaient sur une autre technologique, qui s’est avérée beaucoup plus fragile : le watermark. À chaque œuvre protégée est associée un signal caché, en principe résistant aux transformations successives (changement de format, compression, etc.). Déjà, il est difficile de créer des techniques véritablement résistantes aux altérations volontaires ou involontaires de l’utilisateur. Surtout, le watermark est une protection du « support » et non de l’œuvre. Rien n’empêche l’utilisateur de récupérer l’œuvre par d’autres moyens (en scannant des illustrations ou, s’agissant d’œuvres antérieures à l’apparition du watermark, en récupérant des copies non « marquées »).

Le Perceptual Hash repose sur une philosophie radicalement différente : l’identification doit partir de l’œuvre elle-même, indépendamment du support, en s’appuyant par là sur un critère fondamental de la protection au titre du droit d’auteur, l’originalité. L’intuition est la suivante. Si le droit d’auteur ne s’applique qu’à des œuvres authentiques (et non sur des œuvres dérivées ou reprenant simplement des procédés fondamentaux déjà largement utilisés ou compilant des faits « bruts »), cette authenticité doit pouvoir être décrite formellement et réidentifiée automatiquement.

Les techniques fondamentales ont été élaborées pour un autre objectif que la protection du droit d’auteur : la détection du format du fichier (concrètement, savoir si un fichier est un document word, excel, etc.). Un article de 2003, « Content-based file type detection algorithm », décrit un processus devenu classique : la distribution statistique des octets est compressée dans une signature (ou « fingerprint ») toujours de la même longueur (ce qui permet de comparer des documents de longueur différente). À cette date, les résultats sont primaires (entre un quart et la moitié des productions sont reconnues et appariées). L’utilisation d’une signature inaugure néanmoins l’une des constantes de cette technologie. ContentID repose sur l’extraction, l’archivage et la comparaison de signatures associées à chaque œuvre. Cette méthode permet de diminuer considérablement la taille des bases de données : au lieu de stocker la totalité des œuvres consignées par les ayant droit, il devient possible de compresser l’authenticité en la réduisant à une chaîne de quelques dizaines ou centaines de caractères.

Ces essais font rapidement l’objet de raffinements supplémentaires. Kjelsrud cite notamment deux évolutions majeures : la classification préalable des contenus (ou « clustering » : j’ai l’impression que cela permet de prendre en compte l’utilisation concordante d’éléments hétéroclites, telles qu’une image comprenant plusieurs objets de formes et de couleurs différentes) et l’intégration des « voisinages » entre les octets (le fait qu’un octet correspondant à une lettre ou à une couleur soit suivi par tel autre octet étant a priori une donnée signifiante pour comprendre l’organisation générale de l’œuvre). Actuellement, la plupart des recherches portent sur le format vidéo. La complexité s’accroît en effet considérablement : pour diminuer les temps de traitement, il est nécessaire de sélectionner des captures (frames) significatives — d’autant qu’une seule vidéo peut contenir plusieurs œuvres.

Une architecture conçue contre les utilisateurs

Au-delà de ces recherches fondamentales, l’implémentation concrète soulève de nombreuses difficultés, bien résumées par Christoph Zauner. Par contraste avec les techniques de compression similaires utilisées en cryptographies, les « Perceptual Hash » ne doivent pas être sensibles aux altérations, même potentiellement significatives. C’est tout le sens de l’invocation de la perception : il faut, dans la mesure du possible, prendre en compte les productions qu’un être humain percevrait comme étant similaire.

Là-dessus, peut-être poussés en cela par leurs commanditaires (généralement des industries culturelles), les concepteurs des Perceptual Hash ont effectué un choix technique fondamental qui a de profondes implications sociales et esthétiques : garantir autant que possible que la plupart des œuvres sont reconnues, au risque de générer des faux positifs (alors que la pratique courante, en matière de classification et de reconnaissance automatisée, privilégie plutôt l’inverse : éviter autant que possible les faux positifs quitte à ne pas tout reconnaître). Je cite ici Zauner (p. 5) :

Lorsque nous identifions des objets média, un petit nombre de faux positifs n’encombre pas le système. Au contraire, il est bien plus important que vous tout objet x, il devient impossible de construire un objet perceptuellement similaire x’ (…) Cela couvre notamment la création de x’ à partir de x à travers n’importe quel type d’opération (tel qu’un découpage dans le cas d’une image).

Même ce choix fondamental ne règle pas tout. Zauner ajoute à la suite de sa démonstration un graphe qui résume d’une manière fascinante les problématiques de l’authenticité esthétique à l’ère du web :

Sauf lorsque l’œuvre originelle est intégralement reproduite, l’authenticité n’est jamais une donnée certaine. Elle se mesure en probabilité et il convient de définir au préalable les meilleurs seuils possibles pour intégrer autant que possible la plupart des œuvres dérivés, sans générer un nombre excessif de faux positif (tout en gardant à l’esprit que les faux positifs sont acceptables !). Dans le graphe, Zauner présente deux critère distinct : le rognage de l’image et la compression JPEG. Dans le cas du rognage, le degré d’authenticité descend rapidement ; pour la compression, le degré d’authenticité est conservé bien plus longtemps.

L’authenticité redevient-elle un absolu ?

Ce que l’on voit aussi au travers de ce graphe, c’est que la définition de l’authenticité est graduellement déléguée à des arbitrages informatisée « de principe », alors qu’elle relevait jusqu’à présent d’un jugement informel au cas par cas (qui pouvait, dans les cas les plus sérieux, relever d’une instance judiciaire et, de manière informelle, par l’intermédiaire des critiques d’art, du grand public, des pairs, etc.).

Il faut se garder absolument d’y voir un remplacement de l’humain par la machine. Comme nous avons pu le voir, la base théorique de ContentID n’est que trop humaine et repose sur des choix sociaux et économiques fondamentaux (en particulier de privilégier, dans le doute, les ayant-droits au détriment des utilisateurs). Seulement, on ne peut pas nier que le système de représentation de l’authenticité évolue radicalement.

À la limite, je serai presque tenté de parler d’un retour aux utopies classificatoires du XVIIe siècle, cet âge classique où l’on pensait naïvement déduire la valeur d’une œuvre de grands principes fondamentaux, à ceci près que nous valorisons désormais des principes « moches » et pragmatiques tel que le degré de saturation d’une image plutôt que la présence de tel motif ou l’intention morale de l’artiste.

L’authentification automatisée… contre les robots-créateurs

Autant dire que cela n’annonce rien de bon pour la liberté de création artistique. La généralisation de ContentID s’accompagne en effet d’une privatisation du dépôt légal, désormais gérée de manière occulte par les industries du web et les industries culturelles sans que la masse des créateurs et des amateurs aient leur mot à dire. L’architecture du code contribue ainsi à saper certaines libertés garanties par les règles de la propriété intellectuelle (aux États-Unis, le Fair Use ; en France, la parodie ; dans certains pays, la citation audiovisuelle). Et au-delà, elle accorde une prime de dépôts aux grands acteurs, qui en étant les premiers à transmettre leur base de données protégées, peuvent potentiellement usurper des productions préexistantes.

Cela ne va pas s’arranger. Les Perceptual Hash présente à mon avis une faille majeure : la saturation de l’espace de nom. Pour pouvoir être opérationnel, un hash ne peut jamais être totalement précis. Il doit se cantonner à une synthèse « générique » de l’œuvre qui admette la possibilité d’œuvres dérivées. Les plans de la commission européenne pourraient entraîner une rupture du système : au-delà d’un certain d’œuvres enregistrées, le nombre de faux positifs (déjà significatif) ne peut que s’accroître considérablement. Bien que le nombre de combinaisons potentiellement authentiques soit très important, l’utilisation intensive du service et la démultiplication des œuvres recensées implique qu’à un moment donné les fausses duplications doivent se multiplier. Nous risquons d’épuiser rapidement le capital collectif d’œuvres authentiques (dans le cadre rigide admis par les Perceptual Hash).

Une autre évolution parallèle risque d’accélérer cette saturation : l’utilisation de robots pour créer les œuvres. En 2000, un spécialiste de la génération automatique des œuvres musicales avait tenté de faire protéger près d’un milliards d’œuvres potentielles auprès de la SACEM. À cette date, les œuvres générées étaient une qualité assez faible. Les potentialités offertes permettent de reconsidérer la question.

Bref, si vous voulez saborder ContentID avant même que la commission européenne parvienne à imposer un système similaire partout, il reste encore une option « nucléaire » : déposer des milliards de créations automatiques vidéo/audio sur YouTube.

URL: https://scoms.hypotheses.org/709