Créer un réseau social des acteurs des années 1920 et 1930 avec Wikidata

Certaines innovations majeures passent inaperçues. C’est le cas de Wikidata. Créé il y a deux ans, ce Wikipédia des bases de données placé dans le domaine public s’est imposé au détriment de ses homologues détenus par de grandes entreprises (comme Freebase de Google). Le contenu et l’architecture de cette ressource sont entièrement gérés et améliorés par une communauté bénévole, ouverte à toutes les contributions.

Pour reprendre l’expression de Lionel Maurel, Wikidata est l’un des principaux agents d’une science “wikifiée”, apte à développer une gouvernance autonome contre les tentatives hégémoniques des grands éditeurs. Détenteur direct ou indirect de 30% des revues publiées dans le monde, Elsevier est en train de se réorienter massivement vers les données scientifiques numérisées. Via son API, l’éditeur cherche à contrôler et à uniformiser les catégories et les modes d’accès à la connaissance.

Wikidata reste pour l’instant sous-utilisé, faute d’une interface d’accès et de requête adaptée. Depuis peu, il existe un point d’accès en SPARQL (soit le standard usuel du web sémantique). Sous réserve d’avoir déjà un peu tâté d’un langage SQL, SPARQL se prend facilement en main : il m’a suffit d’une après-midi pour commencer à monter des requêtes un peu complexe, comme la liste des universités les plus populaires au moyen-âge ou des personnalités (je vous invite aussi à lire les très bons billets de Ash_Crow sur les chiens de traîneaux ou sur la proportion de femmes scientifiques recensées dans Wikipédia).

Ici, je vais tenter d’intégrer une requête Wikidata dans un projet plus vaste : l’analyse des réseaux sociaux d’acteurs des années 1920 et 1930. Le lien entre les acteurs repose sur cette affiliation : le fait d’avoir figuré dans le même film. Je cherche ici à tester l’hypothèse suivante : dans quelle mesure le passage du muet au parlant a entraîné une consolidation des traditions nationales du cinéma ? Tant que le langage parlé n’est pas imposé, rien n’empêche en effet un acteur français ou allemand qui ne connaît pas un mot d’anglais de faire carrière aux États-Unis.

On aboutit ainsi à deux réseaux, l’un pour la période 1920-1929 :

Réseau social des acteurs au cours de la période 1920-1929 (CC0)

Et l’autre pour la période 1930-1939 :

Réseau social des acteurs au cours de la période 1930-1939

Les couleurs correspondent à des ensembles reconnus automatiquement par un algorithme intégré au logiciel Gephi (et, comme on va le voir, ils ne représentent pas que des nationalités). La version interactive du réseau 1920-1929 peut-être consultée par ici (soyez patient : les données en JSON prennent un peu de temps pour être téléchargées). Pour 1930-1939, je vous invite plutôt à télécharger le document compressé et à ouvrir directement le fichier index.html dans un navigateur en local (les données sont trop lourdes pour mon petit hébergement). Enfin, vous pouvez également jouer avec les données recueillies et mises en formes (ici pour 1920-1929 et là pour 1930-1939).

Les apports de Wikidata

Je pensais que les projection de réseaux sociaux d’acteurs étaient très fréquentes, au point d’être quasiment galvaudées. C’est en effet un excellent cas d’école pour tester des techniques et des analyses réticulaires (telles que développées par Gephi).

Eh bien en fait non : je n’ai peut-être pas très bien cherché, mais je n’ai rien trouvé de concret dans ce domaine (ce que constate également cet article de 2010 qui compare les graphes des réseaux d’acteurs d’Internet Movie Database avec des graphes générés aléatoirement). Les conditions de production et de diffusion de ce savoir avait d’emblée une portée limitative : le modèle économique d’IMDB implique un contrôle étroit de la réutilisation de ces données (via notamment une API payante). Évidemment, sur un projet bénévole en libre accès comme Wikidata, ces restrictions n’ont plus lieu d’être.

Wikidata est probablement à ce jour la base de donnée “généraliste” la plus complète, mais elle n’est pas encore en mesure de concurrencer les bases de données spécialisées. Pour le sujet qui m’intéresse ici, les réseaux sociaux d’acteurs, le site propriétaire IMDB n’a pas encore d’égal. Seulement, Wikidata présente plusieurs avantages déterminants :

La reproductibilité (et son corollaire, la vérifiabilité) : toutes les données sont diffusées dans le domaine public. Tout projet dérivé donne ainsi au lecteur les moyens de le falsifier (il est possible de constater que les données sont biaisées ou qu’elles ont été mal exploitées).
La connectivité : en tant que base généraliste, Wikidata permet de dégager des corrélations relevant de domaines de savoirs distincts. L’identifiant de chaque acteur inclut ainsi des informations qui n’ont peut-être rien à voir avec le cinéma (ainsi l’actrice Hedy Lamarr (Q49034) est aussi référencée comme la créatrice d’une technologie d’étalement du spectre visible (Q958957)).
La rétroactivité : Wikidata étant universellement modifiable, les concepteurs d’un projet dérivé peuvent directement corriger les erreurs constatés ou améliorer la représentativité de certains décomptes.
La sophistication des relations : non seulement, il est possible d’indiquer plusieurs valeurs pour chaque propriété, mais chacune de ces valeurs peut-être qualifiée (par exemple, combien de temps tel acteur a été employé par tel studio) et référencée (en incluant une source de qualité où figure l’information).

Dans l’ensemble, la représentativité des données cinématographiques est plutôt élevée par rapport aux standard de Wikidata. Sur la période 1930-1939, nous avons les listes de castings de 4885 films ou quasiment 500 films par an, soit assurément la plupart des productions de l’industrie cinématographique. Par comparaison, au pic de sa production, vers le milieu des années 1940, Hollywood sortait 400 films par an. Pendant la décennie 1930, on doit être aux alentours de 200 à 300 films : même en prenant en compte la production français, allemande, italienne, etc., le taux de couverture doit être de l’ordre de 70 à 80%.

Évidemment, la représentativité est beaucoup plus problématique pour tous les films qui sortent des circuits usuels (avant-garde) ou pour certaines traditions nationales peu favorisées par les contributeurs de Wikidata (déjà très actif, le cinéma russe est clairement occulté).

Quelques éléments de making-of

La requête pour récupérer les données de Wikidata est assez simple. Il suffit d’indiquer que nous cherchons la distribution d’un film (propriété P161, soit ?film wdt:P161 ?actor) et sa date de sortie (propriété P577, soit ?film wdt:P577 ?date), puis nous ajoutons des filtres pour restreindre la recherche à la période qui nous intéresse. Afin de ne pas surcharger le serveur, nous préféré effectué des requêtes années par années. Nous obtenons à la fin la requête suivante (dotée d’une commande spéciale pour faire afficher les labels) :

SELECT DISTINCT ?film ?filmLabel ?actor ?actorLabel ?date_name WHERE
?film wdt:P161 ?actor .
?film wdt:P577 ?date .
FILTER (year(?date) > 1938) .
FILTER (year(?date) < 1940) .
BIND(year(?date) AS ?date_name) .
SERVICE wikibase:label
bd:serviceParam wikibase:language “en” .

Après avoir agrégé manuellement les fichiers pour chaque année (il serait sans doute possible de faire cela automatiquement, mais s’agissant d’un si petit nombre de fichiers, c’était plus rapide ainsi), nous obtenons une liste comprenant pour chaque film les acteurs qui y figurent.

Évidemment, cela ne suffit pas pour modéliser un réseau : le logiciel Gephi ne va pas déduire l’affiliation à partir de la mention commune du film. Il lui faut un fichier beaucoup plus explicite, qui indiquerait pour chaque acteur un acteur lié.

C’est ici qu’intervient le langage de statistique R (et deux extensions magiques, tidyr et dplyr). Quelques lignes de codes suffit pour avoir la transformation souhaitée. Nous transformons d’abord les films en liste d’acteurs. M le Maudit devient ainsi quelque chose comme « Gustaf Gründgens, Peter Lorre, Otto Wernicke… » et ainsi de suite.

actors <- aggregate(actorLabel filmLabel, actors20, paste)

Après avoir isolé les acteurs et les films devenus des listes, nous “déroulons” ces derniers. Au lieu de mettre en relation Peter Lorre avec « Gustaf Gründgens, Peter Lorre, Otto Wernicke… », nous obtenons des couples Peter Lorre/Gustaf Gründgens, Peter Lorre/Peter Lorre, Peter Lorre/OttoWernicke etc.

actors <- actors %>% unnest(actorLabel.y)

Enfin, nous retirons les duplications avec la commande Unique (ce n’est pas obligatoire vu que Gephi les gère directement, mais cela permet de diminuer notablement la taille du jeu de données).

actors <- unique(actors)

Initialement, je voulais que la liaison s’opère à partir des identifiants non ambigus de Wikidata (ce qui permet d’anticiper des cas d’homonymies, tel un hypothétique Peter Lorre qui aurait fait une carrière très différente). Gephi n’a pas voulu admettre l’existence de labels distinct des identifiants, ce qui fait que j’ai laissé tombé¹ .

Je ne vas pas rentrer dans le détail du traitement avec Gephi (qui est très standard). Pour distinguer les “grappes” de liens, j’ai appliqué une transformation Yifan Hu (toutes les autres étaient beaucoup trop laborieuses), puis opéré une reconnaissance automatique des “communautés” et coloré les nœuds et les liens en conséquence.

Des communautés

Rentrons maintenant dans le vif du sujet. À la fin de tout ce processus, nous obtenons deux jolis graphes colorés composé de plusieurs dizaine de milliers de liens. Qu’allons-nous en faire ?

En 1930-1939, les choses sont beaucoup plus simples : les ensembles se détachent aisément et le taux de reconnaissance est élevé (0,641). En inspectant les noms des entités voyons clairement se détacher des traditions nationales autonomes, avec quand même quelques spécificités. Les américains sont en bleu, les anglais en rouge, les français en jaune, les allemands en vert et les italiens en bleu ciel. J’insiste sur la fait qu’il s’agit d’une reconstitution a posteriori : le logiciel n’avait strictement aucune idée de la nationalité des films mais, simplement, par le jeu des récurrences des distributions, il parvient à déduire ces grands ensembles.

Traditions nationales dans le réseau des acteurs de 1930-1939

Les interactions entre les traditions nationales sont différenciées. Les anglais tendent ainsi à se mêler étroitement aux américains (au point, qu’il y a des erreurs de classement : Franck Coghlan Jr. est ainsi classé comme anglais). Nous voyons aussi se dessiner le mouvement d’exil partiel du cinéma allemand après la prise du pouvoir d’Hitler.

Un mouvement d'exil : le cinéma allemand post-1933 — Un mouvement d’exil : le cinéma allemand post-1933

Le cinéma italien (et, dans une moindre mesure français) reste par contre assez soudé. Enfin, certains petits ensembles dispersés sur la carte reflète des traditions nationales plus isolées (comme le cinéma argentin en orange clair).

Un réseau périphérique : le cinéma argentin (en orange clair)

Dans l’ensemble, la variable nationale reste le critère privilégié. Il y a pourtant une exception : dans le coin supérieur droit du cinéma américain, nous voyons se dessiner un sous-ensemble distinct en vert foncé. Il s’agit des acteurs du muet qui n’ont pas tous réussi leur reconversion et tendent à tourner les uns avec les autres. Le réseau de Gloria Swanson (qui elle a encore plutôt bien réussi sa transition vers le parlant) illustre bien ce fait :

Le réseau de Gloria Swanson, à mi-chemin entre muet et parlant

En 1920-1929, le tableau est assez différent. Le logiciel peine davantage à distinguer des ensembles cohérents : le taux de reconnaissance descend à 0,531. Il y a des chevauchements fréquents que je n’arrive d’ailleurs pas totalement à expliquer.

Si la tradition française et anglaise (respectivement en bleu ciel et en rouge orangé) restent globalement perceptibles, les allemands, les italiens et les suédois tendent à se confondre dans une catégorie plus générique (que l’on pourrait qualifier de cinéma européen continental). La solubilité du cinéma italien m’a notamment surpris (surtout au regard de la cohésion apparente de cette tradition nationale au cours de la décennie suivante).

Traditions nationales au cours de la période 1920-1929

Côté américain, c’est le bazar. Trois sous-communautés en jaune, doré et turquoise se mélangent, sans que j’en comprenne très bien les motifs : je passe la main aux spécialistes, qui, par la récurrence des noms d’acteurs, arriveront peut-être à en dégager des critères communs. Je soupçonne l’existence d’un “milieu cosmopolite” (qui correspondrait en gros au turquoise), principalement composé de non-américains. Les studios jouent peut-être un rôle déterminant dans cet affiliation (auquel cas, il faudrait postuler une plus grande fluidité des carrières d’un studio à l’autre au cours de la décennie suivante). Ici, le réseau soulève plus de questions qu’il n’en résout.

Le grand bazar américain des années 1920 — Le sapin de noël américain des années 1920

Des ambassadeurs

Les réseaux numérisés présentent un autre intérêt : celui de glisser rapidement du cas général au cas particulier. Il est possible de cliquer sur une entité et d’identifier rapidement son réseau propre. Nous pouvons ainsi mettre en évidence l’existence d’ambassadeurs, soit d’acteurs à cheval sur plusieurs traditions nationales.

Le mouvement de la carrière de Greta Garbo est ainsi explicité : après ses débuts suédois (en bleus), elle tente sa carrière aux États-Unis (toutes les autres couleurs) :

Le réseau social de Greta Garbo, entre Suède et États-Unis — Le réseau social de Greta Garbo des années 1920, entre Suède et États-Unis

Maurice Chevalier se tient à équidistance de la France, des États-Unis et, dans une moindre mesure du Royaume-Uni :

Le réseau social de Maurice Chevalier entre France et États-Unis

Il s’agit là d’exemple bien connus. Le réseau permet également de distinguer des ambassadeurs insoupçonnés, tels ce Vladimir Sokoloff situé entre États-Unis, France et Allemagne.

Le profil transnational ultime : Vladimir Sokoloff

Les techniques de modélisations de données ne vont ainsi pas nécessairement “écraser” le cas particulier dans des configurations de plus grande ampleur. Elles contribuent aussi à le faire émerger. À ma connaissance, ce Sokoloff n’a jamais fait l’objet d’une case studies approfondies (Wikipédia ne mentionne que des sources primaires). Le réseau met en évidence sa position exceptionnelle d’acteur transnational.

Cartographier une réalité complexe

La comparaison des réseaux de 1920-1929 et de 1930-1939 met en évidence une réalité complexe. S’il y a bel et bien un mouvement général de structuration nationale sous l’effet du passage au parlant, il s’incarne dans des modalités très différentes. Au Royaume-Uni et en France, l’évolution est faible. Dans le premier cas, il n’y a pas de barrière de langue avec le cinéma américain. Dans le second cas, la persistance de partenariats privilégiés entre Hollywood et la production française contribue à modérer les effets de distanciation (les comédies musicales de la Paramount fonctionnaient quasiment comme des productions bi-nationales).

Par contre, pour le cinéma européen continental, la rupture est nette : en dehors des exilés post-1933, le cinéma allemand se referme sur lui-même. Encore très poreux pendant la décennie précédente, le cinéma italien se structure (ce qui fait d’ailleurs que le mouvement néo-réaliste des années 1940 pourra s’appuyer sur une production très bien développée). On ne peut ainsi faire abstraction de la situation politique de la période : l’établissement ou le renforcement de régime autoritaire contribuent également à une raréfaction des partenariats transnationaux durables.

Enfin, pour les américains, il reste ce mystère d’une substitution des sous-ensembles de la décennie précédente dans un ensemble unique (hors les acteurs du muets). Je l’attribuerai peut-être à la généralisation de la starification y compris au sein des seconds rôles : des acteurs secondaires comme Edward Everett Horton ou Franck Morgan deviennent des figures populaires que le public apprécie de retrouver d’un film à l’autre. Si vous avez d’autres idées, les commentaires sont ouverts…