OpenData : La moyenne pour un data.gouv.fr sous formats propriétaires

Alors que Regards Citoyens semble tenu à distance de la sortie du portail data.gouv.fr, nous avons réussi à consulter des documents de travail de la mission ÉtaLab nous permettant d’évaluer le contenu de la plateforme OpenData française qui sera présentée ce lundi matin en conférence de presse.

Tout d’abord, Regards Citoyens ne peut que se réjouir de la sortie d’un portail référençant les données publiques librement réutilisables. C’est un effort à notre sens indispensable de l’État pour un renouveau démocratique et citoyen. Moins d’un an après son installation, l’objectif que s’est fixé ÉtaLab est donc globalement atteint. Conformément aux principes reconnus au niveau international, la gratuité et l’absence de barrière juridique sont bien au rendez-vous. Concernant les formats, le bilan semble en revanche nettement plus mitigé.

Formats propriétaires : le point noir d’ÉtaLab
Répartition des données par formatsur les données tabulaires identifiées (≈300)

Rappelons-le : sur l’échelle à 5 étoiles de Sir Tim Berners Lee mesurant le degré d’ouverture d’un jeu de données, la troisième étoile impose des formats non-propriétaires, c’est-à-dire « libres et ouverts », comme le requérait d’ailleurs le gouvernement à l’annonce du projet. Pourtant, en examinant le catalogue, nous n’avons pu recenser que quelques dizaines de données en CSV et XML contre plusieurs centaines sous des formats propriétaires de Microsoft, loin de respecter les objectifs fixés par le gouvernement. Un sérieux effort reste donc encore à faire par ÉtaLab sur ce point. Suivant la norme édictée par l’inventeur du web, ce n’est qu’une petite moyenne que l’on peut simplement accorder à data.gouv.fr pour sa sortie.

Data.gouv.fr devrait référencer à sa sortie environ 500 jeux de données accessibles et librement réutilisables par tous, si le contenu n’a pas trop évolué d’ici lundi. À titre d’exemple, on peut noter que l’Angleterre, qui a beaucoup inspiré l’équipe d’Étalab et avait travaillé dans les même délais, proposait 2 500 jeux de données lors de l’ouverture de son portail data.gov.uk. L’éclatement des données réalisé par certains ministères illustre cependant la difficulté à raisonner simplement en termes quantitatifs sur les jeux de données.
Une majorité de données déjà accessibles, mais d’intéressants efforts
Répartition des avancées sur les données

De manière assez logique, beaucoup des données référencées étaient déjà accessibles sur les sites respectifs des ministères (et donc déjà référencées notamment par Data-Publica). Une bonne centaine de jeux de données ont cependant fait l’objet d’un véritable effort de reformatage, permettant à des données auparavant seulement consultables de devenir réutilisables. Parmi celles-ci, nous nous réjouissons de trouver notamment de nombreux tableaux disponibles auparavant exclusivement en PDF, comme par exemple différents « jaunes budgétaires », mais aussi les questions écrites parlementaires ou encore les recettes et dépenses de l’État. Rappellons que le manque criant de plusieurs de ces données avait déjà été comblé par différentes initiatives citoyennes et référencées au sein de NosDonnees.fr, notre data-gov.fr citoyen.

Enfin, data.gouv.fr référencera quelques dizaines de jeux de données auparavant totalement inaccessibles. C’est par exemple le cas de données de répartition des effectifs des administrations centrales et à l’étranger (Ministère des Affaires Étrangères), les données d’activités des services fiscaux depuis 2004 (Ministère du Budget) ou celles relatives à l’aide au développement accordée par la France (Ministère de l’Économie).
Les ministères de l’Éducation et de l’Agriculture les plus pro-actifs
Répartition des données par ministère

Les documents auxquels nous avons pu avoir accès permettent également d’évaluer les administrations les plus motivées pour proposer leurs données ou les enrichir. En novembre, le Ministère de l’Éducation nationale était le ministère qui référençait le plus de données sur la version Alpha de data.gouv.fr, mais la très grande majorité de ces données étaient déjà présentes sur le site du ministère. Venaient ensuite le Ministère de l’Agriculture, celui du Travail, de l’Écologie, du Budget et de la Culture, lesquels semblent avoir fait plus d’efforts pour améliorer la qualité des données ou rendre disponibles pour la première fois certains jeux de données. Les services du Premier Ministre, qui comprennent de nombreuses administrations détentrices de données, semblaient en revanche plutôt restés en retrait et ce malgré leur proximité statutaire avec ÉtaLab. Il est ainsi décevant que la DILA n’ait pas fait la preuve d’une volonté forte en proposant par exemple les bases de données du Journal Officiel ou des Marchés Publics. On regrettera enfin, sans trop de surprise, la pauvreté en termes de données issues de l’INSEE ou de l’IGN (données altimétriques de qualité moindre à celles déjà fournies pour la France par la NASA…).

La sortie de data.gouv.fr devrait également être l’occasion de disposer de jeux de données soumis jusqu’à présent à des redevances de plusieurs milliers d’euros : l’historique de la cotation des produits agricoles ou les subventions PAC versées au niveau national (Ministère de l’Agriculture), la base des établissements scolaires (vendue 120 000 € par an par le Ministère de l’Éducation nationale), la dotation budgétaire globale et les éléments d’imposition locale de chaque collectivité territoriale (vendus 123 000 € par la DGFIP), ou encore la base des questions écrites (vendue 6 480 € par la DILA jusque récemment). Nous espérons que la mise en ligne de data.gouv.fr sera l’occasion pour ÉtaLab de publier, comme annoncé par le décret de mai, la liste publique des données reconnues officiellement et de manière justifiée comme payantes.
L’avenir de l’OpenData Français entre les mains des réutilisateurs et de l’Europe

Alors que la Commission Européenne doit dévoiler dans les prochains jours sa proposition de révision de la directive PSI relative à l’OpenData, en élargissant notamment le cadre d’ouverture aux données culturelles, un effort intéressant est à noter du côté du Ministère de la Culture avec la libération de diverses données relatives aux pratiques culturelles des français (entrées en salles de cinéma, achats moyens, …). Notons d’ailleurs que celles-ci ont d’ores et déjà été exploitées par deux des applications gagnantes du concours étudiants d’Etalab.

L’ouverture du portail data.gouv.fr, prenant la suite de collectivités territoriales pionnières, officialise l’entrée de la France dans le monde de l’Open Data. Mais cette ouverture n’est qu’une première étape : si de nombreuses données pourraient encore être intégrées, cela ne sera possible que si un maximum de citoyens, d’associations, de journalistes, d’entreprises et d’universitaires s’emparent des données déjà existantes.

Les documents préparatoires à partir desquels cette analyse est basée datant de quelques semaines, il est possible que les chiffres avancés soient légèrement différents à la sortie, nous proposerons alors bien évidemment un rectificatif.Télécharger la synthèse en CSV des documents préparatoires

L’adresse originale de cet article est http://www.revue-reseau-tic.net/Ope...

Via un article de Roux, publié le 6 décembre 2011

©© a-brest, article sous licence creative common info