Legifrance et le SPDDI respectent-ils les "huit Principes pour des données publiques ouvertes" ?

Une information reprise du site "Service Doc Info"
sur Le libre accès à l’information scientifique et technique
Un site sous licence Creative commons

Un article publié le 30 décembre 2007, par Stephane Cottin

Relevé notamment par Hubert Guillaud sur internetActu, début décembre 2007 une trentaine d’"avocats (des données) gouvernementales ouvertes" (open government advocates) , se sont réunis à l’occasion d’une rencontre organisée par Carl Malamud [1] à [Sebastopol (Californie).

Ils en ont tiré un set of fundamental principles for open government data qu’Hubert Guillaud traduit par "huit principes pour des données publiques ouvertes" : c’est un raccourci élégant, mais la notion même en anglais de "government data" fait l’objet d’âpres débats entre les experts eux-mêmes (voir une des discussions ouvertes sur le sujet sur legoogle-groupe créé à ce propos). Tout ceci me fait penser aux débats qui avaient précédés la traduction en français de ce qui allait devenir la directive "réutilisation des informations du secteur public" [2].

Si on dépasse cette querelle de traduction, il semble évident que parmi les données / informations concernées par ces "principes", devraient figurer, pour la France, le contenu du SPDDI (service public de diffusion du droit par Internet).

Les huit principes dégagés par le colloque sont les suivants (je me permets de reprendre la traduction d’Hubert Guillaud, sauf pour les points 1 et 3) :

1. Complete All public data is made available. Public data is data that is not subject to valid privacy, security or privilege limitations.

1. Exhaustives [3]. Toutes les données sont mises à disposition. Les données publiques sont des données qui ne sont pas sujettes à des limitations valables concernant la vie privée, la sécurité ou des privilèges d’accès.

2. Primary Data is as collected at the source, with the highest possible level of granularity, not in aggregate or modified forms.

2. Primaires. Les données sont telles que collectées à la source, avec la plus grande granularité possible, et ne se présentent pas sous des formes agrégées ou modifiées.

3. Timely Data is made available as quickly as necessary to preserve the value of the data.

3. Fraîches [( Guillaud dit "Opportunes", c’est effectivement plus joli, mais les documentalistes utilisent la notion de "fraîcheur" qui me semblent ici plus... opportune) ]]. Elles sont mises à disposition aussi rapidement que nécessaire pour préserver leur valeur.

4. Accessible Data is available to the widest range of users for the widest range of purposes.

4. Accessibles. Les données sont accessibles au plus grand éventail d’utilisateurs possible et pour des usages aussi divers que possible.

5. Machine processable Data is reasonably structured to allow automated processing

5. Lisibles par des machines. Les données sont structurées pour permettre le traitement automatisé.

6. Non-discriminatory Data is available to anyone, with no requirement of registration.

6. Non discriminatoires. Les données sont accessibles à quiconque, sans aucune obligation préalable ni inscription.

7. Non-proprietary Data is available in a format over which no entity has exclusive control.

7. Non propriétaires. Les données sont accessibles dans un format sur lequel aucune entité ne dispose d’un contrôle exclusif

8. License-free Data is not subject to any copyright, patent, trademark or trade secret regulation. Reasonable privacy, security and privilege restrictions may be allowed.

8. Sans permis. Elles ne sont pas soumises au droit d’auteur, à brevet, au droit des marques ou au secret commercial. Des règles raisonnables de confidentialité, de sécurité et de priorité d’accès peuvent être admises.”

Le principe 4 (accessible) fait évidemment penser à l’objectif de valeur constitutionnelle d’accessibilité de la Loi dégagé par la jurisprudence tant du Conseil constitutionnel que du Conseil d’Etat. Manque donc évidemment le pendant de cet objectif, l’intelligibilité de la Loi que je ne vois pas directement dans un des autres principes, mais dilué dans les principes 2 et 5. Il semble que les principes définis ici ne soit qu’extrinsèques aux données, et pas intrinséques. C’est dommage, mais ça se tient.

J’apprécie que le principe 8 ait été traduit par "sans permis" et non par le faux ami "sans licence" : il est évident ici qu’il ne s’agit pas de traiter de ces données sans passer par des règles définies par une "licence" par exemple, et il n’est pas question ici de vouloir échapper au(x) principe(s), droits et devoirs décrits par la "licence" legifrance.

D’autant plus que les auteurs de ces huit principes sont finalement assez ouverts et conscients de certaines réalités et on est loin des débats houleux pro- et anti- anonymisation (par exemple) du début des années 2000. J’en veux pour preuvela réponse de Carl Malamud lui même à une question d’Hubert Guillaud sur la liste de discussion précitée

Do public data must be anonymise before publication ?

The answer is yes ... the principles state that public data is that which has passed privacy or security thresholds.

On pourrait gloser des heures sur les principes et leur respect relatif par Legifrance, mais je pense que tous sauf un sont à peu près satisfaits par le SPDDI. Reste néanmoins qu’un des principes décrits ne semble pas respecté par Legifrance, c’est celui numéroté 6 sur la non discrimination à l’accès aux données.

En effet, le SPDDI prévoit des tarifs d’accès aux données, passés un certain seuil de récupération des informations fournies par le site Legifrance décrits précisément sur la notice explicative relative à la réutilisation des données disponibles sur Légifrance

Je pense indispensable et tout à fait normal d’une part l’existence d’un tel seuil et d’autre part l’obligation de se soumettre aux devoirs décrits par la licence. Le coût de mise à disposition est sans commune mesure avec les frais qu’occasionneraient la mise à niveau de la bande passante si le fournisseur d’accès aux données se voyait contraint de laisser passer tous les aspirateurs des apprentis sorciers qui veulent s’approprier sans contrôle les données publiques. Et surtout, il en va du principe de sécurité juridique, et d’une certaine mesure, de la responsabilité de l’Etat, que de fournir une information fiable et à jour : une fois diffusée, qui va dire si l’info est à jour, sinon le licencié qui a l’obligation de le contrôler, alors que celui qui n’a pas promis de le faire peut sans contrôle, diffuser une information non labélisée et non fiable !

On peut remettre en cause le niveau des tarifs, la position du seuil, mais certainement pas son principe, sauf à trouver d’autres façons de diffuser les données publiques de façon fiable.

Quant à la position du seuil, je rappelle que c’est soit la diffusion d’une base complète, et ça, on n’y peut rien, c’est l’application du droit sui generis des bases de données, auquel on ne peut déroger, ou soit les niveaux suivants, pour douze mois :

  • pour l’ensemble des bases de jurisprudence (Constit, Jade, Cass, Inca, Juridice) : 3000 arrêts
  • pour la base Jorf : 2500 documents (textes)
  • pour la base Legi : 4000 documents (articles)
  • pour la base Lex : 1500 documents (articles ou groupes d’articles)
  • pour la base Kali : 1000 documents (articles)

Quel particulier, étudiant, professeur... a besoin d’autant de données annuellement ? à moins de vouloir cela professionnellement ou pour une collectivité. A ce moment-là, il passe naturellement à un autre niveau, celui de l’usage collectif et peut se payer une licence (dont il financera les frais... collectivement).

Quant au niveau des tarifs, pour avoir été producteur d’une base pendant 15 ans, et acheteur des autres avant l’arrivée du SPDDI et du temps des fonds de concours, je peux vous certifier que ce n’est pas cher pour le service rendu.

[1initiateur de l’ambitieux projet public.resource.org dont j’ai parlé en août 2007 ici : Mise en ligne massive de documents publics : à propos de l’expérience de public.ressource.org] ] et Tim O’Reilly [[ qui n’est autre qu’un des créateurs du concept de Web 2.0 ou du moins celui qui a popularisé le terme

[3Guillaud dit "Complètes"

Posté le 3 janvier 2008