Qu’est-ce qu’une donnée, finalement ?

Les données sont des valeurs assignées à des choses. Ce sont des faits bruts, qui n’ont pas encore été interprétés.

Les données ne sont pas des informations. Pour créer de l’information, puis de la connaissance (car l’information n’est pas non plus connaissance), il faut interpréter cette donnée.

Les données sont souvent le résultat de mesures. 19°C est une donnée qui peut être lue sur mon thermomètre. Un ensemble de données (dataset) consistera en toutes les données de températures mesurées dans tous les appartements de cet immeuble. « Cet appartement est trop chaud » est une information qui peut sortir de l’analyse de ce dataset, en comparant avec des datasets d’autres immeubles dans le même quartier.

Les données sont aujourd’hui tout autour de nous, dans nos voitures, nos téléphones, les puces RFID de nos vêtements… Les caractères que vous lisez sont des données, comme les sons de votre médecin au téléphone, les analyses qu’il va vous lire (les données numériques de votre pression sanguine), ou le dataset qu’il utilise pour comparer avec la population. Tout ce que nous utilisons ou touchons appartient probablement à un dataset plus large. Ou va y aller…

Les données brutes ne sont pas utiles par elles-même. Elles doivent suivre de nombreux processus de traitement, ce qu’on appelle le data pipeline, et chaque donnée traitée est souvent la donnée brute de l’étape suivante.

Les données ne sont jamais neutres. Elles peuvent à tout moment porter plus de richesse qu’il ne semblait à l’origine, par leur accumulation, par recoupement avec d’autres données, ou par une interprétation qui n’avait pas été imaginée au départ. Le monitoring de la température d’un appartement peut, à force, donner des indications sur les habitudes du foyer et finir par indiquer quand les occupants sont, ou non, dans l’appartement…

Les deux principales catégories de données sont les données qualitatives et les données quantitatives. Les premières se rapportent à des qualités comme la couleur, la forme d’un objet. Les secondes sont des données numériques comme la température, la pression du sang, les horaires des marées. On distingue dans ce dernier cas des données discrètes (séries de tailles de chaussures…) et des données continues (tailles mesurées des pieds…). Les données peuvent également décrire des choses par les catégories auxquelles ces choses appartiennent.

Il existe également un spectre continu des données structurées aux données non structurées. Les données structurées comportent des caractères bien (re)connus, et sont facilement exploitables dans des bases de données. À l’opposé, des vidéos, des textes, des emails sont des données non structurées, pour lesquels il n’existe pas de modèle de donnée préalable, et qui ne disposent entre elles d’aucun format relationnel. Cependant, on trouve toujours un certain degré de structure. Un mail comporte tout de même des champs comme l’expéditeur, la date d’envoi etc. Des données non structurées au niveau où on essaye de les analyser sont peut-être mieux structurées à un niveau différent : on parle alors de données semi- ou poly-structurées, un débat sémantique encore ouvert actuellement. L’essentiel est de se souvenir qu’il existe un spectre continu des données structurées aux données non structurées, et c’est même là l’essence de la Variability des données. En découle d’ailleurs une des lois les plus citées à propos des données quand il s’agit de les mieux comprendre : utilisez plus de données diverses, pas plus de données tout court.

Aymeric Poulain Maubant est le coordinateur/corédacteur du cahier de veille de la Fondation Télécom "Maîtriser ses données dans un monde hyperconnecté" paru en octobre 2013. Il est président de la Cantine numérique brestoise, et coordonne la semaine B-ware consacrée à la donnée en 2013.
Via un article de aymeric, publié le 19 novembre 2013

©© a-brest, article sous licence creative common info