Que fait-on des données ?

De manière générale, on les traite. Quelle que soit la nature des données, et l’usage qu’on en fait, leur traitement est en réalité un ensemble d’étapes incrémentales à travers le «  data pipeline ». Toutes les étapes ne sont pas toujours nécessaires, et certaines étapes peuvent reboucler (notamment la dernière, celle de l’archivage des données, qui peuvent être un jour réutilisées dans un nouveau contexte et réinsérées dans le pipeline). Comprendre le data pipeline permet de se donner une idée de la chaîne de valeurs de l’économie de la donnée. Permet seulement, car le paysage des acteurs de la donnée dans le monde n’est pas du tout structuré actuellement.

Le data pipeline

On peut découper le pipeline en 7 types d’étapes, les étapes 2 à 6 étant sous-tendues par les opérations de stockage  :

  1. acquérir, extraire, capter, collecter, intégrer, agréger
  2. transformer, convertir, nettoyer, (et munging et wrangling en anglais, une activité nouvelle, semi-automatique, qui consiste à traiter les données (par exemple les trier) pour les rendre plus facilement exploitables dans les étapes suivantes)
  3. raffiner, géocoder, ajouter des descriptions et des métadonnées, contextualiser
  4. préparer, sérialiser, indexer, classer, anonymiser, protéger
  5. comprendre, interpréter, apprendre sur, analyser, vérifier la pertinence
  6. présenter, visualiser, rapporter, partager
  7. post-traiter, rafraîchir, archiver, détruire

Les étapes 2-4 sont indispensables avant toute interprétation -le but ultime, le passage de la donnée à l’information- des données. Ces étapes sont une première réinterprétation du jeu de données (dataset) de départ et permettent d’avoir une nouvelle vision sur celui-ci. Il s’agit tout d’abord de transformer à telle ou telle étape les données en quelque chose de plus exploitable (format mieux adapté, données classées, normalisées…), de rendre les données propres (selon leur mode d’acquisition elles peuvent être incomplètes ou incohérentes), de les augmenter (géocoding, ajout d’autres données provenant d’autres sources, construction de données sur les données (les métadata), protection, signatures…), de les diminuer (suppression des données dupliquées, anonymisation…), et surtout de les contextualiser.

Des données hors contexte perdent leur sens

Le contexte permet de créer l’histoire associée aux données. L’anecdote suivante est racontée par un professeur de l’université de New York dans le NY Times. Il travaillait avec ses étudiants sur des données de circulation au sein de l’université, notamment pour savoir quand les ascenseurs étaient le plus souvent utilisés. Par le biais de capteurs installés dans les ascenseurs, ils découvrirent l’histoire suivante : les étudiants utilisaient les ascenseurs le matin, et prenaient les escaliers le soir, sans doute parce qu’au cours de la journée ils retrouvaient un peu de l’énergie qu’ils avaient perdue la nuit précédente. Le professeur en était resté là, jusqu’à ce qu’il soit interpelé par des agents de la sécurité qui étaient curieux de connaître les résultats. En entendant l’histoire, ils lui apprirent que pendant l’expérimentation, des ascenseurs étaient tombé en panne plusieurs soirs de suite, et les étudiants paresseux n’avaient pas eu d’autre choix que prendre les escaliers. L’interprétation des données sans un contexte plus large se trouvait tout à fait hors de propos ! Il en est de même avec les HotTrends de Google qui, pour l’instant encore, ne s’arrêtent qu’aux nombres (les requêtes), et ne savent pas prendre le contexte de la requête en compte (suis-je vraiment sujet à la grippe, ou bien curieux de cet article de presse sur la grippe ?). Associer le contexte aux données est un défi scientifique et technologique aujourd’hui.

Aymeric Poulain Maubant est le coordinateur/corédacteur du cahier de veille de la Fondation Télécom "Maîtriser ses données dans un monde hyperconnecté" paru en octobre 2013. Il est président de la Cantine numérique brestoise, et coordonne la semaine B-ware consacrée à la donnée en 2013.
Via un article de aymeric, publié le 28 novembre 2013

©© a-brest, article sous licence creative common info