75% des données sont créées actuellement par les utilisateurs eux-même ! On y trouve les données qui sont les empreintes numériques de leur vie en ligne, celles envoyées par leurs appareils connectés (y compris votre voiture, qui vient de passer le télépéage…), et toutes les autres sources de données les concernant. On y trouve le web (fichiers de logs, indexation, requêtes sur les moteurs, transactions en ligne, utilisation des réseaux sociaux, graphes de relations entre les personnes, documents, photos et vidéos stockées en ligne…), les données commerciales collectées dans le monde réel, les données personnelles médicales, les données publiques et données ouvertes.
Les données sont également celles créées par l’internet des objets, les capteurs, les téléphones, les GPS, les logs de trafic téléphonique… Toutes les données collectées dans la nature et l’environnement. Toutes les données expérimentales, scientifiques, dans des champs aussi divers que la génomique, l’océanographie, l’astronomie, la météorologie, l’exploration spatiale, la recherche médicale, les sciences environnementales…