Par Cyril Ehms DansData
Les 7 V du Big Data
Le Big Data.
Cette expression effraie parfois. Ou donne le vertige.
Certaines mettent tout et n’importe quoi dans le Big Data.
Concrètement, c’est l’ensemble des moyens (techniques et matériels) pour stocker, traiter et valoriser la data. Or les volumes de données croissent sans arrêt et leurs usages se développent toujours plus.
D’après Gartner, une référence dans le domaine, ces moyens se définissent par trois dimensions, ou 3 V.
Les 3V du big data, selon Gartner
Ce modèle a été défini par Gartner en 2001.
Et il est encore très largement utilisé aujourd’hui, bien qu’il soit souvent enrichi d’autres dimensions, que nous présenterons dans un second temps.
Volume
La terminologie employée indique de très gros volumes d’informations.
Et, de fait, à l’origine elle servait à décrire des quantités si importantes qu’il fallait employer un super-ordinateur pour les traiter.
Dans les années 2000, toutefois, les ordinateurs de bureaux et leurs logiciels sont devenus capables de traiter ces volumes.
Mais aujourd’hui, la croissance des données stockées est telle qu’il faut à nouveau faire appel à des serveurs pour les traiter efficacement.
En effet, chaque jour, dans chacune de vos tâches professionnelles, vous créez ou collectez de la donnée.
Et c’est ainsi que l’unité de référence est progressivement passée du téraoctet(1012 octets) au pétaoctet (1015 octets), et maintenant à l’exaoctet (1018 octets).
Vélocité
Nous l’avons vu plus haut, chacune de nos actions professionnelles génère des informations. La fréquence de création de la donnée s’est ainsi accélérée.
Et une information n’est pertinente que lorsqu’elle est encore à jour. Elle doit donc être collectée, partagée et traitée le plus rapidement possible.
Par conséquent, entre les volumes croissants et la vitesse de création, les outils et les matériels doivent être de plus en plus puissants pour tendre vers le temps réel.
Variété
Les sources, les méthodes de collectes, les usages…
A l’origine, seuls les textes, les chiffres et les tableaux étaient considérés. Mais la data se diversifie de plus en plus. Aujourd’hui, nous pouvons exploiter des photos, des vidéos, des données issues de l’IoT (Internet of Things – les objets connectés), les flux des réseaux sociaux, etc.
Et toutes ces données ne sont pas structurées de la même façon.
Là encore, les outils doivent s’adapter pour indexer et traiter les types de données émergents.
C’est là aussi qu’il faut être vigilant à la législation.
Par exemple, certaines données très précieuses, telles que les informations démographiques, peuvent traiter du caractère personnel (RPGD).

De nouveaux concepts
Aujourd’hui, d’autres dimensions ont été ajoutés à ces 3 V.
En effet, le contexte évolue. Et le modèle doit être mis à jour pour rester pertinent.
Véracité
Directement liée à la notion de volume, la véracité fait référence à la fiabilité de la donnée. Plus les masses sont volumineuses et plus les risques d’erreur, d’imprécision voire de contrefaçon sont importants.
La qualité, l’intégrité et la fiabilité prennent une nouvelle importance. Et traiter tant l’incertitude que les erreurs constituent un défi d’importance.
Valeur
L’analyse de données représente un budget. Et celui-ci n’a de sens qu’au travers de la valeur qu’il apporte. Que ce soit par la définition d’une nouvelle stratégie ou par l’amélioration d’un produit.
Or les données brutes n’ont souvent que peu de valeur, car l’humain ne peut pas les interpréter directement. Pour en tirer le meilleur parti, il faut les retraiter, les agréger voire les enrichir à l’aide de données externes à celles de l’organisation (open-data, acquisition de base de données externe, etc.).
Visualisation
L’analyse de données n’est plus une activité d’experts ou de techniciens.
La data sert aujourd’hui comme support de communication et de collaboration. Pour cela, elle doit être lisible et compréhensible par le plus grand nombre.
Pour la simplifier et l’expliciter, les outils de visualisation de données (ou dataviz) démocratise la data. Grâce à eux, l’information peut circuler librement et accélérer l’innovation au sein des organisations.
Variabilité
Par sa nature, la donnée est vouée à évoluer, à changer. En fonction du contexte comme du temps.
Or l’exactitude, le temps réel et la fiabilité de l’information sont primordiaux.
Les outils doivent s’adapter pour tenir compte de cette variabilité et assurer de toujours un flux de données fiable.
Ces enjeux sont à garder à l’esprit pour tout système de collecte, de traitement et d’analyse de données.
Ou retrouvez nos articles au sujet de l’analyse et de l’activation des données au sein des organisations.

Ensemble, mettons les données au coeur de votre stratégie, pour des politiques durables et performantes.