Galopant actuellement autour de la planète dans le vaste monde des TIC, le «big data», ou les données volumineuses, est peut-être un terme à la mode, mais il est pris très au sérieux par la communauté des analystes d’affaires et de l’informatique décisionnelle ( BI ).
Dans les faits, l’avalanche de données n’est pas un phénomène aussi nouveau qu’il pourrait y paraître. L’histoire en attribue la genèse aux contraintes inhérentes au volume titanesque de données devant être manipulé, avec des moyens techniques traditionnels, par les pionniers des moteurs de recherche Internet. La légende dit que tout a commencé lorsque Google a réalisé qu’il serait impossible d’aspirer le colossal volume d’information non structurée qui est dispersé de façon aléatoire aux quatre coins d’Internet.
Aussi Google a entrepris de développer MapReduce, le premier outil destiné spécifiquement aux « éléphantesques » volumes de données. Ainsi, le big data était né. Par la suite, sous l’égide de Yahoo, ce fut l’apparition de Hadoop, un projet écrit en Java qui a été développé et utilisé par une communauté mondiale de contributeurs.
À ses débuts, le big data fut donc accolé aux noms de tous les grands utilisateurs de volumes gigantesques de données, comme les compagnies de téléphone et les banques, et des géants du commerce électronique, dont Amazon et eBay. Toutefois, la démocratisation des outils d’analyse a depuis permis aux PME d’exploiter de gigantesques mines de données.
Définition
Afin de ne pas s’égarer, il serait sage de s’intéresser rapidement à une définition du terme big data, qui a été traduit en français par « donnés volumineuses » par l’Office québécois de la langue française en 2011. Chez nos cousins d’outre-Atlantique, et dans la littérature francophone, les spécialistes de l’informatique décisionnelle utilisent pour l’instant l’acronyme anglo-saxon.
Si les activités relevant du traitement informatique des données par l’analytique traditionnelle sont assez bien cataloguées, celles qui semblent devoir être rattachées au terme de big data le sont beaucoup moins.Aussi, la définition du terme est-elle beaucoup plus floue, et loin d’avoir atteint l’unicité par manque de maturité.
Parmi les définitions, celle de Wikipedia qualifie le big data « d’expression anglophone utilisée pour désigner des ensembles de données tellement gros qu’ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données. »
Le big data rassemble également les outils, les processus et les procédures permettant à une organisation de créer, de manipuler et de gérer ces très grandes quantités de données. Il faut constater que le terme ne fait pas allusion à une quantité spécifique ou même à un seuil quantitatif de données. Il évoque seulement, et de façon générale, des quantités astronomiques de données.
Les fonctions du big data
Les données propres au big data disposent de caractéristiques spécifiques. Leur taille est colossale. Elles sont souvent des agrégations de données distribuées et peu ou pas structurées, sont également particulièrement difficiles d’accès et concernent des millions, voire des milliards de personnes. Elles impliquent parfois des événements chronologiques ou sont déduites de façon statistique et probabiliste. Elles alimentent des applications tant transactionnelles qu’analytiques…
Également, sur un plan un peu plus pratique, les données concernées par le big data sont considérées comme des blocs de données exigeant une architecture de stockage à la fois nouvelle et spécifique.
Les données unitaires du big data peuvent être décrites comme de l’information non traditionnelle qui permet d’identifier de nouvelles informations et des tendances récurrentes.
De prime abord, les analyses du big data semblent faciles à comprendre. Il est toutefois fort complexe de mettre en place des méthodes pour analyser des quantités de données aussi colossales. De plus, l’aspect technique des outils disponibles prend le pas sur les enjeux stratégiques attachés aux fondements initiaux de cette pratique.
D’autre part, la réalité mathématique qui sous-tend le big data, est loin d’être triviale, ce qui constitue un frein majeur à son expansion.