Les données informatiques ne cessent de croître et de se diversifier – notamment dans les médias sociaux – au point où les outils de gestion classiques ne suffisent plus à la tâche. Trois spécialistes ont formulé des observations et des suggestions à propos des données volumineuses lors de la conférence Boule de cristal 2012.
Données sociales volumineuses
Le Web 2.0 suscite un intérêt croissant comme source d’information sur les tendances de marché. Or, chaque jour les médias sociaux font de nouveaux adeptes qui contribuent à l’augmentation exponentielle du volume de données.
Selon Claude G. Théoret, le président de la firme d’analytique montréalaise Nexalogy, les données générées en continu dans les médias sociaux ne peuvent être suivies uniquement par l’être humain. Ainsi, des ingénieurs et des spécialistes développent des outils d’exploration et d’analyse des « données sociales » aux fins des activités de veille.
Un premier outil consiste en un système d’analyse de graphe social. Mais en donnant l’exemple de l’outil « Maps » du réseau LinkedIn, où chaque relation d’un utilisateur équivaut à un factoriel, M. Théoret a souligné qu’il en résultait une quantité considérable de données qui nécessitent des calculs astronomiques.
« C’est pourquoi tous les astronomes et les physiciens dans la Silicon Valley ont été embauchés et que les développeurs sont à la recherche de “scientifiques des données” », a-t-il déclaré.
M. Théoret a expliqué que des technologies identifiaient dans les médias sociaux des thématiques populaires avant qu’elles soient évoquées par les médias généralistes. Toutefois, il a noté qu’on y présente les données sociales en fonction d’idées qui ne sont pas interreliées, alors que la relation entre les idées s’avère importante.
Le spécialiste a expliqué aussi que des outils d’analyse du graphe de l’intérêt servaient à établir un intérêt envers un sujet en fonction des propos tenus dans les médias sociaux et non selon les profils des utilisateurs. « L’ère du marketing traditionnel, qui déduit des intérêts en fonction de données démographiques comme l’âge, le sexe, l’adresse civique, est terminée », a-t-il affirmé.
Selon M. Théoret, l’analyse des données sociales et le développement d’outils à cette fin nécessitent des connaissances en mathématiques et en ingénierie, mais aussi en sociologie et en anthropologie.
Voir la vidéo : Les données sociales volumineuses
L’être humain, un système essentiel
Thierry Hubert est le chef de la direction de Darwin Ecosystem, une firme de Boston qui édite un « moteur de vigilance en ligne » qui surveille en temps réel ce qu’on dit à propos d’un sujet dans le Web traditionnel et les médias sociaux.
Alors que le Web 2.0 permet de formaliser des conversations et des échanges entre les individus, l’information qui en découle était mélangée et chaotique. Selon l’approche privilégiée par son entreprise, M. Hubert indique qu’il on peut déceler parmi ces données des modèles (patterns) à partir de mots clés, par des associations de termes et de concepts. « Les modèles suscitent la curiosité et la reconnaissance de plusieurs modèles permet de naviguer à travers l’information », a-t-il indiqué.
M. Hubert a également expliqué que les lois de la nature pouvaient être utilisées au sein d’outils technologiques qui servent à la reconnaissance de modèles. Il a démontré un outil nommé Tweather qui présente sous la forme de nuages l’importance au fil du temps des mentions de mots-clés qui sont associés à un sujet donné dans le réseau Twitter.
Or, bien que les systèmes informatiques servent à analyser les données volumineuses, l’inférence d’un sens aux données nécessite encore une observation de la part de l’être humain. « Puisqu’un système ne connaît pas le sentiment associé à des mots, il est difficile d’y faire confiance, a indiqué M. Hubert. Le système, toutefois, permet d’accélérer la compréhension des modèles au lieu d’avoir à consommer toute l’information. »
Matière à réflexion… dérangeante
Philippe Niewbourg dirige la firme Decideo.ca, de Montréal, qui est spécialisée en analytique et en intelligence d’affaires. Il a expliqué que les données volumineuses étaient caractérisées par les trois critères « V », soit le volume, la vitesse et la variété, et par une notion de durée dans le temps.
Voir la vidéo : Les « 3V » des données volumineuses
« Il faut des outils pour collecter les données vite, pour en stocker beaucoup, pour analyser vite et beaucoup et pour communiquer les constats vite et bien. Il faut également des compétences d’analyse », a déclaré M. Niewbourg.
M. Niewbourg a donné des exemples d’organisations qui tirent déjà profil des données volumineuses, par exemple la compagnie aérienne KLM qui offre à ses clients de vérifier si des amis prendront le même vol afin qu’ils puissent s’asseoir côte à côte, ou bien Nescafé qui utilise des cartes SIM dans des cafetières aux fins d’entretien, d’envoi d’alertes sur les téléphones mobiles, d’analyse de la consommation de café, etc.
À ceux et celles qui envisagent de tirer profit des données volumineuses, le spécialiste a recommandé de procéder à l’étude de l’impact des données volumineuses au sein d’une organisation d’une façon « dérangeante ». « Il faut imaginer l’établissement de nouveaux services à partir de ces données et il ne faut pas se mettre des barrières, a lancé M. Niewbourg. Toutefois, il ne faut pas prendre de décision tout de suite et rester agile, tout en se préparant à un grand changement. Le Big Data se fera demain ou après-demain, avec ou sans vous… »
Pour consulter l’édition numérique du magazine de mai 2012 de Direction informatique, cliquez ici
Jean-François Ferland est rédacteur en chef adjoint au magazine Direction informatique.