Les données, sont devenues l’oxygène pour certaines organisations et la richesse pour d’autres. Le leitmotiv du partage des données a envahi les organisations et déborde sur l’Internet.
L’organisation qui ne partage pas ses données entre ses « preneurs de décisions » fait aujourd’hui figure de dinosaure et de comportement rétrograde. Cette pratique déferlante a fait le succès des systèmes de gestion de type ERP et contribué à la vague de déploiement des entrepôts de données. Ces entrepôts sont aujourd’hui bondés et souvent à la limite, toujours repoussée, de l’explosion.
L’exploration des données
Ces multiples années d’accumulation des données, de partage, de traitement primaire, par corrélation, par thèmes, par sujets, par chronologie, par espaces géographiques, par critères socio-économiques, par critères spécifiques, sont dépassées.
Certes, tout ce travail est encore requis et nécessaire. Et « la bonne information, au bon moment, au bon endroit ou à la bonne personne » fait toujours foi. Mais, ces données accumulées dans les entrepôts recèlent bien d’autres trésors. Il s’agit d’informations encore inconnues, des savoirs profondément dissimulés, des connaissances pas encore exhumées. Il va falloir forer et explorer profondément les données pour en trouver les filons et les exploiter. C’est la raison d’être de l’exploration des données (data mining) et de ses traitements des données.
Vous avez dit prédictive?
Dans toute cette richesse informationnelle, ces connaissances et ces savoirs et la pratique de l’exploration des données, il en est un type plus intéressant que les autres. C’est celui de « l’exploration prédictive » des données. C’est en quelque sorte le traitement du passé qui révèle l’avenir. L’exploration des données dispose des outils nécessaires et performants pour cette tâche. Ce sont les réseaux bayésiens.
Les réseaux bayésiens
Un réseau bayésien est en fait un modèle mathématique probabiliste et non pas statistique. Sa présentation graphique allie originalité et simplicité. Elle est composée de nœuds et d’arcs. Un tel modèle permet ainsi de transcrire un volume important de données ainsi que leurs multiples variables, dont les valeurs peuvent être connues ou présumées. Il permet également de représenter graphiquement leurs interrelations spécifiques, formant ainsi un réseau. Réseau dont les nœuds sont généralement représentés par des boîtes rondes qui figurent les variables aléatoires des tables de données.
Les arcs sont les liens qui représentent les influences d’une variable sur l’autre. Ils sont généralement figurés par des flèches. Ces flèches représentent par conséquent les relations qui unissent les variables entre elles et qui peuvent être déterministes, si elles sont connues, ou probabilistes si elles sont estimées ou calculées. C’est le traitement probabiliste auquel pourront être soumises ces incidences qui, outre le simplisme de sa représentation graphique, est l’essence même des réseaux bayésiens. Ce graphe est dit acyclique, c’est-à-dire qu’il ne comporte jamais de boucle. Ces réseaux allient par conséquent la rigueur de ce puissant formalisme mathématique, à la lisibilité de la représentation distribuée des connaissances, à l’aide de modèles à base de règles.
L’utilisation d’un tel modèle sur un ensemble de données brutes permet de les transformer et ainsi d’en acquérir des informations nouvelles, souvent discrètes ou dissimulées. Il permet aussi de capitaliser sur une somme importante de savoirs, découverte au sein des données, comme une poche de pétrole, ainsi que d’exploiter un tout nouveau bassin de connaissances, nouvellement mis à jour, comme un filon aurifère. Les réseaux bayésiens, ou du moins leur utilisation dans le traitement des données, sont quelque part les successeurs, en droite ligne, des différentes approches que l’on retrouvait dans « feu » l’utilisation de l’intelligence artificielle et les systèmes experts. Les réseaux bayésiens sont régulièrement les outils sous-jacents des actions prédictives de l’exploration des données. La force, sans contredit, de tels réseaux est qu’ils sont particulièrement bien adaptés à la prise en compte de différents degrés « d’incertitude » dans le traitement des données.
Ce type de réseau s’appelle « bayésien » en l’honneur du révérend Thomas Bayes, un mathématicien et pasteur anglais, qui vécut de 1702 à 1761. Il fut le créateur d’un important théorème sur le calcul des probabilités, et qui porte son nom : le théorème de Bayes. Ledit théorème entre dans la résolution du traitement probabiliste des inférences et non pas du graphe des réseaux bayésiens. Outre le traitement probabiliste, il ne semble pas y avoir de rapprochement direct entre la représentation des réseaux de type bayésien et la statistique dite bayésienne. Aussi, pour être puristes, ces réseaux sont parfois aussi appelés « diagrammes d’influences ». Une appellation plus générique et dénuée de toute connotation.
Quelques exemples d’applications
Les réseaux bayésiens servent à représenter, de façon ultime, la connaissance disponible d’un système au sens large du terme et pas seulement informatique. Les réseaux bayésiens sont largement utilisés en informatique, mais aussi dans d’autres secteurs, technique, économique, sociologique, biologique, médical, etc. Tout comme pour les TI, le traitement de leurs données spécifiques permet d’y découvrir de nouvelles informations, d’en tirer denouveaux savoirs et d’enforger de nouvelles connaissances.
L’exploitation des réseaux bayésiens spécifiques, une fois constitués, permet par exemple de répondre à :
• La résolution de contraintes
C’est une application typique de ces réseaux. Ainsi, l’analyse des données tirées du livre de bord du capitaine au long cours d’un rafiot qui a sombré corps et âmes, fournit les trois observations suivantes : la somme des âges du capitaine, du second et du mousse est de 100. Le second est strictement plus âgé que le capitaine. Le second et le mousse ont 34 ans de différence. Si la répartition des âges de l’équipage est comprise entre 0 et 50 ans, quel est l’âge du capitaine et de ces deux acolytes? Enfin, une approche qui permet de connaître l’âge du capitaine.
• L’établissement d’un diagnostic
C’est l’analyse des faits et des effets observés, des symptômes, pour tenter de lister les causes possibles, puis de leur répartir des inférences dont la valeur est soit connue, soit attribuée de façon probabiliste (probabilité d’apparition de l’événement). Admettons par hypothèse que les campagnes préventives de détection du cancer du sein disposent de deux tests distincts, dispensés par deux entités distinctes. Supposons que le premier test a un taux de non-détection de 5 % et un taux de détection erronée (faux positif) de 1 % et que le second test a un taux de non-détection de 10 %, mais ne provoque aucun faux positif.
Certes, aucun des deux n’est parfait, mais c’est l’utilisation systématique des deux tests, pour chaque femme qui offrirait la meilleure information disponible. Si les statistiques des cas réellement observés par le passé font état que 10 % des femmes sont porteuses de traces, quel pourcentage de femmes aura un diagnostic de cancer? Quel est le risque qu’une femme saine soit diagnostiquée avec un cancer (faux positif)? Quel est le pourcentage de l’ensemble des femmes diagnostiquées qui sont en fait des patientes saines (faux positif)? C’est également sur ce même principe, que certains filtres anti pourriel se basent pour détecter les courriels indésirables.
• L’aide à la décision
Le maire d’une grande banlieue populeuse désire être réélu. Or, son conseil d’administration lui recommande une hausse des taxes municipales pour financer la construction de l’aréna. Le maire hésite à accéder à cette recommandation, car s’il impose une hausse des taxes, il évalue à 60 % seulement ses chances d’être réélu. En revanche, s’il refuse la hausse de taxe, la Ville ne pourra financer la construction de l’aréna et, alors il estime à 70 % les risques que ses électeurs le considèrent comme incompétent et le lâche. Toutes choses étant égales par ailleurs et rien n’étant parfait, le maire estime à 60 % les risques d’un dépassement de budget dans le projet de l’aréna. Quelle devrait-elle être la décision optimale pour ce maire, afin d’être réélu?
• La simulation
Il s’agit de l’analyse du comportement des données ou du système considéré. C’est la pratique inverse de celle du diagnostic. Ici, ce sont les variables d’entrées, celles qui forment les causes, qui seront renseignées et, l’analyse consiste à observer la répartition des probabilités résultantes sur les effets ainsi crées.
• L’analyse de données
Un parti politique se trouve face à deux sondages différents. Ils ont été faits au même moment, sur la même cible, mais par deux approches différentes. Ils fournissent deux valeurs différentes de votes potentiels pour le candidat vedette. La première approche a une précision de 100 votes et la seconde a une précision de 300 votes. Ce qui signifie que les deux résultats des sondages représentent la valeur vraie avec un écart type de 100 et de 300 dans un cas et dans l’autre. En admettant que l’obtention de la majorité de votes suive une loi de Poisson d’espérance 1 500, et d’écart type 500, comment estimer la valeur réelle mesurée, si le premier sondage donne un résultat de 850 votes et le second un résultat de 1 250 votes?
• L’évaluation
Une société de transport possède une flotte de 23 bus identiques qui parcourent toute la journée le circuit préétabli. La demande pour les bus suit une loi normale. La résolution du réseau bayésien permettra de déterminer le nombre de demandes journalières non satisfaites; le pourcentage de risque qu’il y ait des demandes non satisfaites; la probabilité qu’un bus soit indisponible et reste au garage; ainsi que le taux moyen d’utilisation des bus. Il sera aussi possible de déterminer l’évolution de ses informations, si la compagnie de transport acquiert « x » nouveaux bus ou en retire un nombre « y ».
• Le contrôle des systèmes
Dans une manufacture de vêtements, l’ère de stockage des matières premières est protégée par un dispositif de détection des incendies composé de 3 détecteurs de fumée. En cas d’incendie, les rapports techniques du fabricant indiquent chaque détecteur à une fiabilité de 90 %. Soit un fonctionnement normal dans 90 % des événements. Le dispositif de surveillance déclenche une alarme si au moins 2 détecteurs de surveillance sur les 3 en fonctions révèlent la présence de fumée. En outre, un agent de sécurité est présent 8 heures par jour et peut activer manuellement le déclenchement d’une alarme d’incendie. Compte tenu de ses données, quel est le risque qu’une alarme ne soit pas déclenchée en cas d’incendie?
• La prédiction
Dans une population cible, une étude clinique a révélé que la répartition de la sensibilité des individus à développer une pathologie particulière dans l’avenir est évaluée à 70 % pour les cas d’individus normaux et non affectés, et à 30 % pour les individus sensibles et qui seront potentiellement affectés. Cette sensibilité est attribuée à deux gènes spécifiques. Un gène protecteur qui est dominant et un gène sensibilisateur qui est récessif.
Ce qui signifie que pour toute descendance, ces gènes sont hérités, et que tout individu qui possède un gène de chaque est assujetti au gène protecteur dominant. Quelle est la probabilité qu’un descendant de première génération présente la sensibilité si les parents ne la présentent pas? Dans le cas de la naissance d’un second descendant, quelle est la probabilité que le second présente la sensibilité sachant que le premier la présente? Quelle est la probabilité que le père présente la sensibilité si l’on sait que la mère et le descendant ne la présente pas? Quelle est la proportion des individus présentant la sensibilité dans une population définie? Comment cette proportion évolue-t-elle au cours des générations à venir? Voilà un traitement prédictif des données qui devrait intéresser les services de santé et qui intéresse à coup sûr les compagnies pharmaceutiques et les compagnies d’assurances.
En conclusion, il facile de concevoir que les réseaux bayésiens ont un rôle significatif à jouer dans l’exploration des données. D’ailleurs, en 2004, le Massachusetts Institute of Technology dans son classement des dix technologies appelées à révolutionner le monde industriel dans les années à venir, avait placé au 4e rang l’utilisation des réseaux bayésiens dans l’exploration des données. Depuis, cette pratique est reconnue par la plupart des géants de l’informatique comme une des conditions de succès dans les prochaines décennies. C’est sur l’utilisation d’un réseau bayésien que fonctionnent le petit personnage hyperactif et le trombone agité qui fouillent pour vous les fichiers d’aide dans les logiciels de Microsoft.
La raison du succès grandissant des réseaux bayésiens, outre leur convivialité et leur efficacité, est cette multiplicité d’applications, dans tous les domaines d’activités, du marketing à la santé, de la finance au droit, de la mécanique à la navigation, du contenu du chariot d’épicerie des supermarchés à la sécurité des centrales nucléaires, de l’environnement et de la pollution à la gestion de réseaux électriques, de l’utilisateur d’un logiciel aux comportements des individus face aux changements, en prospectant simplement dans les entrepôts de données.
Pour en savoir plus
Un classique : Réseaux bayésiens, P. Naïm, P.-H. Wuillemin, P. Leray, O. Pourret, A. Becker, 2004, Eyrolles
Bibliothèque Technet de Microsoft
Un site didactique en français, avec un outil logiciel développé par Kervin Murphy à Berkeley http://bnt.insa-rouen.fr/
Un site avec un exemple concret: Réseau bayésien, dans le cadre du doping dans le sport, projet du passeport biologique de l’athlète http://tinyurl.com/5l4sk8
Kathryn Blackmond Laskey, George Mason University
Le site de Norsys
Introduction à l’inférence exacte dans les modèles graphiques dirigés. Ou comment faire du raisonnement probabiliste avec un réseau bayésien : http://david.bellot.free.fr/inference_modeles_graphiques/
Gérard Blanc est associé principal d’une firme conseil en gestion et en systèmes d’information.