Des chercheurs du CHU Sainte-Justine et de l’Hôpital de Montréal pour enfants ont récemment posé 20 questions médicales à ChatGPT. L’engin d’intelligence artificielle leur a fourni des réponses d’une qualité… limitée, comprenant des erreurs factuelles et des références inventées. Ils ont récemment publié les résultats de leur recherche dans le Mayo Clinic Proceedings: Digital Health.
« Ces résultats sont alarmants, étant donné que la confiance est un pilier de la communication scientifique », indique le Dr Jocelyn Gravel, auteur principal de l’étude et urgentologue au CHU Sainte-Justine. « Les utilisateurs de ChatGPT devraient prêter une attention particulière aux références fournies avant de les intégrer dans des manuscrits médicaux ».
S’adressant aux scientifiques qui seraient tentés d’utiliser le modèle d’intelligence artificielle ChatGPT pour la rédaction de textes médicaux, les chercheurs leur recommandent de poser leurs questions à un professionnel.
Pour cette étude, la première à évaluer la qualité et la justesse des références fournies par ChatGPT affirme-t-il, le groupe a tiré ses questions d’études existantes et demandait à ChatGPT d’appuyer ses réponses par des références. Par la suite, les chercheurs ont fait évaluer les réponses du logiciel sur une échelle de 0 à 100 % par les auteurs des articles dont les questions provenaient.
17 auteurs ont accepté de réviser les réponses. Ils ont estimé qu’elles étaient d’une qualité discutable (score médian de 60 %). Ils y ont également trouvé des cinq erreurs factuelles majeures et sept mineures. À titre d’exemple, ChatGPT suggérait d’administrer un médicament anti-inflammatoire par injection alors que celui-ci doit plutôt être ingéré. Autre exemple : il a multiplié par dix le taux de mortalité mondial associé aux infections par les bactéries Shigella.
Pour ce qui est des références fournies, 69 % étaient inventées, mais avaient pourtant l’air vraies. 95 % d’entre elles se servaient du nom d’auteurs ayant déjà publié des articles sur un sujet connexe ou provenant d’organisations reconnues comme les Centers for Disease Control and Prevention ou la Food and Drug Administration. Elles portaient toutes un titre lié au sujet de la question et utilisaient le nom de journaux ou de sites web connus. Et même les vraies références posaient problème, près de la moitié d’entre elles comportant des erreurs.
Les chercheurs ont interrogé ChatGPT sur l’exactitude des références fournies. Dans un cas, il a soutenu que « les références sont disponibles sur Pubmed » en fournissant un lien web qui renvoyait à d’autres publications sans rapport avec la question. Dans un autre cas, le logiciel a répondu : « Je m’efforce de fournir les informations les plus exactes et les plus récentes dont je dispose, mais des erreurs ou des imprécisions peuvent se produire ».
Selon le Dr Esli Osmanlliu, urgentologue à l’Hôpital de Montréal pour enfants et scientifique au Programme en santé de l’enfant et en développement humain à l’Institut de recherche du Centre universitaire de santé McGill, « L’importance de références correctes en science est indéniable. La qualité et l’étendue des références fournies dans des études authentiques démontrent que les chercheurs ont effectué une revue complète de la littérature et qu’ils connaissent bien le sujet. Ce processus permet d’intégrer les résultats dans le contexte des travaux antérieurs, un aspect fondamental de l’avancement de la recherche médicale. Ne pas fournir de références est une chose, mais créer de fausses références serait considéré comme frauduleux pour les chercheurs. »
« Les chercheurs qui utilisent ChatGPT pourraient être induits en erreur par de fausses informations, car des références claires, apparemment cohérentes et stylistiquement attrayantes peuvent dissimuler un contenu de mauvaise qualité », poursuit le chercheur.