Urgences médicales : pourquoi ChatGPT commet-il une erreur dans un cas sur deux ?

découvrez pourquoi chatgpt fait une erreur dans un cas sur deux lors de situations d'urgences médicales et les enjeux liés à son utilisation dans ce domaine critique.

Quarante millions de personnes interrogent chaque jour ChatGPT sur leurs symptômes. Ce chiffre, communiqué par OpenAI en janvier 2026 lors du lancement de ChatGPT Health aux États-Unis, dit beaucoup sur la place que l’intelligence artificielle a prise dans nos réflexes de santé. On tape ses douleurs dans un chatbot comme on consultait autrefois un dictionnaire médical, mais en plus rapide, plus fluide, et avec une confiance parfois déplacée. Quelques semaines après ce lancement, deux études publiées dans des revues scientifiques de référence ont posé des chiffres concrets sur ce que beaucoup pressentaient : face aux urgences médicales, l’outil se trompe lourdement, avec un taux d’erreur dépassant les 50 % dans les cas les plus critiques. Ces résultats ne sonnent pas le glas de l’IA en médecine, mais ils soulèvent une question que personne ne peut plus ignorer : jusqu’où peut-on faire confiance à un algorithme quand il s’agit de décider si une douleur thoracique mérite les urgences ou un rendez-vous dans trois jours ?

ChatGPT Health face aux urgences médicales : ce que les chiffres révèlent vraiment

L’étude la plus complète s’est appuyée sur 960 requêtes couvrant 30 situations cliniques distinctes. Les chercheurs ont varié les paramètres : manière de décrire les symptômes, données subjectives ou objectives, profils démographiques incluant le sexe, l’origine ethnique et l’accès aux soins. L’objectif était de tester la robustesse de l’outil dans des conditions proches de la réalité, pas dans un cadre de laboratoire idéalisé.

Le résultat le plus préoccupant concerne directement les situations où le temps est un facteur vital. Dans les cas nécessitant une prise en charge immédiate aux urgences, ChatGPT Health a sous-évalué le niveau d’urgence dans 51,6 % des cas, orientant vers un rendez-vous médical classique plutôt que vers une consultation d’urgence. Dit autrement : sur deux personnes qui auraient dû filer aux urgences, une seule a reçu le bon conseil.

Ce qui rend ce chiffre particulièrement insidieux, c’est la forme des réponses. Les chatbots produisent des textes structurés, fluides, rassurants dans leur apparence. Cette lisibilité crée une illusion de compétence : plus la réponse semble organisée, plus elle paraît fiable. Or la précision d’un contenu n’a rien à voir avec la qualité de sa mise en forme.

découvrez pourquoi chatgpt peut se tromper dans un cas sur deux lors des urgences médicales et quels sont les enjeux de son utilisation dans ce domaine critique.

Des performances qui varient du tout au tout selon la pathologie

L’un des angles les plus révélateurs de cette étude, c’est l’écart de performance selon les pathologies testées. Sur des urgences emblématiques comme l’AVC, l’anaphylaxie, la méningite ou la dissection aortique, ChatGPT Health a affiché un taux de réussite de 100 %. Ces situations correspondent à des tableaux cliniques bien documentés, fortement représentés dans les données d’entraînement des modèles.

Mais l’image se fissure rapidement quand on regarde d’autres pathologies, pourtant courantes. L’exacerbation de l’asthme a donné lieu à 84,8 % d’erreurs. Une confusion a également été signalée entre acidocétose diabétique et simple hyperglycémie, avec une recommandation de consultation non urgente dans un cas qui en réclamait une immédiate. On se retrouve donc face à un outil capable de briller sur les cas les plus “médiatiques” et de trébucher sur des pathologies fréquentes, ce qui le rend imprévisible pour un usage grand public.

Ce paradoxe illustre une limite structurelle des modèles de langage : leur performance dépend étroitement de la densité des données d’entraînement disponibles pour chaque condition. Une pathologie rare mais spectaculaire peut être mieux gérée qu’une affection banale mais polymorphe dans ses manifestations.

Pathologie testée Taux de réponse correcte
AVC, anaphylaxie, méningite, dissection aortique 100 %
Exacerbation de l’asthme 15,2 % (84,8 % d’erreurs)
Situations non urgentes (toutes catégories) 35,2 % de bonnes recommandations
Urgences générales (toutes catégories) 48,4 % de bonnes recommandations

Pourquoi l’humain amplifie les erreurs de diagnostic de l’IA

Une deuxième étude, menée auprès de 1 300 participants au Royaume-Uni, a abordé la question sous un angle différent : celui de l’autodiagnostic. Les volontaires devaient interroger ChatGPT à partir de 10 scénarios fictifs validés par des médecins, en mimant le comportement d’une personne inquiète face à des symptômes. Le verdict est net : 37 % de diagnostics corrects avec ChatGPT, contre 45 % avec une recherche en ligne classique.

Le détail qui change tout apparaît dans la comparaison avec un autre groupe test : lorsque les mêmes symptômes étaient formulés par des médecins avec une terminologie précise et exhaustive, le taux de réussite de l’IA grimpait à 95 %. La conclusion s’impose d’elle-même : le modèle n’est pas seul en cause. La façon dont on lui parle conditionne directement la qualité de sa réponse.

Le maillon faible, c’est souvent la description du patient

Dans la pratique, les participants oubliaient des précisions cruciales : la durée exacte des symptômes, les facteurs aggravants, les antécédents pertinents. Ils posaient des questions fermées, se focalisaient sur une piste unique (par exemple attribuer tout à du stress), ou choisissaient mal parmi les suggestions proposées par l’outil. L’IA, de son côté, n’a pas la capacité de relancer, de creuser ou d’observer des signes non verbaux comme le ferait un clinicien.

Cette limite révèle quelque chose d’important sur la nature de l’acte médical. Un diagnostic n’est pas une simple correspondance entre mots-clés et bases de données. C’est une conversation active, une exploration progressive, une intuition clinique construite sur des années de pratique. L’automatisation, aussi sophistiquée soit-elle, ne reproduit pas encore ce processus.

Imaginez Sophie, 34 ans, qui décrit à ChatGPT une “gêne dans la poitrine depuis ce matin avec un peu de souffle court”. Elle omet de mentionner qu’elle vient de passer six heures en avion. L’IA lui recommande de se reposer et de surveiller l’évolution. Ce qu’elle aurait peut-être dû consulter en urgence pour une embolie pulmonaire reste ignoré. Le danger n’est pas dans la technologie elle-même, mais dans la confiance aveugle qu’on lui accorde.

Idées suicidaires et situations sensibles : une fiabilité encore plus fragile

Au-delà des pathologies physiques, les études ont mis en lumière un domaine particulièrement préoccupant : la détection des crises psychologiques et des idées suicidaires. Les résultats dans ce domaine montrent une incohérence qui dépasse la simple marge d’erreur.

Dans certains cas, l’outil n’a pas perçu le risque même lorsque la volonté était formulée de façon explicite. À l’inverse, il pouvait déclencher une alerte dans des situations à faible risque réel. Ce type de loterie inversée, où les alertes sont plus fréquentes pour des contextes peu critiques que pour des situations genuinement dangereuses, n’est pas un simple bug de fiabilité : c’est une brèche de sécurité concrète.

Des observations ont également relevé des omissions de ressources d’aide, comme l’absence de numéro de ligne psychologique dans des échanges pourtant sensibles. Lors d’un premier contact, quand une personne cherche un repère rapide dans un moment de détresse, ce type d’oubli peut avoir des conséquences graves. La santé mentale reste un terrain où la nuance, le ton et la présence humaine sont irremplaçables.

Quand plus de données ne garantit pas de meilleures réponses

Un réflexe naturel consiste à croire qu’en fournissant davantage d’informations à l’IA, on améliore mécaniquement ses réponses. L’étude sur ChatGPT Health nuance ce raisonnement. L’ajout de données objectives améliore les performances dans certains cas, mais dans les urgences, le taux de réponses correctes peut paradoxalement diminuer.

Ce phénomène ressemble à un effet de surcharge cognitive artificielle : plus la description est chargée, plus le modèle peut mal pondérer les éléments déterminants. Une information redondante ou légèrement contradictoire peut brouiller la hiérarchie des signaux cliniques. C’est une limite inhérente aux modèles de langage actuels, qui traitent des probabilités textuelles plutôt qu’une logique médicale structurée.

À noter : les chercheurs n’ont pas observé de biais lié à l’origine ethnique ou à la couverture d’assurance dans le cadre de ces tests. C’est un point positif, mais qui ne déplace pas le cœur du problème : même sans discrimination démographique détectée, l’outil peut se tromper sur l’urgence elle-même, et c’est là que le risque se concentre vraiment.

Comment utiliser l’IA en santé sans en faire un médecin de poche

Ces données ne condamnent pas l’intelligence artificielle comme outil de santé. Elles invitent à un recadrage précis de son rôle. Les autorités sanitaires françaises ont d’ailleurs engagé une évaluation de l’usage direct par les patients et encadrent son utilisation chez les soignants dans un cadre raisonné. Le message est cohérent avec les résultats de ces études : l’IA peut briller sur des protocoles bien balisés, et trébucher sur la complexité du réel.

La règle la plus utile pour un usage éclairé reste simple : traiter l’IA comme un assistant de préparation, pas comme un verdict médical. Elle peut aider à structurer des informations avant un rendez-vous, clarifier un terme médical obscur, ou lister des éléments à surveiller dans le temps. Mais elle ne doit jamais remplacer une décision d’orientation en cas de symptômes inquiétants.

  • Ne pas demander un diagnostic définitif, surtout si la situation semble urgente ou inhabituelle.
  • Utiliser l’IA pour organiser les symptômes : date d’apparition, durée, intensité, facteurs aggravants.
  • Ne jamais retarder une prise en charge si une urgence est possible, même si la réponse obtenue semble rassurante.
  • Se méfier des réponses très fluides et bien structurées : la forme ne garantit pas la précision.
  • Mentionner systématiquement les antécédents médicaux et les traitements en cours pour améliorer la qualité des échanges.

À mesure que ces outils s’intègrent dans les réflexes quotidiens de millions de personnes, la vraie question n’est plus seulement technique. Elle est culturelle : apprendre collectivement à reconnaître ce que l’IA sait faire, et surtout ce qu’elle ne peut pas garantir. Le bon usage de ces technologies en médecine ressemble moins à un “médecin de poche” qu’à un carnet de notes intelligent, utile, mais à garder à sa juste place dans la chaîne de soins.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut