L'erreur humaine derrière les résultats brisés

Vous ressentez cette gratte familière à l'arrière de votre gorge. Vous prenez une gorgée d'eau. Ça fait mal. Vous essayez de l'effacer. Toujours là. Donc, comme des millions d'autres, vous retirez votre téléphone et commencez à googler les symptômes.

Ce qui commence comme une simple recherche de «maux de gorge» rapidement. Vous lisez maintenant sur le cancer, les troubles immunitaires et les infections rares. La panique s'installe. Cela semble familier?

C'est là que l'IA pourrait aider. Des outils comme Chatgpt peuvent donner des réponses réfléchies et rapides et, pour la plupart, c'est gratuit. En fait, une récente étude d'Oxford a révélé que les modèles de grande langue ont correctement diagnostiqué les cas médicaux 94,9% du temps. C'est plus élevé que de nombreux médecins.

Cependant, lorsque les gens ont utilisé ces mêmes outils dans les mêmes cas, leur précision est tombée à seulement 34,5%. Il s'avère que l'IA n'est pas le facteur limitant ici concernant les performances; C'est nous, humains, qui pourrions réellement retenir l'IA de son plein potentiel.

L'étude

L'étude d'Oxford, dirigée par le Dr Adam Mahdi, a amené près de 1 300 participants et leur a donné une tâche simple: agir comme des patients. Chaque personne a reçu un scénario de cas détaillé, avec des symptômes, des antécédents médicaux et un contexte personnel. Ceux-ci comprenaient des choses comme avoir terminé les examens ou ressentir de la douleur lorsque vous regardez en bas. L'idée était de voir à quel point les gens de tous les jours pouvaient utiliser l'IA pour comprendre ce qui n'allait pas et décider quel genre de soins à rechercher.

On leur a dit de traiter l'IA comme un vrai médecin. Posez des questions, décrivez les symptômes et obtenez de l'aide. Chaque participant a dû interagir avec le modèle au moins une fois, mais il était libre de poser des questions de suivi ou de réessayer s'il avait besoin de plus d'informations. Les chercheurs ont utilisé trois LLM différents pour l'expérience: Chatgpt-4o, Llama 3 et Command R +.

Pendant ce temps, un panel de médecins a convenu du diagnostic correct pour chaque cas avec le niveau de soins approprié. Les chercheurs savaient déjà si la bonne décision restait à la maison ou appelait une ambulance. Le test était de savoir si les humains et l'IA pouvaient y arriver.

AI intelligente, mauvais résultats: erreur humaine?

Considérez l'IA comme l'employé parfait. Il peut traiter d'énormes quantités de données, suivre les instructions avec précision et produire des réponses en quelques secondes. Mais associez-le avec un mauvais manager, et tout s'effondre. Des instructions vagues, des objectifs peu clairs et des capacités sous-utilisées peuvent conduire à des résultats décevants. C'est exactement ce qui se passe lorsque beaucoup de gens essaient d'utiliser l'IA.

Imaginez que votre patron vous demande de leur prendre un café, mais sans dire quel genre. Vous revenez avec un café noir chaud, seulement pour qu'ils se plaignent qu'ils voulaient un lait lait à l'avoine glacé avec deux pompes de vanille. Techniquement, vous avez fait le travail. Mais sans les instructions appropriées, vous ne pouviez pas livrer ce qu'ils voulaient vraiment.

Il y a une supposition commune que ces outils «l'obtiennent», comme un ami qui vous connaît si bien qu'ils peuvent terminer vos phrases. Mais l'IA n'est pas votre meilleur ami. Il ne peut pas lire votre ton ou deviner ce que vous vouliez dire. Si vous ne lui donnez pas exactement ce dont il a besoin, vous n'obtiendrez pas la bonne sortie.

Cette déconnexion s'est clairement révélée dans l'étude d'Oxford. Les chercheurs ont constaté que les participants utilisant les LLM ont identifié au moins une condition pertinente dans seulement 34,5% des cas. Le groupe témoin, qui n'utilisait pas du tout l'IA, a fait mieux à 47%. Et quand il s'agissait de choisir la ligne de conduite correcte, les utilisateurs de LLM ont bien réussi 44,2% du temps. Les modèles d'IA, lorsqu'ils décident d'eux-mêmes, ont obtenu le droit de 56,3% du temps.

Alors, qu'est-ce qui ne va pas? Les participants ont donné des invites incomplètes ou peu claires. Certains ont oublié de mentionner les symptômes clés. D'autres ont laissé de côté la gravité ou le timing. En conséquence, les modèles ont mal interprété l'entrée ou manqué des indices importants. Et même lorsque l'IA a donné le bon diagnostic, les utilisateurs n'ont pas toujours suivi. Cette partie n'est pas propre aux machines. Les gens ignorent également les médecins. Les symptômes facilitent, les antibiotiques sont inachevés et les instructions sont ignorées.

Fait intéressant, certains outils d'IA gagnent déjà du terrain dans les flux de travail médicaux réels. OpenEvidence, par exemple, est utilisé par les médecins pour rechercher et valider la littérature clinique. Il n'essaie pas de remplacer le médecin, il les augmente. La différence réside dans la conception: des outils comme ces professionnels du soutien qui savent déjà filtrer, interpréter et agir sur les résultats. C'est très différent de la remise du même système à un patient non formé et de l'attente du même résultat.

Le goulot d'étranglement du diagnostic humain-ai

Selon Nathalie Volkheimer, spécialiste de l'expérience utilisateur au Renaissance Computing Institute, un problème avec les patients interagissant avec les médecins est que certaines conditions ou les événements qui y ont conduit peuvent être embarrassants. C'est pourquoi les gens laissent parfois des détails importants.

Mais lorsque l'autre partie est une machine sans jugement ni émotion, on pourrait penser que les gens se sentiraient plus à l'aise de tout partager. Ce n'était pas le cas.

Cela met en évidence un défaut crucial que l'étude a exposée. Le problème n'est pas que les modèles d'IA ne sont pas assez intelligents. C'est que les humains apprennent toujours à communiquer avec eux. Comme le dit Volkheimer, le problème n'est pas la machine elle-même. C'est l'interaction entre les humains et la technologie.

Il expose également une faille plus profonde dans la façon dont nous évaluons l'IA. Les LLM peuvent passer des examens médicaux ou des tests juridiques avec facilité. Ce n'est pas surprenant. Ils sont formés sur de vastes ensembles de données et ont accès aux informations correctes. Mais ces tests ne reflètent pas comment les vraies personnes parlent, pensent ou posent des questions.

Même les données de formation ont ses limites. Comme le souligne un examen médical, de nombreux modèles sont formés sur des ensembles de données qui ne reflètent pas la diversité du monde réel ou les cas de bord rare. En médecine, manquer ces valeurs aberrantes peut signifier manquer une condition mortelle. C'est pourquoi les performances d'un examen de manuel ne se traduisent pas toujours par le succès dans des environnements cliniques désordonnés.

Si une entreprise souhaite créer un chatbot d'IA pour remplacer un représentant du service client, il ne peut pas simplement tester si le bot connaît les bonnes réponses. Il a besoin d'une formation sur les façons désordonnées et incohérentes que les gens parlent réellement. Les gens peuvent former quelque chose d'aussi simple que de demander un prix du produit de différentes manières. Si le modèle ne les reconnaît pas tous, il ne fournira pas la réponse dont la réponse a besoin.

L'IA plus intelligente a besoin d'humains plus intelligents

S'il y a une chose que cette étude est claire, c'est que l'intelligence brute n'est pas le problème. L'IA peut obtenir la bonne réponse. C'est souvent. La ventilation se produit lorsque nous intervenons et lorsque nous donnons de mauvaises invites, laissons de côté les détails clés ou ignorons les réponses que nous ne voulons pas entendre.

Ce n'est pas unique aux soins de santé. Qu'il s'agisse d'un chatbot de service client, d'un assistant juridique ou d'un tuteur alimenté par l'IA, le même modèle s'applique. Le modèle n'échoue pas la tâche. Nous échouons l'interface.

Il est facile d'être balayé par des scores de référence impressionnants et des degrés de précision élevés. Mais une IA qui acces un examen ne sait pas automatiquement comment aider un humain confus, dépassé ou vague. Et jusqu'à ce que nous commencions à concevoir et à tester ces systèmes avec un comportement humain désordonné à l'esprit, nous continuerons à surestimer leur utilité réelle.

Ce contraste devient encore plus clair lorsque l'on regarde les systèmes d'IA qui réussissent. Chez Johns Hopkins, les chercheurs ont déployé un outil d'IA qui a détecté la septicémie près de six heures plus tôt que les méthodes traditionnelles et réduit les décès des patients de 20%. La différence? Ce système a été intégré directement dans les flux de travail hospitaliers et s'est appuyé sur des données cliniques en temps réel, pas seulement des invites de patients. Cela montre qu'avec la bonne conception et le bon contexte, l'IA peut fonctionner, mais uniquement lorsqu'il explique que les humains l'utilisent.

Donc, la prochaine fois que votre gorge vous fait mal et que vous êtes tenté de demander à un chatbot ce que cela signifie, n'oubliez pas qu'obtenir une bonne réponse dépend de poser une bonne question. Les modèles ne sont pas le goulot d'étranglement. Nous sommes. Et c'est la partie que nous devons corriger.