GPT-4 défie les ophtalmologistes et gère une évaluation remarquablement précise

Le GPT-4 d'OpenAI a réussi à fonctionner remarquablement bien contre les ophtalmologistes, affirme un nouveau rapport. Les évaluations générées par l’IA générative (Intelligence Artificielle) LLM (Large Language Model) ont réussi à battre les jeunes médecins et stagiaires non spécialistes. La Gen AI, financée par Microsoft, s'est même rapprochée des experts en ophtalmologie.

GPT-4 répond aux QCM d’évaluation en ophtalmologie

Une étude, publiée dans PLOS Santé numérique journal, a prouvé comment les LLM Gen AI pouvaient aider dans le domaine médical. Parlant des résultats, Arun Thirunavukarasu, l'auteur principal de l'article a déclaré :

« Ce que montrent ces travaux, c’est que la connaissance et la capacité de raisonnement de ces grands modèles de langage dans un contexte de santé oculaire sont désormais presque impossibles à distinguer des experts. Nous constatons la capacité de répondre à des questions assez complexes.

Il faisait référence à la capacité du GPT-4 à répondre aux QCM (questions à choix multiples) sur l'ophtalmologie. Au total, l’étude aurait posé 87 QCM au GPT-4. Cinq ophtalmologistes experts, trois ophtalmologistes stagiaires et deux jeunes médecins non spécialisés ont répondu aux mêmes questions.

👁️ #IA est bien meilleur que les médecins non spécialisés pour évaluer les problèmes oculaires et fournir des conseils, ont découvert des chercheurs de Cambridge.

GPT-4 pourrait trier les patients et décider lesquels #ophtalmologie les problèmes sont des urgences qui nécessitent une attention immédiate👇 https://t.co/nX9OYQb1XR

– Université de Cambridge (@Cambridge_Uni) 18 avril 2024

L'étude a conçu un questionnaire à partir d'un manuel pour tester les stagiaires sur tout, de la sensibilité à la lumière aux lésions. Il est intéressant de noter que le contenu du manuel n'est pas disponible dans le domaine public. Par conséquent, les chercheurs pensent qu’OpenAI a peut-être formé ses LLM lors d’un exercice de formation interne.

Au cours de l’étude, les chercheurs ont donné trois essais à ChatGPT, équipé de GPT-4 ou GPT-3.5, pour répondre définitivement. En cas d’échec, les chercheurs marquaient la réponse comme « nulle ».

GPT-4 bat certains ophtalmologistes mais ne peut pas encore rivaliser avec les experts

Parmi les 87 scénarios de patients différents, GPT-4 aurait surpassé les juniors et obtenu des résultats similaires à ceux de la plupart des spécialistes. Plus précisément, GPT-4 a répondu correctement à 60 des 87 questions. Les jeunes médecins ont réussi à obtenir en moyenne 37 bonnes réponses.

Les stagiaires dans le domaine de l'ophtalmologie s'en sont approchés avec une moyenne de 59,7 bonnes réponses. À l'exception d'un expert qui a répondu correctement à 56 QCM, les spécialistes restants ont obtenu en moyenne 66,4 bonnes réponses.

En comparaison, PaLM 2 a réussi à obtenir 49 réponses correctes, GPT-3.5 n'en a obtenu que 42 et LLaMa était en queue de peloton avec seulement 28 QCM correctement répondus.

Il est important de noter que l’étude a été menée à la mi-2023. En d’autres termes, les LLM sont probablement devenus bien meilleurs dans leur capacité à comprendre et à répondre à des requêtes complexes.

Le secteur de la santé bénéficierait sans aucun doute de ChatGPT, Gemini et d’autres plateformes Gen AI. Cependant, certains experts médicaux ont mis en garde contre le recours à la génération AI pour diagnostiquer un patient. De telles plateformes « manquent de nuances », ont-ils déclaré. Par conséquent, il pourrait y avoir une probabilité d’inexactitude extrêmement élevée, ont prévenu certains chercheurs.