ChatGPT réussit l’étape 1 de l’examen de licence médicale, mais à peine


Image de l'article intitulé ChatGPT a réussi un examen médical majeur, mais à peine

Image: Miriam Doerr Martin Frommherz (Shutterstock)

Toute personne retenant anxieusement son souffle pour un robot compétent le médecin devra peut-être attendre un peu plus longtemps. Un groupe de chercheurs d’AnsibleHealth AI a récemment mis OpenAI ChatGPT au test contre un examen médical majeur et les résultats sont là. Le chatbot AI techniquement passé, mais par la peau de ses dents. En ce qui concerne les examens médicaux, même la nouvelle IA la plus impressionnante fonctionne toujours au niveau D. Les chercheurs disent que les performances médiocres sont néanmoins une réalisation historique pour l’IA.

Les chercheurs testé ChatGPT sur l’examen de licence médicale des États-Unis (USMLE), un série standardisée de trois examens requis pour les médecins américains en lice pour une licence médicale. ChatGPT a réussi à obtenir un score compris entre 52,4 % et 75 % sur les trois niveaux de l’examen. Cela peut ne pas sembler génial pour tous les surperformants, mais c’est à peu près à égalité avec le seuil de réussite de 60% pour l’examen. Les chercheurs impliqués dans l’étude affirment que c’est la première fois que l’IA a été en mesure de fonctionner au niveau ou à proximité du seuil de réussite pour l’examen notoirement difficile. Surtout, ChatGPT a pu passer sans aucune contribution spécialisée supplémentaire de la part de formateurs humains.

« Atteindre la note de passage pour cet examen d’expert notoirement difficile, et le faire sans aucun renfort humain, marque une étape notable dans la maturation clinique de l’IA », ont écrit les auteurs dans la revue. Santé numérique PLOS.

Mis à part les résultats médiocres des tests, les chercheurs ont félicité ChatGPT pour sa capacité à élaborer des réponses originales et authentiques. ChatGPT a réussi à créer « de nouvelles informations, non évidentes et cliniquement valides » pour 88,9 % de ses réponses et a semblé montrer des preuves de raisonnement déductif, de chaîne de pensée et de compétences de dépendance à long terme. Ces résultats semblent quelque peu uniques à ChatGPT et à son style particulier d’apprentissage de l’IA. Contrairement aux générations précédentes de systèmes qui utilisent des modèles d’apprentissage en profondeur, ChatGPT s’appuie sur un grand modèle de langage formé pour prédire une séquence de mots en fonction du contexte des mots précédents. Cela signifie, contrairement à d’autres IAs, ChatGPT peut en fait générer des séquences de mots qui n’étaient pas auparavant vues par l’algorithme et qui pourraient avoir un sens cohérent.

Les examens délicats de l’USMLE testent les participants sur les sciences fondamentales, le raisonnement clinique, la gestion médicale, et la bioéthique. Ils sont le plus souvent prises par les étudiants en médecine et les médecins en formation. Ces examens sont également standardisés et réglementés, ce qui les rend particulièrement bien adaptés pour tester les capacités de ChatGPT, ont déclaré les chercheurs. Une chose les examens définitivement ne sont pas est facile. Les étudiants humains passent généralement environ 300 à 400 heures à se pencher sur une littérature scientifique dense et à tester du matériel en préparation uniquement pour l’examen de l’étape 1, le premier de les trois.

Étonnamment, ChatGPT a réussi à surpasser PubMedGPT, un autre grand modèle de langage AI formé exclusivement sur la littérature biomédicale. Cela peut sembler contre-intuitif au premier abord, mais les chercheurs affirment que la formation plus généralisée de ChatGPT peut en fait lui donner un coup de pouce, car il est potentiellement exposé à un plus large éventail de contenus cliniques, tels que des amorces de maladies destinées aux patients ou des notices d’emballage de médicaments. Les chercheurs pensent avec optimisme que la note passable de ChatGPT pourrait laisser présager un avenir où les systèmes d’IA pourraient jouer un rôle d’assistance dans l’enseignement médical. Cela se produit déjà à un petit niveau, écrivent-ils, citant un exemple récent de cliniciens d’AnsibleHealth utilisant l’outil pour réécrire des rapports denses et remplis de jargon.

« Notre étude suggère que de grands modèles de langage tels que ChatGPT peuvent potentiellement aider les apprenants humains dans un cadre d’enseignement médical, en prélude à une future intégration dans la prise de décision clinique », ont déclaré les chercheurs.

Dans une tournure plutôt méta, ChatGPT n’était pas seulement chargé de passer l’examen médical. Le système a également participé à la rédaction de l’éventuel document de recherche documentant ses performances. Les chercheurs disent avoir interagi avec ChatGPT, « un peu comme un collègue » et se sont appuyés dessus pour synthétiser et simplifier leur brouillon et même fournir des contrepoints.

« Tous les co-auteurs ont apprécié la contribution de ChatGPT », a écrit Tiffany Kung, l’un des chercheurs.

ChatGPT : médiocre en écriture, catastrophique en mathématiques

ChatGPT a a ajouté une quantité impressionnante de notes de passage à son mur de trophées éducatifs ces derniers mois. Le mois dernier, ChatGPT géré obtenir une note entre un B et un B moins à un examen de niveau MBA donné aux étudiants en commerce de la prestigieuse Wharton School de l’Université de Pennsylvanie. À peu près au même moment, l’IA atteint une note de passage à un examen de droit donné aux étudiants de la faculté de droit de l’Université du Minnesota. Dans le cas de l’examen de droit, ChatGPT a été contourné avec un C +.

« Seul, ChatGPT serait un étudiant en droit assez médiocre », a déclaré l’auteur principal de l’étude, Jonathan Choi, dans un entretien avec Reuters. « Le plus grand potentiel pour la profession ici est qu’un avocat pourrait utiliser ChatGPT pour produire une première ébauche et simplement rendre sa pratique beaucoup plus efficace. »

ChatGPT pourrait être en mesure d’obtenir des scores passables aux examens axés sur la compréhension de l’écriture et de la lecture, mais les mathématiques sont une toute autre bête. Malgré sa capacité impressionnante à éliminer les articles académiques et la prose semi-concevoir, des chercheurs disons que l’IA ne fonctionne qu’à peu près au niveau de la 6e année en ce qui concerne les mathématiques. ChatGPT est encore pire lorsqu’il est question de problèmes arithmétiques de base au format de langage naturel. Ce trébuchement découle de sa grande taille prédictive formation de modèles linguistiques. ChatGPT vous fournira bien sûr en toute confiance une réponse à votre problème de mathématiques, mais il pourrait être complètement séparé de la réalité.

Les réponses parfois farfelues de ChatGPT sont ce que les ingénieurs seniors de Google et d’autres dans le domaine ont référencé, prudemment, comme des « hallucinations » de l’IA. Ces hallucinations de l’IA créent des réponses qui semblent convaincantes mais qui sont partiellement ou complètement inventé, ce qui n’est pas exactement un bon signe pour ceux qui recherchent des IA faisant autorité dans des domaines à enjeux élevés comme la médecine et le droit.

« Il [ChatGPT] agit comme un expert, et parfois il peut en fournir une imitation convaincante », a déclaré Paul von Hippel, professeur à l’Université du Texas, dans un récent entretien avec Le journal de Wall Street. « Mais souvent, c’est une sorte d’artiste bs, mélangeant vérité, erreur et fabrication d’une manière qui peut sembler convaincante à moins que vous n’ayez vous-même une certaine expertise. »



Vous pouvez lire l’article original (en Angais) sur le bloggizmodo.com