Les capacités de l’IA pourraient être surfaites sur de faux benchmarks, selon une étude



Vous connaissez tous ces rapports sur les modèles d'intelligence artificielle avec succès passer la barre ou atteindre une intelligence de niveau doctorat? On dirait que nous devrions commencer à reprendre ces diplômes. UN nouvelle étude de chercheurs de l'Oxford Internet Institute suggère que la plupart des outils d’analyse comparative populaires utilisés pour tester les performances de l’IA sont souvent peu fiables et trompeurs.

Les chercheurs ont examiné 445 tests de référence différents utilisés par l'industrie et d'autres organismes universitaires pour tout tester, depuis capacités de raisonnement à performances sur les tâches de codage. Les experts ont examiné chaque approche d'analyse comparative et ont trouvé des indications selon lesquelles les résultats produits par ces tests pourraient ne pas être aussi précis qu'ils ont été présentés, en partie à cause de définitions vagues de ce qu'une analyse comparative tente de tester et du manque de divulgation de méthodes statistiques qui permettraient de comparer facilement différents modèles.

Un gros problème que les chercheurs trouvé est que « De nombreux critères de référence ne constituent pas des mesures valides de leurs objectifs visés ». Autrement dit, même si un benchmark peut prétendre mesurer une compétence spécifique, il peut identifier cette compétence d'une manière qui ne reflète pas réellement la capacité d'un modèle.

Par exemple, les chercheurs citent le test d'évaluation Grade School Math 8K (GSM8K), qui mesure les performances d'un modèle sur des problèmes mathématiques basés sur des mots au niveau de l'école primaire, conçus pour pousser le modèle vers un « raisonnement mathématique en plusieurs étapes ». Le GSM8K est annoncé comme étant « utile pour sonder la capacité de raisonnement informel des grands modèles de langage ».

Mais les chercheurs affirment que le test ne vous dit pas nécessairement si un modèle procède à un raisonnement. « Quand vous demandez à un élève de première année ce que font deux plus cinq et qu'il répond sept, oui, c'est la bonne réponse. Mais pouvez-vous en conclure qu'un élève de cinquième année maîtrise le raisonnement mathématique ou le raisonnement arithmétique en étant simplement capable d'additionner des nombres ? Peut-être, mais je pense que la réponse est très probablement non », Adam Mahdi, chercheur principal à l'Oxford Internet Institute et auteur principal de l'étude, a déclaré à NBC News.

Dans l’étude, les chercheurs ont souligné que les scores GSM8K ont augmenté avec le temps, ce qui pourrait indiquer que les modèles s’améliorent dans ce type de raisonnement et de performances. Mais cela peut également indiquer une contamination, qui se produit lorsque les questions des tests de référence parviennent dans l'ensemble de données du modèle ou lorsque le modèle commence à « mémoriser » des réponses ou des informations plutôt que de raisonner pour trouver une solution. Lorsque les chercheurs ont testé les mêmes performances sur un nouvel ensemble de questions de référence, ils ont remarqué que les modèles connaissaient des « baisses de performances significatives ».

Bien que cette étude soit l’une des plus grandes analyses comparatives de l’IA, elle n’est pas la première à suggérer que ce système de mesure n’est peut-être pas tout ce qu’il est censé être. L'année dernière, chercheurs à Stanford a analysé plusieurs tests de référence de modèles d'IA populaires et a trouvé « de grandes différences de qualité entre eux, y compris ceux sur lesquels s'appuient largement les développeurs et les décideurs politiques », et a noté que la plupart des tests de référence « sont de la plus haute qualité au stade de la conception et de la plus basse qualité au stade de la mise en œuvre ».

À tout le moins, cette recherche nous rappelle que ces mesures de performance, bien que souvent bien intentionnées et destinées à fournir une analyse précise d’un modèle, ne peuvent être transformées en rien de plus qu’un discours marketing au nom des entreprises.



Vous pouvez lire l’article original (en Angais) sur le bloggizmodo.com