Openai creuse pourquoi les chatbots mentiront intentionnellement et tromperont les humains


À ce stade, la plupart des gens savent que les chatbots sont capables d'halluciner des réponses, de constituer des sources et de cracher de la désinformation. Mais les chatbots peuvent mentir de manière plus humaine, «schémas» pour cacher leurs vrais objectifs et tromper les humains qui leur ont donné des instructions. Nouvelles recherches d'Openai et Apollo Research Il semble avoir trouvé des moyens de tamponner certains de ces mensonges, mais le fait que cela se produise devrait probablement donner aux utilisateurs une pause.

Au cœur de la question avec l'IA, la tromperie intentionnellement un utilisateur est un «désalignement» – défini comme ce qui se passe lorsqu'une IA poursuit un objectif involontaire. Les chercheurs offre À titre d'exemple, «une IA formée pour gagner de l'argent pourrait apprendre à voler, tandis que l'objectif prévu était de ne gagner de l'argent que légalement et éthiquement.» Le schéma est ce qui se passe lorsque le modèle tente de cacher le fait qu'il est mal aligné et que les chercheurs théorisent que le modèle fait cela pour se protéger et se protéger. Qui est décidément différent des hallucinations, que Article récent publié par Openai suggère que le résultat de récompenses des modèles est plus récompensée pour deviner que pour reconnaître l'incertitude.

Pour résoudre le problème, les chercheurs ont placé les modèles à travers ce qu'ils appellent une technique de formation anti-schémat connue sous le nom de «alignement délibératif». OpenAI a expliqué que cette méthode, qui fonctionne avec les LLM qui peuvent produire des traces de «chaîne de pensées» qui montrent comment elles fonctionnent à travers les requêtes, enseignent les spécifications de sécurité du modèle et les font considérer ces spécifications avant de répondre. C'est probablement une simplification excessive de dire qu'ils ont essentiellement dit aux machines de ne pas mentir, mais il semble que ce soit un version légèrement plus compliquée de ce.

Les résultats auraient été assez positifs. Selon les chercheurs, ils ont observé une réduction 30x des «actions secrètes» ou tentent de masquer des comportements spécifiques à un utilisateur. Lorsqu'il est appliqué au modèle O3 d'Openai, il Actions secrètes réduites De 13% à 0,4% et pour O4-moins, il est passé de 8,7% à 0,3%. (Note latérale: euh, 13% semble être une fréquence assez élevée de tromperie d'une machine qui est simplement censée prendre des commandes.)

Bien que ces chiffres soient évidemment une amélioration, ils ne sont pas non plus nuls. Le fait est que les chercheurs n'ont pas compris comment arrêter complètement les plans. Et bien qu'ils insistent sur le fait que le schémas, en ce qui concerne la plupart des utilisations des modèles d'IA, n'est pas sérieux – il peut en résulter, par exemple, le chatpt disant à l'utilisateur qu'il a accompli une tâche qu'elle n'a pas, par exemple – il est un peu sauvage qu'ils ne peuvent pas éliminer le mensonge. En fait, les chercheurs ont écrit: «Un mode de défaillance majeur de tentative de« s'entraîner »est simplement d'enseigner le modèle à schématiser plus attentivement et secrètement.»

Le problème s'est-il donc amélioré, ou les modèles ont-ils fait de mieux pour cacher le fait qu'ils essaient de tromper les gens? Les chercheurs disent que le problème s'est amélioré. Ils ne mentiraient pas… non?



Vous pouvez lire l’article original (en Angais) sur le bloggizmodo.com