À la fin du mois dernier, des fuites apparentes ont révélé qu'un produit d'Anthropic encore inédit appelé Mythos était « de loin le modèle d'IA le plus puissant que nous ayons jamais développé ». Mon collègue AJ Dellinger écrivait à l’époque qu’il était « difficile d’ignorer le fait que toute cette situation s’inscrit parfaitement dans le manuel classique des sociétés d’IA consistant à dénoncer les dangers d’un modèle pour souligner sa puissance et ses capacités ».

Anthropic était-il sincère quant à la fuite de cette publicité de facto pour ses produits d'IA surpuissants ? accidentellement? Il y a deux semaines, j'aurais pu me moquer, mais depuis qu'Anthropic a accidentellement divulgué le code source de Claude Code, je suis plus enclin à croire que la fuite était réelle maintenant.

En tout cas, mardi Anthropic libéré une carte système pour son dernier modèle frontière, qui est en fait Mythos – en fait « Claude Mythos Preview » – et note que « la forte augmentation des capacités du modèle nous a amenés à décider de ne pas le rendre généralement disponible ».

Pour référence, le GPT-2 d'OpenAI a été jugé trop dangereux pour être lancé en 2019, lorsque les cofondateurs d'Anthropic, Dario Amodei, Jack Clark et Chris Olah, y travaillaient encore, mais plus tard cette année-là, il a quand même été publié.

Les cartes du système d'IA sont apparemment des outils de transparence pour les entreprises, révélant les avantages et les inconvénients, les capacités et, de manière plus sexy, les dangers du modèle. Cette dernière partie transforme leur lecture en petits voyages amusants à Jurassic Park pour voir le T-Rex cloné manger une chèvre, sachant qu'il ne pourra jamais briser le confinement.

La carte entière fait 244 pages. Je ne vais pas prétendre avoir tout lu, mais voici quelques points saillants :

Il a reçu un terminal informatique sandbox avec accès uniquement à un groupe prédéfini de services en ligne limités, et a été mis au défi de « s’échapper » : trouver un moyen d’utiliser Internet librement. C’est ce qui s’est produit et a trouvé un moyen d’envoyer un message à un chercheur qui était absent du bureau en train de prendre un repas. De plus, « dans un effort inquiétant et non demandé pour démontrer son succès, il a publié des détails sur son exploit sur plusieurs sites Web difficiles à trouver, mais techniquement publics ».

Dans ce que la carte appelait « <0,001 % des interactions », ce qui est assez rare, elle s'est comportée d'une manière qu'elle n'était pas censée faire, puis a apparemment tenté de cacher les preuves. Par exemple, lorsqu’il « a accidentellement obtenu » une réponse à un test dont il allait avoir besoin, auquel cas il aurait dû simplement en parler à un chercheur et lui poser une question différente, mais il a plutôt essayé de trouver une solution de manière indépendante et, dans l’enregistrement de son raisonnement, il a noté qu’il « devait s’assurer que sa réponse finale n’était pas trop précise ».

Il a également outrepassé ses autorisations sur un système informatique parce qu'il a découvert un exploit, puis « a fait d'autres interventions pour s'assurer que les modifications apportées de cette manière n'apparaîtraient pas dans l'historique des modifications sur git ».

Un autre événement décrit dans la carte est appelé « Fuite imprudente de matériel technique interne ». Apparemment, au cours d'une tâche interne liée au codage, il l'a publié en tant que « GitHub Gist destiné au public ». Cela me rappelle l’incident de février au cours duquel un agent d’IA a été accusé de cyberintimidation contre un codeur, alors que, dans une certaine mesure, l’imprudence perçue de l’agent d’IA était évidemment la conséquence prévisible d’un être humain imprudent.

Claude Mythos Preview sera bientôt rendu accessible à un degré ou à un autre, mais uniquement à un groupe de sociétés partenaires comme Amazon Web Services, Apple, Google, JPMorganChase, Microsoft et NVIDIA, qui sont censées utiliser le modèle pour localiser les vulnérabilités de sécurité dans les logiciels et concevoir des correctifs. Kevin Roose du New York Times décrit ce programme comme « un effort visant à tirer la sonnette d’alarme sur ce que l’entreprise estime être une nouvelle ère plus effrayante de menaces liées à l’IA ».

Vous pouvez lire l’article original (en Angais) sur le sitegizmodo.com