Selon un déclaration publiée sur son site Web vendrediAnthropic a été contraint de « désactiver brusquement » deux de ses modèles d’IA frontaliers les plus prisés en réponse à une ordonnance très restrictive du gouvernement américain. « Nous pensons qu'il s'agit d'un malentendu et nous nous efforçons de rétablir l'accès dès que possible », indique le communiqué.

L'action gouvernementale en question est une « directive de contrôle des exportations » interdisant aux ressortissants étrangers d'utiliser les modèles à l'intérieur ou à l'extérieur des États-Unis, et elle était motivée par ce qu'Anthropic considère comme un problème de sécurité nationale non précisé.

Mais les préoccupations en matière de sécurité nationale, ainsi que d’autres craintes en matière de sécurité et de sûreté, ont été au centre du déploiement de ces modèles, ce qui a sans doute rendu prévisible un événement comme celui-ci.

Plutôt que de rendre public son modèle Claude Mythos Preview, début avril, Anthropic a transformé la création du modèle en une sorte de campagne de sensibilisation aux dangers apparents des modèles d'IA frontaliers.

Il libéré une carte système expliquant pourquoi le modèle ne serait pas rendu public et détaillant des capacités effrayantes telles que la tromperie et la capacité de soi-disant briser le confinement d'un système limité. Il était également censé être utile au développement d’armes avancées. Par exemple, la carte système le décrivait comme « capable d’une synthèse inter-domaines significative liée au développement d’armes biologiques catastrophiques ».

Dans le même temps, l'entreprise a lancé le projet Glasswing, un programme dans lequel un groupe limité de partenaires et d'organisations ont été autorisés à tester le modèle afin de découvrir quelles nouvelles horreurs il pourrait infliger au monde de la cybersécurité. « Nous avons créé le projet Glasswing en raison des capacités que nous avons observées dans un nouveau modèle frontalier formé par Anthropic et qui, selon nous, pourrait remodeler la cybersécurité », a déclaré le rapport. Article de blog anthropique sur le projet Glasswing dit.

Bientôt, malgré le côté ringard inhérent au sujet, Mythos Preview est devenu un article de tabloïd. Un article du New York Post C'est l'informaticien Roman Yampolskiy qui a prophétisé que, comme le présage Mythe, l'IA pourrait bientôt développer « des outils de piratage, des armes biologiques, des armes chimiques, [and] de nouvelles armes que nous ne pouvons même pas imaginer. L'expression « Des armes que nous ne pouvons même pas imaginer » a même fait la une des journaux.

Les responsables du gouvernement britannique et les dirigeants du secteur financier britannique se sont empressés d’élaborer un plan d’action à la lumière du danger perçu. Selon le New York Timesla « politique non interventionniste » de l'administration Trump à l'égard de l'IA a changé après l'annonce de Mythos, et sa simple existence a contribué à l'élaboration d'un décret sur l'IA axé sur la sécurité. Trump a signé un de ces ordres il y a environ une semaine.

Néanmoins, la semaine dernière, Anthropic a sorti Claude Fable 5 et Mythos 5. La société a décrit Fable 5 comme « un modèle de classe Mythos que nous avons rendu sûr pour un usage général », mais avec des capacités qui « dépassent celles de tous les modèles que nous avons jamais rendus généralement disponibles ». Mythos 5, quant à lui, a obtenu une version très limitée dans le cadre du projet Glasswing.

Brian Merchant chez Blood in the Machine l'a décrit comme ceci:

Après avoir déclenché un cycle d'information majeur dans les médias technologiques avec son annonce en avril selon laquelle elle avait construit un modèle d'IA, Mythos, si puissant, si dangereux qu'il menaçait de bouleverser l'ordre civilisationnel tout entier – et qu'elle retenait diligemment le produit du public afin de nous en protéger – la start-up d'IA désormais numéro un du pays a décidé de mettre Mythos à vendre après tout.

Quelques heures après que Merchant ait écrit ces mots, la directive de contrôle des exportations a été transmise à Anthropic, et Fable 5 et Mythos 5 ont été rendus inaccessibles en raison d'apparents problèmes de sécurité nationale. Il semble qu'Anthropic ait seulement reçu l'ordre de révoquer l'accès aux utilisateurs qui ne sont pas des ressortissants américains, mais il est compréhensible qu'Anthropic trouve peu pratique de permettre à quiconque d'y accéder n'importe où dans le monde, de peur de désobéir à l'ordre. Parmi de nombreux problèmes, les ressortissants non américains travaillent chez Anthropic. Il est clairement plus simple de retirer entièrement les modèles jusqu'à ce que la situation soit résolue.

Il est intéressant de noter que la déclaration d'Anthropic concernant la directive sur le contrôle des exportations indiquait qu'Anthropic avait « travaillé avec le gouvernement américain », ainsi qu'avec le gouvernement britannique et « plusieurs organisations tierces privées » dans le but de créer un ensemble satisfaisant de garanties pour les modèles. Lors de leur sortie, les garanties étaient, à bien des égards, l'élément le plus important du récit médiatique autour de Fable 5. L'une des protections les plus strictes, conçue pour punir discrètement les utilisateurs qui abusaient du modèle, a même été jugée mal conçue, ce qui a incité Anthropic à s'excuser.

Mais selon Anthropic, le gouvernement a été effrayé après avoir appris l'existence d'un jailbreak pour Fable 5 qui contournait ces garanties très importantes :

« Notre compréhension est que le gouvernement pense avoir pris connaissance d'une méthode de contournement, ou de « jailbreak » de Fable 5. Nous avons examiné une démonstration de cette technique spécifique utilisée pour identifier un petit nombre de vulnérabilités mineures déjà connues. Ces vulnérabilités semblent toutes relativement simples, et nous avons constaté que d'autres modèles accessibles au public sont également capables de les découvrir sans nécessiter de contournement. »

Anthtropic souligne, à juste titre, que lors de la sortie de Fable 5, la section dans son article de blog sur la sécurité du modèle a clairement indiqué que certains jailbreaks étaient encore possibles. Il est « probablement impossible de complètement empêcher les jailbreaks universels, mais notre objectif est de rendre les jailbreaks restants suffisamment lents et coûteux pour que nous puissions les détecter et les empêcher avant qu'ils ne soient utilisés à grande échelle », a écrit Anthropic. Essentiellement, puisque rendre un modèle parfaitement résistant au jailbreak n'est pas encore possible, Anthropic a cherché à rendre les jailbreaks soit coûteux à produire, soit trop « étroits » pour constituer une menace. Anthropic est également public sur le fait qu'il conserve les données des utilisateurs des modèles de classe Mythos beaucoup plus que d'habitude.

Néanmoins, il est étrange de voir Anthropic minimiser désormais l'importance des dangers perçus par ses modèles et écrire que ces vulnérabilités sont « mineures », « déjà connues » et « relativement simples », tout en soulignant que « d'autres modèles accessibles au public sont également capables de les découvrir sans nécessiter de contournement ».

Encore une fois, quand Anthropic a fait connaître cette classe de modèles pour la première fois, il a déclaré au monde qu'il avait créé quelque chose d'une puissance sans précédent avec le potentiel de nuire réellement au monde. Deux mois plus tard, un modèle de « classe Mythos » était un produit destiné à la consommation publique, disponible en tant que produit premium pour les utilisateurs des « forfaits Pro, Max, Team et Enterprise par siège sans frais supplémentaires », mais seulement pour une durée limitée. Le 23 juin, l'intention d'Anthropic était de « supprimer Fable 5 de ces plans » et d'exiger à la place un plan par répartition.

Anthropic affirme que des actions gouvernementales comme celle-ci pourraient, si elles devenaient la norme, « arrêter tous les déploiements de nouveaux modèles pour tous les fournisseurs de modèles frontières ». Et c'est peut-être vrai. Pour qu’un produit soit interrompu alors que le déploiement de ce produit impliquait un précurseur technologique censé mériter une réévaluation globale de la cybersécurité, une réaction excessive aux failles dans les protections de ce produit ne devrait probablement pas surprendre, même si cette réaction excessive est mauvaise pour les affaires.