Le dernier rapport d'OpenAI sur l'utilisation malveillante de l'IA souligne la corde raide que les entreprises d'IA doivent parcourir entre empêcher l'utilisation abusive de leurs chatbots et rassurer les utilisateurs sur le respect de leur vie privée.

Le rapportqui a été abandonné aujourd'hui, met en évidence plusieurs cas dans lesquels OpenAI a enquêté et perturbé des activités nuisibles impliquant ses modèles, en se concentrant sur les escroqueries, les cyberattaques et les campagnes d'influence liées au gouvernement. Cependant, cela survient alors que l’on s’intéresse de plus en plus à un autre type de risque lié à l’IA, à savoir les dommages psychologiques potentiels des chatbots. Rien que cette année, plusieurs utilisateurs ont signalé des actes d'automutilation, de suicide et de meurtre après avoir interagi avec des modèles d'IA. Ce nouveau rapport, ainsi que les divulgations précédentes de l'entreprise, fournissent des informations supplémentaires sur la manière dont OpenAI modère les discussions pour différents types d'utilisation abusive.

OpenAI a déclaré que depuis qu'elle a commencé à signaler les menaces publiques en février 2024, elle a perturbé et signalé plus de 40 réseaux qui violaient leurs politiques d'utilisation. Dans le rapport d'aujourd'hui, la société a partagé de nouvelles études de cas du trimestre dernier et des détails sur la manière dont elle détecte et perturbe l'utilisation malveillante de ses modèles.

Par exemple, l’entreprise a identifié un réseau du crime organisé, apparemment basé au Cambodge, qui tentait d’utiliser l’IA pour rationaliser ses flux de travail. De plus, une opération d’influence politique russe aurait utilisé ChatGPT pour générer des invites vidéo pour d’autres modèles d’IA. OpenAI a également signalé les comptes liés au gouvernement chinois qui violaient ses politiques d'utilisation en matière de sécurité nationale, notamment des demandes visant à générer des propositions pour des systèmes à grande échelle conçus pour surveiller les conversations sur les réseaux sociaux.

La société a déjà déclaré, notamment dans son politique de confidentialitéqu'il utilise des données personnelles, telles que les invites des utilisateurs, pour « prévenir la fraude, les activités illégales ou l'utilisation abusive » de ses services. OpenAI a également déclaré qu'il s'appuie à la fois sur des systèmes automatisés et évaluateurs humains pour surveiller l'activité. Mais dans le rapport d'aujourd'hui, la société offre un aperçu légèrement plus détaillé de son processus de réflexion visant à prévenir les abus tout en protégeant les utilisateurs de manière plus large.

« Pour détecter et neutraliser efficacement les menaces sans perturber le travail des utilisateurs quotidiens, nous utilisons une approche nuancée et informée qui se concentre sur les modèles de comportement des acteurs menaçants plutôt que sur des interactions de modèles isolés », a écrit la société dans le rapport.

Bien que la surveillance des atteintes à la sécurité nationale soit une chose, la société a également récemment expliqué comment elle gère l'utilisation nuisible de ses modèles par des utilisateurs en détresse émotionnelle ou mentale. Il y a un peu plus d'un mois, la société a publié un position de blogt détaillant comment il gère ce type de situations. Ce message intervient au milieu de la couverture médiatique d'incidents violents qui seraient liés aux interactions ChatGPT, notamment un meurtre-suicide dans le Connecticut.

La société a déclaré que lorsque les utilisateurs écrivent qu'ils veulent se faire du mal, ChatGPT est formé pour ne pas s'y conformer et plutôt reconnaître les sentiments de l'utilisateur et les orienter vers de l'aide et des ressources du monde réel.

Lorsque l’IA détecte que quelqu’un envisage de faire du mal à autrui, les conversations sont signalées pour examen humain. Si un examinateur humain détermine que la personne représente une menace imminente pour autrui, il peut la signaler aux forces de l'ordre.

OpenAI a également reconnu que les performances de sécurité de son modèle peuvent se dégrader lors d'interactions utilisateur plus longues et a déclaré qu'elle travaillait déjà à améliorer ses garanties.

Vous pouvez lire l’article original (en Angais) sur le bloggizmodo.com