La première fois que j'en ai eu, j'ai téléchargé l'application Sora. J'ai téléchargé des images de mon visage (celui que mes enfants embrassent à l'heure du coucher) et de ma voix (la voix que j'utilise pour dire à ma femme que je l'aime) et je les ai ajoutées à mon profil Sora. J'ai fait tout cela pour pouvoir utiliser la fonction « Camée » de Sora pour réaliser une vidéo idiote de mon IA se faisant tirer dessus avec des balles de peinture par 100 résidents âgés d'une maison de retraite.

Qu'est-ce que je viens de faire ? L'application Sora est alimentée par Sora 2, un modèle d'IA plutôt époustouflant pour être honnête. Il peut créer des vidéos qui couvrent toute la gamme de qualité, du banal au profondément satanique. C’est un trou noir d’énergie et de données, mais aussi un distributeur de contenus très douteux. Comme tant de choses de nos jours, utiliser Sora semble être une chose un peu vilaine, même si vous ne savez pas exactement pourquoi.

Donc, si vous venez de générer une vidéo Sora, voici toutes les mauvaises nouvelles. En lisant ceci, vous demandez à vous sentir un peu sale et coupable, et votre souhait est mon ordre.

Voici la quantité d'électricité que vous venez de consommer

Une vidéo Sora consomme environ 90 wattheures d'électricité selon CNET. Ce nombre est une supposition éclairée tirée d'une étude de la consommation énergétique des GPU par Hugging Face.

OpenAI n'a pas réellement publié les chiffres nécessaires à cette étude, et l'empreinte énergétique de Sora doit être déduite de modèles similaires. Sasha Luccioni, l'une des chercheuses de Hugging Face qui ont réalisé ce travail, n'est d'ailleurs pas satisfaite des estimations comme celle ci-dessus. Elle a déclaré au MIT Technology Review« Nous devrions arrêter d'essayer de procéder à une ingénierie inverse des chiffres basés sur des ouï-dire », et affirme que nous devrions faire pression sur des entreprises comme OpenAI pour qu'elles publient des données précises.

Quoi qu’il en soit, différents journalistes ont fourni différentes estimations basées sur les données de Hugginface. Par exemple, le Wall Street Journal deviné quelque part entre 20 et 100 wattheures.

CNET compare son estimation au fonctionnement d'un téléviseur de 65 pouces pendant 37 minutes. Le Journal compare une génération Sora à la cuisson d'un steak cru ou saignant sur un gril électrique extérieur (car une telle chose existe apparemment).

Il vaut la peine de clarifier quelques points sur ce problème de consommation d'énergie dans le but de vous sentir encore plus mal. Tout d'abord, ce que je viens de décrire est la dépense énergétique résultant de l'inférence, également connue sous le nom de exécuter le modèle en réponse à une invite. La formation proprement dite du modèle Sora nécessitait une quantité d’électricité inconnue, mais certainement astronomique. Le LLM GPT-4 nécessitait une estimation 50 gigawattheures— apparemment assez pour alimenter San Francisco pendant 72 heures. Sora, étant un modèle vidéo, a pris plus que cela, mais on ne sait pas combien de plus.

Vu d'une certaine manière, vous assumez une part de ce coût inconnu lorsque vous choisissez d'utiliser le modèle, avant même de générer une vidéo.

Deuxièmement, séparer l'inférence de la formation est important d'une autre manière lorsque l'on essaie de déterminer le degré d'éco-culpabilité à ressentir (êtes-vous désolé d'avoir déjà demandé ?). Vous pouvez essayer de faire abstraction du coût énergétique élevé comme de quelque chose qui s'est déjà produit, comme la mort de la vache dans votre hamburger il y a des semaines, et vous ne pouvez pas la tuer en commandant une galette Beyond alors que vous êtes déjà assis au restaurant. En ce sens, exécuter n’importe quel modèle d’IA basé sur le cloud revient davantage à commander du surf et du turf. La « vache » de toutes ces données d’entraînement est peut-être déjà morte. Mais le « homard » de votre invite spécifique est toujours vivant jusqu'à ce que vous envoyiez votre invite à la « cuisine » qui est le centre de données où l'inférence se produit.

Voici la quantité d'eau que vous venez d'utiliser :

Nous sommes sur le point de faire davantage d'estimations, désolé. Les centres de données utilisent de grandes quantités d'eau pour le refroidissement, soit dans des systèmes en boucle fermée, soit par évaporation. Vous ne savez pas quel ou plusieurs centres de données ont été impliqués dans la réalisation de cette vidéo de votre ami en tant que candidat à American Idol pétant la chanson « Camptown Races ».

Mais c'est probablement encore plus d'eau que ce avec quoi vous êtes à l'aise. Sam Altman, PDG d'OpenAI réclamations qu'une seule requête ChatGPT consomme « environ un quinzième de cuillère à café » et CNET estime qu'une vidéo coûte 2 000 fois plus d'énergie d'une génération de texte. Ainsi, un gribouillage d'une réponse au dos de l'enveloppe pourrait être de 0,17 gallon, soit environ 22 onces liquides, soit un peu plus qu'une bouteille en plastique de Coca-Cola.

Et c'est si vous prenez Altman au pied de la lettre. Cela pourrait facilement être plus. De plus, les mêmes considérations concernant le coût de la formation par rapport au coût de l'inférence qui s'appliquaient à la consommation d'énergie s'appliquent également ici. En d’autres termes, utiliser Sora n’est pas un choix judicieux en matière d’eau.

Il y a une petite chance que quelqu'un fasse de vous une imitation vraiment hideuse.

Les paramètres de confidentialité Cameo de Sora sont robustes, à condition que vous en soyez conscient et que vous en profitiez. Les paramètres sous « Qui peut utiliser ceci » plus ou moins protégez votre image d'être un jouet pour le public, tant que vous ne choisissez pas le paramètre « Tout le monde », ce qui signifie que n'importe qui peut faire des vidéos Sora de vous.

Même si vous êtes assez imprudent pour avoir un Cameo accessible au public, vous disposez d'un contrôle supplémentaire dans l'onglet « Préférences Cameo », comme la possibilité de décrire, avec des mots, comment vous devez apparaître dans les vidéos. Vous pouvez écrire ce que vous voulez ici, comme « mince, tonique et athlétique » peut-être, ou « toujours me curer le nez ». Et vous pouvez également établir des règles sur ce qu’il ne faut jamais vous montrer en train de faire. Si vous mangez casher, par exemple, vous pouvez dire qu’on ne devrait jamais vous montrer en train de manger du bacon.

Mais même si vous n'autorisez personne d'autre à utiliser votre Cameo, vous pouvez toujours être rassuré par la possibilité illimitée de créer des garde-corps lorsque vous réalisez des vidéos de vous-même.

Mais les garde-fous généraux du contenu de Sora ne sont pas parfaits. Selon La propre carte modèle d'OpenAI pour Sorasi quelqu'un incite assez fort, une vidéo offensante peut passer entre les mailles du filet.

La carte présente les taux de réussite pour différents types de filtres de contenu compris entre 95 % et 98 %. Cependant, en soustrayant uniquement les échecs, vous obtenez 1,6 % de chances d’obtenir un deepfake sexuel, 4,9 % de chances d’avoir une vidéo violente et/ou gore, 4,48 % de chances d’avoir ce qu’on appelle une « persuasion politique violente » et 3,18 % de chances d’extrémisme ou de haine. Ces chances ont été calculées à partir de « milliers d’invites contradictoires recueillies grâce à une équipe rouge ciblée » – en d’autres termes, en essayant intentionnellement de briser les garde-fous avec des invites enfreignant les règles.

Il y a donc peu de chances que quelqu'un fasse de vous un deepfake sexuel ou violent, mais OpenAI (probablement sagement) n'a jamais dit jamais.

Quelqu'un pourrait faire une vidéo dans laquelle vous touchez du caca.

Lors de mes tests, les filtres de contenu de Sora ont généralement fonctionné comme annoncé, et je n'ai jamais confirmé ce que disait la carte modèle à propos de ses échecs. Je n'ai pas minutieusement créé 100 invites différentes pour essayer de tromper Sora pour qu'il génère du contenu sexuel. Si vous lui demandez une apparition de vous-même nu, vous recevez le message « Violation de contenu » à la place de votre vidéo.

Cependant, quelques le contenu potentiellement répréhensible est si faiblement contrôlé qu’il n’est absolument pas filtré. Plus précisément, Sora ne semble pas se soucier du contenu scatologique et générera du matériel de ce type sans aucun garde-fou, tant qu'il ne viole pas d'autres politiques de contenu comme celles concernant la sexualité et la nudité.

Alors oui, lors de mes tests, Sora a généré des vidéos Cameo d'une personne interagissant avec des excréments, notamment en ramassant des crottes dans les toilettes à mains nues. Je ne vais pas intégrer les vidéos ici à titre de démonstration pour des raisons évidentes, mais vous pouvez les tester par vous-même. Cela n’a nécessité aucune supercherie ni aucune ingénierie rapide.

D'après mon expérience, les anciens modèles de génération d'images d'IA avaient mis en place des mesures pour empêcher ce genre de chose, y compris la version Bing du générateur d'images d'OpenAI, Dall-E, mais ce filtre semble avoir disparu dans l'application Sora. Je ne pense pas que ce soit forcément un scandale, mais c'est méchant !

Gizmodo a demandé à OpenAI de commenter cela et mettra à jour si nous recevons une réponse.

Votre vidéo amusante pourrait être le canular viral de quelqu'un d'autre.

Sora 2 a débloqué un univers vaste et infini de canulars. Vous, un consommateur de contenu avisé et averti sur Internet, ne croiriez jamais qu’un contenu comme la vidéo virale ci-dessous puisse être réel. Il montre des images spontanées apparemment tournées depuis l’extérieur de la Maison Blanche. Dans un son qui ressemble à une conversation téléphonique entendue, Donald Trump, généré par l'IA, dit à une partie inconnue de ne pas divulguer les fichiers Epstein et crie « Ne les laissez pas sortir. Si je tombe, je vous entraînerai tous avec moi. »

À en juger par les seuls commentaires sur Instagram, certains les gens semblaient croire que c'était réel.

Le créateur de la vidéo virale n'a jamais prétendu qu'elle était réelle, disant à Snopes, qui confirmé qu'il a été fait par Soraque la vidéo est « entièrement générée par l’IA » et a été créée « uniquement à des fins d’expérimentation artistique et de commentaire social ». Une histoire probable. Il était clairement conçu pour avoir du poids et de la visibilité sur les réseaux sociaux.

Mais si vous publiez des vidéos publiquement sur Sora, les autres utilisateurs peuvent les télécharger et en faire ce qu'ils veulent, y compris les publier sur d'autres réseaux sociaux et prétendre qu'elles sont réelles. OpenAI a consciemment fait de Sora un endroit où les utilisateurs peuvent faire défiler vers l'infini. Une fois que vous placez un élément de contenu dans un endroit comme celui-là, le contexte n'a plus d'importance et vous n'avez aucun moyen de contrôler ce qui lui arrive ensuite.

Vous pouvez lire l’article original (en Angais) sur le sitegizmodo.com