Qu’est-ce qui est devenu l’une des sociétés incontournables sur Internet pour créer des visuels suffisamment réalistes ? Les deepfakes ont désormais la capacité de cloner votre voix et de la forcer à parler dans une variété croissante de langues. ElevenLabs a annoncé mardi que son nouveau clonage vocal prend désormais en charge 22 langues de plus qu’auparavant, dont l’ukrainien, le coréen, le suédois, l’arabe, etc.

Même Twitter ne peut pas tuer Twitter | Lettre de l’éditeur

Selon ElevenLAbs, le nouveau modèle Multilingual v2 promet de pouvoir produire un son « riche en émotions » dans un total de 30 langues. L’entreprise propose deux outils vocaux d’IA, l’un est un modèle de synthèse vocale et l’autre est le « VoiceLab » qui permet aux utilisateurs payants de cloner une voix en saisissant des fragments de leur parole (ou de celle d’autres personnes) dans le modèle pour créer une sorte de cône vocal. . Avec le modèle v2, les utilisateurs peuvent faire en sorte que ces voix générées commencent à parler en grec, en malais ou en turc.

Le service a été mis en ligne sur le site de l’entreprise vers midi HE mardi. Les utilisateurs n’ont qu’à taper le texte dans sa langue réelle pour entendre la voix traduite, et cela devrait fonctionner avec n’importe quel clone de voix créé par l’entreprise ou par les utilisateurs. En tant qu’anglophone principal, il est difficile d’évaluer dans quelle mesure chaque voix accentuée représente chaque langue, mais le discours prend le temps de paraître naturaliste avec des pauses haletantes occasionnelles entre les phrases et les citations.

La plateforme ElevenLabs a connu son lot de controverses après son lancement l’année dernière. La plate-forme bêta initiale de la société a vu les utilisateurs de 4Chan abuser de ses systèmes pour se faire passer pour des célébrités, les obligeant à dire des scripts racistes, misogynes et transphobes. Il a également été utilisé par Les évangélistes de l’IA s’attaquent aux acteurs de la voix qui s’est plaint de l’utilisation généralisée de la technologie de clonage vocal. Depuis lors, ElevenLabs revendique avoir intégré de nouvelles mesures pour garantir que les utilisateurs ne peuvent cloner que leur propre voix. Les utilisateurs doivent vérifier leur parole avec une invite de texte captcha qui est ensuite comparée à l’échantillon vocal d’origine.

Co-fondateur de l’entreprise, l’ex-Palantir Mati Staniszewski, directeur général, a déclaré dans un communiqué : « À terme, nous espérons couvrir encore plus de langues et de voix avec l’aide de l’IA et éliminer les barrières linguistiques au contenu. »

Hors version bêta, ElevenLabs tente de diffuser les voix de l’IA sur les médias

Parallèlement aux nouvelles capacités linguistiques, ElevenLabs a également affirmé que cette avancée marque désormais que sa technologie de clonage vocal d’IA n’est plus en phase bêta, au moment même où la société approfondit ses efforts pour mettre la technologie à la disposition des sociétés de médias. En juin dernier, ElevenLabs a reçu 19 millions de dollars de financement de démarrage des créateurs de rois de la technologie, Andreesen Horowitz, aux côtés de l’ancien directeur de DeepMind, désormais Mustafa Suleyman, co-fondateur d’Inflection AI.

ElevenLabs fait la promotion de sa technologie de clonage vocal comme un moyen permettant aux entreprises de créer des livres audio, des vidéos et même des PNJ vocaux dans les jeux vidéo. L’entreprise réclamations il a conclu un accord avec Paradox Interactive, l’éditeur derrière des jeux comme le Coeurs de fer série et le prochain La Ligue des allumeurs de réverbères. La technologie de clonage vocal de l’entreprise a été explicitement citée par des acteurs de jeu voix off qui craignent que la technologie soit utilisée pour nuire à leur travail.

Gizmodo a contacté Paradox pour obtenir des commentaires, mais nous n’avons pas immédiatement reçu de réponse.

Sur le plan des livres, des géants de la technologie comme Google et Apple ont essayé de proposer des livres audio racontés par l’IA. L’application Apple Books a commencé à proposer des narrateurs avec des noms fades comme « Archie » et « Warren » pour exprimer du contenu. Ceux qui écoutent des livres audio ont remarqué que ces voix sont – faute d’un meilleur terme –sans vie par rapport au stock d’acteurs professionnels qui peuvent réellement prêter attention à la montée et à la chute d’un récit. Le syndicat des acteurs SAG-AFTRA et la Writers Guild of America sont actuellement en grève et une grande partie des négociations en cours avec l’industrie du divertissement se sont concentrés sur l’IA.

Cependant, ElevenLabs affirme que les voix de l’IA peuvent faire gagner du temps et de l’argent aux sociétés d’édition en créant des livres audio. Dans un article de blog publié lundi, la société promu il a travaillé avec Lukeman Literary, une agence littéraire et une petite société d’édition indépendante, pour affiner le traitement de ses livres audio. La société a affirmé qu’il fallait auparavant des « semaines » à Lukeman pour produire un seul livre audio, mais avec l’IA, cela était réduit à quelques heures seulement.

Lukeman Literary a aidé à publier des livres de personnalités publiques de renom comme Rutger Hauer et le Dalaï Lama aux côtés d’autres œuvres de fiction. Dans un e-mail envoyé à Gizmodo, Lukeman a souligné que son agence et ses branches d’édition étaient distinctes et qu’il n’était donc pas prévu de convertir les titres représentés par l’agence en narration IA. Pourtant, en ce qui concerne son activité d’édition, il a déclaré qu’il n’avait jamais adopté la narration IA parce que la « qualité » n’était pas là, mais depuis qu’il a testé les fonctionnalités d’ElevenLabs, il a déclaré qu’il était « enfin suffisamment impressionné » pour l’utiliser. Il a en outre affirmé que « la narration IA est une aubaine » pour les écrivains indépendants car elle coûte beaucoup moins cher que la narration humaine.

Bien qu’il ait proclamé que la voix de l’IA était enfin suffisante pour les heures de grande écoute, Lukeman a convenu que l’IA « poserait certainement un défi » aux acteurs de la voix, mais a proposé que « certains » auteurs et éditeurs voudront toujours que les livres audio soient exprimés par un véritable humain.

Que les acteurs de la voix puissent ou non céder leur voix à l’IA pour les résidus, ce type d’accords reste étranger au secteur de l’édition qui est devenant de plus en plus amoureux avec l’IA. La grève étant toujours en cours, il faudra peut-être du temps pour comprendre comment les acteurs dans leur ensemble réagissent à une industrie qui cherche un moyen de tirer profit de la tendance des livres audio, mais sans véritable audio humain.

Vous pouvez lire l’article original (en Angais) sur le bloggizmodo.com