Cette semaine, la division de recherche d’Intel a présenté de nouvelles technologies au Conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR). Intel Labs, en partenariat avec Blockade Labs, a récemment lancé un modèle de diffusion unique nommé Latent Diffusion Model for 3D (LDM3D). Ce modèle de diffusion innovant basé sur l’intelligence artificielle générative (IA) est conçu pour générer un contenu visuel 3D réaliste à partir d’invites textuelles. Découvrez la démo VR ci-dessous.
« Ce document de recherche propose un modèle de diffusion latente pour 3D (LDM3D) qui génère à la fois des données d’image et de carte de profondeur à partir d’une invite de texte donnée, permettant aux utilisateurs de générer des images RGBD à partir d’invites de texte. «
Pionnier dans son domaine, LDM3D est le premier modèle capable de générer une carte de profondeur en utilisant le processus de diffusion, résultant en des images 3D vives et immersives avec une vue complète à 360 degrés. Les utilisations potentielles de LDM3D couvrent une variété d’industries, y compris les jeux, le divertissement, l’architecture et la conception, et il est sur le point de changer radicalement le paysage de la création de contenu et des expériences numériques.
« » La technologie d’IA générative vise à augmenter et à améliorer davantage la créativité humaine et à gagner du temps. Cependant, la plupart des modèles d’IA générative d’aujourd’hui se limitent à générer des images 2D et très peu peuvent générer des images 3D à partir d’invites de texte.
Contrairement aux modèles de diffusion stable latente existants, LDM3D permet aux utilisateurs de générer une image et une carte de profondeur à partir d’une invite de texte donnée en utilisant presque le même nombre de paramètres. Il fournit une profondeur relative plus précise pour chaque pixel d’une image par rapport aux méthodes de post-traitement standard pour l’estimation de la profondeur et fait gagner beaucoup de temps aux développeurs pour développer des scènes », a déclaré Vasudev Lal, chercheur en IA/ML, Intel Labs.
Les technologies d’IA générative visent à renforcer et à amplifier la créativité humaine tout en faisant gagner un temps précieux. Cependant, les modèles d’IA générative actuels génèrent principalement des images 2D, avec seulement une poignée capable de produire des images 3D à partir d’invites de texte.
LDM3D s’écarte de la norme en permettant aux utilisateurs de générer une image et une carte de profondeur à partir d’une invite de texte donnée en utilisant un nombre presque identique de paramètres que les modèles de diffusion stables latents. Cette approche offre une profondeur relative plus précise pour chaque pixel d’une image par rapport aux techniques de post-traitement standard pour l’estimation de la profondeur, réduisant ainsi considérablement le temps que les développeurs consacrent au développement de la scène.
360 images à partir d’invites de texte
L’impact potentiel de cette recherche est considérable et promet de transformer la façon dont nous interagissons avec le contenu numérique. En permettant aux utilisateurs de visualiser leurs invites textuelles de manière entièrement nouvelle, LDM3D permet la transformation des descriptions textuelles d’une plage tropicale, d’un gratte-ciel moderne ou d’un univers de science-fiction en un panorama détaillé à 360 degrés.
Cette capacité à capturer des informations en profondeur peut considérablement améliorer le réalisme et l’immersion, ouvrant de nouvelles applications pour un large éventail d’industries, du jeu et du divertissement à la décoration intérieure et aux annonces immobilières, ainsi que des musées virtuels et des expériences immersives de réalité virtuelle (RV).
Pour construire un ensemble de données pour la formation LDM3D, un sous-ensemble de 10 000 échantillons de la base de données LAION-400M, comprenant plus de 400 millions de paires image-légende, a été utilisé. Le modèle d’estimation à grande profondeur Dense Prediction Transformer (DPT), précédemment développé par Intel Labs, a été utilisé pour annoter le corpus de formation. Le modèle DPT-large fournit une profondeur relative très précise pour chaque pixel d’une image.
Source : Laboratoires Intel
Catégorie(s) : Gadgets Actualités
Dernières offres de gadgets geek
Divulgation: Certains de nos articles incluent des liens d’affiliation. Si vous achetez quelque chose via l’un de ces liens, Geeky Gadgets peut gagner une commission d’affiliation. En savoir plus sur notre politique de divulgation.
Vous pouvez lire l’article original (en Angais) sur le sitewww.geeky-gadgets.com