photos avant et après du nouveau moteur de conversion de photos AI de google — Google

Vous savez comment, dans les films, lorsqu’il y a une image sur l’ordinateur et que le détective qui se tient à côté de The Guy In The Chair dit « pouvez-vous zoomer et améliorer cette plaque d’immatriculation ? Cette technologie est maintenant réel, grâce aux derniers moteurs d’IA de Google.

Le processus pour ce faire est extrêmement complexe et difficile à maîtriser, car ils sont basés sur modèles de diffusion (et quelques mathématiques très avancées) et travaillez pour ajouter des détails à une image qui n’étaient pas là à l’origine. Cela se fait par conjecture à l’aide d’images similaires et est une technique que Google a surnommée synthèse d’image naturelle, et dans ce cas, super-résolution d’image.

De toute évidence, vous commencez avec une petite image pixélisée (comme les images sur le côté gauche de chacun des ensembles d’images ci-dessus) et vous vous retrouvez avec une image de résolution beaucoup plus élevée qui non seulement semble plus nette mais apparaît réelle à l’œil humain, même s’il ne correspond pas exactement à 100 % à l’original. Pour faire le travail, Google a utilisé deux nouveaux outils d’IA : Super-résolution via un raffinement répété (SR3) et Modèles de diffusion en cascade (CDM).

Le premier, SR3, ajoute du bruit à une image (cela ressemble à l’électricité statique ou à la neige que vous voyez sur un écran de télévision lorsque le signal est faible), puis inverse le processus. Il utilise une grande base de données d’images et une série de calculs de probabilité pour déterminer à quoi ressemble une version basse résolution de l’image, avec laquelle le chercheur de Google Chitwan Saharia approfondit ici.

Exemples sélectionnés de générations d'images naturelles 256 × 256 conditionnelles de classe pour que le moteur d'IA puisse apprendre. Chaque ligne contient des exemples d'une classe particulière. — Google

« Les modèles de diffusion fonctionnent en corrompant les données d’apprentissage en ajoutant progressivement du bruit gaussien, en effaçant lentement les détails des données jusqu’à ce qu’elles deviennent du bruit pur, puis en formant un réseau de neurones pour inverser ce processus de corruption » expliqué Saharie.

Le deuxième outil, CDM, utilise des « pipelines » par lesquels les différents modèles de diffusion (y compris SR3) peuvent être dirigés pour produire les mises à niveau haute résolution. Cet outil crée des images plus grandes des modèles d’amélioration à l’aide de simulations soigneusement calculées basées sur des probabilités avancées, dont Google a publié un document de recherche au.

Le résultat final ? Lorsque la recherche a présenté les images finalisées aux personnes lors d’un test, elles ont choisi que les visages générés étaient confondus avec de vrais visages environ la moitié du temps. Bien qu’un taux de 50 % puisse ne pas sembler satisfaisant, il est conforme à ce à quoi on pourrait s’attendre avec un algorithme parfait. Google affirme que cette méthode produit de meilleurs résultats que d’autres options d’amélioration d’image, y compris les réseaux antagonistes génératifs qui utilisent des concurrents les réseaux de neurones pour affiner une image.

Google dit qu’il a l’intention de faire plus avec ces moteurs d’IA et leurs technologies associées, au-delà de la mise à l’échelle d’images, comme d’autres domaines de la modélisation probabiliste. Et bien que cette technologie de « zoom et d’amélioration » facilite la réalisation de choses comme de vieilles photos haut de gamme, elle a également un potentiel indéniable, comme, eh bien, zoomer et améliorer une photo ou une plaque d’immatriculation ou quoi que ce soit d’autre.

passant par Alerte scientifique

Vous pouvez lire l’article original (en Angais) sur le blogwww.reviewgeek.com