À partir d'aujourd'hui, les instances Inf2 d'Amazon Elastic Compute Cloud (Amazon EC2) sont généralement disponibles dans les régions Asie-Pacifique (Mumbai), Asie-Pacifique (Singapour), Asie-Pacifique (Tokyo), Europe (Irlande) et Europe (Francfort). Ces instances offrent des performances élevées au coût le plus bas dans Amazon EC2 pour les modèles d'IA génératifs.

Vous pouvez utiliser les instances Inf2 pour exécuter des applications populaires telles que le résumé de texte, la génération de code, la génération de vidéos et d'images, la reconnaissance vocale, la personnalisation, etc. Les instances Inf2 sont les premières instances optimisées pour l'inférence dans Amazon EC2 à introduire l'inférence distribuée évolutive prise en charge par NeuronLink, une interconnexion haut débit non bloquante. Les instances Inf2 offrent jusqu'à 2,3 pétaflops et jusqu'à 384 Go de mémoire d'accélérateur totale avec une bande passante de 9,8 To/s. Les instances Inf2 offrent un rapport prix-performance jusqu'à 40 % supérieur à celui des autres instances Amazon EC2 comparables.

Le SDK AWS Neuron s'intègre nativement aux frameworks d'apprentissage automatique populaires, vous pouvez donc continuer à utiliser vos frameworks existants pour les déployer sur Inf2. Les développeurs peuvent démarrer avec les instances Inf2 à l'aide des AMI AWS Deep Learning, des conteneurs AWS Deep Learning ou des services gérés tels qu'Amazon Elastic Container Service (Amazon ECS), Amazon Elastic Kubernetes Service (Amazon EKS) et Amazon SageMaker.

Les instances Inf2 sont désormais disponibles en quatre tailles : inf2.xlarge, inf2.8xlarge, inf2.24xlarge, inf2.48xlarge dans 8 régions AWS en tant qu'instances à la demande, instances réservées et instances Spot, ou dans le cadre d'un plan d'économies.

Vous pouvez lire l’article original (en Angais) sur le blogaws.amazon.com