Nous sommes ravis d’annoncer de nouvelles fonctionnalités sur Amazon SageMaker qui aident les clients à réduire les coûts de déploiement de modèles de 50 % en moyenne et à obtenir une latence d’inférence inférieure de 20 % en moyenne. Les clients peuvent déployer plusieurs modèles sur la même instance pour mieux utiliser les accélérateurs sous-jacents. SageMaker surveille activement les instances qui traitent les demandes d’inférence et achemine intelligemment les demandes en fonction des instances disponibles.

Ces fonctionnalités sont disponibles pour l’inférence en temps réel de SageMaker, ce qui facilite le déploiement de modèles ML. Vous pouvez maintenant créer un ou plusieurs InferenceComponents et les déployer sur un point de terminaison SageMaker. Un InferenceComponent résume votre modèle ML et vous permet d’attribuer des processeurs, des GPU ou des accélérateurs de neurones, ainsi que des politiques de mise à l’échelle par modèle. Nous placerons intelligemment chaque modèle sur les instances derrière le point de terminaison pour maximiser l’utilisation et réduire les coûts. Chaque modèle peut être indépendamment mis à l’échelle jusqu’à zéro. Cela libère des ressources matérielles pour que d’autres modèles puissent utiliser les accélérateurs de l’instance. Chaque modèle émettra également ses propres métriques et journaux pour vous aider à surveiller et déboguer tout problème. Nous avons ajouté un nouvel algorithme de routage des requêtes les moins en attente qui conduit à une répartition plus uniforme des requêtes, ce qui entraîne une latence de bout en bout réduite.

Ces nouvelles fonctionnalités sont généralement disponibles dans les pays suivants : Asie-Pacifique (Tokyo, Séoul, Mumbai, Singapour, Sydney, Jakarta), Canada (Centre), Europe (Francfort, Stockholm, Irlande, Londres), Moyen-Orient (EAU), Amérique du Sud (Sao Paulo), USA Est (Virginie du Nord, Ohio) et USA Ouest (Oregon).

Vous pouvez lire l’article original (en Angais) sur le blogaws.amazon.com