Amazon SageMaker lance une nouvelle version du DLC Large Model Inference avec prise en charge de TensorRT-LLM


Aujourd'hui, Amazon SageMaker a lancé une nouvelle version (0.25.0) du conteneur d'apprentissage profond (DLC) Large Model Inference (LMI), avec prise en charge de Bibliothèque TensorRT-LLM de NVIDIA. Grâce à ces mises à niveau, les clients peuvent facilement accéder à des outils de pointe pour optimiser les grands modèles linguistiques (LLM) sur SageMaker. Le DLC Amazon SageMaker LMI TensorRT-LLM réduit la latence de 33 % en moyenne et améliore le débit de 60 % en moyenne pour les modèles Llama2-70B, Falcon-40B et CodeLlama-34B, par rapport à la version précédente.

Les LLM ont récemment connu une croissance de popularité sans précédent dans un large spectre d'applications. Cependant, ces modèles sont souvent trop volumineux pour tenir sur un seul accélérateur ou un périphérique GPU, ce qui rend difficile la réalisation d'inférences à faible latence et la mise à l'échelle. Amazon SageMaker propose des conteneurs d'apprentissage profond (DLC) LMI pour aider les clients à maximiser l'utilisation des ressources disponibles et à améliorer les performances. Les derniers DLC LMI offrent une prise en charge continue par lots pour les demandes d'inférence afin d'améliorer le débit, des opérations collectives d'inférence efficaces pour améliorer la latence et la dernière bibliothèque TensorRT-LLM de NVIDIA pour maximiser les performances sur les GPU. LMI TensorRT-LLM DLC offre une interface low-code qui simplifie la compilation avec TensorRT-LLM en exigeant simplement l'identifiant du modèle et les paramètres de modèle facultatifs ; toutes les tâches lourdes nécessaires à la création du modèle optimisé TensorRT-LLM sont gérées par LMI DLC. Les clients peuvent également tirer parti des dernières techniques de quantification (GPTQ, AWQ, SmoothQuant) avec les DLC LMI.



Vous pouvez lire l’article original (en Angais) sur le siteaws.amazon.com