Aujourd'hui, AWS annonce la disponibilité générale d'Amazon SageMaker HyperPod, qui réduit le temps de formation des modèles de base (FM) jusqu'à 40 % en fournissant une infrastructure spécialement conçue pour la formation distribuée à grande échelle.
De nombreuses organisations souhaitent former leurs propres FM à l'aide d'instances basées sur des unités de traitement graphique (GPU) et Trainium à faible coût. Cependant, le volume de données, la taille des modèles et le temps requis pour former les FM ont augmenté de façon exponentielle la complexité de la formation d'un modèle. Les clients doivent souvent répartir leur formation FM sur des centaines, voire des milliers d'accélérateurs. Ils exécutent ensuite des milliards de calculs de données en parallèle pendant des semaines ou des mois, ce qui prend du temps et nécessite une expertise spécialisée en ML. Le nombre d'accélérateurs et le temps de formation augmentent considérablement par rapport aux modèles spécifiques à des tâches de formation, de sorte que la probabilité de petites erreurs rares, comme la panne d'un seul accélérateur, s'accroît.
SageMaker HyperPod supprime les tâches lourdes et indifférenciées liées à la création et à l'optimisation de l'infrastructure ML pour la formation des FM. SageMaker HyperPod est préconfiguré avec les bibliothèques de formation distribuées de SageMaker qui permettent aux clients de répartir automatiquement les charges de travail de formation sur des milliers d'accélérateurs, afin que les charges de travail puissent être traitées en parallèle pour améliorer les performances du modèle. SageMaker HyperPod garantit également que les clients peuvent poursuivre leur formation FM sans interruption en enregistrant périodiquement les points de contrôle. Lorsqu'une panne matérielle se produit pendant la formation, SageMaker HyperPod détecte automatiquement la panne, répare ou remplace l'instance défectueuse et reprend la formation à partir du dernier point de contrôle enregistré, éliminant ainsi le besoin pour les clients de gérer manuellement ce processus et les aidant à s'entraîner pendant une semaine ou des mois. dans un environnement distribué sans interruption.
SageMaker HyperPod est généralement disponible et vous pouvez l'utiliser dans les régions AWS suivantes : USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Asie-Pacifique (Séoul), Asie-Pacifique (Singapour), Asie. Pacifique (Sydney), Asie-Pacifique (Tokyo), Europe (Francfort), Europe (Irlande) et Europe (Stockholm).
Pour en savoir plus, consultez la liste de ressources suivante :
Vous pouvez lire l’article original (en Angais) sur le blogaws.amazon.com