Aujourd'hui, AWS annonce une version majeure de la bibliothèque parallèle de modèles (SMP) Amazon SageMaker, qui est désormais compatible avec les API PyTorch Fully Sharded Data Parallel (FSDP) et peut accélérer la formation des modèles d'apprentissage en profondeur jusqu'à 20 %. SMP vous permet d'accélérer la formation de grands modèles avec des milliards de paramètres en partitionnant et en distribuant automatiquement le modèle sur plusieurs accélérateurs et instances de calcul. Vous pouvez démarrer avec SMP en quelques minutes et accélérer vos scripts de formation PyTorch FSDP existants avec seulement quelques lignes de code.
PyTorch FSDP est une technique de formation distribuée populaire qui réduit l'empreinte mémoire de la formation en partageant les poids, les gradients et les états d'optimisation d'un modèle entre les accélérateurs d'un cluster. Avec cette version, les nouvelles API de la bibliothèque parallèle de modèles SageMaker sont désormais compatibles avec les scripts de formation PyTorch FSDP et les accélèrent encore, permettant aux clients de mettre facilement à niveau leurs charges de travail existantes lors de la formation sur SageMaker. Avec seulement quelques lignes de code, les clients peuvent activer des techniques de formation de pointe telles que le parallélisme des données hybrides fragmentées, qui permettent aux clients de modifier le degré de fragmentation du modèle et ainsi de contrôler les besoins en mémoire et en communication de leur tâche de formation. Cette nouvelle version étend également les capacités de FSDP pour inclure des techniques de formation parallèle de tenseurs pour les clients SageMaker, permettant la formation de modèles avec des centaines de milliards de paramètres en partitionnant et en distribuant les couches du modèle sur différents dispositifs accélérateurs. Pour démarrer avec le modèle parallèle SageMaker, consultez notre documentation.
Vous pouvez lire l’article original (en Angais) sur le blogaws.amazon.com