Mistral AI Mixtral 8x7B, mélange d'experts du modèle IA, des benchmarks impressionnants révélés


Le mélange d'experts de Mistral AI, le modèle MoE, crée des références impressionnantes

Mistral AI a récemment dévoilé un modèle innovant de mélange d'experts cela fait des vagues dans le domaine de l’intelligence artificielle. Ce nouveau modèle, désormais disponible gratuitement via Perplexity AI, a été affiné avec l'aide du communauté open source, le positionnant comme un concurrent sérieux face au GPT-3.5 bien établi. La caractéristique remarquable du modèle est sa capacité à offrir haute performance tout en nécessitant potentiellement aussi peu que 4 Go de VRAM, grâce à des techniques de compression avancées qui préservent son efficacité. Cette avancée suggère que même ceux qui disposent de ressources matérielles limitées pourraient bientôt avoir accès à des capacités d’IA de pointe. Mistral AI vous en dit plus sur le nouveau Mixtral 8x7B :

« Aujourd'hui, l'équipe est fière de lancer Mixtral 8x7B, un modèle de mélange d'experts (SMoE) de haute qualité avec des pondérations ouvertes. Sous licence Apache 2.0. Mixtral surpasse Llama 2 70B sur la plupart des benchmarks avec une inférence 6 fois plus rapide. Il s’agit du modèle ouvert le plus puissant avec une licence permissive et du meilleur modèle global en termes de compromis coût/performance. En particulier, il correspond ou surpasse GPT3.5 sur la plupart des benchmarks standards.

La sortie de Mixtral 8x7B par Mistral AI marque une avancée significative dans le domaine de l'intelligence artificielle, en particulier dans le développement de modèles de mélange d'experts (SMoE). Ce modèle, Mixtral 8x7B, est un SMoE de haute qualité avec des poids ouverts, sous licence Apache 2.0. Il se distingue par ses performances, surpassant Llama 2 70B sur la plupart des benchmarks tout en offrant une inférence 6 fois plus rapide. Cela fait de Mixtral le principal modèle ouvert avec une licence permissive, et il est très efficace en termes de compromis de coût et de performances, égalant ou dépassant même GPT3.5 sur les benchmarks standards.

Mistral 8x7B présente plusieurs capacités impressionnantes. Il peut gérer un contexte de 32 000 jetons et prend en charge plusieurs langues, dont l'anglais, le français, l'italien, l'allemand et l'espagnol. Ses performances en matière de génération de code sont solides et peuvent être affinées dans un modèle de suivi d'instructions, atteignant un score de 8,3 sur MT-Bench​​.

Mistral AI mélange d'experts modèle MoE

Le réalisations de référence de Le modèle de Mistral AI ne sont pas seulement des statistiques impressionnantes ; ils représentent un progrès significatif qui pourrait surpasser les performances des modèles existants tels que GPT-3.5. L'impact potentiel de la disponibilité gratuite d'un outil aussi puissant est immense et constitue une perspective passionnante pour ceux qui souhaitent tirer parti de l'IA pour diverses applications. Les performances du modèle sur des ensembles de données difficiles, comme H SWAG et MML, sont particulièrement remarquables. Ces repères sont essentiels pour évaluer les points forts du modèle et identifier les domaines à améliorer davantage.

Voici quelques autres articles qui pourraient vous intéresser au sujet de Mistral AI :

L'architecture de Mistral est particulièrement remarquable. Il s'agit d'un réseau mixte d'experts, réservé aux décodeurs, utilisant un bloc de rétroaction qui sélectionne parmi 8 groupes distincts de paramètres. Un réseau de routeurs à chaque couche choisit deux groupes pour traiter chaque jeton, combinant leurs sorties de manière additive. Bien que Mixtral dispose d'un total de 46,7 milliards de paramètres, il n'utilise que 12,9 milliards de paramètres par jeton, conservant ainsi la vitesse et la rentabilité d'un modèle plus petit. Ce modèle est pré-entraîné sur les données du Web ouvert, formant simultanément les experts et les routeurs.

En comparaison avec d'autres modèles comme la famille Llama 2 et GPT3.5, Mixtral correspond ou surpasse ces modèles dans la plupart des benchmarks. De plus, il présente plus de véracité et moins de biais, comme en témoignent ses performances sur les benchmarks TruthfulQA et BBQ, où il affiche un pourcentage plus élevé de réponses véridiques et présente moins de biais par rapport à Llama 2​​​​.

De plus, Mistral AI a également publié Mixtral 8x7B Instruct aux côtés du modèle original. Cette version a été optimisée grâce à un réglage fin supervisé et à une optimisation directe des préférences (DPO) pour un suivi précis des instructions, atteignant un score de 8,30 sur MT-Bench. Cela en fait l’un des meilleurs modèles open source, comparable en performances à GPT3.5. Le modèle peut être amené à exclure certaines sorties pour les applications nécessitant des niveaux de modération élevés, démontrant sa flexibilité et son adaptabilité.

Pour prendre en charge le déploiement et l'utilisation de Mixtral, des modifications ont été soumises au projet vLLM, intégrant les noyaux Megablocks CUDA pour une inférence efficace. De plus, Skypilot permet le déploiement de points de terminaison vLLM dans des instances cloud, améliorant ainsi l'accessibilité et la convivialité de Mixtral dans diverses applications.

Mise au point et formation de l'IA

Le processus de formation et de mise au point du modèle, qui comprend des ensembles de données d'instruction, joue un rôle essentiel dans son succès. Ces ensembles de données sont conçus pour améliorer la capacité du modèle à comprendre et à suivre les instructions, le rendant ainsi plus convivial et efficace. Les contributions continues de la communauté open source sont essentielles à l'avancement continu du modèle. Leur engagement dans le projet garantit que le modèle reste à jour et continue de s'améliorer, incarnant l'esprit de progrès collectif et de partage des connaissances.

Alors que l’on attend des versions et des mises à jour plus raffinées de Mistral AI, le modèle mixte d’experts s’est déjà imposé comme un développement important. Avec un support et un développement continus, il a le potentiel de redéfinir les références en matière de performances de l’IA.

L'IA de Mistral modèle de mélange d'experts constitue une avancée notable dans le paysage de l’IA. Grâce à ses solides scores de référence, sa disponibilité gratuite via Perplexity AI et le soutien d'une communauté open source dédiée, le modèle est bien placé pour avoir un impact durable. La possibilité de fonctionner sur seulement 4 Go de VRAM ouvre des opportunités passionnantes pour un accès plus large aux technologies avancées d’IA. La sortie de Mixtral 8x7B représente une avancée significative dans l’IA, notamment dans le développement de SMoE efficaces et puissants. Ses performances, sa polyvalence et ses progrès dans la gestion des biais et de la véracité en font un ajout notable au paysage technologique de l’IA.

Crédit d'image : Mistral IA

Classé sous : Actualités technologiques, Top News





Dernières offres sur les gadgets geek

Divulgation: Certains de nos articles incluent des liens d’affiliation. Si vous achetez quelque chose via l'un de ces liens, Geeky Gadgets peut gagner une commission d'affiliation. Découvrez notre politique de divulgation.





Vous pouvez lire l’article original (en Angais) sur le sitewww.geeky-gadgets.com