L'évaluation des modèles sur Amazon Bedrock vous permet d'évaluer, de comparer et de sélectionner les meilleurs modèles de base pour votre cas d'utilisation. Amazon Bedrock propose un choix d'évaluation automatique et d'évaluation humaine. Vous pouvez utiliser l'évaluation automatique avec des métriques prédéfinies telles que la précision, la robustesse et la toxicité. Pour les mesures subjectives ou personnalisées, telles que la convivialité, le style et l'alignement sur la voix de la marque, vous pouvez configurer un flux de travail d'évaluation humaine en quelques clics. Les flux de travail d'évaluation humaine peuvent exploiter vos propres employés ou une équipe gérée par AWS en tant que réviseurs. L'évaluation du modèle fournit des ensembles de données intégrés ou vous pouvez apporter vos propres ensembles de données.

L'interface interactive d'Amazon Bedrock vous guide tout au long de l'évaluation du modèle. Il vous suffit de choisir une évaluation humaine ou automatique, de sélectionner le type de tâche et les mesures, puis de télécharger des ensembles de données d'invite. Amazon Bedrock exécute ensuite des évaluations et génère un rapport, afin que vous puissiez facilement comprendre les performances du modèle par rapport aux métriques que vous avez sélectionnées et choisir celle qui convient à votre cas d'utilisation.

L'évaluation du modèle sur Amazon Bedrock est disponible en version préliminaire dans les régions AWS USA Est (Virginie du Nord) et USA Ouest (Oregon). Pour plus d'informations, consultez le tableau Région AWS.

Vous pouvez lire l’article original (en Angais) sur le siteaws.amazon.com