Amazon Redshift peut désormais exploiter les statistiques au niveau des colonnes stockées dans AWS Glue Data Catalog pour améliorer les performances des requêtes du lac de données en générant des plans de requête optimisés.

AWS Glue prend en charge les statistiques au niveau des colonnes dans le catalogue de données AWS Glue, ce qui permet aux clients de stocker des informations statistiques telles que les valeurs minimales et maximales et le nombre de valeurs distinctes pour chaque colonne. Amazon Redshift récupère désormais automatiquement ces informations d’AWS Glue, puis optimise les plans de requête à l’aide de statistiques et améliore les performances de vos requêtes de lac de données. Grâce à la capacité AWS Glue récemment introduite de générer des statistiques au niveau des colonnes, vous pouvez collecter automatiquement des informations statistiques à partir des tables de votre lac de données et mettre à jour les statistiques au niveau des colonnes au lieu de renseigner ces informations manuellement.

Pour commencer, vous pouvez utiliser la console AWS Glue ou les API AWS Glue pour générer des statistiques de colonnes pour vos tables de lac de données, puis exécuter des requêtes sur ces tables dans Redshift à l’aide d’un catalogue Glue monté automatiquement ou de schémas externes.

Les optimisations du plan de requête du lac de données Amazon Redshift à l’aide des statistiques au niveau des colonnes AWS Glue sont généralement disponibles dans toutes les régions AWS où Amazon Redshift Spectrum ou Amazon Redshift Serverless sont disponibles. Pour en savoir plus, consultez le Guide du développeur de base de données Amazon Redshift et la documentation AWS Glue.

Vous pouvez lire l’article original (en Angais) sur le blogaws.amazon.com