Excel et autres feuilles de calcul sont omniprésentes en entreprise car elles vous permettent de créer des graphiques simples. Si vous souhaitez faire passer vos rapports et présentations au niveau supérieur, vous pouvez envisager d'apprendre Python pour créer des visualisations puissantes qui vous aideront à vous démarquer de la foule.

Configuration initiale

Création de la boîte à outils Python

Pour créer des tracés en Python, vous devrez configurer un environnement avec les bons packages. Ceux-ci incluent :

Même si ce ne sont pas des bibliothèques, IPython et Jupyter vous facilitera grandement la vie en manipulant des données avec Python. IPython améliore Python interactif, tandis que les notebooks Jupyter facilitent le suivi de votre travail et son partage avec d'autres.

Il est préférable d'utiliser un outil capable de gérer votre environnement Python pour installer ces outils. Mon outil préféré ces jours-ci est Pixi. Vous pouvez installer Pixi depuis les instructions sur le site Pixi pour votre système basé sur un terminal, notamment macOS, Linux et PowerShell sous Windows.

Une fois que vous avez installé Pixi, vous pouvez installer l'environnement. Parce que vous les voudrez probablement à portée de main, vous pouvez les installer dans l'environnement global :

pixi global install --environment graphics --expose jupyter --expose ipython jupyter numpy pandas seaborn matplotlib ipython

Cela installera Jupyter, IPython, NumPy, Seaborn et Matplotlib. Puisque Matplotlib est une dépendance pour Seaborn, il aurait probablement été installé de toute façon, mais nous voulons nous assurer qu'il est disponible, puisque nous enverrons certaines commandes directement à Matplotlib. Le --expose L'option indique à Pixi de rendre l'exécutable d'IPython disponible pour Jupyter.

Graphiques linéaires

Tracer une série temporelle

Vous pouvez créer des graphiques linéaires avec Seaborn. Tout d'abord, vous devrez importer les bibliothèques que vous venez d'installer à l'aide d'IPython ou de Jupyter :

import numpy as np
import pandas as pd
import seaborn as sns
sns.set_theme()
import matplotlib.pyplot as plt

Les trois premières lignes importent NumPy, pandas et Seaborn en utilisant des noms raccourcis.

Nous pouvons démontrer un graphique linéaire qui représente une série chronologique à l'aide de l'un des ensembles de données intégrés inclus par Seaborn. Cela comprend une liste des vols des compagnies aériennes et du nombre de passagers de 1949 à 1960.

Tout d'abord, nous allons charger l'ensemble de données :

flights = sns.load_dataset('flights')

Cela crée un DataFrame pandas, dont nous pouvons examiner les premières lignes avec le head() méthode:

flights.head()

Le "tête" de l'ensemble de données de vols de Seaborn en Python.

Nous pouvons ensuite créer un graphique linéaire de l'année sur l'axe des x suivi du nombre de passagers sur l'axe des y :

sns.lineplot(x='year',y='passengers',data=flights)

Le graphique apparaîtra dans une autre fenêtre.

Graphique linéaire des vols des compagnies aériennes avec l'année sur l'axe des x et le nombre de passagers sur l'axe des y. Il y a une augmentation du nombre de passagers au fil du temps.

Le graphique s'affichera dans une fenêtre séparée.

Graphiques à barres

Vous pouvez également créer des graphiques à barres. Nous allons appeler un autre ensemble de données, provenant d'un serveur d'un restaurant de New York qui a enregistré le montant de la facture avec le pourboire.

tips = sns.load_dataset('tips')

Nous allons créer un graphique à barres qui montre la facture totale sur plusieurs jours :

sns.catplot(x='day',y='total_bill',kind='bar',data=tips)

Un graphique à barres des factures de restaurant pour chaque jour. Samedi et dimanche ont les montants les plus importants.

Nuage de points/régression

Trouver des tendances dans vos données

Un autre type de graphique utile est le nuage de points et la régression, ou l'affichage d'une ligne de tendance. Comme ceux-ci sont si courants dans les domaines des statistiques, de la science des données et des affaires, ils sont faciles à créer avec Seaborn.

Nous allons créer un nuage de points du pourboire par rapport à la facture totale, avec la facture totale sur l'axe des x et le pourboire sur l'axe des y. Le pourboire sera la variable dépendante et la facture totale sera la variable indépendante. Nous voulons voir s'il existe une relation entre la facture totale et le pourboire.

sns.relplot(x='total_bill',y='tip',data=tips)

Diagramme de dispersion de la facture totale par rapport au pourboire, avec la facture sur l'axe des x et la pointe sur l'axe des y. Il semble y avoir une relation linéaire positive.

Vous remarquerez peut-être que le pourboire semble augmenter avec la facture totale. Vous pourriez tracer une ligne droite qui monte de gauche à droite. En d’autres termes, il semble y avoir une relation linéaire positive entre les deux. Plus la facture est importante, plus le pourboire est important.

Nous pouvons également tracer cette ligne droite, ou la ligne de régression linéaire, à travers ce nuage de points. Le code est très similaire à celui que nous avons utilisé pour le nuage de points.

sns.regplot(x='total_bill',y='tip',data=tips)

Régression et nuage de points du pourboire par rapport à la facture de restaurant, avec la facture sur l'axe des x et le pourboire sur l'axe des y. Il semble y avoir un ajustement linéaire positif.

Notez que vous ne pourrez pas obtenir les valeurs de l'équation de la droite de régression, telles que la pente et l'ordonnée à l'origine, pour former l'équation classique y = mx + b dont vous vous souvenez peut-être de l'algèbre du lycée. Vous devrez utiliser une autre bibliothèque, telle que SciPy ou statsmodels, qui vous donnera les valeurs de l'équation.

Ajustement des titres et sauvegarde

Préparez vos graphiques pour les heures de grande écoute

Bien que les tracés semblent bons en eux-mêmes, ils ne sont pas tout à fait prêts à être insérés dans vos graphiques ou présentations. Vous devrez probablement modifier les étiquettes sur les axes pour qu'elles paraissent plus compréhensibles par elles-mêmes.

Vous n'appellerez pas Seaborn mais la bibliothèque Matplotlib sous-jacente. Supposons que nous souhaitions publier le graphique de régression pourboire par rapport à la facture. Voici comment nous procéderions pour le nettoyer si nous voulions le mettre dans un rapport. Nous utiliserions le code du tracé de régression plus tôt, mais utiliserions Matplotlib pour ajouter un titre et modifier les étiquettes sur les axes.

sns.regplot(x='total_bill',y='tip',data=tips)
plt.title("Tip vs. total bill in a New York City restaurant")
plt.xlabel("Total bill (USD)")
plt.ylabel("Tip (USD)")
plt.show()

Cela ajoutera un titre et supprimera le trait de soulignement dans les axes, ainsi que précisera que les montants sont en dollars américains.

Régression pourboire par rapport à la facture et nuage de points avec des étiquettes modifiées.

Pour enregistrer votre tracé, vous pouvez cliquer sur le Sauvegarder icône dans la fenêtre qui apparaît, ou vous pouvez utiliser cette commande :

plt.savefig('/path/to/file')

Fenêtre Matplotlib avec bouton Enregistrer surligné en rouge.

Vous pouvez ensuite le déposer dans votre document ou présentation. Matplotlib prend en charge de nombreux formats populaires, notamment PNG.

Il est facile de créer de superbes graphiques en Python

L'apprentissage de Python peut prendre un peu de temps, mais avec un peu d'effort, vous pouvez créer des tracés de qualité publication qui peuvent animer votre prochaine présentation ou rapport. Ne devriez-vous pas consacrer autant d'efforts aux visualisations qu'à vous assurer que les mots et les chiffres sont corrects ?

Système opérateur: Ubuntu Linux 22.04 LTS
Processeur: Intel Core i7-1360P de 13e génération
GPU: Graphiques Intel Iris Xe
BÉLIER: 16 Go DDR5
Stockage: Disque SSD de 512 Go
Poids: 2,71 livres

Le Dell XPS 13 Plus avec Linux combine un matériel puissant et un superbe écran dans un châssis léger et élégant pour créer un fantastique ordinateur portable Linux.

Vous pouvez lire l’article original (en Angais) sur le blogwww.howtogeek.com