Box Plot en Python - Un guide complet pour les débutants (2024)

Box Plot en Python - Un guide complet pour les débutants (1)

Un box plot est l'un des graphiques standard utilisés dans l'analyse exploratoire des données pour analyser la distribution des données. Il fournit un résumé graphique pour identifier la distribution et l'asymétrie de l'ensemble de données. Voici à quoi ressemble une boîte à moustaches:

Box Plot en Python - Un guide complet pour les débutants (2)

Dans un boxplot, l'ensemble de données est divisé en fonction de leurs valeurs de quartile.

Box Plot en Python - Un guide complet pour les débutants (3)

À partir d'un boxplot, vous pouvez trouver la valeur minimale, la valeur du premier quartile, la valeur médiane, la valeur du troisième quartile et la valeur maximale dans l'ensemble de données.

Extrême inférieur: il s'agit de la valeur la plus basse de l'ensemble de données à l'exclusion des valeurs aberrantes (une valeur aberrante est une observation qui se situe à une distance anormale d'autres valeurs dans un échantillon aléatoire d'une population)

Extrême supérieur: le point de la valeur maximale à l'exclusion des valeurs aberrantes.

Valeur médiane: il s'agit du point médian de l'ensemble de données. 50% des points de données seront inférieurs à cette valeur et 50% des points de données seront au-dessus de cette valeur.

Quartile inférieur / premier quartile: Il s'agit du point du 25e centile. Les valeurs de 25% des points de données sont inférieures à cette valeur et 75% supérieures à cette valeur.

Quartile supérieur / troisième quartile: Il s'agit du point du 75e centile. Les valeurs de 75% des points de données sont inférieures à cette valeur.

Intervalle interquartile (IQR): points compris entre le 25e et le 75e centile. (c'est-à-dire le milieu 50% des points de données)

Moustaches: Points autres que les 50% du milieu.

Box Plot en Python - Un guide complet pour les débutants (4)

Une valeur aberrante est un point éloigné du reste des points de données. Ils sont représentés séparément sous forme de points individuels dans une boîte à moustaches. Les valeurs aberrantes sont les points qui ont une valeur inférieure à Q1–1,5 * IQR et les points qui sont supérieurs à Q3 + 1,5 * IQR.

Une distribution peut être soit normalement distribuée, soit positivement asymétrique ou négative. Vous pouvez trouver cela en utilisant la boîte à moustaches de la distribution.

Dans un ensemble de données normalement distribué, la longueur de tous les quartiles sera la même.

Box Plot en Python - Un guide complet pour les débutants (5)

Dans un ensemble de données biaisé positivement, la longueur du 1er et du 2ème quartile sera plus petite et la longueur du 3ème et 4ème quartile sera plus grande.

Box Plot en Python - Un guide complet pour les débutants (6)

Dans un ensemble de données asymétrique négativement, la longueur du 1er et du 2ème quartile sera plus grande et la longueur du 3ème et 4ème quartile sera plus petite.

Box Plot en Python - Un guide complet pour les débutants (7)

À partir d'une boîte à moustaches de différents groupes, vous pouvez comparer facilement les distributions et les valeurs médianes de ces groupes. Il fournit un moyen simple de visualiser la gamme et la distribution des groupes.

Dans l'image ci-dessus, vous pouvez voir la boîte à moustaches des âges de 4 groupes de personnes différents.

Examinons toutes les informations que nous pouvons obtenir du graphique ci-dessus.

  1. Le groupe 1 couvre un large éventail de personnes de tous âges car la fourchette est plus élevée dans ce cas.
  2. L'âge médian des personnes du groupe 3 est le plus élevé et l'âge médian est le plus bas pour les personnes du groupe 1.
  3. La boîte à moustaches pour le groupe 0 est relativement courte, ce qui montre qu'elle ne couvre qu'un très petit nombre de personnes.
  4. Vous pouvez également voir que les 4 groupes sont normalement distribués.

Box Plot en Python - Un guide complet pour les débutants (9)

Dans ce cas, la boîte à moustaches contiendra une encoche au centre. L'encoche représente la médiane avec un intervalle de confiance de 95%. La plage d'encoche est calculée comme

médiane +/- 1,57 * IQR / racine_carrée (N)

Voyons maintenant comment tracer une boîte à moustaches en Python.

J'utiliserai l'ensemble de données sur les maladies cardiaques de Kaggle pour les exemples. Vous pouvez télécharger l'ensemble de données à partir du lien ci-dessous:

Tout d' abord, importer toutes les bibliothèques nécessaires, que vous devrez explorer l'ensemble de données - numpy, pandas, matplotlib, seaborn.

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns
df = pd.read_csv("heartdisease.csv")df.head() 

Boxplot est utilisé pour comprendre la distribution de l'ensemble de données. Regardons la boîte à moustaches des niveaux de cholestérol des données des patients.

Pour tracer une boîte à moustaches, utilisez la plt.boxplot()fonction. Transmettez l'ensemble de données en tant qu'argument à la fonction.

fig = plt.figure(1, figsize=(9, 6))plt.boxplot(df['chol']) 

Décomposons-le un par un.

Box Plot en Python - Un guide complet pour les débutants (10)

Les valeurs minimale et maximale sont considérées en excluant les valeurs aberrantes de l'ensemble de données.

Voir cette case au milieu, en ce que la partie inférieure désigne le 25e centile, c'est-à-dire le premier quartile, et la partie supérieure représente le 75e centile, c'est-à-dire le 3e quartile.

La ligne orange du milieu représente la valeur médiane.

La distance entre la 1ère et la 3ème ligne de quantile est appelée plage inter-quartile.

Quel est le centile? Si un point a un percentile de 40, cela signifie que 40% des points de l'ensemble de données sont en dessous.

Utilisez l' notch=Trueargument à l'intérieur de la plt.boxplot()fonction pour créer une boîte à moustaches avec encoche.

Cette encoche représente l'intervalle de confiance à 95% de la valeur médiane.

fig = plt.figure(1, figsize=(9, 6))plt.boxplot(df['chol'],notch = True) 

Utilisez vert=0l'argument pour créer une boîte à moustaches horizontale.

fig = plt.figure(1, figsize=(9, 6))plt.boxplot(df['chol'],notch = True,vert=0) 

Vous pouvez tracer la distribution de nombreuses variables dans une seule boîte à moustaches. Il vous suffit de transmettre toutes les colonnes en tant qu'ensemble de données dans la boîte à moustaches.

Vous pouvez également étiqueter les variables sur l'axe des x à l'aide de l' labels=argument.

fig = plt.figure(1, figsize=(9, 6))data = [df['trestbps'],df['chol'],df['thalach']]plt.boxplot(data,labels=['Trestbps','Chol','Thalach']) 

Les boîtes à moustaches peuvent également être tracées dans seaborn en utilisant la sns.boxplot()fonction.

Vous devez transmettre la variable x, la variable y et les données en tant qu'argument à la fonction.

fig = plt.figure(1, figsize=(9, 6))sns.boxplot(x='cp',y='chol',data=df) 

À partir de là, vous pouvez interpréter que la gamme de cholestérol est significativement plus élevée cp=0par rapport à cp=3.

Pour comprendre la distribution de la boîte à moustaches, vous pouvez également essayer de tracer un diagramme en bande avec lui.

fig = plt.figure(1, figsize=(9, 6))sns.boxplot(x='cp',y='chol',data=df)sns.stripplot(x="cp", y="chol",data=df) 

Utilisez l' hueargument sns.boxplot()pour ajouter une troisième variable dans la boîte à moustaches.

fig = plt.figure(1, figsize=(9, 6))sns.boxplot(x='cp',y='chol',hue='sex',data=df)sns.stripplot(x="cp", y="chol",hue='sex',data=df) 

Premièrement, les valeurs sont séparées en fonction des cpvaleurs, puis pour chaque cpvaleur, elles sont divisées en fonction du sexe - homme et femme.

J'espère que vous avez maintenant une compréhension claire de la boîte à moustaches. Merci d'avoir lu l'article. Abonnez-vous pour être informé des futurs contenus comme celui-ci.

Box Plot en Python - Un guide complet pour les débutants (2024)

FAQs

How to show values in boxplot in Python? ›

Creating Box Plot

The matplotlib. pyplot module of matplotlib library provides boxplot() function with the help of which we can create box plots. The data values given to the ax. boxplot() method can be a Numpy array or Python list or Tuple of arrays.

How to create multiple boxplots in Python? ›

Plot multiple boxplots in one graph in Pandas or Matplotlib
  1. Set the figure size and adjust the padding between and around the subplots.
  2. Make a Pandas data frame with two columns.
  3. Plot the data frame using plot() method, with kind='boxplot'.
  4. To display the figure, use show() method.
Sep 13, 2023

How to create a boxplot? ›

In a box plot, we draw a box from the first quartile to the third quartile. A vertical line goes through the box at the median. The whiskers go from each quartile to the minimum or maximum.

How to write a plot in Python? ›

It defines x and y values for data points, plots them using `plt.plot()`, and labels the x and y axes with `plt.xlabel()` and `plt.ylabel()`. The plot is titled “My first graph!” using `plt.title()`. Finally, the `plt.show()` function is used to display the graph with the specified data, axis labels, and title.

How to interpret Python boxplot? ›

Interpreting Python Boxplot Results
  1. The median line indicates the middle value of the dataset.
  2. The interquartile range (IQR) or middle 50% of values lies between the first quartile (Q1) and third quartile (Q3).
  3. The whiskers extend 1.5 times above and below Q3 and Q1, respectively.

How to read a boxplot? ›

The box's left edge or bottom end represents the first/lower quartile (Q1; the 25th percentile) of the data. The line inside the box represents the median (Q2; the 50th percentile) of the data. The box's right edge or top end represents the third/upper quartile (Q3; the 75th percentile) of the data.

How to show value in boxplot? ›

A box plot is constructed from five values: the minimum value, the first quartile, the median, the third quartile, and the maximum value. We use these values to compare how close other data values are to them. To construct a box plot, use a horizontal or vertical number line and a rectangular box.

How to do side by side boxplots in Python? ›

Side-by-side Boxplots

In Python's Matplotlib library, if multiple datasets are specified in function pyplot. boxplot() , then those datasets will be visualized as side by side box plots.

How do you plot multiple data in Python? ›

To plot multiple graphs on one plot, follow these steps.
  1. Install and import the matplotlib and NumPy library. ...
  2. Create an array of time using the np. ...
  3. Now plot the graph one as plt.subplot(121) plt.plot(t, 'r- -') plt.xlabel('Plot 1)
  4. Similarly, plot graph 2 as … ...
  5. Now show both the graph in one plot as…
Oct 10, 2022

How to create a box in Python? ›

To make a box layout in Python, import the modules, and configure the GTK+ library. Then design a custom class, construct horizontal and vertical Gtk. Boxes, add widgets, and arrange them using the pack start() and pack end() methods. Learn Python in-depth with real-world projects through our Java certification course.

What is a box plot with an example? ›

In the boxplot, the solid line indicates the median and the dashed line indicates the mean. For example, if the median is 42, this means that half of the participants are younger than 42 and the other half are older than 42. The median thus divides the individuals into two equal groups.

What is box plot formula? ›

To draw a box plot for the given data first we need to arrange the data in ascending order and then find the minimum, first quartile, median, third quartile and the maximum. Ascending Order 100, 110, 110, 110, 120, 120, 130, 140, 140, 150, 170, 220 Median (Q2) = (120+130)/2 = 125; Since there were even values.

What are the 5 parts of a box plot? ›

What is the five-number summary in the box plot? The five-number summary in the box plot is minimum, maximum, median, first quartile, and third quartile.

What does plot () do in Python? ›

The plot() function is used to draw points (markers) in a diagram. By default, the plot() function draws a line from point to point.

How do you Boxplot a list in Python? ›

Example1:
  1. import matplotlib.pyplot as plt.
  2. import numpy as np.
  3. np.random.seed(15)
  4. dataSet = np.random.normal(100, 25, 200)
  5. print(dataSet)
  6. figure = plt.figure(figsize =(10, 8))
  7. plt.boxplot(dataSet)
  8. plt.show()

Is box plot available in matplotlib? ›

What is boxplot in matplotlib? Matplotlib's boxplot mainly provides a graphical summary of a data set with features such as minimum, first quartile, median, third quartile, and maximum. Note: A quartile is a statistical phrase for dividing observations into four predetermined intervals based on data values.

Top Articles
Where Is The Purser In 2K22
1 Bed For Sale Near Me
Fresno Farm And Garden By Owner
Citi Trends Watches
Abga Gestation Calculator
Random Animal Hybrid Generator Wheel
Delta Rastrear Vuelo
Survivor Australia Wiki
Member Handbook 2021 | Ohio Medicaid Caresource | Member Handbook
They Cloned Tyrone Showtimes Near Showbiz Cinemas - Kingwood
Rooms for rent in Pompano Beach, Broward County, FL
Thompson Center Thunderhawk Parts
Haktuts Coin Master Link
Annika Noelle Feet
Things to do in Wichita Falls this weekend Sept. 12-15
Uw Oshkosh Wrestling
Masdar | Masdar’s Youth 4 Sustainability Announces COP28 Program to Empower Next Generation of Climate Leaders
Usccb 1 John 4
Transform Your Backyard: Top Trends in Outdoor Kitchens for the Ultimate Entertaining - Paradise Grills
Cara In Creekmaw Code
Clay County Tax Collector Auto Middleburg Photos
Hannah Nichole Kast Twitter
2010 Ford F-350 Super Duty XLT for sale - Wadena, MN - craigslist
Forum Train Europe FTE on LinkedIn: #freight #traffic #timetablingeurope #fted
Appraisalport Com Dashboard /# Orders
Antonios Worcester Menu
Beachbodyondemand.com
Bustime B8
Tbom Retail Credit Card
Caliber Near Me
NFL Week 1 games today: schedule, channels, live streams for September 8 | Digital Trends
Sterling Primary Care Franklin
Ringcentral Background
Jill Vasil Sell Obituary
Erste Schritte für deine Flipboard Magazine — Ein Blogger-Guide -
Build a Free Website | VistaPrint
Hawkview Retreat Pa Cost
Hendrick Collision Center Fayetteville - Cliffdale Reviews
Unblocked Games 66E
Distance To Indianapolis
Pho Outdoor Seating Near Me
Sodexo North Portal
Enterprise Car Sales Jacksonville Used Cars
Rwby Crossover Fanfiction Archive
From Iceland — Northern Comfort: A Turbulent Ride Of Comedy
South Carolina Craigslist Motorcycles
A Ghost Story movie review & film summary (2017) | Roger Ebert
Sound Of Freedom Showtimes Near Wellborne Cinema
Dermpathdiagnostics Com Pay Invoice
Us 25 Yard Sale Map
New employee orientation | WSDOT
Georgiatags.us/Mvdkiosk
Latest Posts
Article information

Author: Virgilio Hermann JD

Last Updated:

Views: 5855

Rating: 4 / 5 (61 voted)

Reviews: 92% of readers found this page helpful

Author information

Name: Virgilio Hermann JD

Birthday: 1997-12-21

Address: 6946 Schoen Cove, Sipesshire, MO 55944

Phone: +3763365785260

Job: Accounting Engineer

Hobby: Web surfing, Rafting, Dowsing, Stand-up comedy, Ghost hunting, Swimming, Amateur radio

Introduction: My name is Virgilio Hermann JD, I am a fine, gifted, beautiful, encouraging, kind, talented, zealous person who loves writing and wants to share my knowledge and understanding with you.