Le box-plot ou la fameuse boîte à moustache (2024)

+33.1.72.25.40.82 | contact | on recrute !

  • FR
  • ENG

Navigation

  • Formations
    • Nos formations
      • Formation Python
      • Formation logiciel R
      • Formation Power BI
      • Formation DataIku
      • Formation machine learning
    • Trouver votre formation
    • Calendrier des formations
  • Conseil
    • Accompagnement IA
    • Python – Conseil et développement
    • Logiciel R – Conseil et développement
    • Power BI – Accompagnement et développement
    • Stat4decision partenaire d’Anaconda
    • Analyse à la demande
  • Références
  • A propos
    • Qui sommes-nous ?
    • FAQ – Foire aux questions
    • Partenariats
    • Rejoignez-nous
  • Le blog
  • Contact
  • Rechercher

Le box-plot ou la fameuse boîte à moustache (2)

Emmanuel Jakobowicz Mis à jour le : 6 octobre 2020 méthode 13 Comments

Vous avez forcément entendu parler du box-plot que l'on appelle aussi boîte à moustache pour sa forme originale. Ce graphique tout simple permet de résumer une variable de manière simple et visuel, d'identifier les valeurs extrêmes et de comprendre la répartition des observations. Nous vous proposons quelques détails sur ce graphique afin de l'utiliser simplement.

Comment est construit un box-plot

Un box-plot est un graphique simple composé d'un rectangle duquel deux droites sortent afin de représenter certains éléments des données.

Le box-plot ou la fameuse boîte à moustache (3)

  • La valeur centrale du graphique est la médiane (il existe autant de valeur supérieures qu'inférieures à cette valeur dans l'échantillon).
  • Les bords du rectangle sont les quartiles (Pour le bord inférieur, un quart des observations ont des valeurs plus petites et trois quart ont des valeurs plus grandes, le bord supérieur suit le même raisonnement).
  • Les extrémités des moustaches sont calculées en utilisant 1.5 fois l'espace interquartile (la distance entre le 1er et le 3ème quartile).

On peut remarquer que 50% des observations se trouvent à l'intérieur de la boîte.

Les valeurs à l'extérieur des moustaches sont représentées par des points. On ne peut pas dire que si une observation est à l'extérieur des moustaches alors elles est une valeur aberrante. Par contre, cela indique qu'il faut étudier plus en détail cette observation.

Ce que l'on peut représenter en plus dans un box-plot

Le box-plot ou la fameuse boîte à moustache (4)

On voit souvent apparaître des box-plot avec des formes différentes ou des signes supplémentaires, en voici quelques uns :

  • La croix rouge dans la boîte : lorsqu'une croix rouge apparaît dans le box-plot, il s'agit toujours d'une représentation de la moyenne sur l'échantillon étudié.
  • Des boîtes ayant des largeurs variables : il arrive souvent que les boîtes n'aient pas la même taille (en largeur), il ne s'agit pas d'une simple transformation esthétique, la largeur est alors proportionnelle à la taille de l'échantillon. Ceci est spécialement intéressant dans le cas de comparaison de groupes d'observations pour lesquelles la taille des groupes n'est pas hom*ogène.
  • Des boîtes avec une boîte qui se ressert autour de la médiane (notched) : Cette représentation permet de visualiser un intervalle de confiance à 95% autour de la médiane. Les points où la boîte se ressert représentent les bornes de cet intervalle.
    On le calcule avec la formule suivante :
    médiane +/- 1.57 * (Q3-Q1)/racine(N)
    avec Q1 1er quartile, Q3 3ème quartile et N taille de l'échantillon./li>

Comme on peut le voir dans le box plot représenté avec R, toutes ces options peuvent être ajoutées simultanément au box-plot.

Quand utiliser un box-plot

Il est intéressant d'utiliser les box-plot lorsqu'on désire visualiser des conepts tels que la symétrie, la dispersion ou la centralité de la distribution des valeurs associées à une variable.
Ils sont aussi très intéressant pour comparer des variables basées sur des échelles similaires et pour comparer les valeurs des observations de groupes d'individus sur la même variable.

Les box-plot dans R

R vous permet de dessiner des box-plots de manière simple et rapide grâce à la fonction boxplot. Ainsi si on prend les données iris se trouvant dans R, on dessine un box-plot standard en utilisant les 4 variables quantitatives du jeu de données :

data(iris)boxplot(iris[1:4])

Si on désire utiliser une variable qualitative comme variable de groupe, on peut utiliser le code suivant :

boxplot(iris$Sepal.Length~iris$Species)

On utilise donc une formule permettant de représenter les box-plots associés à chaque espèce d'iris pour la longueur des sépales.

Pour représenter un box-plot notched et dont la taille dépend de la taille de chaque échantillon, il suffit d'utiliser le code suivant :

boxplot(iris$Sepal.Length~iris$Species,varwidth = TRUE, notch = TRUE, outline = TRUE)

De nombreuses autres options sont disponibles, vous les trouverez dans cette description de la fonction boxplot.

Les autres logiciels pour les box-plots

Tous les logiciels de statistique et d'analyse de données permettent de dessiner des box-plots.

Les liens intéressants

Des descriptions des boîtes à moustaches peuvent être trouvées sur beaucoup de sites web. En voici quelques unes :

Les références

S'il fallait n'en citer qu'une, ça serait :
John W. Tukey (1977). Exploratory Data Analysis. Addison-Wesley.
Pour la version notched, on peut voir :
John M. Chambers (1983). Graphical methods for data analysis. Wadsworth International Group.

    1. Pingback: Quelles statistiques utiliser pour décrire une variable ? - STAT4DECISION

    2. bouchelaghem

      5 octobre 2016 at 11 h 37 min

      J’ai apprécié cet article et je désir m’abonner à votre newsletter our obtenir plis de contelus

      Reply

    3. Arfang kémo GOUDIABY

      2 juillet 2019 at 16 h 09 min

      Bonjour, je voudrai avoir un ou des scripts qui vont me permettre de représenter dans un boxplot la médiane et la moyenne

      Reply

      1. stat4decision

        3 juillet 2019 at 22 h 58 min

        Bonjour,
        Dans le box plot, la croix rouge représente la moyenne et la barre centrale de la boîte représente la médiane quelle que soit l’outil utilisé.

        Reply

    4. Gilles Puech

      7 août 2019 at 15 h 23 min

      Si les extrémités des moustaches sont calculées en utilisant 1.5 fois l’espace interquartile (la distance entre le 1er et le 3ème quartile), pour quelle raison les longueurs de ces segments ne sont-ils pas identique de part et d’autre de la boîte ?

      Reply

      1. Emmanuel Jakobowicz

        7 août 2019 at 23 h 53 min

        Bonjour,
        Si le minimum ou le maximum est atteint alors la moustache s’arrête, d’où l’aspect non symétrique.

        Reply

    5. diane

      22 août 2019 at 14 h 49 min

      est ce qu’il peut arriver qu’on ait des valeurs négatives pour le minimum Q1-1,5(Q3-Q1)

      Reply

      1. Emmanuel Jakobowicz

        23 août 2019 at 5 h 06 min

        Bonjour Diane,

        La valeur associée à la borne inférieure dépend de vos données. Si vous avez des données négatives, il arrivera souvent que cette borne soit négative.

        Cordialement,

        Emmanuel

        Reply

    6. lolo54

      20 octobre 2021 at 9 h 27 min

      Quelle est l’intérêt de l’extrémité des moustaches ? Comment utilise-t-on cette valeur de 1.5 fois l’espace interquartile ?
      Et, est-ce que c’est toujours cela que ça représente ou parfois, ces extrémités représentent d’autres valeurs ?

      Reply

      1. stat4decision

        20 octobre 2021 at 11 h 18 min

        Bonjour,
        L’intérêt est de repérer les données qui sont au-delà de cet intervalle. On aura souvent tendance à les identifier comme des valeurs extrêmes.
        La distance entre le boîte et l’extrémité représente soit 1.5 fois l’espace interquartile soit la distance au maximum (ou minimum pour la moustache inférieure).
        Bien cordialement,
        Emmanuel

        Reply

    7. caro24

      15 septembre 2022 at 21 h 11 min

      très intéressant

      Reply

    8. Michel Mbuya

      17 octobre 2022 at 22 h 18 min

      Je suis chercheur suis satisfait de la réponse à ma question ,ces recherches m’aideront aux analyses des donneés

      Reply

    Laisser un commentaire

    Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

    Formation statistique et analyse de données

    Prix : 1600 euros HT

    Durée : 3 jours

    Prérequis : pas de prérequis

    Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi

    Des tarifs préférentiels peuvent être accordés suivant votre statut.

    Nous pouvons aussi organiser cette formation dans vos locaux.

    Formation statistique et analyse de données avec XLSTAT

    Prix : 1300 euros HT

    Durée : 3 jours

    Prérequis : avoir déjà utilisé Excel

    Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké

    Des tarifs préférentiels peuvent être accordés suivant votre statut.

    Nous pouvons aussi organiser cette formation dans vos locaux.

    Formation XLSTAT – XLSTAT-R et programmation avec XLSTAT

    Prix : 1000 euros HT

    Durée : 2 jours

    Prérequis : bonne connaissance du logiciel XLSTAT

    Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké

    Des tarifs préférentiels peuvent être accordés suivant votre statut.

    Nous pouvons aussi organiser cette formation dans vos locaux.

    Plus de détails sur cette formation

    Formation équations structurelles à variables latentes

    Prix : 1000 euros HT

    Durée : 2 jours

    Prérequis : Avoir des bases en statistiques et voulant s’initier à ce type de modèles

    Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké

    Des tarifs préférentiels peuvent être accordés suivant votre statut.

    Nous pouvons aussi organiser cette formation dans vos locaux.

    Formation approche PLS (PLS Path Modeling)

    Prix : 1000 euros HT

    Durée : 2 jours

    Prérequis : avoir de bonne connaissance en analyse de données

    Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké

    Des tarifs préférentiels peuvent être accordés suivant votre statut.

    Nous pouvons aussi organiser cette formation dans vos locaux.

    Formation régression PLS

    Prix : 600 euros HT

    Durée : 1 jour

    Prérequis : avoir des connaissances de base en statistique et en analyse de données

    Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké

    Des tarifs préférentiels peuvent être accordés suivant votre statut.

    Nous pouvons aussi organiser cette formation dans vos locaux.

    Formation analyse conjointe (méthodes de trade-off)

    Prix : 1000 euros HT

    Durée : 2 jours

    Prérequis : connaissances de base en statistique

    Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre référencement DataDock et à notre certification Qualiopi.

    Des tarifs préférentiels peuvent être accordés suivant votre statut.

    Nous pouvons aussi organiser cette formation dans vos locaux.

    Plus de détails sur cette formation

    Formation R pour la data science

    Prix :1600 euros HT

    Durée :3 jours

    Public :tous public

    Financement :Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi

    Des tarifs préférentiels peuvent être accordés suivant votre statut.

    Nous pouvons aussi organiser cette formation dans vos locaux.

    Plus de détails sur cette formation

    Formation logiciel R pour utilisateur de SAS

    Prix : 1000 euros HT

    Durée : 2 jours

    Prérequis : connaître le logiciel SAS

    Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké

    Des tarifs préférentiels peuvent être accordés suivant votre statut.

    Nous pouvons aussi organiser cette formation dans vos locaux.

    Formation data mining et machine learning avec R

    Prix :1000 euros HT

    Durée :2 jours

    Prérequis : avoir déjà utilisé R, connaissances de base en statistique.

    Financement :Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké

    Des tarifs préférentiels peuvent être accordés suivant votre statut.

    Nous pouvons aussi organiser cette formation dans vos locaux.

    Plus de détails sur cette formation

    Formation développement d'applications web avec R shiny

    Prix :1100 euros HT

    Durée :2 jours

    Prérequis : Bonne connaissance de R

    Financement :Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi

    Des tarifs préférentiels peuvent être accordés suivant votre statut.

    Nous pouvons aussi organiser cette formation dans vos locaux.

    Formation R pour la cartographie et les SIG

    Prix : 1250 euros HT

    Durée : 2 jours

    Prérequis : connaissance de base de R

    Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké

    Des tarifs préférentiels peuvent être accordés suivant votre statut.

    Nous pouvons aussi organiser cette formation dans vos locaux.

    Formation séries temporelles avec R

    Prix :1100 euros HT

    Durée :2 jours

    Prérequis : Connaissances de base du langage R, pas de connaissances en séries temporelles nécessaires.

    Financement :Toutes nos formations peuvent être prises en charge par l'ensemble des OPCA grâce à notre certification Qualiopi

    Des tarifs préférentiels peuvent être accordés suivant votre statut.

    Nous pouvons aussi organiser cette formation dans vos locaux.

    Plus de détails sur cette formation

    Formation visualisation avec R

    Prix :1000 euros HT

    Durée :2 jours

    Prérequis : Avoir des bases pour l'utilisation du logiciel R

    Financement :Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké

    Des tarifs préférentiels peuvent être accordés suivant votre statut.

    Nous pouvons aussi organiser cette formation dans vos locaux.

    Plus de détails sur cette formation

    Le box-plot ou la fameuse boîte à moustache (2024)
    Top Articles
    Three of Wands Explained - Upright & Reversed Meanings
    Three of Wands Tarot Card Meaning | Astrostyle
    Spasa Parish
    The Machine 2023 Showtimes Near Habersham Hills Cinemas
    Gilbert Public Schools Infinite Campus
    Rentals for rent in Maastricht
    159R Bus Schedule Pdf
    11 Best Sites Like The Chive For Funny Pictures and Memes
    Finger Lakes 1 Police Beat
    Craigslist Pets Huntsville Alabama
    Paulette Goddard | American Actress, Modern Times, Charlie Chaplin
    Red Dead Redemption 2 Legendary Fish Locations Guide (“A Fisher of Fish”)
    What's the Difference Between Halal and Haram Meat & Food?
    Rugged Gentleman Barber Shop Martinsburg Wv
    Jennifer Lenzini Leaving Ktiv
    Havasu Lake residents boiling over water quality as EPA assumes oversight
    Justified - Streams, Episodenguide und News zur Serie
    Epay. Medstarhealth.org
    Olde Kegg Bar & Grill Portage Menu
    Half Inning In Which The Home Team Bats Crossword
    Amazing Lash Bay Colony
    Cato's Dozen Crossword
    Cyclefish 2023
    What’s Closing at Disney World? A Complete Guide
    New from Simply So Good - Cherry Apricot Slab Pie
    Ohio State Football Wiki
    Find Words Containing Specific Letters | WordFinder®
    Abby's Caribbean Cafe
    Joanna Gaines Reveals Who Bought the 'Fixer Upper' Lake House and Her Favorite Features of the Milestone Project
    Pull And Pay Middletown Ohio
    Navy Qrs Supervisor Answers
    Trade Chart Dave Richard
    Sweeterthanolives
    How to get tink dissipator coil? - Dish De
    Lincoln Financial Field Section 110
    1084 Sadie Ridge Road, Clermont, FL 34715 - MLS# O6240905 - Coldwell Banker
    Kino am Raschplatz - Vorschau
    Classic Buttermilk Pancakes
    Pick N Pull Near Me [Locator Map + Guide + FAQ]
    'I want to be the oldest Miss Universe winner - at 31'
    Gun Mayhem Watchdocumentaries
    Ice Hockey Dboard
    Infinity Pool Showtimes Near Maya Cinemas Bakersfield
    Dermpathdiagnostics Com Pay Invoice
    A look back at the history of the Capital One Tower
    Alvin Isd Ixl
    Maria Butina Bikini
    Busted Newspaper Zapata Tx
    Rubrankings Austin
    2045 Union Ave SE, Grand Rapids, MI 49507 | Estately 🧡 | MLS# 24048395
    Upgrading Fedora Linux to a New Release
    Latest Posts
    Article information

    Author: Golda Nolan II

    Last Updated:

    Views: 5849

    Rating: 4.8 / 5 (58 voted)

    Reviews: 89% of readers found this page helpful

    Author information

    Name: Golda Nolan II

    Birthday: 1998-05-14

    Address: Suite 369 9754 Roberts Pines, West Benitaburgh, NM 69180-7958

    Phone: +522993866487

    Job: Sales Executive

    Hobby: Worldbuilding, Shopping, Quilting, Cooking, Homebrewing, Leather crafting, Pet

    Introduction: My name is Golda Nolan II, I am a thoughtful, clever, cute, jolly, brave, powerful, splendid person who loves writing and wants to share my knowledge and understanding with you.