+33.1.72.25.40.82 | contact | on recrute !
- FR
- ENG
Navigation
- Formations
- Nos formations
- Formation Python
- Formation logiciel R
- Formation Power BI
- Formation DataIku
- Formation machine learning
- Trouver votre formation
- Calendrier des formations
- Nos formations
- Conseil
- Accompagnement IA
- Python – Conseil et développement
- Logiciel R – Conseil et développement
- Power BI – Accompagnement et développement
- Stat4decision partenaire d’Anaconda
- Analyse à la demande
- Références
- A propos
- Qui sommes-nous ?
- FAQ – Foire aux questions
- Partenariats
- Rejoignez-nous
- Le blog
- Contact
- Rechercher
Emmanuel Jakobowicz Mis à jour le : 6 octobre 2020 méthode 13 Comments
Vous avez forcément entendu parler du box-plot que l'on appelle aussi boîte à moustache pour sa forme originale. Ce graphique tout simple permet de résumer une variable de manière simple et visuel, d'identifier les valeurs extrêmes et de comprendre la répartition des observations. Nous vous proposons quelques détails sur ce graphique afin de l'utiliser simplement.
Comment est construit un box-plot
Un box-plot est un graphique simple composé d'un rectangle duquel deux droites sortent afin de représenter certains éléments des données.
- La valeur centrale du graphique est la médiane (il existe autant de valeur supérieures qu'inférieures à cette valeur dans l'échantillon).
- Les bords du rectangle sont les quartiles (Pour le bord inférieur, un quart des observations ont des valeurs plus petites et trois quart ont des valeurs plus grandes, le bord supérieur suit le même raisonnement).
- Les extrémités des moustaches sont calculées en utilisant 1.5 fois l'espace interquartile (la distance entre le 1er et le 3ème quartile).
On peut remarquer que 50% des observations se trouvent à l'intérieur de la boîte.
Les valeurs à l'extérieur des moustaches sont représentées par des points. On ne peut pas dire que si une observation est à l'extérieur des moustaches alors elles est une valeur aberrante. Par contre, cela indique qu'il faut étudier plus en détail cette observation.
Ce que l'on peut représenter en plus dans un box-plot
On voit souvent apparaître des box-plot avec des formes différentes ou des signes supplémentaires, en voici quelques uns :
- La croix rouge dans la boîte : lorsqu'une croix rouge apparaît dans le box-plot, il s'agit toujours d'une représentation de la moyenne sur l'échantillon étudié.
- Des boîtes ayant des largeurs variables : il arrive souvent que les boîtes n'aient pas la même taille (en largeur), il ne s'agit pas d'une simple transformation esthétique, la largeur est alors proportionnelle à la taille de l'échantillon. Ceci est spécialement intéressant dans le cas de comparaison de groupes d'observations pour lesquelles la taille des groupes n'est pas hom*ogène.
- Des boîtes avec une boîte qui se ressert autour de la médiane (notched) : Cette représentation permet de visualiser un intervalle de confiance à 95% autour de la médiane. Les points où la boîte se ressert représentent les bornes de cet intervalle.
On le calcule avec la formule suivante :médiane +/- 1.57 * (Q3-Q1)/racine(N) avec Q1 1er quartile, Q3 3ème quartile et N taille de l'échantillon./li>
Comme on peut le voir dans le box plot représenté avec R, toutes ces options peuvent être ajoutées simultanément au box-plot.
Quand utiliser un box-plot
Il est intéressant d'utiliser les box-plot lorsqu'on désire visualiser des conepts tels que la symétrie, la dispersion ou la centralité de la distribution des valeurs associées à une variable.
Ils sont aussi très intéressant pour comparer des variables basées sur des échelles similaires et pour comparer les valeurs des observations de groupes d'individus sur la même variable.
Les box-plot dans R
R vous permet de dessiner des box-plots de manière simple et rapide grâce à la fonction boxplot. Ainsi si on prend les données iris se trouvant dans R, on dessine un box-plot standard en utilisant les 4 variables quantitatives du jeu de données :
data(iris)boxplot(iris[1:4])
Si on désire utiliser une variable qualitative comme variable de groupe, on peut utiliser le code suivant :
boxplot(iris$Sepal.Length~iris$Species)
On utilise donc une formule permettant de représenter les box-plots associés à chaque espèce d'iris pour la longueur des sépales.
Pour représenter un box-plot notched et dont la taille dépend de la taille de chaque échantillon, il suffit d'utiliser le code suivant :
boxplot(iris$Sepal.Length~iris$Species,varwidth = TRUE, notch = TRUE, outline = TRUE)
De nombreuses autres options sont disponibles, vous les trouverez dans cette description de la fonction boxplot.
Les autres logiciels pour les box-plots
Tous les logiciels de statistique et d'analyse de données permettent de dessiner des box-plots.
Les liens intéressants
Des descriptions des boîtes à moustaches peuvent être trouvées sur beaucoup de sites web. En voici quelques unes :
Les références
S'il fallait n'en citer qu'une, ça serait :
John W. Tukey (1977). Exploratory Data Analysis. Addison-Wesley.
Pour la version notched, on peut voir :
John M. Chambers (1983). Graphical methods for data analysis. Wadsworth International Group.
-
Pingback: Quelles statistiques utiliser pour décrire une variable ? - STAT4DECISION
-
bouchelaghem 5 octobre 2016 at 11 h 37 min
J’ai apprécié cet article et je désir m’abonner à votre newsletter our obtenir plis de contelus
Reply
-
kachalo 28 octobre 2016 at 21 h 20 min
un article interressant!!
Reply
-
Arfang kémo GOUDIABY 2 juillet 2019 at 16 h 09 min
Bonjour, je voudrai avoir un ou des scripts qui vont me permettre de représenter dans un boxplot la médiane et la moyenne
Reply
-
stat4decision 3 juillet 2019 at 22 h 58 min
Bonjour,
Dans le box plot, la croix rouge représente la moyenne et la barre centrale de la boîte représente la médiane quelle que soit l’outil utilisé.Reply
-
-
Gilles Puech 7 août 2019 at 15 h 23 min
Si les extrémités des moustaches sont calculées en utilisant 1.5 fois l’espace interquartile (la distance entre le 1er et le 3ème quartile), pour quelle raison les longueurs de ces segments ne sont-ils pas identique de part et d’autre de la boîte ?
Reply
-
Emmanuel Jakobowicz 7 août 2019 at 23 h 53 min
Bonjour,
Si le minimum ou le maximum est atteint alors la moustache s’arrête, d’où l’aspect non symétrique.Reply
-
-
diane 22 août 2019 at 14 h 49 min
est ce qu’il peut arriver qu’on ait des valeurs négatives pour le minimum Q1-1,5(Q3-Q1)
Reply
-
Emmanuel Jakobowicz 23 août 2019 at 5 h 06 min
Bonjour Diane,
La valeur associée à la borne inférieure dépend de vos données. Si vous avez des données négatives, il arrivera souvent que cette borne soit négative.
Cordialement,
Emmanuel
Reply
-
-
lolo54 20 octobre 2021 at 9 h 27 min
Quelle est l’intérêt de l’extrémité des moustaches ? Comment utilise-t-on cette valeur de 1.5 fois l’espace interquartile ?
Et, est-ce que c’est toujours cela que ça représente ou parfois, ces extrémités représentent d’autres valeurs ?Reply
-
stat4decision 20 octobre 2021 at 11 h 18 min
Bonjour,
L’intérêt est de repérer les données qui sont au-delà de cet intervalle. On aura souvent tendance à les identifier comme des valeurs extrêmes.
La distance entre le boîte et l’extrémité représente soit 1.5 fois l’espace interquartile soit la distance au maximum (ou minimum pour la moustache inférieure).
Bien cordialement,
EmmanuelReply
-
-
caro24 15 septembre 2022 at 21 h 11 min
très intéressant
Reply
-
Michel Mbuya 17 octobre 2022 at 22 h 18 min
Je suis chercheur suis satisfait de la réponse à ma question ,ces recherches m’aideront aux analyses des donneés
Reply
Laisser un commentaire
Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.
Formation statistique et analyse de données
Prix : 1600 euros HT
Durée : 3 jours
Prérequis : pas de prérequis
Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi
Des tarifs préférentiels peuvent être accordés suivant votre statut.
Nous pouvons aussi organiser cette formation dans vos locaux.
Formation statistique et analyse de données avec XLSTAT
Prix : 1300 euros HT
Durée : 3 jours
Prérequis : avoir déjà utilisé Excel
Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké
Des tarifs préférentiels peuvent être accordés suivant votre statut.
Nous pouvons aussi organiser cette formation dans vos locaux.
Formation XLSTAT – XLSTAT-R et programmation avec XLSTAT
Prix : 1000 euros HT
Durée : 2 jours
Prérequis : bonne connaissance du logiciel XLSTAT
Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké
Des tarifs préférentiels peuvent être accordés suivant votre statut.
Nous pouvons aussi organiser cette formation dans vos locaux.
Plus de détails sur cette formation
Formation équations structurelles à variables latentes
Prix : 1000 euros HT
Durée : 2 jours
Prérequis : Avoir des bases en statistiques et voulant s’initier à ce type de modèles
Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké
Des tarifs préférentiels peuvent être accordés suivant votre statut.
Nous pouvons aussi organiser cette formation dans vos locaux.
Formation approche PLS (PLS Path Modeling)
Prix : 1000 euros HT
Durée : 2 jours
Prérequis : avoir de bonne connaissance en analyse de données
Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké
Des tarifs préférentiels peuvent être accordés suivant votre statut.
Nous pouvons aussi organiser cette formation dans vos locaux.
Formation régression PLS
Prix : 600 euros HT
Durée : 1 jour
Prérequis : avoir des connaissances de base en statistique et en analyse de données
Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké
Des tarifs préférentiels peuvent être accordés suivant votre statut.
Nous pouvons aussi organiser cette formation dans vos locaux.
Formation analyse conjointe (méthodes de trade-off)
Prix : 1000 euros HT
Durée : 2 jours
Prérequis : connaissances de base en statistique
Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre référencement DataDock et à notre certification Qualiopi.
Des tarifs préférentiels peuvent être accordés suivant votre statut.
Nous pouvons aussi organiser cette formation dans vos locaux.
Plus de détails sur cette formation
Formation R pour la data science
Prix :1600 euros HT
Durée :3 jours
Public :tous public
Financement :Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi
Des tarifs préférentiels peuvent être accordés suivant votre statut.
Nous pouvons aussi organiser cette formation dans vos locaux.
Plus de détails sur cette formation
Formation logiciel R pour utilisateur de SAS
Prix : 1000 euros HT
Durée : 2 jours
Prérequis : connaître le logiciel SAS
Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké
Des tarifs préférentiels peuvent être accordés suivant votre statut.
Nous pouvons aussi organiser cette formation dans vos locaux.
Formation data mining et machine learning avec R
Prix :1000 euros HT
Durée :2 jours
Prérequis : avoir déjà utilisé R, connaissances de base en statistique.
Financement :Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké
Des tarifs préférentiels peuvent être accordés suivant votre statut.
Nous pouvons aussi organiser cette formation dans vos locaux.
Plus de détails sur cette formation
Formation développement d'applications web avec R shiny
Prix :1100 euros HT
Durée :2 jours
Prérequis : Bonne connaissance de R
Financement :Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi
Des tarifs préférentiels peuvent être accordés suivant votre statut.
Nous pouvons aussi organiser cette formation dans vos locaux.
Formation R pour la cartographie et les SIG
Prix : 1250 euros HT
Durée : 2 jours
Prérequis : connaissance de base de R
Financement : Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké
Des tarifs préférentiels peuvent être accordés suivant votre statut.
Nous pouvons aussi organiser cette formation dans vos locaux.
Formation séries temporelles avec R
Prix :1100 euros HT
Durée :2 jours
Prérequis : Connaissances de base du langage R, pas de connaissances en séries temporelles nécessaires.
Financement :Toutes nos formations peuvent être prises en charge par l'ensemble des OPCA grâce à notre certification Qualiopi
Des tarifs préférentiels peuvent être accordés suivant votre statut.
Nous pouvons aussi organiser cette formation dans vos locaux.
Plus de détails sur cette formation
Formation visualisation avec R
Prix :1000 euros HT
Durée :2 jours
Prérequis : Avoir des bases pour l'utilisation du logiciel R
Financement :Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi et notre statut Datadocké
Des tarifs préférentiels peuvent être accordés suivant votre statut.
Nous pouvons aussi organiser cette formation dans vos locaux.
Plus de détails sur cette formation