La boite à moustache se nomme aussi diagramme en boîte, boîte à pattes ou boîte de Tukey (qui l’a inventée en 1977). Dans la langue de Shakespeare, on trouve box-and-whisker plot ou plus simplement box plot.
Cette visualisation est un moyen pratique, assez original et plutôt clair d’afficher visuellement la distribution des données au sein d’une population. Elle permet d’appréhender tant la concentration, que la dispersion, que les valeurs anormales.

La lecture de la boite à moustache

Pour l’œil du profane, la lecture du box plot peut effectivement paraitre assez obscure. Mais elle très simple à lire une fois expliquée.

Cette dataviz se compose généralement de cinq informations :

L’extrémité inférieure peut être, selon le choix de l’analyste, la valeur la plus faible de la population ou, plus couramment, la valeur la plus faible sans tenir compte des valeurs aberrantes (comme c’est le cas pour l’exemple ci-contre).

Le premier quartile – noté Q1 – représente la plus petite valeur de la population, telle qu’au moins 25 % des valeurs soient inférieures ou égales à Q1.

La médiane correspond à Q2 ; c’est à dire qu’il existe autant de valeur supérieures qu’inférieures à cette valeur dans l’échantillon.

Le troisième quartile suit toujours le même principe. Noté Q3, c’est donc la plus petite valeur telle qu’au moins 75 % des valeurs de l’échantillon soient inférieures ou égales celle-ci.

Enfin, le maximum est la valeur la plus grande. Comme pour le minimum, on peut intégrer ou exclure les valeurs aberrantes.

Lorsque les valeurs aberrantes sont exclues du minimum et du maximum, elles sont représentées par des points aux extrêmes.

Composition boite à moustache
Composition d’une boite à moustache

En plus de ces éléments habituels, la boîte à moustache peut s’agrémenter de quelques options supplémentaires :

  • Un point ou une croix, généralement rouge, dans la boîte : cet élément indique la moyenne des valeurs de la population étudiée ;
  • Une largeur variable des boîtes : lorsque plusieurs populations sont comparées, à l’aide de plusieurs boîtes, il est possible de symboliser la taille de l’échantillon par la largeur de la boîte ;
  • Un resserrement de la boite autour de la médiane : il permet de représenter un intervalle de confiance à 95% autour de la médiane. Les points où la boîte se ressert représentent les bornes de cet intervalle.

Cas d’utilisation

Le box plot est particulièrement intéressant lorsque l’on cherche à visualiser la symétrie, la dispersion ou la concentration de la data.
Cette dataviz met aussi en évidence les valeurs aberrantes, qui peuvent être des erreurs ou des anomalies.

Comme nous l’avons vu plus haut, nous pouvons également en disposer plusieurs côte-à-côte afin de comparer la composition de plusieurs populations ou de plusieurs échantillons d’une même population.

En pratique, ça donne quoi ?

Depuis quelques temps, nous explorons les jeux de données publics, mis à disposition de tous.

Pour illustrer nos box plot, nous avons sélectionné un jeu de données issu de l’Assemblée Nationale. Il concentre un certain nombre d’informations sur les députés actuels.
Notre objectif n’est pas de véhiculer des opinion politiques.

Dans ce fichier, nous trouvons plusieurs informations qui nous permettent d’étudier la population de nos députés.

Dans ce premier exemple, nous mettons en relation l’âge des députés avec leur sexe.

Sans grande surprise, nous remarquons que les député masculins sont souvent plus âgés (plus âgé : 79 ans – âge médiant : 50 ans) que les femmes (plus âgée : 77 ans – âge médiant : 49 ans).

L’âge minimum peut sembler plus étonnant : 21 ans pour les députés contre 26 pour les députées.

En revanche, dans cette visualisation, nous ne notons aucune valeur aberrante.

Ce que nous pouvons en conclure :
L’âge est plus concentré pour les députées (il y a moins d’écart entre la valeur minimale et la valeur maximale).
D’ailleurs, la valeur médiane est également plus faible pour les femmes. Cela signifie qu’elles sont globalement plus jeunes que les hommes.

Population des députés, étudiée par âge et par sexe - diagramme à moustache
Etude de l’âge des députés – box plot
Population des députés, étudiée par âge et par groupe - boite à moustache
Etude de l’âge des députés – box plot

Dans ce second exemple, nous étudions la même mesure (l’âge des députés), mais selon une dimension différente. Le groupe politique a remplacé le sexe.

Sans trop entrer dans les détails, il y a ici plusieurs informations qui sautent aux yeux.

Le député le plus âgé appartient au Rassemblement National, pourtant ce groupe est le troisième dont l’âge médian est le plus faible.
Les écologistes sont à la fois le groupe le plus concentré et le plus jeune.
Les députés du groupe Libertés, Indépendants, Outre-mer et Territoires sont les plus âgés et n’ont aucun député de moins de 38 ans.
Enfin, nous notons trois « anomalies » chez les Socialistes et apparentés, qui sont les deux députés de 30 ans et celui de 29 ans (Qlik Sense permet de voir le détail des anomalies en passant le curseur dessus). Bien évidemment, il ne s’agit ici pas d’erreurs, mais simplement de député plus jeunes que la grande majorité.

Voici un nouvel outil de dataviz.
Comme nous avons pu le constater, il a tout à fait sa place en business intelligence car il permet d’étudier plusieurs aspects importants des données.

Si vous être perdus dans tout ce vocabulaire, n’hésitez pas à consulter nos définitions dans cet article !
Nos dataviz sont réalisées à l’aide de la solution Qlik Sense, dont nous sommes intégrateur.

Ensemble, mettons la data au cœur de votre stratégie !
Notre cavalier vous accompagne dans vos démarches de business intelligence.
Ensemble, mettons les données au coeur de votre stratégie, pour des politiques durables et performantes.