Qu’est-ce qu’un box plot ?

Une boîte à moustaches ou un diagramme à moustaches est une méthode d’organisation des données numériques le long d’une seule droite numérique, qui peut être horizontale ou verticale. La boîte réelle, lorsque le tracé est horizontal, se trouve légèrement au-dessus de la droite numérique et se compose de trois lignes verticales, reliées entre elles par des lignes horizontales. Les limites horizontales de la boîte représentent les premier et troisième quartiles (25e et 75e centiles), séparés par la ligne médiane, qui est la médiane ou le 50e centile des données. De chaque côté de la boîte à moustaches à partir du milieu des lignes horizontales, des lignes verticales, parfois appelées moustaches, s’étendent. Lorsque ceux-ci atteignent les nombres minimum et maximum de l’ensemble de données, ils se terminent par des lignes horizontales plus petites, bien que cela puisse varier légèrement en fonction de la diffusion des données.

Il y a quelques éléments importants qui composent un bon diagramme en boîte, et quelques chiffres que les gens doivent connaître lorsqu’ils créent ces graphiques. Le premier d’entre eux est appelé le résumé à cinq chiffres, souvent abrégé en cinq num. somme. Il s’agit d’une liste des premier et troisième quartiles, de la médiane et des nombres minimum et maximum des données. Dans certaines applications, les utilisateurs devront les répertorier à proximité de la parcelle, bien que l’analyse d’une parcelle avec une bonne droite numérique puisse également dériver ces chiffres en examinant les trois lignes horizontales et les moustaches finales. Ce n’est pas une question de poule/œuf pour la personne qui dessine un tracé parce que le cinq num. somme. doit être utilisé pour créer l’intrigue.

Les gens ont également besoin de connaître un nombre appelé intervalle interquartile (IQR). La soustraction du premier quartile du troisième quartile dérive l’IQR, et l’utilisation de différents logiciels ou calculatrices scientifiques peut également obtenir ce nombre et le résumé des cinq nombres en saisissant toutes les données. L’IQR est important car les lignes partant de la boîte ne s’étendent généralement que jusqu’à 1.5 fois l’IQR. Les données au-delà de ce point sont indiquées par des points au lieu d’une ligne continue. Ces points suggèrent souvent que les données ont des valeurs aberrantes.

Une variété d’utilisations existent pour le box plot. Plusieurs tracés peuvent être tracés au-dessus d’une droite numérique et pourraient comparer des ensembles de données similaires différenciés par un facteur important. Par exemple, les scientifiques ou les statisticiens peuvent enregistrer la fréquence cardiaque des hommes et des femmes, puis construire deux diagrammes à moustaches empilés pour rechercher des différences significatives dans la plage et les quartiles.

Les boîtes à moustaches ne traitent pas de la fréquence des données. L’absence d’échelle supplémentaire (verticale ou horizontale) omet les informations sur les nombres répétés, la taille de l’ensemble de données et la plupart des nombres individuels. La personne qui regarde une boîte à moustaches comprendra mieux le résumé des cinq nombres, la plage et si les données ont des valeurs aberrantes. La taille de la boîte, la relation entre la médiane et les quartiles et la longueur des moustaches peuvent indiquer si les données sont asymétriques, mais elles ne peuvent pas parler de choses comme la moyenne, le mode ou l’écart type. D’autres graphiques tels que les histogrammes peuvent être plus utiles lorsque les utilisateurs souhaitent représenter des éléments tels que la fréquence ou obtenir de meilleurs visuels sur la distribution des données.