La distribution de l’histogramme dans les statistiques fait référence aux modèles, aux formes et aux emplacements des barres de données univariées sur un histogramme. Comment et où les barres sont distribuées peuvent être utilisées pour analyser et tirer des conclusions sur les données. L’analyse de la distribution de l’histogramme est importante pour identifier des traits tels que la normalité des données, les distributions multimodales et les données asymétriques.
Un histogramme est un affichage de données univariées qui utilise des rectangles proportionnels en aire aux fréquences de classe ou de compartiment pour montrer visuellement les caractéristiques des données. Les points de données dans l’histogramme sont organisés en bacs et la distribution de l’histogramme elle-même est une approximation visuelle de la distribution de fréquence des données ou de la fonction de densité de probabilité. La forme de la distribution peut changer en fonction du nombre de bacs.
L’analyse de la distribution de l’histogramme est souvent utilisée comme contrôle qualitatif de la normalité des données. Bien qu’il existe des méthodes analytiques pour déterminer la normalité, les histogrammes peuvent être utilisés pour fournir une vérification rapide et sensée pour gagner du temps. Si les données de l’histogramme apparaissent à peu près égales et centrées sur la moyenne, les données sont supposées être normales. Bien que rapide et relativement facile, ce type de contrôle qualitatif est subjectif et des méthodes analytiques doivent être utilisées si un niveau de précision plus élevé est requis.
Déterminer si un ensemble de données présente une asymétrie est une autre façon d’utiliser l’analyse de distribution d’histogramme. L’asymétrie des données est définie comme une asymétrie prononcée dans les données. Une inclinaison négative, ou une inclinaison vers la gauche, est observée dans les ensembles de données avec très peu de valeurs faibles. L’asymétrie positive, ou l’asymétrie vers la droite, se produit dans les ensembles de données avec peu de valeurs élevées. L’observation de la distribution de l’histogramme peut révéler des valeurs aberrantes et des données asymétriques.
En plus de révéler les caractéristiques des données avec un seul mode, la forme d’un histogramme peut également révéler les caractéristiques des données multimodales. Les ensembles de données multimodales contiennent plus d’un mode et sont caractérisés par des distributions de fréquence qui ont plus d’un pic ou maximum. Les affiliations politiques dans une ville, les sondages d’opinion et la taille corporelle des abeilles sont des exemples d’ensembles de données qui peuvent être multimodaux. Observer la forme de l’histogramme et noter les différents pics dans les données multimodales peut souvent fournir au chercheur plus d’informations que de simples calculs statistiques univariés.
L’analyse des histogrammes et la distribution des données dépendent fortement des tailles de bac choisies. En pratique, le nombre de classes peut être estimé en prenant la racine carrée du nombre d’observations, bien que d’autres tailles de classes puissent être utilisées. Par exemple, un enseignant peut choisir d’analyser les notes des tests en choisissant des tailles de bac qui reflètent les notes en lettres.