Que sont les classes d’histogramme ?

Les classes d’histogrammes sont des plages de valeurs qui contiennent des points de données dans une distribution de fréquence ou une tabulation de données brutes. Ils sont également appelés intervalles, casiers ou largeurs de casiers. Dans un histogramme, un type de graphique à barres, ces classes sont représentées sous forme de colonnes verticales où la hauteur de la colonne indique le nombre de points de données contenus dans la plage de classes. En règle générale, le choix de la classe d’histogramme est fait pour améliorer la représentation visuelle des statistiques ou des tendances des données.

Lorsqu’il y a une grande quantité de données à afficher, un histogramme est particulièrement utile pour représenter la forme de sa distribution. Une plage entière de données est décomposée en intervalles et le nombre de points de données tombant dans chacun est compté pour donner la fréquence de classe. La plage, ou largeur, de l’intervalle détermine le nombre de classes d’histogramme et influence la forme du graphique.

Si l’intervalle est trop large, des informations significatives peuvent être omises du fait que les classes sont trop inclusives. Lorsque le choix de la largeur d’intervalle est trop étroit, une fréquence de classe faible peut donner une importance excessive à ce qui est en fait une variation aléatoire. Il existe plusieurs méthodes pour définir un nombre approprié de classes d’histogramme pour un ensemble de données.

Selon la règle de Sturgis, le nombre de classes doit être proche du log de base 2 du nombre de points de données, plus un. En utilisant la règle de Rice, le nombre de classes définies doit être le double de la racine cubique du nombre de points de données. Quelle que soit la méthode utilisée pour sélectionner le nombre de classes d’histogramme, plusieurs largeurs différentes doivent être essayées pour tester la sensibilité de la forme de l’histogramme à la taille de la classe. Le nombre correct de classes est celui qui décrit le plus précisément la distribution des données.

Avec le nombre approprié de classes d’histogramme pour une plage de données, une représentation graphique significative devrait en résulter qui permet une interprétation claire. Un histogramme doit montrer le centre et la répartition des données, toute asymétrie ou asymétrie des données, et les valeurs aberrantes ou points de données se produisant en dehors de la plage de valeurs attendue. Le mode, ou la valeur la plus fréquente, doit être apparent ainsi que les regroupements qui pourraient indiquer une modalité multiple. L’analyse de l’histogramme peut également indiquer des défauts dans le processus de collecte de données.

Longtemps utilisés en finance et en sciences sociales, les histogrammes deviennent de plus en plus familiers dans les affichages graphiques de l’électronique grand public. La photographie numérique est particulièrement ouverte à leur utilisation, de nombreux appareils photo intégrant un histogramme couleur pour indiquer la balance des blancs et l’exposition. Un histogramme de photographie numérique peut également afficher des pixels sous forme de classes d’histogramme tracées par rapport à des nuances de gris.