Was sind Histogrammklassen?

Histogrammklassen sind Wertebereiche, die Datenpunkte in einer Häufigkeitsverteilung enthalten, oder eine tabellarische Darstellung von Rohdaten. Sie werden auch als Intervalle, Bins oder Bin-Breiten bezeichnet. In einem Histogramm, einer Art Balkendiagramm, werden diese Klassen als vertikale Spalten dargestellt, wobei die Höhe der Spalte die Anzahl der im Klassenbereich enthaltenen Datenpunkte angibt. Typischerweise wird die Wahl der Histogrammklasse getroffen, um die visuelle Darstellung von Datenstatistiken oder Trends zu verbessern.

Wenn eine große Datenmenge angezeigt werden muss, ist ein Histogramm besonders nützlich, um die Form ihrer Verteilung darzustellen. Ein ganzer Datenbereich wird in Intervalle unterteilt und die Anzahl der Datenpunkte, die in jeden fallen, wird gezählt, um die Klassenhäufigkeit zu ergeben. Der Bereich oder die Breite des Intervalls bestimmt die Anzahl der Histogrammklassen und beeinflusst die Form des Diagramms.

Wenn das Intervall zu groß ist, können wichtige Informationen weggelassen werden, weil die Klassen zu inklusiv sind. Wenn die Wahl der Intervallbreite zu eng ist, kann eine niedrige Klassenhäufigkeit einer eigentlich zufälligen Variation eine unangemessene Bedeutung verleihen. Es gibt mehrere Methoden zum Festlegen einer geeigneten Anzahl von Histogrammklassen für einen Datensatz.

Nach der Regel von Sturgis sollte die Anzahl der Klassen nahe dem Logarithmus zur Basis 2 der Anzahl der Datenpunkte plus eins liegen. Nach der Rice-Regel sollte die Anzahl der definierten Klassen das Doppelte der Kubikwurzel der Anzahl der Datenpunkte sein. Unabhängig davon, welches Verfahren bei der Auswahl der Anzahl der Histogrammklassen verwendet wird, sollten mehrere verschiedene Breiten ausprobiert werden, um die Empfindlichkeit der Histogrammform gegenüber der Klassengröße zu testen. Die richtige Anzahl von Klassen ist diejenige, die die Verteilung der Daten am genauesten abbildet.

Mit der richtigen Anzahl von Histogrammklassen für eine Reihe von Daten sollte eine aussagekräftige grafische Darstellung resultieren, die eine klare Interpretation ermöglicht. Ein Histogramm sollte den Mittelpunkt und die Streuung der Daten, jegliche Schiefe oder Datenasymmetrie sowie Ausreißer oder Datenpunkte zeigen, die außerhalb des erwarteten Wertebereichs liegen. Der Modus oder der am häufigsten vorkommende Wert sollte ebenso ersichtlich sein wie Gruppierungen, die auf eine Mehrfachmodalität hinweisen könnten. Die Histogrammanalyse kann auch auf Fehler im Datenerfassungsprozess hinweisen.

Histogramme, die seit langem in den Finanz- und Sozialwissenschaften verwendet werden, werden in den grafischen Displays der Unterhaltungselektronik immer vertrauter. Die digitale Fotografie ist besonders offen für ihre Verwendung, wobei viele Kameras ein Farbhistogramm enthalten, um den Weißabgleich und die Belichtung anzuzeigen. Ein Histogramm der digitalen Fotografie kann auch Pixel als Histogrammklassen anzeigen, die gegen Graustufen aufgetragen sind.