Was ist die Histogrammverteilung?

Die Histogrammverteilung in der Statistik bezieht sich auf die Muster, Formen und Positionen von univariaten Datenbalken in einem Histogramm. Wie und wo die Balken verteilt sind, lassen sich analysieren und Rückschlüsse auf die Daten ziehen. Die Analyse der Histogrammverteilung ist wichtig, um Merkmale wie Datennormalität, multimodale Verteilungen und verzerrte Daten zu identifizieren.

Ein Histogramm ist eine univariate Datenanzeige, die Rechtecke verwendet, die in der Fläche proportional zu den Klassen- oder Bin-Frequenzen sind, um Datenmerkmale visuell darzustellen. Die Datenpunkte im Histogramm sind in Bins organisiert und die Histogrammverteilung selbst ist eine visuelle Annäherung an die Häufigkeitsverteilung oder Wahrscheinlichkeitsdichtefunktion der Daten. Die Form der Verteilung kann sich basierend auf der Anzahl der Bins ändern.

Die Histogrammverteilungsanalyse wird häufig als qualitative Überprüfung der Datennormalität verwendet. Obwohl es analytische Methoden zur Bestimmung der Normalität gibt, können Histogramme verwendet werden, um eine schnelle und gesunde Überprüfung zu ermöglichen, um Zeit zu sparen. Wenn die Histogrammdaten ungefähr gleichmäßig und auf den Mittelwert zentriert erscheinen, werden die Daten als normal angenommen. Obwohl diese Art der qualitativen Prüfung schnell und relativ einfach ist, ist sie subjektiv und analytische Methoden sollten verwendet werden, wenn ein höherer Genauigkeitsstandard erforderlich ist.

Die Bestimmung, ob ein Datensatz Schiefe aufweist, ist eine weitere Möglichkeit, die Histogrammverteilungsanalyse zu verwenden. Datenschiefe wird als ausgeprägte Asymmetrie in den Daten definiert. Negative Schräglage oder Schrägstellung nach links wird in Datensätzen mit sehr wenigen niedrigen Werten beobachtet. Positive Schiefe oder Rechtsschiefe tritt in Datensätzen mit wenigen hohen Werten auf. Die Beobachtung der Histogrammverteilung kann Ausreißer und verzerrte Daten aufdecken.

Die Form eines Histogramms kann nicht nur die Eigenschaften von Daten mit einem einzigen Modus offenbaren, sondern auch Eigenschaften von multimodalen Daten. Multimodale Datensätze enthalten mehr als einen Modus und zeichnen sich durch Häufigkeitsverteilungen mit mehr als einem Peak oder Maxima aus. Politische Zugehörigkeiten in einer Stadt, Meinungsumfragen zur Zustimmung und Körpergrößen von Bienen sind Beispiele für Datensätze, die multimodal sein können. Das Beobachten der Form des Histogramms und das Notieren der verschiedenen Peaks in multimodalen Daten kann einem Forscher oft mehr Einblick geben als einfache univariate statistische Berechnungen.

Die Analyse der Histogramme und die Verteilung der Daten hängen stark von den gewählten Bin-Größen ab. In der Praxis kann die Anzahl der Bins geschätzt werden, indem die Quadratwurzel der Anzahl der Beobachtungen gezogen wird, obwohl andere Bin-Größen verwendet werden können. Ein Lehrer kann sich beispielsweise dafür entscheiden, Testnoten zu analysieren, indem er Behältergrößen wählt, die Buchstabennoten widerspiegeln.