Che cos’è la distribuzione dell’istogramma?

La distribuzione dell’istogramma nelle statistiche si riferisce ai modelli, alle forme e alle posizioni delle barre di dati univariate su un istogramma. Come e dove sono distribuite le barre possono essere utilizzate per analizzare e trarre conclusioni sui dati. L’analisi della distribuzione dell’istogramma è importante per identificare tratti come la normalità dei dati, le distribuzioni multimodali e i dati distorti.

Un istogramma è una visualizzazione di dati univariata che utilizza rettangoli proporzionali nell’area alle frequenze di classe o bin per mostrare visivamente le caratteristiche dei dati. I punti dati nell’istogramma sono organizzati in contenitori e la distribuzione dell’istogramma stessa è un’approssimazione visiva della distribuzione di frequenza dei dati o della funzione di densità di probabilità. La forma della distribuzione può cambiare in base al numero di bin.

L’analisi della distribuzione dell’istogramma viene spesso utilizzata come controllo qualitativo per la normalità dei dati. Sebbene esistano metodi analitici per determinare la normalità, gli istogrammi possono essere utilizzati per fornire un controllo rapido e di buon senso per risparmiare tempo. Se i dati dell’istogramma appaiono approssimativamente pari e centrati sulla media, si presume che i dati siano normali. Sebbene rapido e relativamente facile, questo tipo di controllo qualitativo è soggettivo e dovrebbero essere utilizzati metodi analitici se è richiesto uno standard di accuratezza più elevato.

Determinare se un set di dati mostra asimmetria è un altro modo per utilizzare l’analisi della distribuzione dell’istogramma. L’asimmetria dei dati è definita come un’asimmetria pronunciata nei dati. L’inclinazione negativa, o l’inclinazione a sinistra, è visibile in set di dati con pochissimi valori bassi. L’inclinazione positiva, o l’inclinazione a destra, si verifica in set di dati con pochi valori alti. L’osservazione della distribuzione dell’istogramma può rivelare valori anomali e dati distorti.

Oltre a rivelare le caratteristiche dei dati con una singola modalità, la forma di un istogramma può anche rivelare le caratteristiche dei dati multimodali. I set di dati multimodali contengono più di una modalità e sono caratterizzati da distribuzioni di frequenza che hanno più di un picco o massimo. Le affiliazioni politiche in una città, i sondaggi di opinione di approvazione e le dimensioni corporee delle api sono esempi di set di dati che possono essere multimodali. L’osservazione della forma dell’istogramma e l’annotazione dei vari picchi nei dati multimodali possono spesso fornire a un ricercatore maggiori informazioni rispetto a semplici calcoli statistici univariati.

L’analisi degli istogrammi e la distribuzione dei dati dipendono fortemente dalle dimensioni del contenitore scelte. In pratica, il numero di bin può essere stimato prendendo la radice quadrata del numero di osservazioni, sebbene possano essere utilizzate altre dimensioni di bin. Ad esempio, un insegnante può scegliere di analizzare i voti dei test scegliendo le dimensioni dei contenitori che riflettono i voti in lettere.