Un diagramma a scatola o diagramma a scatola e baffi è un metodo per organizzare i dati numerici lungo una singola linea numerica, che può essere orizzontale o verticale. La scatola vera e propria, quando la trama è orizzontale, si trova leggermente al di sopra della linea dei numeri ed è composta da tre linee verticali, collegate tra loro da linee orizzontali. I limiti orizzontali del riquadro rappresentano il primo e il terzo quartile (25° e 75° percentile), separati dalla linea di mezzo, che è la mediana o 50° percentile dei dati. Su entrambi i lati del box plot dal centro delle linee orizzontali, si estendono linee verticali, a volte chiamate baffi. Quando questi raggiungono il numero minimo e massimo del set di dati, terminano con linee orizzontali più piccole, anche se questo può variare leggermente a seconda della diffusione dei dati.
Ci sono alcuni elementi importanti che costituiscono un buon box plot e alcuni numeri che le persone devono conoscere quando creano questi grafici. Il primo di questi è chiamato il sommario dei cinque numeri, spesso abbreviato come cinque num. somma. Questo è un elenco del primo e del terzo quartile, della mediana e dei numeri minimo e massimo dei dati. In alcune applicazioni, le persone dovranno elencarli vicino al grafico, sebbene l’analisi di un grafico con una buona linea numerica possa anche derivare questi numeri osservando le tre linee orizzontali e i baffi finali. Non è una domanda di pollo/uovo per la persona che disegna una trama perché i cinque num. somma. deve essere utilizzato per creare la trama.
Le persone hanno anche bisogno di conoscere un numero chiamato intervallo interquartile (IQR). Sottraendo il primo quartile dal terzo quartile si ottiene l’IQR e utilizzando software diversi o calcolatori scientifici è possibile ottenere anche questo numero e il riepilogo dei cinque numeri inserendo tutti i dati. L’IQR è importante perché le linee che si estendono dalla scatola di solito si estendono solo per 1.5 volte l’IQR. I dati oltre quel punto sono indicati da punti invece che da una linea continua. Questi punti spesso suggeriscono che i dati hanno valori anomali.
Esiste una varietà di usi per il box plot. Diversi grafici possono essere tracciati sopra una linea numerica e potrebbero confrontare insiemi di dati simili differenziati da qualche fattore importante. Ad esempio, scienziati o statistici potrebbero registrare la frequenza cardiaca di uomini e donne e quindi costruire due box plot impilati per cercare differenze significative nell’intervallo e nei quartili.
I box plot non tengono conto della frequenza dei dati. La mancanza di una scala aggiuntiva (verticale o orizzontale) omette le informazioni sui numeri ripetuti, la dimensione del set di dati e la maggior parte dei singoli numeri. La persona che guarda un box plot comprenderà maggiormente il riepilogo dei cinque numeri, l’intervallo e se i dati hanno valori anomali. La dimensione della scatola, la relazione tra mediana e quartili e la lunghezza dei baffi possono mostrare se i dati sono distorti, ma non possono parlare di cose come media, modalità o deviazione standard. Altri grafici come gli istogrammi possono essere più utili quando le persone vogliono rappresentare cose come la frequenza o ricavare immagini migliori sulla distribuzione dei dati.