Un diagrama de caja o diagrama de caja y bigotes es un método para organizar datos numéricos a lo largo de una sola recta numérica, que puede ser horizontal o vertical. La caja real, cuando la trama es horizontal, se encuentra ligeramente por encima de la línea numérica y se compone de tres líneas verticales, conectadas entre sí por líneas horizontales. Los límites horizontales del cuadro representan el primer y tercer cuartiles (percentiles 25 y 75), separados por la línea media, que es la mediana o el percentil 50 de los datos. A cada lado del diagrama de caja desde el medio de las líneas horizontales, se extienden las líneas verticales, a veces llamadas bigotes. Cuando estos alcanzan los números mínimo y máximo del conjunto de datos, terminan en líneas horizontales más pequeñas, aunque esto puede variar ligeramente según la distribución de los datos.
Hay algunos elementos importantes que componen un buen diagrama de caja y algunos números que la gente necesita saber cuando crea estos gráficos. El primero de ellos se llama resumen de cinco números, a menudo abreviado como cinco num. suma. Esta es una lista del primer y tercer cuartiles, la mediana y los números mínimo y máximo de los datos. En algunas aplicaciones, las personas necesitarán enumerarlos cerca de la parcela, aunque el análisis de una parcela con una buena recta numérica también puede derivar estos números observando las tres líneas horizontales y los bigotes finales. No es una cuestión de la gallina o el huevo para la persona que dibuja un diagrama porque los cinco num. suma. debe usarse para crear la trama.
Las personas también necesitan conocer un número llamado rango intercuartílico (IQR). Restar el primer cuartil del tercer cuartil deriva el IQR, y el uso de diferentes programas informáticos o calculadoras científicas también puede obtener este número y el resumen de cinco números ingresando todos los datos. El IQR es importante porque las líneas que se extienden desde el cuadro generalmente solo se extienden hasta 1.5 veces el IQR. Los datos más allá de ese punto se indican mediante puntos en lugar de una línea continua. Estos puntos a menudo sugieren que los datos tienen valores atípicos.
Existe una variedad de usos para el diagrama de caja. Se pueden dibujar varias gráficas por encima de una recta numérica y se podrían comparar conjuntos de datos similares diferenciados por algún factor importante. Por ejemplo, los científicos o estadísticos pueden registrar la frecuencia cardíaca de hombres y mujeres y luego construir dos diagramas de caja apilados para buscar diferencias significativas en el rango y los cuartiles.
Los diagramas de caja no abordan la frecuencia de los datos. La falta de una escala adicional (vertical u horizontal) omite información sobre los números repetidos, el tamaño del conjunto de datos y la mayoría de los números individuales. La persona que mira un diagrama de caja comprenderá mejor el resumen de cinco números, el rango y si los datos tienen valores atípicos. El tamaño de la caja, la relación de la mediana con los cuartiles y la longitud de los bigotes pueden mostrar si los datos están sesgados, pero no pueden hablar de cosas como la media, la moda o la desviación estándar. Otros gráficos, como los histogramas, pueden ser más útiles cuando las personas quieren representar cosas como la frecuencia o obtener mejores imágenes sobre la distribución de datos.