¿Qué es la distribución del histograma?

La distribución del histograma en las estadísticas se refiere a los patrones, formas y ubicaciones de las barras de datos univariadas en un histograma. Cómo y dónde se distribuyen las barras se puede utilizar para analizar y sacar conclusiones sobre los datos. El análisis de distribución de histograma es importante para identificar rasgos como la normalidad de los datos, distribuciones multimodales y datos asimétricos.

Un histograma es una visualización de datos univariantes que utiliza rectángulos de área proporcional a las frecuencias de clase o intervalo para mostrar visualmente las características de los datos. Los puntos de datos en el histograma están organizados en contenedores y la distribución del histograma en sí es una aproximación visual de la distribución de frecuencia de los datos o la función de densidad de probabilidad. La forma de la distribución puede cambiar según la cantidad de contenedores.

El análisis de distribución de histograma se utiliza a menudo como una verificación cualitativa de la normalidad de los datos. Aunque existen métodos analíticos para determinar la normalidad, los histogramas se pueden utilizar para proporcionar una verificación rápida y de sentido común para ahorrar tiempo. Si los datos del histograma aparecen aproximadamente uniformes y centrados en la media, se supone que los datos son normales. Aunque es rápido y relativamente fácil, este tipo de verificación cualitativa es subjetiva y se deben utilizar métodos analíticos si se requiere un estándar más alto de precisión.

Determinar si un conjunto de datos muestra asimetría es otra forma en que se puede utilizar el análisis de distribución de histogramas. La asimetría de los datos se define como una asimetría pronunciada en los datos. La desviación negativa, o desviación hacia la izquierda, se observa en conjuntos de datos con muy pocos valores bajos. La desviación positiva, o desviación hacia la derecha, ocurre en conjuntos de datos con pocos valores altos. La observación de la distribución del histograma puede revelar valores atípicos y datos sesgados.

Además de revelar las características de los datos con un solo modo, la forma de un histograma también puede revelar las características de los datos multimodales. Los conjuntos de datos multimodales contienen más de un modo y se caracterizan por distribuciones de frecuencia que tienen más de un pico o máximo. Las afiliaciones políticas en una ciudad, las encuestas de opinión de aprobación y el tamaño del cuerpo de las abejas son ejemplos de conjuntos de datos que pueden ser multimodales. Observar la forma del histograma y notar los diversos picos en los datos multimodales a menudo puede proporcionar al investigador más información que la que proporcionarían los simples cálculos estadísticos univariados.

El análisis de histogramas y la distribución de datos dependen en gran medida de los tamaños de contenedor elegidos. En la práctica, el número de contenedores se puede estimar tomando la raíz cuadrada del número de observaciones, aunque se pueden utilizar otros tamaños de contenedor. Por ejemplo, un maestro puede optar por analizar las calificaciones de las pruebas eligiendo tamaños de contenedores que reflejen las calificaciones en letras.