Si en vez de leerlo prefieres escucharlo, puedes hacerlo aquí:
En el capítulo anterior de esta serie sobre los términos estadísticos más habituales, he estado hablando de las ‘medidas de tendencia central’, es decir, media, mediana y moda. Hoy trataré las ‘medidas de dispersión’: rango, varianza y desviación estándar.
¡Vamos con ello!
Medidas de dispersión
Ahora que ya hemos hablado de las medidas de tendencia central, es el momento de abordar otro aspecto crítico en el análisis de datos: la dispersión. Las medidas de dispersión, como el rango, la varianza y la desviación estándar, nos dan información sobre la variabilidad de nuestros datos.
El rango
El más fácil de los tres. El rango es la diferencia entre el valor más alto y el valor más bajo en un conjunto de datos. Es la forma más simple de medir la dispersión y se calcula simplemente restando el valor mínimo del valor máximo.
Por ejemplo, si tienes un conjunto de datos que incluye las edades de un grupo de personas: 12, 15, 20, 24, 30, el rango sería 30 – 12 = 18. Esto significa que la diferencia de edad entre la persona más joven y la más vieja en este grupo es de 18 años.
El rango es una medida de dispersión muy fácil de calcular, pero puede ser muy sensible a los valores extremos. Por ejemplo, si en el grupo anterior se añade una persona de 80 años, el rango aumentaría a 80 – 12 = 68, lo que podría dar una impresión engañosa de la variabilidad de las edades en el grupo. Por esta razón, a menudo se utilizan otras medidas de dispersión, como la varianza o la desviación estándar, que toman en cuenta todos los datos y no solo los valores extremos.
La varianza
La varianza es otra medida de dispersión que nos dice cuán lejos están los valores de su media. Sin embargo, la varianza puede ser un concepto más difícil de entender, ya que matemáticamente se expresa como “el promedio de los cuadrados de las desviaciones de la media”.
Tipos de distribución de probabilidad
Antes de continuar, y para entender mejor la varianza, vamos a introducir otro concepto, los tipos de distribución de probabilidad. Imagina que tienes una bolsa llena de caramelos de diferentes colores: rojos, azules, verdes y amarillos. Si cierras los ojos y metes la mano en la bolsa para sacar un caramelo, ¿podrías predecir de qué color será?
Si en la bolsa hay muchos caramelos rojos y muy pocos caramelos azules, verdes y amarillos, tienes más posibilidades de sacar un caramelo rojo. Eso es lo que llamamos una «distribución de probabilidad»: nos dice cuántas posibilidades hay de que ocurra algo.
Así que si alguien te pregunta: «¿Qué caramelo crees que sacarás si metes la mano en la bolsa?», podrías decir: «Probablemente un caramelo rojo, porque hay muchos más caramelos rojos que de cualquier otro color». Eso es usar la distribución de probabilidad para hacer una predicción.
Y así como hay bolsas con diferentes cantidades de caramelos de cada color, hay diferentes «distribuciones de probabilidad» para diferentes situaciones. Algunas pueden tener la misma cantidad de cada cosa (como una bolsa con la misma cantidad de caramelos de cada color), y otras pueden tener muchas de una cosa y pocas de otra (como nuestra bolsa con muchos caramelos rojos y pocos de los otros colores).
Existen muchas distribuciones de probabilidad:
- Por un lado, las podemos dividir en función de los datos que estamos analizando: distribuciones de probabilidad discretas, cuando los posibles resultados son discretos (es decir, pueden ser contados), por ejemplo, el número de caramelos de la bolsa; y distribuciones de probabilidad continuas, cuando los resultados forman un conjunto continuo (es decir, pueden tomar cualquier valor dentro de un intervalo), por ejemplo, la altura de las personas.
- Estos datos, además, se pueden distribuir de diferente forma. Para los datos discretos tenemos, entre otras, la distribución binomial, la distribución de Poisson y la distribución geométrica; y, para los datos continuos, la distribución normal (también llamada gaussiana), la distribución exponencial y la distribución uniforme.
Todo esto lo trataremos en detalle en otros capítulos.
Ejemplo
Pongamos ahora un ejemplo para entender mejor estos términos. Imagina que estás comparando el tiempo de recorrido diario al trabajo en dos ciudades diferentes. En la Ciudad A, el tiempo de recorrido puede variar entre 20 y 30 minutos. En la Ciudad B, el tiempo de recorrido puede variar entre 5 y 45 minutos. Aunque la media de tiempo de recorrido en ambas ciudades es de 25 minutos, la varianza, como veremos a continuación, en la Ciudad B es mucho mayor que en la Ciudad A, lo que significa que puedes esperar una mayor variabilidad en tu tiempo de recorrido diario.
En este ejemplo, ya sabemos que lo que tenemos es una distribución de probabilidad continua, puesto que estamos hablando de tiempo (recuerda, los datos pueden tomar cualquier valor dentro del intervalo). Para simplificar el ejemplo vamos a suponer que es una distribución uniforme continua, es decir, que los valores de tiempo tienen la misma probabilidad de ocurrir. En la vida real, esto rara vez es el caso para los tiempos de viaje, ya hay muchos factores que pueden hacer que algunos de estos tiempos sean más probables que otros, como el tráfico, el clima, los accidentes, etc.
Es más probable que los tiempos de viaje sigan una distribución diferente, como una distribución normal (donde los tiempos de viaje más comunes están cerca de la media y los tiempos muy cortos o muy largos son menos probables) o una distribución sesgada (donde, por ejemplo, los tiempos más largos son más probables debido a la posibilidad de retrasos inesperados), pero, como estos casos los vamos a ver en un próximo episodio nos vamos a quedar con una versión simplificada donde supondremos, como ya he comentado, que los valores de tiempo tienen la misma probabilidad de ocurrir, o sea, que siguen una distribución uniforme continua.
Para calcular la varianza, en este tipo de distribución, haríamos lo siguiente:
- Al valor superior del rango (el tiempo mayor de desplazamiento, es decir, 30 minutos en la ciudad A y 45 minutos en la ciudad B), le restamos el valor inferior del rango (el tiempo menor de desplazamiento, 20 minutos en la ciudad A y 5 minutos en la ciudad B);
- ahora elevamos el resultado al cuadrado;
- y para terminar lo dividimos entre 12.
¿y por qué entre 12, te preguntarás? El divisor de 12 en esta fórmula proviene de la definición matemática de la varianza para una distribución uniforme. La varianza es el promedio de los cuadrados de las desviaciones de la media. En una distribución uniforme, todos los valores en el intervalo tienen la misma probabilidad, por lo que la media es simplemente el punto medio del intervalo.
Si calculas la varianza de acuerdo con su definición, sumando los cuadrados de las desviaciones de cada valor posible en el intervalo y dividiendo por el número de valores, y luego simplificas la expresión resultante, obtendrás la fórmula que acabamos de aplicar.
La varianza en el primer caso sería de 8,33 minutos2 mientras que en el segundo sería 133,33 minutos2.
Desviación estándar
Una vez calculada la varianza ya podemos obtener fácilmente la desviación estándar. Esta es, probablemente, la medida de dispersión, o variabilidad de los datos, más comúnmente utilizada y se obtiene simplemente haciendo la raíz cuadrada de la varianza.
En el ejemplo anterior, para calcular la desviación estándar deberíamos hacer la raíz cuadrada de la varianza de ambas ciudades, que si recordamos eran 8,33 minutos2 para la ciudad A y 133,33 minutos2 para la ciudad B, lo que da como resultado 2,89 y 11,55 minutos respectivamente.
Te habrás dado cuenta de que la varianza está en “minutos2“, mientras que la desviación estándar está en “minutos”. Esta es una de las ventajas del uso de la desviación estándar: trabajamos con las mismas unidades que los datos, lo que facilita su interpretación.
La desviación estándar en este caso te da una idea de cuánto varían estos tiempos. Una desviación estándar de 2,89 minutos (caso de la ciudad A) indica que, aunque cualquier tiempo entre 20 y 30 minutos es igualmente probable, ya que hemos considerado que tenemos una distribución uniforme continua, los tiempos tienden a variar en alrededor de 2,89 minutos desde el tiempo medio.
Es importante recordar que la desviación estándar es una medida de variabilidad, no de probabilidad. No te dice la probabilidad de que ocurra un evento específico, sino cuánto varían los datos alrededor de la media.
Uso conjunto
Cómo ves, las medidas de tendencia central, que hemos visto en el capítulo anterior, nos dan un punto de referencia, pero no nos dicen nada acerca de cuán dispersos están los datos. En otras palabras, no nos indican cuán alejados están los valores individuales de ese punto de referencia. El rango, la varianza y la desviación estándar son tres medidas de dispersión que nos ayudan a entender la variabilidad de los datos. Cada una tiene sus ventajas y desventajas, y su elección dependerá del contexto y de lo que estés intentando entender de tus datos.
Recuerda que, en el análisis de datos, el contexto es clave. Las medidas de tendencia central nos proporcionan una visión, pero la dispersión nos da una perspectiva más amplia. Y cuando se trata de datos, una visión más amplia a menudo significa una interpretación más precisa y un mejor entendimiento.
Para terminar, vamos a ampliar este punto con un par de ejemplos más:
Ejemplo 1
Imagina que estás pensando en mudarte a una nueva ciudad y estás investigando los costes de vida. Te das cuenta de que las dos ciudades que estás considerando tienen el mismo costo promedio de vida. Pero ¿significa eso que las ciudades son idénticas en términos de costos? No necesariamente.
Si nos fijamos en la dispersión, podríamos ver una historia diferente. Por ejemplo, en la Ciudad A, el costo de la vivienda, los alimentos, el transporte y otras necesidades vitales podrían estar bastante equilibrados. Esto significa que la desviación estándar, que es una medida de dispersión, es bastante baja. Así, aunque algunos costos pueden ser un poco más altos o bajos que el promedio, en general, los costos no varían demasiado.
Por otro lado, en la Ciudad B, quizás los alquileres son muy altos, pero los alimentos y el transporte son baratos. Así, aunque la media del costo de vida pueda ser la misma que en la Ciudad A, la dispersión es mayor en la Ciudad B. Eso significa que podrías terminar gastando mucho más en vivienda de lo que habías previsto, aunque ahorres en otras áreas.
En este caso, aunque la media te proporcionó un buen punto de partida, fue la dispersión la que te proporcionó una imagen más precisa de lo que realmente puedes esperar.
Ejemplo 2
Digamos que tienes dos clases con 20 estudiantes cada una. En ambas clases, la nota media de un examen fue de 7. A primera vista, podrías pensar que las dos clases tienen un rendimiento similar. Sin embargo, si consideramos la dispersión, podríamos descubrir una historia diferente.
En la Clase A, la mayoría de las notas estaban alrededor del 7, con algunas un poco por encima y algunas un poco por debajo. Así, la desviación estándar, que es una medida de dispersión, sería pequeña. Sin embargo, en la Clase B, las notas son más dispersas: algunos estudiantes obtuvieron un 10, pero otros obtuvieron un 4. Aunque la media es la misma que en la Clase A, la desviación estándar es mayor, indicando una mayor dispersión en las notas.
Por lo tanto, sin considerar la dispersión, podríamos haber concluido erróneamente que las dos clases son similares en términos de rendimiento. La media, la mediana y la moda son útiles, pero no nos dan la imagen completa sin las medidas de dispersión.
Estos ejemplos ilustran la importancia de considerar tanto las medidas de tendencia central como las de dispersión al analizar datos. Juntas, proporcionan una imagen más completa y precisa, permitiéndonos tomar decisiones más informadas. Y eso es lo que intentamos hacer en ‘Dato anula relato’: ayudarte a entender los datos para que puedas tomar las mejores decisiones posibles.