Términos estadísticos: Medidas de tendencia central

Medidas de tendencia central

Si en vez de leerlo prefieres escucharlo, puedes hacerlo aquí:

Inicio una serie donde hablaremos sobre algunos de los términos más comunes que encontrarás en el campo de la estadística. Voy a intentar desmitificar estas palabras y conceptos, y espero que al final de estos episodios tengas una mejor comprensión de lo que realmente significan.

Dividiré el contenido en los siguientes puntos:

  • Medidas de tendencia central
  • Medidas de dispersión
  • Percentiles y cuartiles
  • Correlación y causalidad

Para cada uno de éstos, no sólo los explicaré sino que además pondré algunos ejemplos cotidianos.

Hoy empiezo con las “medidas de tendencia central”, en el siguiente episodio veremos las “medidas de dispersión” y, en el tercero y último de esta serie, hablaré de percentiles, cuartiles, correlación y causalidad. ¡Vamos con ello!

Medidas de tendencia central

Empezaremos con las medidas de tendencia central: media, mediana y moda. En la estadística, estas medidas son formas de describir, en un solo valor, el centro de un conjunto de datos. Veámoslos uno por uno.

Primero está la media aritmética, también conocida como promedio o simplemente media. La media se calcula sumando todos los valores de un conjunto de datos y luego dividiéndolos por la cantidad de valores. Por ejemplo, si tuviste tres pruebas en el colegio y obtuviste calificaciones de 80, 85 y 90, tu calificación media sería la suma de esos tres números dividida por tres, lo que nos da una media de 85.

A continuación, tenemos la mediana. La mediana es el valor del medio cuando se ordenan los datos de menor a mayor. Si tienes un número impar de observaciones, la mediana es simplemente el valor en el medio. Si tienes un número par de observaciones, la mediana es el promedio de los dos valores del medio. Por ejemplo, si los tiempos de llegada de un autobús durante una semana son 5, 6, 7, 8, y 9 minutos, la mediana sería 7 minutos, ya que es el valor en medio de los otros tiempos de llegada.

Por último, pero no menos importante, tenemos la moda. La moda es el valor que ocurre con mayor frecuencia. Por ejemplo, si preguntas a diez amigos cuántas veces visitan la cafetería cada semana y las respuestas son 2, 2, 3, 2, 1, 4, 2, 3, 2 y 1, entonces la moda sería 2, ya que es el número que más veces aparece en la lista.

Estas tres medidas son fundamentales en estadística y cada una puede ofrecer una visión única de tus datos. Sin embargo, es importante recordar que no todas las medidas son apropiadas para todos los conjuntos de datos y cada una tiene sus propias fortalezas y debilidades. Recuerda que incluso las mejores herramientas pueden ser usadas de manera incorrecta o engañosa. Veamos algunos ejemplos de mal uso de estas medidas:

Ejemplo 1:

Imagina que eres dueño de una pequeña empresa y tienes un equipo de cinco empleados. Cuatro de ellos ganan 30.000€ al año, pero el quinto, el CEO, gana 150.000€ al año. Si calculas el salario medio, obtienes 54.000€ al año. Esto podría hacer pensar que tu empresa paga salarios generosos.

Este es un ejemplo de por qué a veces es preferible usar la mediana en lugar de la media. En el caso que nos ocupa, los sueldos de la empresa están sesgados hacia arriba debido al salario mucho más alto del CEO. Si bien la media nos da un valor de 54.000€, esto no refleja con precisión lo que gana la mayoría de los empleados.

La media se ve afectada por los valores extremos, por lo que, si tienes un número que es significativamente más alto o bajo que el resto, puede distorsionar la media y dar una imagen engañosa. En cambio, la mediana, que es el valor que cae en medio de los datos cuando están ordenados de menor a mayor, es más resistente a los valores extremos o atípicos. En este caso, la mediana del salario sería 30.000€, lo que refleja mejor lo que ganan la mayoría de los empleados.

Así, para este tipo de distribuciones, con valores extremos o atípicos, puede ser más apropiado usar la mediana como medida de tendencia central, ya que proporciona una mejor representación del ‘típico’ o el ‘común’ en el conjunto de datos.

Ejemplo 2:

Digamos que estás buscando una casa en un nuevo vecindario y te interesa saber el precio medio de las casas en esa área. Te dicen que la mediana del precio de las casas es de 250.000€.

Esto podría hacer que pienses que la mayoría de las casas cuestan alrededor de esa cifra. Pero no necesariamente es así, puede ser que la mayoría de las casas sean mucho más baratas, pero unas pocas casas extremadamente caras estén elevando la mediana.

En este ejemplo, parece haber una confusión en cuanto a cómo funciona la mediana. La mediana es el valor medio cuando todos los valores se ordenan de menor a mayor. No se ve afectada por los valores extremos, por lo que no puede ser ‘elevada’ por unos pocos valores altos.

Sin embargo, si estás interesado en conocer una imagen más detallada de la distribución de los precios de las casas, podrías querer considerar otras medidas estadísticas además de la mediana. Por ejemplo, si quieres entender la distribución completa de los precios de las casas en ese vecindario, podrías observar el rango de los precios (la diferencia entre el precio más alto y el más bajo), así como la varianza o la desviación estándar, que te darán una idea de cómo se dispersan los precios alrededor de la mediana. Estos temas los veremos un poco más adelante.

Además, si estás interesado en saber qué es lo más común, podrías considerar la moda, que es el valor que aparece con mayor frecuencia en el conjunto de datos.

Como ves, aunque la mediana puede darte una idea general de los precios de las casas en el vecindario, combinarla con otras medidas puede darte una imagen más completa y precisa.

Ejemplo 3:

Pensemos en una tienda de ropa que tiene un gran número de tallas para sus productos. La mayoría de sus clientes compran tallas 36, 38 y 40. Sin embargo, hay un pico en las ventas de la talla 38, por lo que la moda de las tallas vendidas es 38. Usar solo la moda para tomar decisiones sobre qué tallas almacenar podría llevar a la tienda a sobreestimar la demanda de la talla 38, descuidando la necesidad de tener una buena cantidad de tallas más pequeñas y más grandes.

Este es un buen ejemplo de cómo confiar únicamente en una medida de tendencia central puede ser engañoso. En este caso, la moda, que es el tamaño más vendido, es la talla 38. Pero eso no significa que la mayoría de las ventas sean de la talla 38. Solo significa que, de todos los tamaños individuales, la talla 38 es el que más se vende.

Sin embargo, si la tienda quiere tener una visión más completa de la demanda de tallas, debería considerar otras métricas además de la moda. Por ejemplo, la tienda podría considerar el uso de la distribución de frecuencias, que muestra cuántas veces se vende cada talla. Esta medida proporcionaría una visión más completa de las ventas por tallas.

Además, podrían considerar usar otras medidas de tendencia central como la media y la mediana, aunque en este caso, como las tallas son una variable categórica y no numérica, estas medidas pueden no ser tan útiles.

Por último, podría ser interesante analizar los percentiles que proporcionan una medida de la distribución de los datos, ya que esto podría dar una mejor idea de la distribución de las tallas que se venden y ayudar a la tienda a tomar decisiones de inventario más informadas, pero hablaremos de este tema en los siguientes episodios de esta serie.

De hecho, a raíz de estos análisis estadísticos nació la teoría de la ‘cola larga’ o ‘long tail’, acuñada por Chris Anderson en 2004, que habla de la estrategia de negocio de vender una gran variedad de productos únicos en pequeñas cantidades, en lugar de vender solo los productos más populares en grandes volúmenes. En esencia, es la estrategia de atender a muchos nichos de mercado en lugar de concentrarse solo en los mercados masivos.

Para visualizarlo, piensa en un gráfico de distribución. En el eje horizontal, tienes todos tus productos ordenados desde el más vendido hasta el menos vendido. En el eje vertical, tienes la cantidad de ventas. Al principio, verás los productos más vendidos, que representan un alto volumen de ventas. Pero luego, la línea se desplaza hacia la derecha, hacia los productos menos vendidos, formando una ‘cola larga’, y de ahí viene el nombre de esta teoría.

Aunque cada producto individual en la ‘cola’ puede tener pocas ventas, la suma de todas esas ventas puede ser bastante significativa. Además, debido a que hay menos competencia en estos nichos de mercado, las empresas pueden cobrar precios más altos y obtener mayores márgenes de beneficio.

La teoría de la ‘cola larga’ ha sido especialmente relevante en la era de Internet, donde las empresas como Amazon y Netflix han sido capaces de capitalizar la venta de una amplia gama de productos a nichos de mercado específicos. Su éxito demuestra cómo una estrategia de ‘long tail’ o ‘cola larga’ puede ser una ventaja competitiva en el mundo digital de hoy en día.

Bueno, como puedes ver con estos ejemplos, es vital entender la naturaleza de tus datos antes de decidir qué medida de tendencia central es la más apropiada para usar.

En este artículo he hablado de las ‘medidas de tendencia central’. Recuerda que en los siguiente dos capítulos hablaré de:

  • Medidas de dispersión
  • Percentiles y cuartiles
  • Correlación y causalidad