En los capítulos anteriores de esta serie sobre los términos estadísticos más habituales, he hablado de las ‘medidas de tendencia central’ (media, mediana y moda) y de sobre ‘las medidas de dispersión’ (rango, varianza y desviación estándar). Hoy trataré el tema de los ‘percentiles, cuartiles, correlación y causalidad’.
¡Vamos con ello!
Percentiles y cuartiles
Ahora vamos a hablar sobre los percentiles y cuartiles, que son medidas estadísticas que nos dan información sobre la distribución de los datos.
Comencemos con los percentiles. El percentil es una medida que indica el valor por debajo del cual cae un porcentaje específico de observaciones en un grupo de observaciones. Por ejemplo, si sacaste una puntuación de 90 en una prueba y te dijeron que estás en el percentil 90, eso significa que superaste al 90% de los demás que realizaron la prueba.
Una aplicación cotidiana de los percentiles se encuentra en el crecimiento de los niños. Cuando el médico dice que el peso de tu hijo está en el percentil 70, significa que tu hijo pesa más que el 70% de los niños de su edad.
Pero ten cuidado, usar percentiles sin contexto puede ser engañoso. Piensa en el sistema educativo. Es común que los colegios informen del rendimiento de sus alumnos mediante percentiles en ciertas pruebas estandarizadas. Por ejemplo, podrían decir: ‘Nuestros estudiantes están en el percentil 90 en matemáticas a nivel nacional’. A primera vista, esto parece muy impresionante, ya que sugiere que los estudiantes de ese colegio se desempeñan mejor que el 90% de los estudiantes de todo el país.
Sin embargo, este uso de los percentiles puede ser engañoso. Primero, puede ocultar la variabilidad en el rendimiento de los estudiantes dentro de la misma escuela. Por ejemplo, algunos estudiantes pueden estar haciendo un trabajo excepcional, lo que empuja el percentil hacia arriba.
Segundo, la comparación nacional puede no ser la más relevante para todos. Si estás interesado en cómo se compara tu colegio con otros en tu comunidad local o región, el percentil nacional puede no ser muy útil.
Y, por último, las puntuaciones de las pruebas son solo una medida del éxito educativo. No capturan otras habilidades importantes que los estudiantes pueden desarrollar en la escuela, como la capacidad de pensamiento crítico, la creatividad o las habilidades sociales.
Por lo tanto, aunque los percentiles pueden parecer una manera sencilla de entender el rendimiento, es importante recordar que no capturan toda la historia y es esencial tener en cuenta el contexto y las otras medidas.
Ahora hablemos de los cuartiles. Los cuartiles son un tipo especial de percentil. Hay tres cuartiles, denominados primer cuartil (Q1), segundo cuartil (Q2) y tercer cuartil (Q3). Q1 es el percentil 25, Q2 es el percentil 50 y Q3 es el percentil 75.
Por ejemplo, si tienes un conjunto de números, el primer cuartil es el valor por debajo del cual se encuentra el 25% de los datos. El segundo cuartil, que es también la mediana, es el valor por debajo del cual se encuentra el 50% de los datos. Y el tercer cuartil es el valor por debajo del cual se encuentra el 75% de los datos.
Veamos un ejemplo de uso correcto de los cuartiles. Imagina que estás en un equipo de corredores de una carrera de 10 km y quieres entender cómo se comparan los tiempos de todos los corredores en tu equipo. Después de que todos hayan terminado la carrera, puedes organizar los tiempos de todos de menor a mayor y luego encontrar los cuartiles de estos tiempos.
El primer cuartil, o Q1, es el tiempo que separa al 25% más rápido del equipo del resto. Esto significa que el 25% de los corredores en tu equipo terminaron la carrera en un tiempo que es menor o igual a Q1. El segundo cuartil, o Q2, que también es la mediana, es el tiempo que separa a la mitad más rápida del equipo de la mitad más lenta. El 50% de los corredores terminaron la carrera en un tiempo que es menor o igual a Q2. Y finalmente, el tercer cuartil, o Q3, es el tiempo que separa al 75% más rápido del equipo del 25% más lento.
Al observar estos cuartiles, puedes obtener una buena idea de cómo se distribuyen los tiempos de carrera en tu equipo. Por ejemplo, si Q1 y Q2 están muy juntos, pero Q3 es mucho más alto, eso podría sugerir que la mayoría de tu equipo es bastante rápido, pero hay algunos corredores que son significativamente más lentos.
Este uso de los cuartiles es correcto porque nos ayuda a entender la distribución de un conjunto de datos y nos da una imagen clara de cómo se distribuyen los diferentes tiempos de carrera en tu equipo.
Veamos un uso o interpretación incorrecta en el uso de los cuartiles. Imagina que eres padre o madre y estás revisando una tabla de crecimiento que muestra los cuartiles de altura para niños de la misma edad que tu hijo. Ves que tu hijo está en el tercer cuartil (Q3), lo que significa que es más alto que el 75% de los niños de su edad.
Podrías interpretar esto como que tu hijo es ‘alto’ para su edad y asumir que continuará siendo más alto que sus compañeros a medida que crece. Pero esta sería una interpretación incorrecta de lo que realmente representan los cuartiles.
Lo que el tercer cuartil realmente te dice es que, en este momento, tu hijo es más alto que el 75% de los niños de su misma edad. No predice si tu hijo continuará creciendo a un ritmo más rápido que sus compañeros. Además, no tener en cuenta otros factores importantes, como la genética y la nutrición, puede dar una visión simplista e inexacta del crecimiento de tu hijo.
En este caso, usar solo los cuartiles para hacer predicciones a largo plazo sobre la altura de tu hijo podría llevarte a conclusiones incorrectas y potencialmente a tomar decisiones basadas en información incompleta.
Entender cómo y cuándo usar estos términos estadísticos puede ayudarte a interpretar correctamente los datos y a evitar interpretaciones engañosas.
Correlación y causalidad
Vamos a hablar ahora de la correlación y la causalidad, seguro que has oído hablar de ellos.
Primero, definamos los términos. La correlación se refiere a la relación entre dos variables. Si una variable cambia, la otra también lo hace, aunque no necesariamente en la misma dirección. Por otro lado, la causalidad es una relación donde un cambio en una variable provoca directamente un cambio en otra.
Pongamos un ejemplo de correlación correcta. Imagina que eres un profesor y notas que los estudiantes que estudian más horas tienden a obtener calificaciones más altas en los exámenes. Aquí, el tiempo de estudio y las calificaciones están correlacionados.
En el mismo escenario, puedes inferir una relación causal: estudiar más causa que se obtengan calificaciones más altas, ya que estudiar lleva a un mejor entendimiento del material, que a su vez lleva a mejores calificaciones.
Pero ¿dónde puede ir mal esto? Aquí es donde entra el mal uso de correlación y causalidad. Supón que observas una correlación entre el consumo de helado y las tasas de ahogamiento en piscinas. Ambos aumentan durante los meses de verano, pero sería incorrecto inferir que comer helado causa ahogamientos. Esto es una correlación espuria, donde dos variables parecen estar relacionadas, pero no lo están.
En mal análisis de causalidad sería el siguiente. Imagina que todos los días, en tu camino al trabajo, ves a una persona que lleva un sombrero de color verde. Y, por casualidad, esos días siempre llegas temprano a tu trabajo, no encuentras tráfico, tu jefe está de buen humor, y tienes un día productivo y exitoso.
Comienzas a asociar ver a esa persona con el sombrero verde como una señal de un buen día. Llegas a la conclusión de que ver a la persona con el sombrero verde causa un buen día de trabajo. Comienzas a buscar a esta persona en tu camino al trabajo, pensando que de alguna manera influirá en cómo se desarrollará tu día.
Aquí estás confundiendo causalidad con casualidad. En realidad, ver a la persona con el sombrero verde es solo una coincidencia que está ocurriendo al mismo tiempo que tienes un buen día de trabajo. No hay una relación causal; es simplemente casualidad. La presencia de la persona con el sombrero verde no tiene ningún efecto en las condiciones de tráfico, el humor de tu jefe, ni en tu productividad.
De hecho, esto conlleva con frecuencia a una falacia lógica llamada ‘post hoc, ergo propter hoc’, que significa ‘después de esto, por lo tanto, a causa de esto’.
Así que recuerda, la correlación no implica causalidad. Siempre es importante investigar más a fondo para entender la verdadera relación entre dos variables.
Fin
Con este capítulo termino, al menos por ahora, esta serie sobre los términos estadísticos más habituales. Esperamos que esta serie de 3 capítulos te haya ayudado a entender mejor estos conceptos y a interpretar los datos de una manera más informada.