Una experta en estadística demuestra que las estadísticas son aburridas

De vuelta a lo esencial, con un vocabulario con matices

Cassie Kozyrkov
8 min readMay 21, 2020

Traducido por Esteban Villa-Turek del original por Cassie Kozyrkov (Editado por Carlos Secada)

Estoy a punto de mostrarte una prueba lógica de que las estadísticas son aburridas… para ayudarte a apreciar el sentido de todos esos cálculos sofisticados que los estadísticos como yo hacemos. Como beneficio adicional, esto es más o menos lo que aprenderías el primer día en la mayoría de cursos de Introducción a la Estadística, por lo que sirve también de misión de espionaje para quienes sean unos curiosos de la estadística. Comencemos por revolcarnos en la jerga local.

Esta experta en estadística está a punto de demostrar que las estadísticas son aburridas. Haciendo muecas todo el tiempo: todavía estoy aprendiendo a usar mi cara. Ser humano es difícil. Ven, hazme una mueca aquí si quieres.

Población

¿Qué viene a la mente cuando el ser humano típico piensa en la palabra “población”? La gente, ¿verdad? No solo una persona o dos, sino muchas. ¡Toda la gente! En nuestra disciplina, pensamos más en todas las cosas. Una población puede ser personas, píxeles, calabazas, Pokémons o cualquier otra cosa que te apetezca.

Una población es la colección de todos los ítems que nos interesan.

Detente. Toma un respiro. Estás en presencia de el contrato legal en el corazón de toda investigación.

Este es el trato: al escribir una descripción de tu población, aceptas que solo la población, toda la población, y nada más que la población es interesante para tu decisión. Al seguir leyendo, aceptas estos términos y condiciones. (Como era de esperarse, este blog habla mucho sobre poblaciones. Encuentra más reflexiones aquí).

Si pensar en tu población de interés suena desalentador, recuerda que depende de ti elegir lo que quieres que te interese. No hay elección incorrecta, siempre que seas específico y exhaustivo. Seré tan minuciosa que te daré mil palabras: los árboles en la imagen a continuación son nuestra población de interés para este artículo.

Si mi población son todos los árboles en este bosque, ellos representan todo lo que me importa para esta decisión. Me estoy emocionando con estos árboles. En realidad, para serte muy sincera, la emoción es real: me gusta este gráfico de manera irracional, porque lo he usado en mis conferencias durante muchos años. Permíteme esta equívoca nostalgia solo por esta vez … por supuesto que árboles flotando en algunos planos en el espacio tienen perfecto sentido.

Dado que esta es mi población, debo recordar que no tengo por qué salirme de mi análisis convencida de que he aprendido cosas sobre los árboles en algún otro bosque. Mis hallazgos aplicarán, en el mejor de los casos, a estos árboles. En el peor de los casos, bueno… digamos que hay momentos que forman carácter en la vida de un científico de datos.

¿Algún árbol que no puedas ver aquí? No tiene caso, aburrido. No es parte de nuestra población. ¿Elige un solo árbol? No tiene caso tampoco. Igual de aburrido. No es toda tu población. Solo todos ellos (¡juntos!) son de interés para nosotros. Eso es lo que dice el contrato.

Muestra

Una muestra es cualquier colección de ítems de la población.

La muestra son los datos que tienes y la población son los datos que *desearías* tener.

Cualquiera de estas colecciones de árboles naranjas es una muestra. Espero que tengas alguna intuición sobre cuál es mejor. En un artículo futuro, te contaré todo sobre lo que hace que una muestra sea una buena muestra. Voy a usar el que más irrita a los profesionales por el resto de este ejemplo para probar un argumento.

Observación

Una observación es una medición de un solo ítem en una muestra.

La medición que tomamos de este árbol de etiqueta azul es una observación. Quienes insisten en un lenguaje preciso, notarán que una “muestra” es un sustantivo colectivo para un grupo de observaciones. Técnicamente, “muestras” en plural no significa “observaciones”, significa “múltiples colecciones de observaciones”.

Estadística

¡Ajá! ¡Estadística! ¡Esto es seguramente algo importante, porque nombramos nuestra disciplina en su honor!

Una estadística es cualquier forma de mezclar los datos de una muestra.

Entonces … ¿qué es una estadística? Es una forma de mezclar los datos que tenemos. ¡Qué decepción! Que entren las caras largas. Resulta que una estadística y la disciplina de la estadística son cosas diferentes. Lee todo al respecto aquí.

Ejemplo de una estadística: si estamos interesados en la altura de los árboles, no te sorprendería ver una estadística como la altura promedio de todos estos árboles con etiqueta naranja. Sin embargo, si quisieras, también podrías tomar esas muestras de alturas de árboles, encontrar las tres más altas, sumarlas, tomar su logaritmo, agregarlo a la raíz cuadrada de la diferencia de las dos alturas de los árboles inferiores, pasar toda la nefasta operación por un molino de carne… y ahí tienes, ¡otra estadística! Tal vez útil, tal vez no tanto, pero una estadística al fin y al cabo.

La prueba de que las estadísticas son aburridas

Supongamos que estamos interesados en la altura promedio de los árboles, que resulta ser de 22.5 m para esta muestra. ¿Es este número interesante para nosotros?

Volvamos al contrato que firmamos: solo la población es interesante. ¿Es esta muestra la población? ¡No! Por lo tanto, no nos interesa. Hicimos algunas aburridas mediciones de algunos aburridos árboles, y después desmenuzamos esas aburridas mediciones… el resultado de ese proceso también es aburrido.

Así te he demostrado lo que siempre has sabido en tu corazón: ¡las estadísticas son aburridas! L.Q.Q.D. (Lo que queda demostrado).

¡Nombre inapropiado!

¿Están locos los estadísticos? ¿Por qué nombraríamos nuestra disciplina en honor de algunos números aburridos? En realidad, se trata de un nombre inapropiado.

Según la forma en que usamos los términos en estos días, la analítica es la disciplina que consiste en calcular estadísticas, pero la estadística se trata de ir más allá de esos conjuntos de datos: un salto al mejor estilo de Ícaro hacia lo desconocido (y prepárate para darte de cara si no tienes cuidado). Encuentra más información aquí sobre las diversas subdisciplinas de la ciencia de datos.

El verdadero nombre de nuestra disciplina (en el sentido de un Nombre Verdadero que puedes usar para invocar al mago) sería más rimbombante: la Digestión de las Estadísticas… pero eso suena un poco feo, por lo que lo acortamos a algo más amable. (Con nuestra reputación de mal humor, necesitamos toda la amabilidad que podamos obtener.)

Déjame explicarte.

Parámetro

Que entre la estrella de nuestro show: el parámetro. Esta cosa es tan elegante y tan brillante. Va a recibir un ramo de flores después de la actuación, y por lo general incluso recibirá su propia letra griega (generalmente θ). Puedes pensar en el parámetro como la versión poblacional de una estadística: un parámetro es cualquier forma de reunir todos los datos interesantes, a los que generalmente no tenemos acceso en la vida real.

Un parámetro resume la población para ti.

¿Estamos de acuerdo en que estamos muy emocionados con esos árboles y ahora voy a resumirte todo lo que te interesa? ¡Tranquilo, pequeño corazón! ¡Estás tan emocionado por el parámetro!

Valor del parámetro revelado: la altura promedio real de todos los árboles es de 21.1 metros.

Imagina que es sábado por la mañana y estás parado en medio de un claro en este bosque. Todavía no has medido ningún árbol, pero realmente quieres saber el número, es todo lo que siempre has soñado. (Por el contrato, quiero decir. Puedes volver a ser una persona cuerda con otros intereses en la vida una vez que hayamos terminado con este artículo).

¿Qué se necesitará para conocer el parámetro?

¡Tendrás que medir todos los árboles sin errores! Una vez que hayas hecho eso, ¿Tienes alguna incertidumbre? No, tienes toda la información. Puedes terminar utilizando algo de analítica: simplemente calcula el promedio. Es decir que la estadística es el parámetro porque tu muestra es la población. Estás trabajando con hechos puros y duros. Gracias a que tienes datos perfectos y completos, no se requieren cálculos complicados.

Resulta que vivo en la ciudad de Nueva York (¡por elección!), es decir lo más alejada posible de los árboles. Entonces, la pereza entra en acción cuando me enfrento a una tarea desalentadora como “medir todos esos árboles perfectamente”. Me encantaría conocer este parámetro, pero me digo a mi misma: “¿Realmente necesito conocerlo perfectamente o podría medir solo algunos de los árboles? Tal vez podría salirme con la mía y dar solo una mirada parcial al panorama completo para formar una posible mejor estimación sobre ese parámetro que… sea lo más cercano posible”.

Cuando pienso de esa manera, ¡estoy pensando estadísticamente! Nunca voy a saber la respuesta. Mi pereza significa que tengo que renunciar a obtener hechos o certezas, pero espero terminar con algo que aun sea razonablemente útil para tomar una decisión. Podría incluso transformarlo en una acción razonable. Justamente de eso se trata la disciplina de la estadística.

¿Hacer algo de la nada?

Algunos de ustedes esperan que diga: “¡Con esta fórmula mágica, pueden crear certeza de la incertidumbre!” No, claro que no. No existe la magia que haga algo de la nada.

Cuando no contamos con hechos, todo lo que podemos hacer es combinar datos con suposiciones para tomar decisiones razonables.

Hipótesis

Una hipótesis es una descripción sobre cómo podría verse el universo, pero no tiene por qué ser cierta. Averiguaremos si nuestra muestra hace que nuestra hipótesis parezca ridícula para determinar si debemos cambiar de opinión, pero eso va más allá del alcance de este artículo: retoma el hilo aquí.

Aquí estoy, proponiendo algo de basura desinformada como que “la verdadera altura promedio de todos los árboles es inferior a 20 metros”. Esa es una hipótesis. sabes la verdad (¡yo estoy equivocada!), porque tú eres omnisciente en este ejemplo… pero yo no sé nada. Mi afirmación es una hipótesis perfectamente válida, que describe cómo podría ser la realidad. Veré cómo me siento al respecto después de obtener algunos datos.

Estimación y Estimador

Si conociéramos el parámetro, estaríamos en casa ahora mismo. Es el hecho que estamos buscando, pero desafortunadamente los hechos no siempre están disponibles. Dado que no podemos calcular el parámetro, sólo podemos adivinarlo mediante una estadística.

Una estimación es sólo una palabra elegante para “mejor suposición”.

Una estimación es sólo una palabra elegante para “mejor suposición” sobre el verdadero valor de un parámetro. Es el valor que toma tu suposición, mientras que un estimador es la fórmula que usas para llegar a ese número.

Déjame mostrarte que ya eres excepcional para la estimación estadística. ¿Listo?

Supongamos que todo lo que sabes es que uno de los árboles tiene 23 metros de altura. ¿Podrías darme tu estimación de la altura promedio real de todos los árboles?

¿23 metros? ¡Sí, la mía también!

Tendríamos que adivinar 23 metros si esta fuese nuestra única información: si adivinamos algo diferente, estaríamos inventando cosas. 23 metros es todo lo que sabemos, así que tenemos que estimar 23 metros. Para obtener algo más, tendríamos que incorporar más información (que no tenemos en este ejemplo) o tendríamos que hacer suposiciones… momento en el cual estaríamos nuevamente tratando con algo más que hechos.

Muy bien, ¡ahora intentemos de nuevo! Digamos que tenemos una muestra y todo lo que sabemos sobre ella es que tiene un promedio de 22.5 metros para la altura. ¿Cuál sería tu mejor suposición ahora?

¿22.5m? ¡Vaya! ¡Eres tan bueno en esto que ni siquiera necesitas un curso!

Aqui esta el resumen de varios capítulos de libros de texto de estadística, que abarcan el método de momentos, la estimación por máxima verosimilitud y todos sus primos: ¡resulta que la respuesta al final del arco iris de las pruebas es la misma respuesta a la que acabas de llegar intuitivamente! En más del 99% de los casos que encuentras en la vida real, simplemente tratando tu muestra como si fuera tu población y siguiendo lo que sea que haya en ella es como obtienes la mejor suposición. No necesitas ningún curso especial. ¡Tararán, hemos terminado!

Es mentira que siempre necesites la estadística: no es así. Si solo estás intentando adivinar para inspirarte, la analítica es tu mejor opción. Haz caso omiso a esos valores p, no necesitas ese innecesario estrés.

En cambio, puedes elegir vivir según estos principios: más datos (relevantes) son mejores y tu intuición es bastante buena para hacer las mejores suposiciones, pero no para saber qué tan buenas son esas suposiciones… así que mantente humilde.

Sin embargo, no pienses ni por un instante que estoy atacando a mi disciplina. He dedicado más de una década al estudio de la estadística y me gusta pensar que no estoy completamente loca.

Cuando adoptar un enfoque estadístico es útil, es muy útil.

Entonces, ¿cuándo lo necesitas realmente? ¿Cuándo evitarás que te hagas daño? Lee en inglés mi “¿Cuál es el punto de la estadística?” para descubrirlo…

Descubre más acerca de la diferencia entre las subdisciplinas de la ciencia de datos aquí.

Obtén más información sobre ciencia de datos e inteligencia artificial en español aquí.

--

--

Cassie Kozyrkov
Cassie Kozyrkov

Written by Cassie Kozyrkov

Head of Decision Intelligence, Google. Hello (multilingual) world! This account is for translated versions of my English language articles. twitter.com/quaesita

Responses (1)