Nunca comiences con una hipótesis

Mentiras, malditas mentiras, y Estadística Básica

Cassie Kozyrkov
9 min readJul 23, 2020

Translated por Carlos Secada del original por Cassie Kozyrkov

Establecer pruebas de hipótesis es un baile de salón; sus pasos son acción-acción-mundos-mundos. Tiene un buen ritmo de foxtrot. Desafortunadamente, la mayoría de las personas lo arruinan al empezar con el pie equivocado. Aquí te explico cómo bailarlo bien.

Paso 1: Escribir la acción por defecto

La estadística es la ciencia de cambiar de opinión ante la incertidumbre, así que lo primero que hay que hacer es averiguar qué vas a hacer a menos que los datos te convenzan de lo contrario.

¿Qué te comprometes a hacer si te mantienes en la ignorancia?

Por eso todo comienza con una acción/decisión física que se comprometes a hacer si no reúnes (más) evidencia. Esto se llama tu acción por defecto.

Comenzar se trata de acciones, no de creencias.

Lo que te estoy preguntando es, “¿Qué harás realmente si te alejas y permaneces ignorante de la información?

“Recopilar datos” no es una respuesta adecuada. Te insto a que me digas cuál de las opciones elegirías si te obligara a elegir AHORA MISMO. (Siento haberte gritado.)

Paso 2: Escribir la acción alternativa

Mantendrás tu decisión binaria, enmarcada como “hacer cosa vs. no hacer cosa. Lo que sea que no es tu acción por defecto es tu acción alternativa.

Si lo binario se siente demasiado básico, la asombrosa variedad de formas en tu pantalla dice mucho del poder de las opciones binarias juntas. Cuando necesites tomar una decisión más compleja, puedes combinar varias pruebas de hipótesis. Comencemos con una a la vez.

La primera parte no se trata de creencias

Empezar se trata de acciones, no de creencias. No te estoy preguntando qué crees que sabes, ya que como buen Frecuentista (también conocido como estadístico clásico, seguidor de la filosofía que se enseña en la mayoría de las clases de Estadística Básica) no crees en nada antes de hacer el análisis.

Nada. Crees en la nada. Repítelo conmigo.

Los Bayesianos son diferentes cuando se trata de esto, pero si sientes la justa rabia bayesiana porque estás en desacuerdo filosófico con la lógica aquí, respira hondo y piensa en esto como una lección para conocer a tu enemigo. Pronto hablaremos sobre el estilo de vida Bayesiano.

Por ahora, la pista sobre qué tipo de estadística estás tratando está en la jerga que se habla alrededor. Si escuchas “intervalo de confianza” o “valor p”, hola Frecuentista. Si escuchas “intervalo creíble” o “anterior” o “posterior” (esto no es nada grosero, lo prometo), hola Bayesiano. Si el primero te es más familiar, es porque la mayoría de los programas educativos enseñan el pensamiento Frecuentista antes/en lugar del pensamiento Bayesiano.

Lidiar con la falta de información

Qué acción elegir por defecto no es una pregunta para el nerd de los números. Es una cosa del MBA, que le compete a la persona que toma las decisiones en el equipo. Lo haces basado en el sentido de los negocios mientras meditas en un armario.

Elegir una acción por defecto requiere de conocimiento de negocios y es deber del responsable de la toma de decisiones del equipo.

Te estoy preguntando qué preferirías hacer si permaneces en la ignorancia, así que no necesitas datos para responder a mi pregunta, aunque puede que encuentres inspirador un análisis previo. El análisis de datos exploratorios (EDA por sus siglas en inglés) es una especie de meditación guiada, por así decirlo. Es una herramienta para ayudar a los tomadores de decisiones a través de esta parte. Lee esto si deseas profundizar en cómo los analistas y los tomadores de decisiones trabajan juntos.

EDA es bastante útil … si puedes permitirtelo. El precio es que todos los datos que usas para ello, tienen que ser enviados desde donde orbitan antes de que llegues a la parte de la estadística. Para los equipos que no están al día con los datos, excluir cualquiera de ellos de la inferencia es demasiado costoso. Están completamente a merced de la capacidad mental y la capacidad de la lluvia de ideas de sus tomadores de decisiones.

Jugar a lo seguro

Imagina una decisión sobre el lanzamiento de un nuevo producto. La elección típica entre los tomadores de decisiones es ir a lo seguro: no lo lances a menos que los datos te den una buena razón para presionar el botón verde. Si no tienes datos, con alegría dejarás el proyecto en suspenso. Tal vez sea un error, pero bueno, puedes seguir con tu vida. Elegiste la acción por defecto de una manera que hace que apegarse a ella sea el mal menor en lo que respecta a los errores.

La acción por defecto es la opción que encuentras aceptable en la ignorancia.

Otros ejemplos en los que la sociedad considera que la acción por defecto es bastante obvia son: inocencia hasta que se demuestre lo contrario (por defecto = no condenar si no hay pruebas), probar nuevos medicamentos (por defecto = no aprobar si no hay pruebas), y publicación científica (por defecto = no publicar si no hay pruebas).

Si no tienes una acción por defecto, no necesitas sofisticadas estadísticas.

Aunque la verdadera indiferencia es bastante rara en el animal humano, si honestamente estás dispuesto a lanzar una moneda al aire en ausencia de datos, entonces no necesitas estadísticas. Si tu mente no está preparada, no puede ser cambiada. Adelantate y lee esto en su lugar. La inferencia estadística es para la toma de decisiones bajo incertidumbre. Si ya tienes la respuesta, vete a casa.

Siendo irónico sobre esto, el primer paso implica enmarcar tu decisión bajo ninguna información, y espero que te des cuenta que para esto el entrenamiento de un tomador de decisiones es más relevante que el de un matemático.

Tratar con información completa

El siguiente paso en el baile es un poco extraño. El curso de Estadística Básica te lo enseñan como si no fuera nada, pero es un salto mental bastante intenso. Tu trabajo es imaginar todos los estados posibles del mundo. Si, me escuchaste bien.

Esta es una de las tareas de toma de decisiones en el extremo más difícil del espectro. Para ejemplos no triviales (cosas que son un poco más complicadas que los ejemplos de bebés que verás en clase) realmente se necesita mucha disciplina mental, creatividad, flexibilidad y concentración para hacerlo bien.

Tu trabajo es imaginar todos los estados posibles del mundo.

Una vez que haya imaginado todos los mundos paralelos posibles, es hora de poner cada uno de ellos en una de las dos cubetas: llamemos a la Cubeta 1 “Mundos donde estaría feliz de tomar mi acción por defecto” y a la Cubeta 2 “Todos los demás”.

Paso 3: Describir las hipótesis nulas (H0)

Si no te gusta el nombre de 10 palabras para la Cubeta 1, su nombre técnico es hipótesis nula.

Las clases de estadística te enseñan a probar hipótesis, no a formarlas. Tienden a ser pre-hechas para ti en esos exámenes.

Es posible que hayas escuchado descripciones abreviadas de la hipótesis nula como “status quo” o “la aburrida” o “lo que no queremos probar”. Todas estas son cosas sutilmente imprecisas y flojas que un profesor podría enseñarle a un niño universitario de primer año, de sofisticación mental poco fiable. Pero confío en ti para manejar la rareza filosófica, así que ahora sabes que la hipótesis nula describe la colección completa de universos en los que de forma feliz elegirías tu acción por defecto. Tengamos unos momentos de silencio por respeto a la gimnasia mental que pedimos a los que toman las decisiones.

No todo el mundo tiene la flexibilidad mental necesaria para alejarse. Elige a tu tomador de decisiones sabiamente.

Tengamos un rápido recordatorio de dónde estamos parados. El punto aquí es que has establecido las cosas de manera que te comprometas a hacer tu acción por defecto siempre y cuando no sepas nada, sepas sólo un poco, o sepas con absoluta certeza que eres un ciudadano de un universo de hipótesis nulas.

Las hipótesis son como las cucarachas. Cuando ves una, nunca es solo una. Siempre hay más escondidas en algún lugar cercano.

Paso 4: Describir las hipótesis alternativas (H1)

La cubeta 2 es la hipótesis alternativa y pones todas las sobras allí. Es todo lo que podría ser cierto cuando el nulo es falso. Las dos hipótesis son complementos matemáticos, que es otra forma de decir que no hay una tercer cubeta.

En pocas palabras, la hipótesis alternativa es tu respuesta a esto:

“¿Qué haría falta para que cambies de opinión?”

Acción (por defecto) -acción-mundos-mundos: el baile está completo.

Estamos listos para añadir datos, entonces, ¿cuál es el juego allí?

La ciencia de cambiar de opinión

Entre ellas, sus hipótesis cubren todas las posibilidades. No se superponen. Si te convenzo — ¡con datos! — de que vives en uno de los mundos de hipótesis alternativas … Dios mío, ¿qué haces considerando aún la acción por defecto? ¡Alto! Esa no es una elección feliz.

Si los datos te convencen de que vives en el mundo de las hipótesis alternativas, cambia de acción.

Será mejor que cambies de la acción por defecto a la acción alternativa: NO hacer tu acción por defecto. Esto podría derivar en una serie de otras decisiones, pero una cosa es segura: no querras tener nada que ver con la acción por defecto. ¡Los datos te han hecho cambiar de opinión!

Activo versus pasivo

Una gran parte de este contexto de decisión es que desde el primer momento, para ti las acciones no son las mismas. Eres tan abierto de mente como un Frecuentista debería ser, pero eso no significa que no vayas a considerar una de las acciones más sensatas o éticas bajo la ignorancia. Esa es la clave. Si ambas acciones son iguales para ti, lee esto en su lugar.

La acción por defecto es la acción en la que te parece bien caer de forma pasiva, mientras que la acción alternativa es algo de lo que hay que convencerse activamente.

Tratar con información parcial

Si solo tienes una visión parcial de tus datos, tendrás que lidiar con la incertidumbre. Ahí es donde entran los cálculos de probabilidad sofisticados. Se reducen a una frase y es lo mismo siempre, como veremos en el próximo capítulo.

El punto es que nunca sabrás con seguridad cuál de los mundos es tu mundo. Por eso es importante que tu acción por defecto se elija de una manera que refleje con precisión tus valores. ¿Cómo se comprueba? Si has enmarcado las cosas correctamente, un error de Tipo I debería sentirse peor que un error de Tipo II. En otras palabras:

La idea de abandonar incorrectamente tu acogedora zona de confort (acción por defecto) debería ser más dolorosa que la idea de apegarse incorrectamente a ella.

Si eso no es cierto, no has sido realmente honesto contigo mismo acerca de cuál acción es cuál. ¡Volvamos a empezar todo desde el principio!

No hay magia que haga que la incertidumbre sea una certeza.

Las acciones hablan más fuerte

Para poder establecer hipótesis estadísticas, debes saber cuál es tu acción por defecto. Todo se desmorona cuando comienzas en otro lado.

Desafortunadamente, elegir incorrectamente tu acción por defecto es un error común entre aquellos que aprenden las matemáticas sin absorber nada de la filosofía. También es un síntoma de un equipo donde el tomador de decisiones está perdido en la estratósfera y los nerds producen números en masa.

Escoger la acción por defecto incorrectamente es un error dolorosamente común. ¡Está en todas partes!

Una forma segura de prepararse para el fracaso es empezar con las hipótesis en lugar de las acciones. Es un vestigio de la forma en que están estructurados los ejercicios de clases (porque las clases de estadística no te enseñan el papel del que toma las decisiones, esas cosas casi siempre las hace el profesor), pero en la vida real equivale a empezar con el pie izquierdo. Con todo el esfuerzo que estás a punto de poner en el resto, ¿no sería una lástima quemarte justo en la puerta del horno?

Comienza siempre con la acción por defecto.

Si se te antojan estas ideas en forma de ejemplos (¡con extraterrestres!), sigue leyendo aquí.

Si prefieres un ejemplo básico sin matices estadísticos, lee esto.

No te des de bruces desde el principio comenzando con las hipótesis, siempre comienza con la acción por defecto.

Obtén más información sobre ciencia de datos e inteligencia artificial en español aquí.

--

--

Cassie Kozyrkov
Cassie Kozyrkov

Written by Cassie Kozyrkov

Head of Decision Intelligence, Google. Hello (multilingual) world! This account is for translated versions of my English language articles. twitter.com/quaesita

No responses yet