Populações — Você está fazendo errado
Porque advogados podem ser melhores do que você em estatística
Traduzido por Loredana Villani do original por Cassie Kozyrkov e editado por Andre Belem
Vejamos rapidamente o básico para então termos um pouco de frustração. Em estatística, uma população é a coleção de todos os itens que você tem interesse em estudar (para o propósito de tomar uma decisão fundamentada).
Você deveria pelo menos testar estatística?
Esta resposta é desconhecida até que você tenha claramente em sua cabeça o que a sua população é (e é seu trabalho definir isso). A única razão para que você queira usar uma abordagem estatística — em vez de se guiar pelos fatos — é a existência de incertezas.
A abordagem estatística só faz sentido quando existe uma incompatibilidade entre a informação desejada e a existente.
Em outras palavras, seus dados disponíveis (amostra) não englobam toda a população de interesse. Caso contrário, você estaria lidando com fatos, o que é melhor do que incertezas. (Se você pensa que esta é a maior das obviedades, você nunca teve o prazer de avaliar provas de faculdade.) Fatos significam que você não precisa de estatística — somente analisá-los e seguir com a vida. Dispensamos essas frescuras de p-valor ou intervalos de confiança.
Populações dignas de crédito
Ok, provavelmente você está convencido da importância do conceito de população para a completa prática de estatística.
No salto semelhante ao de Ícaro da amostra para a população, espere se esborrachar se você não souber para onde está mirando.
Agora, deixe-me apresentar um erro clássico que os tomadores de decisão continuam repetindo.
Pense que você é um advogado revisandoum contrato para mim e meus amigos. Te contamos que queremos dar um vale-chocolate no valor de R$250 reais para os nossos usuários. Quando você lê o contrato procurando a descrição das pessoas elegíveis ao prêmio se depara com nada mais nada menos que “todos os usuários”.
Alguma coisa errada aqui?
Não é necessário ser um especialista em Direito para saber que existe um grande problema! Não definimos “todos os usuários”.
O que significa “todos os usuários” mesmo?
Se deixarmos este contrato ir a público antes que tenhamos realmente pensado sobre o significado de “todos os usuários”, seremos pegos de calça curta quando todos os clientes saírem da toca exigindo seu vale-chocolate. E as pessoas que não têm uma conta de usuário mas consomem nosso produto por meio da assinatura de um amigo? Elas contam? E aqueles que usam o produto por um segundo e o dispensam … somente para serem elegíveis ao chocolate? E as pessoas que protestarem por terem utilizado o produto por meio da conta do amigo no passado, sem se registrarem? Damos chocolate para elas? E aqueles que se queixarem porque serão os futuros usuários (mas desejam o chocolate hoje)? Vamos à falência por causa dos vales-chocolate.
Mas que pesadelo! Imagine se, após o contrato aprovado, alguém falar, “Putz, eu não pensei naquilo”. Inaceitável. Nossos amigos advogados nos asseguram que a tarefa aqui é pensar em tudo e estar certo de que o que está escrito é precisamente o que significa. Sem buracos. Quem pega e quem não pega o chocolate é preto no branco.
Para evitar transtornos, confie em seu advogado interior. Ou, melhor ainda, em um exterior, se houver.
Espero que você perceba quão importante é usar descrições legais detalhadas e sem chance de ambiguidade. Detalhe é importante assim em estatística.
Ícaro, não se machuque no salto!
Você optou por estatística porque (1) sua decisão é importante — de outro jeito, você optaria por mineração de dados como um caminho mais rápido para obter insights — e (2) seus dados não contemplam todos os indivíduos nos quais você está interessado, de modo que você está tentando saltar da amostra para a população. Se você não pode nem especificar onde deseja aterrissar, prepare-se para se esborrachar! Aqui, qualquer falta de esclarecimento faz seus esforços se transformarem em absurdos. Terrível quando se está lidando com importantes decisões.
Se você deixa qualquer ponta solta na definição, você prepara sua sentença para o fracasso.
A despeito de todas estas obviedades, continuo vendo tomadores de decisão escrevendo somente “todos os usuários” ao moldarem suas decisões. Isso é desleixo. Em um projeto real, a descrição da população envolve camadas e mais camadas de detalhamento. E a propósito, os tomadores de decisão nem mesmo pensam que refletir profundamente a respeito disso é o trabalho deles.
Conselho para aqueles que trabalham com tomadores de decisão
Se você se deparar com uma descrição vaga de população, não sossegue até que o tomador de decisão faça a lição de casa. O projeto não estará maduro ainda para cálculos sofisticados.
Quando os tomadores de decisão se esquecerem que pensar profundamente é trabalho deles, lembre-os.
Isso vai muito além da definição de população. Há várias tarefas que o tomador de decisão precisa completar antes que a matemática possa ser útil. Passar todo o fim de semana caçando sem descanso alguma questão meio crua que o gestor deixou cair em sua mesa é um erro de iniciante que vejo muitos cientistas de dados juniores repetindo.
Todos os esforços estatísticos que você está tentado a colocar na mesa não fazem nenhum sentido até que o tomador de decisão tenha feito sua lição de casa.
Conselho para tomadores de decisão
Peça para a equipe do departamento Jurídico ajudar — eles provavelmente são melhores em pensar através de sua definição de população do que você. O Direito pode não chamar isto de pensamento estatístico, mas ensina melhor do que um programa de doutorado.
Para a turma do “faça você mesmo”, confie em seu advogado interior: da próxima vez que estiver definindo uma população, pergunte-se, “Está justinho? Um advogado bateria um carimbo de aprovação aqui … ou preciso pensar um pouco mais a fundo?”
Agora que você está letrado em populações, você está pronto para tomar meu auto-teste para experientes em estatística.
Aprenda mais sobre ciência de dados e inteligência artificial em português.