Como desmascarar os charlatães de dados

Dicas para identificar os picaretas e neutralizar as suas enganações

Cassie Kozyrkov
10 min readSep 28, 2022

Traduzido por Fernando Barcellos Ximenes a partir do original de Cassie Kozyrkov e editado por Andre Belem

Você já deve ter ouvido falar de analistas de dados, engenheiros de aprendizagem de máquina / inteligência artificial, e estatísticos, mas talvez desconheça o primo rico de todos eles. Está na hora de ser apresentado ao charlatão de dados!

Atraído pelo encanto de um emprego lucrativo, esse picareta acaba fazendo com os que legítimos profissionais de dados sejam vistos com desconfiança pelo mercado.

Imagem: SOURCE

[Está com pressa? Vá até o final do artigo para ler um resumo rápido.]

Os charlatães de dados estão por toda parte

É provável que sua organização tenha abrigado esses falsificadores por anos, mas a boa notícia é que eles são fáceis de identificar se você souber o que procurar.

Os charlatães de dados são mestres na arte de se esconder; é possível que até você mesmo seja um deles sem se dar conta disso. Xiiii …

O primeiro sinal de alerta é a incapacidade de entender que análise de dados e estatística são duas disciplinas muito diferentes. Na próxima seção vou fazer uma breve introdução sobre isso, mas se quiser mergulhar um pouco mais fundo, escrevi um artigo inteiro sobre esse assunto aqui.

Disciplinas diferentes

Enquanto os estatísticos são treinados para inferir o que está além dos dados, os analistas são treinados para explorar o conteúdo de seus conjuntos de dados. Em outras palavras, os analistas tiram conclusões sobre o que está dentro dos dados, enquanto que os estatísticos extraem conclusões sobre o que não está lá.

Os analistas nos ajudam a fazer boas perguntas (geração de hipóteses) enquanto que os estatísticos nos ajudam a encontrar boas respostas (teste de hipóteses).

Existem também alguns papéis híbridos, profissionais capazes de usar ambos os chapéus … mas nunca os dois ao mesmo tempo. Por que não? Um dos princípios centrais da ciência de dados nos diz que, quando estamos lidando com a incerteza, não é válido usar os mesmos pontos de dados para gerar e testar uma hipótese. Quando temos dados limitados, a incerteza nos obriga a escolher entre a estatística e a análise de dados. (Veja a minha explicação aqui.)

Sem a estatística, ficaríamos no escuro, incapazes de decidir se a opinião que construímos tem fundamento.

Sem a análise de dados, estaríamos num voo cego, com poucas chances de controlar o que desconhecemos, pois sequer teríamos consciência do nosso desconhecimento.

Não é uma escolha fácil! Você abre os olhos para a inspiração (analítica) enquanto promete renunciar à satisfação de saber se sua opinião recém-descoberta é válida? Ou começaria a suar frio rezando para que a pergunta que escolheu fazer — meditando sozinho trancado no armário da cozinha sem nenhum dado nas mãos — justifica a resposta rigorosa (estatística) que está prestes a receber através dela?

Mercadores de respostas prontas

A saída que os charlatães utilizam para fugir do dilema é ignorá-lo, enxergando o rosto de Elvis Presley numa batata frita e fingindo surpresa ao constatar que a mesma batata frita se parece com ele. (A lógica do teste de hipóteses estatísticas nos obriga a perguntar se nossos dados trazem surpresas suficientes para fazer com que mudemos de opinião. Mas como poderemos nos surpreender com os dados se já os vimos antecipadamente?)

Para você, estas imagens se parecem com um coelho e um retrato de Elvis Presley? Ou talvez o retrato de um presidente da república? Para se divertir um pouco com este assunto, veja este meu artigo aqui.

Sempre que charlatães percebem um padrão, se inspiram, e depois testam os mesmos dados em busca do mesmo padrão para divulgar os resultados com um ou dois valores de p capazes de legitimar a sua teoria, o que estão fazendo na prática é mentir (para nós, e talvez para si mesmos). Valores-p não têm significado a menos que você declare a sua hipótese ANTES de olhar para os dados.

Os charlatães imitam as ações dos analistas e estatísticos sem compreender seus fundamentos, e isso acaba por prejudicar a reputação de todo o campo da ciência de dados.

Estatísticos de verdade sempre antecipam o que vão fazer

Graças ao prestígio quase místicoque os estatísticos adquiriram como capazes de pensar rigorosamente, as vendas de soluções fajutas na ciência de dados alcançaram picos históricos. É fácil enganar os outros assim, sem ser desmascarado, principalmente quando as vítimas inocentes acreditam que tudo se resume a equações e dados. Um conjunto de dados é um conjunto de dados, certo? Errado. Tudo depende de como ele é usado.

Um conjunto de dados é um conjunto de dados, certo? Errado. Tudo depende de como ele é usado.

Felizmente, para as vítimas potenciais, basta prestar atenção a um único detalhe para que eles sejam desmascarados: os charlatães vendem respostas prontas.

Charlatães vendem respostas prontas — redescobrindo matematicamente fenômenos que já sabem que estão nos dados — enquanto que os estatísticos nos oferecem testes preditivos.

Ao contrário dos charlatães, os bons analistas são exemplos de profissionais de mente aberta, temperando sempre a inspiração dos seus insights com alertas de que, para um mesmo fenômeno observável, as explicações podem ser muitas, enquanto que bons estatísticos tomam o cuidado de declarar, antes de agir, aquilo que pretendem testar.

Os bons analistas são exemplos de profissionais de mente aberta. Ao contrário dos charlatães, nunca tiram conclusões que estejam além dos dados disponíveis.

Os analistas produzem inspiração

Os analistas estão desobrigados de dizer o que pretendem fazer … contanto que não se aventurem além dos dados disponíveis. Se tentarem tirar conclusões sobre coisas que ainda não viram, a coisa muda de figura. Será preciso tirar o chapéu de analista e substituí-lo pelo boné de estatístico. Afinal, seja qual for o nome do seu cargo, não há nada que o impeça de aprender ambos os ofícios, desde que queira. Só não é permitido confundir um com o outro.

Como um charlatão testa hipóteses. Meme: SOURCE.

Ser bom na estatística não significa ser bom em análise de dados, e vice versa. Se alguém tentar convencê-lo de algo diferente, coloque as mãos nos bolsos e proteja a sua carteira. Se essa pessoa disser que você tem permissão para realizar inferências estatísticas sobre dados que já explorou, redobre os cuidados com a carteira.

Escondendo-se atrás de explicações fantasiosas

Se prestar atenção aos charlatães à luz do dia, você vai logo perceber que adoram contar histórias fantasiosas para “explicar” os dados que observaram. Quanto mais acadêmicas elas soarem, melhor. Não importa que essas histórias apenas (super) se ajustem aos dados em retrospectiva.

Quando charlatães fazem isso — e permita-me não economizar nas palavras — eles estão sendo desonestos. Nenhum emaranhado de equações ou afirmativas pseudo-inteligentes será capaz de ocultar o fato de que estão oferecendo nenhuma evidência de que sabem do que estão falando além de seus próprios dados.

Não se impressione com explicações fantasiosas. Para que sejam inferências estatísticas, seria obrigatório declarar o que se pretendia comprovar antes de ver os dados.

Isso é mais ou menos equivalente a demonstrar poderes “psíquicos” olhando primeiro para as cartas na sua mão e depois predizendo quais são elas … pois isso não faria a mínima diferença. Prepare-se para ouvir bobagens sobre como foi a sua expressão facial que revelou as cartas. Este é um exemplo claro de viés retrospectivo e a profissão de ciência de dados está afogada até o nariz nessa falácia.

Os analistas dizem: “Você acabou de comprar uma dama de ouros”. Os estatísticos dizem: “Escrevi minhas hipóteses neste pedaço de papel antes de começarmos. Vamos jogar, observar alguns dados, e ver se estou certo.” Os charlatães dizem: “Eu sabia desde o início que você ia comprar a dama de ouros porque …”. (O aprendizado de máquina diz: “Vou continuar cantando antes de cada jogada e vendo como me saí, uma vez atrás da outra, e posso adaptar minha reação até encontrar uma estratégia que funcione. Mas vou fazer isso com um algoritmo, porque acompanhar cada jogada manualmente é muito chato.”)

Como se proteger dos chalatães

Quando não temos muitos dados para brincar, somos forçados a escolher entre a estatística e a análise.

Repartir os dados é um atalho cultural indispensável.

Felizmente, quando há dados de sobra temos a bela oportunidade de desfrutar tanto da análise de dados quanto da estatística sem fazer falcatruas. Além disso, temos a proteção perfeita contra os charlatães. É o que chamo de repartição dados: na minha opinião, a ideia mais poderosa na ciência de dados.

Nunca leve a sério uma opinião que não tenha sido testada. Em vez disso, use um lote de dados de teste para descobrir quem está falando com conhecimento de causa.

Para se proteger contra os charlatães, basta manter alguns dados de teste longe dos seus olhos espiões, e depois tratar todos os dados restantes como parte da análise (sem levá-los muito a sério). Assim, quando se deparar com uma teoria e se sentir tentado a adotá-la, use-a primeiro para definir o que se pretende comprovar, e depois abra seus dados secretos de teste para verificar se a teoria é absurda. Simples assim!

Tome todo o cuidado do mundo para que ninguém tenha acesso aos dados de teste durante a fase de exploração. Abra apenas os dados exploratórios. Os dados de teste não podem ser usados na fase de análise. Meme: SOURCE

Esta é uma mudança cultural importante se comparada ao que estávamos acostumados na era dos “small data” quando tínhamos que explicar como sabíamos o que sabíamos a fim de convencer timidamente as pessoas de que você, de fato, talvez conhecesse alguma coisa.

As mesmas regras se aplicam à linguagem de máquina / inteligência artificial

Alguns charlatães que se fazem passar por especialistas em ML/AI são fáceis de identificar. Conseguimos pegá-los da mesma maneira que pegaríamos qualquer engenheiro incompetente: as “soluções” que tentam construir fracassam repetidamente em produzir o que prometem. (Um sinal revelador é a falta de experiência com as linguagens de programação e as bibliotecas reconhecidas pelas comunidades de desenvolvedores.)

Mas o que dizer de gente que produz sistemas que parecem funcionar? Como saber se há algo estranho acontecendo? As regras são as mesmas! O charlatão é um personagem sinistro que demonstra o quanto seu modelo funcionou …. sobre os mesmos dados usados para construir o modelo. *vergonha*

Se construiu um sistema de machine learning absurdamente complicado, como saber que se ele é válido? Na verdade, isso só será possível se você mostrar que ele funciona com novos dados aos quais não foi exposto anteriormente.

Não podemos falar em “pre*dição se os dados eram conhecidos antes que ela seja feita.

Quando temos dados suficientes para repartir, não precisamos cercar as fórmulas de elogios para justificar nossos projetos (que é um hábito espalhado por todas as partes, e não apenas na ciência). Podemos então dizer: “O motivo pelo qual sei que funciona é que posso aplicá-lo a um conjunto de dados que nunca vi antes e prever acuradamente o que irá acontecer … e acertar. Uma, duas, dez vezes.”

Testar o seu modelo ou teoria com novos dados é a melhor base de todas para produzir confiança.

Diga antecipadamente o que sua estatística mostrará, ou fique calado

Parafraseando uma frase irônica do economista Paul Samuelson:

Charlatães conseguiram prever exatamente nove das últimas cinco recessões.

Não tenho a menor paciência com os charlatães de dados. Você acha que “sabe” alguma coisa envolvendo as batatas fritas com a cara de Elvis Presley? Não estou nem aí para o quanto a sua opinião se encaixa com suas velhas batatas. Não me impressiono nem um pouco com as filigranas das suas explicações. Quero que você me mostre que sua teoria / seu modelo funcionam (e continuam funcionando) com uma pilha de novas batatas fritas que nunca passaram diante dos seus olhos. Este é o teste definitivo da ousadia das suas opiniões.

Imagem: SOURCE

Um conselho para os profissionais de ciência de dados

Profissionais de ciência de dados, se vocês querem ser levados a sério por quem compreende as ironias deste artigo, parem de se esconder por trás de equações fantasiosas que só fazem dar força a seus vieses humanos. Mostrem a todos o que vocês têm nas mãos. Se quiserem que pessoas bem informadas tratem sua teoria ou modelo como algo mais do que uns poucos versos inspiradores, demonstrem a coragem de revelar às claras como elas funcionariam sobre um conjunto de dados inteiramente novo … na frente de testemunhas!

Um conselho para os executivos

Como executivo você deve se recusar a levar a sério qualquer “insight” até que seja testado sobre novos dados. Se preferir não se dar a esse trabalho, fique com a análise de dados, mas não decida com base nos “insights” — eles são precários e sua confiabilidade não foi testada. Além disso, quando sua organização tiver dados em abundância, não haverá qualquer problema em fazer com que a repartição se torne uma parte central da sua cultura de ciência de dados, tornando-a obrigatória ao nível da infraestrutura, impondo o controle de acesso aos dados de teste destinados à estatística. Esta é uma tática perfeita para cortar o mal da picaretagem pela raiz!

Mais alguns truques

Se quiser conhecer mais um pouco sobre picaretas e charlatães, dê uma olhada neste assunto no Twitter.

Resumo

Quando os dados são poucos para que possam ser repartidos, somente um charlatão de dados tentará atribuir rigor à sua inspiração, vendendo conclusões retrospectivas baseadas na redescoberta matemática de fenômenos que já sabiam estar embutidos nos dados, e alegando que sua surpresa é estatisticamente significativa. Essa atitude os diferencia dos analistas de mente aberta, que se baseiam na inspiração, e dos estatísticos meticulosos, que oferecem provas da sua capacidade preditiva.

Quando houver dados de sobra, acostume-se a repartir os dados para aproveitar o melhor dos dois mundos sem recorrer a falcatruas! Aplique a análise de dados e a estatística separadamente, utilizando subconjuntos de dados diferentes dentro da sua pilha de dados original.

  • Analistas destacam- se pela inspiração e pela mente aberta.
  • Estatísticos primam pela testagem rigorosa.
  • Charlatães nos oferecem conclusões retrospectivas forjadas, que fingem ser uma combinação de análise de dados com estatística.

Obrigado por ler!

Desfrute de mais traduções de ciência de dados em português aqui.

--

--

Cassie Kozyrkov

Head of Decision Intelligence, Google. Hello (multilingual) world! This account is for translated versions of my English language articles. twitter.com/quaesita