É Assim que você adiciona dados em Ciência de Dados

A ciência de dados evoluiu. Estes 20 milhões de conjuntos de dados são uma prova.

Cassie Kozyrkov
6 min readFeb 27, 2020

Traduzido por Fernando Maximo Ferreira do original de Cassie Kozyrkov e editado por Thomas Chi

(Er, ferramenta errada para pesquisa de dados)

Uma das adições favoritas no Google é o conjunto de dados Search. Sim, isso mesmo, você também pode pesquisar por conjuntos de dados.

Sim, isso mesmo, você também pode pesquisar por conjuntos de dados.

Da mesma forma que você usa o Google para pesquisar imagens ou vídeos, você também pode usá-lo para encontrar conjuntos de dados. São mais de 20 milhões de conjuntos de dados indexados disponíveis, e este número não para de crescer.

Agora que você sabe que a pesquisa por conjuntos de dados existe, não deixe de usar e discutir sobre a importância deste recurso na área de ciência de dados.

Uma Revolução nas análise

Analytics se resume em obter respostas rápidas, utilizando diferentes conjuntos de dados (ao contrário da estatística ou aprendizado de máquina).

Acesso rápido aos dados permite uma melhor análise.

Por este motivo, o Dataset Search pode ser um forte aliado aos analistas e cientistas de dados, aumentando significativamente a velocidade em obter respostas.

Mas e a Qualidade dos Dados?

Se você cresceu em um mundo onde conjunto de dados eram raros, preciosos e de difícil acesso — como a maioria de nós — provavelmente deve estar desconfiado em relação a fonte e qualidade da informação.

E você está certíssimo em ser cético.

Muitos novatos, tendem a adorar todo tipo de dados, especialmente quando estruturado. Não importa a fonte e conteúdo.

Atualmente, muito lixo considerado conjunto de dados está disponível no mecanismo de pesquisa.

Assim como, você provavelmente não confia em tudo que vê ao pesquisar por uma imagem no Google (afinal o Google não é proprietário ou responsável pelas imagens), o mesmo deve acontecer nas pesquisas por conjunto de dados.

A qualidade e veracidade varia e cabe a você pensar criticamente sobre a fonte, antes de acreditar em todo tipo de resultado.

Ou seja, utilizar a fonte como base é a maneira mais eficaz de garantir a confiabilidade e qualidade da informação.

O que é schema.org e como funciona?

A ideia do schema.org nasceu em 2011 pelos operadores dos maiores mecanismos de pesquisa: Google, Bing, Yandex, Microsoft e Yahoo.

Cansados de tentar adivinhar o conteúdo das páginas web, eles decidiram criar um vocabulário comum, onde provedores poderiam usar para descrever as informações de suas páginas. Este vocabulário é indexado no HTML, indicando por exemplo um evento ou endereço.

Ou seja, quando você adiciona sua página web contendo um conjunto de dados ao schema.org, este conjunto de dados se torna elegível para aparecer nos resultados de pesquisas do Dataset Search.

Provedores de dados, usam schema.org para nos dizer que há um conjunto de dados em sua página web e também para descrever o metadado deste conjunto de dados. O schema.org tem sido utilizado por anos, não só pelo Google, mas também por outros mecanismos de pesquisa.

Dataset Search é muito similar a qualquer outro tipo de pesquisa, onde resultados estão limitados apenas às páginas web que afirmam conter um conjunto de dados.

Como participar do compartilhamento de dados?

Por muito tempo, o compartilhamento de dados era algo exclusivo para os grandes fornecedores, como governos e universidades. Não havia espaço para os dados de pequenos fornecedores.

Imagine o seguinte cenário: um grupo de meninas do ensino médio está trabalhando em um projeto extra curricular. Elas estão coletando várias informações que podem ser úteis para outras pessoas interessadas neste trabalho. Então, estimuladas a compartilhar os dados obtidos, adicionaram o conjunto de dados ao website da escola. Mas e agora?

Se o conjunto de dados do grupo não for pesquisável, nunca será encontrado por ninguém.

Talvez após um grande esforço, o grupo de alunas consiga que seus os dados sejam hospedados e mantidos pelo governo, mas provavelmente o conjunto de dados entrará no fim da fila e continuará não sendo encontrado.

Por isto, acredito que o Dataset Search é tão importante. Compartilhar dados sem a necessidade de um intermediário significa que pessoas podem encontrar e fornecer ótimas informações.

Para participar no compartilhamento de dados você deve:

1 — ter um conjunto de dados.

2 — indicar que você contém um conjunto de dados através do schema.org (você mesmo pode fazer isto ou então adicionar em um repositório como o Zenodo que fará isto por você).

Dados pagos e gratuitos

A maioria dos dados encontrados no Dataset Search são obtidos pelo governo, geralmente gratuitos, como dados do clima. Enquanto que dados de pequenos fornecedores (normalmente caros para serem coletados) são mais escassos.

Uma evolução da humanidade

Dataset Search pode ser considerado um símbolo da evolução da humanidade em relação à ciência de dados e à alfabetização de dados.

Estamos crescendo como espécie e estendendo a maneira como utilizamos informações para nos comunicarmos.

Análise de dados está se tornando um jogo para todos.

Costumávamos ficar impressionados com a possibilidade de abrir uma única página na internet, em seguida, de abrir 50 abas em um browser. Agora estamos com fome de algo mais. Queremos conjuntos de dados que possam ser moldados e resumidos rapidamente utilizando ferramentas do tipo Python ou R. A comunidade fluente em dados está cada vez mais exigente. Muitos de nós têm habilidades para entender os dados e não estamos mais satisfeitos com uma página web cheia de textos e fotos. Queremos mais.

A evolução da alfabetização

Para consumir informação como esta que você está lendo bem agora, é preciso um tipo especial de alfabetização. Sua mente deve ser capaz de ler e compreender as palavras aqui escritas. Esta é uma habilidade tão natural que você não reconhece. Se poucas pessoas tivessem essa habilidade, este blog não existiria, nem mesmo o Google.

Da mesma maneira, o Dataset Search representa uma maré alta na democratização da alfabetização de dados. Isto significa que a análise de dados está se tornando uma habilidade natural a todos, não restrita a um pequeno grupo de pessoas.

Dados (conjunto de dados) estão se popularizando como uma forma geral de comunicação — um belo novo idioma, que muitos de nós falamos fluentemente e muitos outros estudam todos os dias.

Para aqueles que falam de dados há muito tempo, é um grande alívio poder obter resultados de pesquisa em nosso idioma. Meu sentimento em relação ao Dataset Search é: FINALMENTE!

Detalhes técnicos para sua diversão:

--

--

Cassie Kozyrkov
Cassie Kozyrkov

Written by Cassie Kozyrkov

Head of Decision Intelligence, Google. Hello (multilingual) world! This account is for translated versions of my English language articles. twitter.com/quaesita

No responses yet