Desmistificando aprendizado não supervisionado
Traduzido por Lia Carrari do original de Cassie Kozyrkov
Aprendizado não supervisionado soa como uma forma bonita de dizer “deixe as crianças aprenderem sozinhas que não devem encostar no forno” mas na verdade é uma técnica de busca de padrões para inspirar mineração de dados. Não tem nenhuma relação com máquinas correndo por aí sem supervisão de um adulto, formando suas próprias opiniões sobre as coisas. Vamos desmistificar!
Esse post é bom para iniciantes, mas assume que que você é familiar com:
- Aprendizado de máquina é basicamente etiquetar coisas com exemplos.
- Se você treinar seu sistema alimentando-o com as respostas que está procurando, você está fazendo aprendizado supervisionado.
- Para começar o aprendizado supervisionado, você precisa saber quais etiquetas você quer. (Não com não o supervisionado.)
- Jargões incluem: instância, variáveis, etiqueta, modelo e algoritmo.
O que é aprendizado não supervisionado?
Veja as seis instâncias acima. O que está faltando? Essas imagens não tem etiquetas. Não se preocupe, seu cérebro é muito bom em aprendizado não supervisionado. Vamos tentar.
Pense em como você dividiria essas imagens em dois grupos. Não existe resposta errada. Pronto?
Agrupando os dados
Em uma aula ao vivo, Googlers me deram respostas como “sentado versus em pé”, “piso de madeira visível versus não visível”, “selfie de gato vs não selfie”, e assim por diante. Vamos examinar a primeira resposta.
Etiquetas secretas do aprendizado não supervisionado
Se você escolhe seus grupos baseado em se os gatos estão em pé, quais são as etiquetas que seu sistema iria gerar? Aprendizado de máquina é praticamente uma etiquetadora de coisas afinal de contas.
Se você está pensando que “sentado vs em pé” são as etiquetas, pense novamente! Essa é a receita (modelo) que você está usando para criar os grupos. As etiquetas em aprendizado não supervisionado são bem mais chatas: algo como “Grupo 1 e Grupo 2” ou “A ou B” ou “0 ou 1”. Eles simplesmente indicam se um elemento é um membro do grupo, e não tem nenhum significado adicional que possa interpretado por um humano (ou poético).
Tudo que acontece aqui é que o algoritmo agrupa coisas por similaridade. A medida de similaridade é especificada pela escolha do algoritmo, mas porque não tentar o maior número possível? Afinal de contas, você não sabe o que está procurando e isso é ok. Pense em aprendizado não supervisionado como uma versão matemática de “farinha do mesmo saco”.
Como um Teste de Rorschach, os resultados estão aí para ajudar você a sonhar. Não leve nada que você ver neles muito a sério.
Olhe novamente!
Como a orgulhosa mãe desses dois gatos, me entristece que em apenas uma das 50 ou mais vezes que ensinei essa classe, apenas uma audiência notou: “Gato 1 versus Gato 2”. Ao invés disso, recebo respostas como “sentado, em pé” ou “piso de madeira/sem piso de madeira” ou às vezes até “gatos feios versus gatos bonitos” (Ahhh.)
Lições aprendidas
Imagine que eu uma sou uma cientista de dados iniciante começando com aprendizado supervisionado e (naturalmente!) interessada em meus dois gatos. Eu não seria capaz de não ver meus gatos enquanto eu olho para os dados. Porquê meus fofinhos significam tanto para mim, eu espero que meu sistema de aprendizado de máquina não supervisionado seja capaz de recuperar a única coisa que merece minha apreciação aqui. Oops!
Antes dessa década, computadores não podiam nem sonhar competir com o melhor buscador de padrões do mundo para essa tarefa: o cérebro humano. Isso é fácil para pessoas! Então por que os milhares de Googlers que viram essas fotos sem etiquetas não responderam “Gato 1 versus Gato 2”?
Pense em aprendizado não supervisionado como uma versão matemática de “farinha do mesmo saco”.
O fato de alguma coisa ser interessante pra mim, isso não significa que meu buscador de padrões vai encontrá-la. Até se o buscador de padrões for impressionante, eu não falei o que estou procurando, então porque eu esperaria que meu algoritmo de aprendizado fosse entregar? Isso não é magia! Se eu não falar quais são as respostas certas… eu não posso ficar triste com o resultado. Tudo que eu posso fazer é olhar para os grupos que o sistema retornou e ver se eu acho algo inspirador. Se eu não gostar, é só rodar outro algoritmo não supervisionado (“Alguma outra pessoa da audiência, agrupe de uma forma diferente”) de novo e de novo até aparecer algo interessante.
Os resultados são como um cartão de Rorschach para ajudar você a sonhar.
Não existe garantia que alguma coisa inspiradora vai aparecer no processo, mas não custa nada tentar. Explorar o desconhecido é pra ser uma aventura, afinal das contas. Divirta-se!
Em futuros episódios, nós veremos histórias do que pode dar errado se você esquecer que as etiquetas são apenas uma inspiração e que não devem ser levadas tão a sério, muito menos serem tratadas como algo que possa ser interpretado por um humano. (Dica: talvez tenha uma menção sobre encontrar Elvis em uma torrada.) Eles estão aí apenas para te dar idéias do que explorar a seguir.
Resumo: Aprendizado não supervisionado ajuda você a encontrar inspiração nos dados agrupando coisas que são similares. Existem diferentes maneiras de definir similaridade, então continue testando algoritmos e configurações até que um padrão legal te chame a atenção.
Aprenda mais sobre ciência de dados e inteligência artificial em português.