Supervised learning — Jak wyjaśnić uczenie nadzorowane dziecku (albo szefowi)

3 min readApr 27, 2019

Tłumaczył Dawid Ostrowski na podstawie oryginału Cassie Kozyrkov

Skoro już wiecie co to uczenie maszynowe (ang. Machine Learning — ML), przyjrzyjmy się jego najprostszemu rodzajowi. Moim celem jest sprawić, aby wszyscy ludzie, w (prawie) każdym wieku czuli się komfortowo w obliczu podstawowego żargonu ML: instancji (ang. instance), etykiet (ang. label), właściwości (ang. features), modeli, algorytmów i uczenia nadzorowanego.

Instancje

Uwaga: cztery instancje!

Instancje są również nazywane “przykładami” lub “obserwacjami”.

Tabela danych

Jak wyglądają powyższe przykłady, jeżeli umieścimy je w tabeli? Trzymając się konwencji (bo dobre maniery są czymś dobrym), każdy wiersz odpowiada jednej instancji.

Czyż dane nie są piękne? Co dokładnie oglądamy? Zacznijmy od dwóch specjalnych kolumn: unikatowego identyfikatora (ID) oraz — ponieważ tym razem mamy szczęście — etykiety (label) dla każdej instancji.

Etykiety

Etykieta to poprawna odpowiedź. Jest tym, co chcemy żeby komputer “wypluł”, kiedy pokażemy mu podobne zdjęcie. Niektórzy ludzie, zamiast etykiety (ang. label) preferują terminy: “cel” (ang. target), wyjście (ang. output), lub odpowiedź (ang. response).

Właściwości

A co jest w pozostałych kolumnach? Kolory pikseli. W przeciwieństwie do Was, dla komputera obrazki to liczby, a nie kolorowe kropeczki. Liczby, to wartości odpowiadające kolorom: czerwonemu, zielonemu i niebieskiemu (ang. RGB) składającymi się na poszczególne piksele, w kolejności od lewego górnego rogu obrazka, w dół. Nie wierzycie? Spróbujcie wpisać wartości z mojej tabelki do tego koła kolorów RGB i sprawdźcie jakie kolory otrzymacie. A może chcecie wiedzieć, jak uzyskać wartości wszystkich pikseli z danego zdjęcia? Polecam podglądnąć mój kod tutaj.

A wiecie co jest naprawdę cool? Za każdym razem, kiedy patrzycie na cyfrową fotografię — analizujecie dane i zaczynacie rozumieć coś, co jest przechowywane jako zestaw liczb. Nie ważne kim jesteś i Ty jesteś analitykiem danych! Moja Ty gwiazdo rocka!

I Ty jesteś analitykiem danych!

Wartości kolorów dla poszczególnych pikseli są danymi wejściowymi z których będzie się uczył komputer. Nie jestem fanką ML-owej nazwy dla nich — właściwości — (ang. features), ponieważ to słowo może oznaczać naprawdę przeróżne rzeczy w różnych dyscyplinach nauki. Zdarza się, że używane są również zamiennie słowa “wejścia” (ang. inputs), “zmienne” (ang. variables) czy “predyktory” (ang. predictors).

Model i algorytm

Nasze właściwości (ang. features) sformułują podstawę modelu (gdzie model to tylko “bajerancka” nazwa oznaczająca “przepis”), którego komputer użyje, aby przejść od pikseli i kolorów do etykiet (ang. labels)

Model to tylko bardziej “bajeranckie” słowo oznaczające “przepis”.

Jak to zrobi? To zadanie algorytmu ML. Możecie od kuchni zobaczyć jak działa w moim innym artykule, ale na razie, użyjmy istniejącego już, a jednocześnie wspaniałego algorytmu: Twojego mózgu!

Uczenie nadzorowane

Chciałabym, abyście zostali moim systemem ML. Przyglądnijcie się powyższym instancjom ponownie i zaaplikujcie trochę “uczenia się”! Co to jest?

Sklasyfikuj powyższy obrazek używając wiedzy zdobytej na wcześniejszych przykładach.

“Ugaczaka”? Tak, macie to! To, co przed chwilą zrobiliście, to nadzorowane uczenie, wspaniale! Doświadczyliście najprostszego istniejącego rodzaju uczenia. Jeśli jesteście w stanie opisać problem za pomocą nadzorowanego uczenia, warto to zrobić. Inne rodzaje są trudniejsze… przedstawiam Wam uczenie nienadzorowane.

Podsumowanie: Macie do czynienia z uczeniem nadzorowanym, jeśli algorytm ma przypisaną poprawną etykietę dla każdej instancji. W dalszych krokach, algorytm użyje modelu (przepisu), aby nadać etykiety nowym instancjom, dokładnie tak, jak sami zrobiliście to wcześniej.