Supervised learning — Jak wyjaśnić uczenie nadzorowane dziecku (albo szefowi)
Tłumaczył Dawid Ostrowski na podstawie oryginału Cassie Kozyrkov
Skoro już wiecie co to uczenie maszynowe (ang. Machine Learning — ML), przyjrzyjmy się jego najprostszemu rodzajowi. Moim celem jest sprawić, aby wszyscy ludzie, w (prawie) każdym wieku czuli się komfortowo w obliczu podstawowego żargonu ML: instancji (ang. instance), etykiet (ang. label), właściwości (ang. features), modeli, algorytmów i uczenia nadzorowanego.
Instancje
Uwaga: cztery instancje!
Instancje są również nazywane “przykładami” lub “obserwacjami”.
Tabela danych
Jak wyglądają powyższe przykłady, jeżeli umieścimy je w tabeli? Trzymając się konwencji (bo dobre maniery są czymś dobrym), każdy wiersz odpowiada jednej instancji.
Czyż dane nie są piękne? Co dokładnie oglądamy? Zacznijmy od dwóch specjalnych kolumn: unikatowego identyfikatora (ID) oraz — ponieważ tym razem mamy szczęście — etykiety (label) dla każdej instancji.
Etykiety
Etykieta to poprawna odpowiedź. Jest tym, co chcemy żeby komputer “wypluł”, kiedy pokażemy mu podobne zdjęcie. Niektórzy ludzie, zamiast etykiety (ang. label) preferują terminy: “cel” (ang. target), wyjście (ang. output), lub odpowiedź (ang. response).
Właściwości
A co jest w pozostałych kolumnach? Kolory pikseli. W przeciwieństwie do Was, dla komputera obrazki to liczby, a nie kolorowe kropeczki. Liczby, to wartości odpowiadające kolorom: czerwonemu, zielonemu i niebieskiemu (ang. RGB) składającymi się na poszczególne piksele, w kolejności od lewego górnego rogu obrazka, w dół. Nie wierzycie? Spróbujcie wpisać wartości z mojej tabelki do tego koła kolorów RGB i sprawdźcie jakie kolory otrzymacie. A może chcecie wiedzieć, jak uzyskać wartości wszystkich pikseli z danego zdjęcia? Polecam podglądnąć mój kod tutaj.
A wiecie co jest naprawdę cool? Za każdym razem, kiedy patrzycie na cyfrową fotografię — analizujecie dane i zaczynacie rozumieć coś, co jest przechowywane jako zestaw liczb. Nie ważne kim jesteś i Ty jesteś analitykiem danych! Moja Ty gwiazdo rocka!
I Ty jesteś analitykiem danych!
Wartości kolorów dla poszczególnych pikseli są danymi wejściowymi z których będzie się uczył komputer. Nie jestem fanką ML-owej nazwy dla nich — właściwości — (ang. features), ponieważ to słowo może oznaczać naprawdę przeróżne rzeczy w różnych dyscyplinach nauki. Zdarza się, że używane są również zamiennie słowa “wejścia” (ang. inputs), “zmienne” (ang. variables) czy “predyktory” (ang. predictors).
Model i algorytm
Nasze właściwości (ang. features) sformułują podstawę modelu (gdzie model to tylko “bajerancka” nazwa oznaczająca “przepis”), którego komputer użyje, aby przejść od pikseli i kolorów do etykiet (ang. labels)
Model to tylko bardziej “bajeranckie” słowo oznaczające “przepis”.
Jak to zrobi? To zadanie algorytmu ML. Możecie od kuchni zobaczyć jak działa w moim innym artykule, ale na razie, użyjmy istniejącego już, a jednocześnie wspaniałego algorytmu: Twojego mózgu!
Uczenie nadzorowane
Chciałabym, abyście zostali moim systemem ML. Przyglądnijcie się powyższym instancjom ponownie i zaaplikujcie trochę “uczenia się”! Co to jest?
“Ugaczaka”? Tak, macie to! To, co przed chwilą zrobiliście, to nadzorowane uczenie, wspaniale! Doświadczyliście najprostszego istniejącego rodzaju uczenia. Jeśli jesteście w stanie opisać problem za pomocą nadzorowanego uczenia, warto to zrobić. Inne rodzaje są trudniejsze… przedstawiam Wam uczenie nienadzorowane.
Podsumowanie: Macie do czynienia z uczeniem nadzorowanym, jeśli algorytm ma przypisaną poprawną etykietę dla każdej instancji. W dalszych krokach, algorytm użyje modelu (przepisu), aby nadać etykiety nowym instancjom, dokładnie tak, jak sami zrobiliście to wcześniej.