Umiejętności trudne do znalezienia u uczących się maszyn?

71

Wydaje się, że eksploracja danych i uczenie maszynowe stały się tak popularne, że teraz prawie każdy student CS wie o klasyfikatorach, klastrowaniu, statystycznym NLP ... itd. Wygląda więc na to, że znalezienie eksploratorów danych nie jest obecnie trudną sprawą.

Moje pytanie brzmi: jakie umiejętności mógłby nauczyć się eksplorator danych, co uczyniłoby go innym od innych? Zrobić z niego osobę, która nie jest taka łatwa do znalezienia.

Jack Twain
źródło
6
Chociaż jest to odpowiedź na inne pytanie, kilka punktów starej odpowiedzi można przenieść tutaj. Assad przytacza podobne uwagi w swojej bardzo miłej odpowiedzi poniżej.
kardynał

Odpowiedzi:

62

Wielokrotnie widziałem programistów stosujących techniki ML. To jest zwykły wzór:

  1. pobierz bibliotekę z fantazyjną nazwą;
  2. spędzić 10 minut na czytaniu, jak z niego korzystać (pomijając wszelkie statystyki, matematykę itp.);
  3. karmić go danymi (bez wstępnego przetwarzania);
  4. mierzyć wydajność (np. dokładność, nawet jeśli klasy są całkowicie niezrównoważone) i powiedzieć wszystkim, jak niesamowite jest to z jej 99% dokładnością;
  5. wdrożyć w produkcji z imponującymi wynikami niepowodzenia;
  6. znajdź kogoś, kto rozumie, co się dzieje, aby im pomóc, ponieważ instrukcja obsługi nie ma żadnego sensu.

Prosta odpowiedź brzmi: (większość) inżynierów oprogramowania ma bardzo słabe statystyki i matematykę. Jest to zaleta każdego, kto chce z nimi konkurować. Oczywiście statystyki nie są w strefie komfortu, jeśli trzeba napisać kod produkcyjny. Rolą, która staje się naprawdę rzadka, jest rola Data Scientist. Jest to ktoś, kto może pisać kod, aby uzyskać dostęp i grać z ogromną ilością danych i znaleźć w nich wartość.

iliasfl
źródło
14
LOL na „powiedz wszystkim, jak niesamowity jest z jego 99% dokładnością”
Jack Twain
2
+1 Zgadzam się ze wszystkim. „[...] Data Scientist. To ktoś, kto może pisać kod, aby uzyskać dostęp do ogromnej ilości danych i grać z nimi, i znaleźć w nich wartość.”. Co dla mnie sugeruje, że powinno to pozostać naturalnie rzadkie, ponieważ większość śmiertelników wydaje się niewykonalne w celu rozwiązania złożonych problemów statystycznych i fundamentalnych, a także przekształcenia czegoś w kod produkcyjny. Wyjaśnia to również, dlaczego mamy chirurgów, anestezjologów układu krążenia, neurolodzy, pielęgniarki, administratorów szpitali itd lub cywilnej, aeronautyczny, górnictwo, chemiczne, inżynierów mechaników itd
Thomas Speidel
2
Dla mnie nie jest to tak naprawdę opis tego, co musi być wyróżniającym się kandydatem do ML - raczej bash ML. Wygląda na to, że opisujesz kogoś, kto jest zbyt skoncentrowany na uzyskaniu „odpowiedzi”, zanim będzie nawet pewien, jakie jest pytanie. Zasadniczo, twoją „typową ML” jest osoba, która ma słabe umiejętności planowania, i ktoś, kto nie dyskutuje, co zamierza zrobić z „klientem”, zanim zacznie iść do przodu i powróci z „odpowiedzią”. To nie jest coś, co pomaga dobre matematyki / statystyki - to coś, co wymaga dobrych umiejętności komunikacyjnych.
probabilislogiczny
61

O czym to jest

Sama wiedza na temat technik jest podobna do znajomości zwierząt w zoo - możesz je nazwać, opisać ich właściwości, a może zidentyfikować je na wolności.

Zrozumienie, kiedy ich używać, formułowanie, budowanie, testowanie i wdrażanie działających modeli matematycznych w obszarze aplikacji, unikając pułapek --- to są umiejętności, które mnie wyróżniają.

Nacisk należy położyć na naukę , stosując systematyczne, naukowe podejście do problemów biznesowych, przemysłowych i handlowych. Ale wymaga to umiejętności szerszych niż eksploracja danych i uczenie maszynowe, jak przekonująco przekonuje Robin Bloor w „A Data Science Rant” .

Co więc można zrobić?

Obszary zastosowania : poznaj różne obszary zastosowania bliskie twoim zainteresowaniom lub pracodawcy. Obszar ten jest często mniej ważny niż zrozumienie, w jaki sposób zbudowano model i jak wykorzystano go do zwiększenia wartości tego obszaru. Modele, które odnoszą sukcesy w jednym obszarze, często można przeszczepić i zastosować w różnych obszarach, które działają w podobny sposób.

Konkursy : wypróbuj witrynę Kaggle poświęconą eksploracji danych , najlepiej dołączając do zespołu innych osób. (Kaggle: platforma do konkursów modelowania predykcyjnego. Firmy, rządy i badacze prezentują zestawy danych i problemy, a najlepsi na świecie naukowcy konkurują o najlepsze rozwiązania).

Podstawy : Istnieją cztery: (1) solidne podstawy w statystyce, (2) dość dobre umiejętności programistyczne, (3) zrozumienie, jak konstruować złożone zapytania danych, (4) budowanie modeli danych. Jeśli jakieś są słabe, to ważne jest, aby zacząć.


Kilka cytatów w tym zakresie:

`` Bardzo wcześnie nauczyłem się różnicy między znajomością nazwy czegoś a wiedzą czegoś. Możesz znać imię ptaka we wszystkich językach świata, ale kiedy skończysz, nie będziesz wiedział absolutnie nic o nim ... Więc spójrzmy na ptaka i zobaczmy, co on robi - to jest to, co się liczy. '' - Richard Feynman, „The Making of a Scientist”, s. 14 w What Do You Care What That People Think, 1988

Pamiętać:

`` Połączenie umiejętności wymaganych do przeprowadzenia tych projektów z zakresu nauk biznesowych [data science] rzadko znajduje się u jednej osoby. Ktoś mógł rzeczywiście zdobyć rozległą wiedzę w trzech obszarach (i) co robi firma, (ii) jak korzystać ze statystyk oraz (iii) jak zarządzać przepływem danych i danych. Jeśli tak, to on lub ona rzeczywiście może twierdzić, że jest naukowcem biznesu (inaczej „naukowcem danych”) w danym sektorze. Ale takie osoby są prawie tak rzadkie jak zęby kury. '' - Robin Bloor, A Data Science Rant , sierpień 2013, Inside Analysis

I w końcu:

`` Mapa to nie terytorium '' - Alfred Korzybski, 1933, Science & Sanity.

Najbardziej realne, zastosowane problemy nie są dostępne wyłącznie z `` mapy ''. Aby robić praktyczne rzeczy z modelowaniem matematycznym, trzeba być gotowym na branie ze szczegółami, subtelnościami i wyjątkami. Nic nie zastąpi znajomości terytorium z pierwszej ręki.


Assad Ebrahim
źródło
6
+1. Gotowe rozwiązania rzadko działają w przypadku konkretnego problemu biznesowego Twojej organizacji. Musisz dostosować i ulepszyć, a do tego musisz zrozumieć, co jest pod maską.
Zhubarb
4
@Zhubarb - Myślę, że to tylko częściowo prawda. Rozwiązania „po wyjęciu z pudełka” mogą być stosowane z doskonałym skutkiem, ale nie przez cały czas, a także zwykle nie do wykonania zadania od początku do końca. Sztuka polega na tym, aby wiedzieć, kiedy można uciec od użycia „gotowych rozwiązań” i kiedy potrzebne jest bardziej dostosowane podejście.
Prawdopodobieństwo
41

Zgadzam się ze wszystkim, co zostało powiedziane. To, co mnie wyróżnia, to:

  1. Jak niewielu „ekspertów” uczenia maszynowego jest naprawdę zainteresowanych tematem, do którego chcą zastosować ML
  2. Jak niewielu naprawdę rozumie dokładność predykcyjną i właściwe reguły punktacji
  3. Jak niewielu rozumie zasady walidacji
  4. Jak niewielu wie, kiedy zastosować czarną skrzynkę kontra tradycyjny model regresji
  5. Jak wydaje się, że żaden z „ekspertów” nigdy nie badał optymalnej funkcji Bayesa lub funkcji straty / użyteczności / kosztów [ten brak zrozumienia pojawia się prawie za każdym razem, gdy ktoś stosuje klasyfikację zamiast przewidywanego ryzyka]
Frank Harrell
źródło
3
Czy mógłbyś opracować 4? Nie do końca rozumiem, co masz na myśli
17
Myślałem, że ten przedmiot był najłatwiejszy do zrozumienia. Oto przykład: w konkretnym obszarze badań załóżmy, że mieliśmy wcześniejsze doświadczenie, że większość zmiennych działa addytywnie. Dopasowanie modelu regresji addytywnej, który nie zakłada, że ​​predyktory działają liniowo (np. Przy użyciu splajnów regresji), zapewni zrozumiały i użyteczny model statystyczny. Z drugiej strony użycie svm lub lasów losowych będzie bardzo trudne do interpretacji, nie będzie miało żadnych możliwych do rozdzielenia efektów i nie da lepszego przewidywania niż nieliniowy model addytywny.
Frank Harrell,
7
Tak, naprawdę, na płytkość przedmiotu. Nawet w świecie ML często widzę tę tendencję do chowania surowych danych w magicznym pudełku i uzyskania wspaniałego wglądu. Ludzie ci szukają sztucznego mózgu.
DarenW
3
Szczególnie +1 dla przedmiotu 1. Dowodem braku zainteresowania domeną jest to, że zastosowanie wiedzy o domenie będzie wymagało wiedzy, jak „otworzyć” czarną skrzynkę i ją zmodyfikować. Przez czarną skrzynkę mam na myśli, że dla większości podstawowych ML nawet podstawowe techniki modelowania statystycznego znajdują się w tej czarnej skrzynce. Jeśli nie ma zainteresowania / umiejętności, znacznie trudniej jest zastosować wiedzę w dziedzinie.
Meadowlark Bradsher
7
@DarenW: Tendencja ta znajduje również odzwierciedlenie w nazwie: „Uczenie maszynowe” wraz z konotacją, że maszyna uczy się ... sama w sobie ... po prostu przeszukuje surowe dane. Kontrastuj z mniej uroczą nazwą (ale dokładniejszą IMO) wybraną przez Hastie, Tibshirani i in .: .: „Statistics Learning”. Różne konotacje, różne wyjaśnienia, wszystkie odwołujące się do zasad statystycznych.
Assad Ebrahim
11

Oto kilka rzeczy, dzięki którym wyróżnisz się z tłumu:

  • Poznaj domenę lub domeny aplikacji. To znaczy środowisko biznesowe lub inny kontekst.
  • Zrozumieć duży obraz. To jest bardzo ważne! Ludzie, którzy studiują uczenie maszynowe, często gubią się w szczegółach. Pomyśl o ogólnym obrazie, w który zmieszczą się Twoje modele ML. Często część ML jest tylko małym segmentem znacznie większego systemu. Zrozum cały system.
  • Studiuj użyteczność i teorię decyzji oraz wnioskowanie bayesowskie, a nie tylko to, co jest obecnie uważane za „zwykłe” modele ML. Wnioskowanie bayesowskie to tylko sposób na sformalizowanie pojęcia wykorzystania wszystkich informacji kontekstowych w celu rozwiązania problemu. Teoria użyteczności i teorii polega na wprowadzaniu wartości do obrazu.

Ogólny przekaz, który dotyczy wszystkich trzech punktów: Spójrz na duży obraz, nie zgub się w szczegółach.

Robert Dodier
źródło
4

Umiejętność, która odróżnia jednego eksploratora danych od innych, to umiejętność interpretacji modeli uczenia maszynowego. Najczęściej buduj maszynę, zgłoś błąd, a następnie zatrzymaj się. Jakie są matematyczne zależności między funkcjami? Czy efekty są addytywne czy nieaddytywne, czy oba? Czy którakolwiek z funkcji jest nieistotna? Czy maszyna oczekuje od hipotezy zerowej, że w danych są tylko wzorce szans? Czy model uogólnia na niezależne dane? Co te wzorce oznaczają dla badanego problemu? Jakie są wnioski? Jakie są spostrzeżenia? Dlaczego ekspert domeny powinien być podekscytowany? Czy maszyna doprowadzi eksperta do domeny zadającego nowe pytania i projektującego nowe eksperymenty? Czy eksplorator danych może skutecznie komunikować model i jego implikacje dla świata?

Jason Moore
źródło
8
+1 Zgoda - chociaż to, co opisujesz, nazywa się statystykami.
Thomas Speidel,
4

Podałbym tam pojęcie „umiejętności miękkich”.

  • rozpoznanie, kim jest „ekspert” dla metody X, oraz możliwość skorzystania z ich wiedzy (nie powinieneś wiedzieć ani nie wiedzieć wszystkiego o wszystkim). Zdolność i chęć współpracy z innymi.

  • umiejętność tłumaczenia lub reprezentowania „prawdziwego świata” za pomocą matematyki stosowanej w ML.

  • umiejętność wyjaśniania metod na różne sposoby różnym odbiorcom - wiedząc, kiedy skupić się na szczegółach, a kiedy cofnąć się i zobaczyć szerszy kontekst.

  • myślenie systemowe, możliwość zobaczenia, w jaki sposób Twoja rola wpływa na inne obszary działalności i jak te obszary wpływają na twoją pracę.

  • zrozumienie i zrozumienie niepewności oraz posiadanie pewnych ustrukturyzowanych metod radzenia sobie z tym. Będąc w stanie jasno powiedzieć, jakie są twoje założenia.

prawdopodobieństwo prawdopodobieństwa
źródło
4

Będąc w stanie dobrze uogólniać

To jest istota dobrego modelu. I to jest esencja tego, co wyróżnia najlepszych praktyków sztuki uczenia maszynowego z tłumu.

Zrozumienie, że celem jest optymalizacja wydajności na niewidzialnych danych, a nie minimalizowanie utraty treningu. Wiedząc, jak uniknąć zarówno nadmiernego, jak i niedopasowania. Wymyślanie modeli, które nie są zbyt skomplikowane, ale nie są zbyt proste w opisaniu problemu. Wydobywanie istoty zestawu treningowego, a nie maksimum możliwego.

Zaskakujące jest to, jak często nawet doświadczeni praktycy uczenia maszynowego nie przestrzegają tej zasady. Jednym z powodów jest to, że ludzie nie doceniają dwóch ogromnych różnic wielkości między teorią a praktyką :

  • O ile większa jest przestrzeń wszystkich możliwych przykładów w porównaniu do dostępnych danych treningowych, nawet gdy dane treningowe są bardzo duże.
  • O ile większa jest pełna „przestrzeń hipotez” : liczba możliwych modeli problemu w porównaniu z praktyczną „przestrzenią rozwiązań”: wszystko, o czym możesz pomyśleć i wszystko, co może reprezentować twoje oprogramowanie / narzędzia.

Drugi jest szczególnie niezrozumiały, ponieważ nawet dla najprostszego problemu z wejściami i wynikiem binarnym istnieją możliwych przykładów wejściowych i wykładniczo większa liczba 2 ^ możliwych modeli.N2N2N

Jest to również to, co większość powyższych odpowiedzi powiedziała w bardziej konkretny i konkretny sposób. dobrze uogólnić to najkrótszy sposób, jaki mogłem wymyślić.

arielf
źródło
2

Widzę, że istnieją dwie części podczas praktycznego uczenia maszynowego

  1. Inżynieria (która obejmuje wszystkie algorytmy, uczenie się różnych pakietów, programowanie).

  2. Ciekawość / uzasadnienie (możliwość zadawania lepszych pytań do danych).

Myślę, że „ciekawość / rozumowanie” to umiejętność, która odróżnia jedną od innych. Na przykład, jeśli widzisz tabele liderów uzupełnień kaggle, wiele osób mogło użyć wspólnych (podobnych) algorytmów, co robi różnicę, w jaki sposób logicznie kwestionujesz dane i je formułujesz.

Chitrasen
źródło