W zeszłym roku przeczytałem post na blogu od Brendana O'Connora zatytułowany „Statystyka vs. uczenie maszynowe, walka!” omawiające niektóre różnice między tymi dwoma polami. Andrew Gelman odpowiedział pozytywnie na to :
Simon Blomberg:
Z pakietu fortuny R.: Prowokując parafrazując „uczenie maszynowe to statystyka pomniejszona o sprawdzenie modeli i założeń”. - Brian D. Ripley (o różnicy między uczeniem maszynowym a statystykami) useR! 2004, Wiedeń (maj 2004) :-) Pozdrowienia sezonu!
Andrew Gelman:
W takim przypadku może powinniśmy częściej pozbywać się sprawdzania modeli i założeń. Wtedy być może moglibyśmy rozwiązać niektóre problemy, które ludzie uczący się mogą rozwiązać, ale nie możemy!
Był także artykuł Leo Breimana z 2001 r. „Modelowanie statystyczne: dwie kultury”, w którym argumentowano, że statystycy zbyt mocno polegają na modelowaniu danych, a techniki uczenia maszynowego robią postępy, polegając na dokładności predykcyjnej modeli.
Czy pole statystyk zmieniło się w ciągu ostatniej dekady w odpowiedzi na te krytyki? Czy te dwie kultury nadal istnieją, czy też wzrosły statystyki, które obejmują techniki uczenia maszynowego, takie jak sieci neuronowe i obsługują maszyny wektorowe?
Odpowiedzi:
Myślę, że odpowiedź na twoje pierwsze pytanie jest po prostu twierdząca. Jeśli weźmiesz jakikolwiek numer z Science Science, JASA, Annals of Statistics z ostatnich 10 lat, znajdziesz artykuły na temat wzmocnienia, SVM i sieci neuronowych, chociaż ten obszar jest teraz mniej aktywny. Statystycy przywłaszczyli sobie pracę Valianta i Vapnika, ale z drugiej strony informatycy wchłonęli pracę Donoho i Talagranda. Nie sądzę, żeby istniała już duża różnica w zakresie i metodach. Nigdy nie kupiłem argumentu Breimana, że ludzie CS byli zainteresowani tylko minimalizacją strat przy użyciu jakichkolwiek prac. Na ten pogląd duży wpływ miał jego udział w konferencjach sieci neuronowych i praca konsultacyjna; ale PAC, SVM, Boosting mają solidne podstawy. I dzisiaj, w przeciwieństwie do 2001 r., Statystyki bardziej dotyczą właściwości próbek skończonych,
Myślę jednak, że nadal istnieją trzy ważne różnice, które wkrótce nie znikną.
źródło
Największą różnicą, jaką widzę między społecznościami, jest to, że statystyki kładą nacisk na wnioskowanie, podczas gdy uczenie maszynowe kładzie nacisk na przewidywanie. Kiedy robisz statystyki, chcesz wywnioskować proces, na podstawie którego wygenerowano dane. Podczas uczenia maszynowego chcesz wiedzieć, jak przewidzieć, jak będą wyglądać przyszłe dane z pewną zmienną.
Oczywiście te dwie pokrywają się. Wiedza o tym, jak dane zostały wygenerowane, podpowie Ci na przykład, czym byłby dobry predyktor. Jednak jednym z przykładów tej różnicy jest to, że uczenie maszynowe poradziło sobie z problemem p >> n (więcej funkcji / zmiennych niż próbki szkoleniowe) od samego początku, podczas gdy statystyki zaczynają poważnie podchodzić do tego problemu. Dlaczego? Ponieważ nadal możesz robić dobre prognozy, gdy p >> n, ale nie możesz wyciągać bardzo dobrych wniosków na temat tego, które zmienne są tak naprawdę ważne i dlaczego.
źródło
Bayesian: „Cześć, uczący się maszyny!”
Częstochowiec: „Witaj, uczący się maszyny!”
Machine Learning: „Słyszałem, że jesteście dobrzy w różnych rzeczach. Oto niektóre dane”.
F: „Tak, zapiszmy model, a następnie obliczmy MLE”.
F: „Ach tak, dziękuję za przypomnienie. Często myślę, że mam używać MLE do wszystkiego, ale interesują mnie obiektywne estymatory i tak dalej.”
ML: „Ech, co to za filozofowanie? Czy to mi pomoże?”
ML: „Więc czym się przejmujesz?”
F: „Ocena”.
ML: „Podoba mi się to.”
ML: „Brzmi świetnie! Wygląda na to, że częstokroć to ludzie pragmatyczni. Każdą czarną skrzynkę oceniasz na podstawie jej wyników. Kluczem jest ocena.”
F: „Rzeczywiście! Rozumiem, że przyjęliście podobne podejście. Weryfikacja krzyżowa czy coś takiego? Ale to wydaje mi się niechlujne.”
ML: „Bałagan?”
F: „Pomysł przetestowania estymatora na rzeczywistych danych wydaje mi się niebezpieczny. Dane empiryczne, z których korzystasz, mogą mieć z nim różnego rodzaju problemy i mogą nie zachowywać się zgodnie z modelem, który ustaliliśmy na potrzeby oceny”.
F: „Tak. Chociaż twoja metoda mogła działać na jednym zbiorze danych (zbiorze danych z danymi pociągu i danych testowych), którego użyłeś do oceny, mogę udowodnić, że mój zawsze będzie działał”.
ML: „Dla wszystkich zestawów danych?”
F: „Nie”
ML: „Więc moja metoda została zweryfikowana krzyżowo na jednym zestawie danych. Nie przetestowałeś swojej na żadnym prawdziwym zestawie danych?”
F: „Zgadza się”.
ML: „To stawia mnie zatem na czele! Moja metoda jest lepsza od twojej. Przewiduje raka w 90% przypadków. Twój„ dowód ”jest ważny tylko wtedy, gdy cały zestaw danych zachowuje się zgodnie z założonym modelem.”
F: „Emm, tak, chyba.”
F: „Zgadza się. O ile dane nie są naprawdę normalne (lub cokolwiek innego), mój dowód jest bezużyteczny.”
ML: „Więc moja ocena jest bardziej wiarygodna i wyczerpująca? Działa tylko na zestawach danych, które próbowałem do tej pory, ale przynajmniej są to prawdziwe zbiory danych, brodawki i tak dalej. Tam byłeś, próbując twierdzić, że jesteś bardziej„ konserwatywny ” i „dokładny” oraz że interesuje Cię sprawdzanie modeli i takie tam. ”
B: (wtrąca się) „Cześć chłopaki, przepraszam, że przeszkadzam. Chciałbym wkroczyć i zrównoważyć wszystko, być może demonstrując inne problemy, ale naprawdę uwielbiam patrzeć, jak mój kolega z zespołu często się wierci”.
F: „Łał!”
ML: „OK, dzieci. Chodziło o ocenę. Estymator to czarna skrzynka. Dane wchodzą, dane wychodzą. Zatwierdzamy lub odrzucamy estymator w oparciu o to, jak działa w trakcie oceny. Nie obchodzi nas to o stosowanych „przepisach” lub „zasadach projektowania”.
F: „Tak. Ale mamy bardzo różne pomysły na temat tego, które oceny są ważne. ML przeprowadzi szkolenie i przetestuje rzeczywiste dane. Podczas gdy ja dokonam oceny, która jest bardziej ogólna (ponieważ obejmuje szeroko stosowany dowód) i również bardziej ograniczone (ponieważ nie wiem, czy Twój zestaw danych jest rzeczywiście czerpany z założeń modelowania, których używam podczas projektowania mojej oceny). ”
ML: „Jakiej oceny używasz, B?”
F: (wtrąca się) „Hej. Nie rozśmieszaj mnie. Nic nie ocenia. Po prostu wykorzystuje swoje subiektywne przekonania i biegnie z nimi. Lub coś.”
B: „Jest to powszechna interpretacja. Ale możliwe jest również zdefiniowanie bayesianizmu na podstawie preferowanych ocen. Następnie możemy wykorzystać pogląd, że nikomu z nas nie zależy na tym, co jest w czarnej skrzynce, dbamy tylko o różne sposoby oceny”.
B kontynuuje: „Klasyczny przykład: badanie medyczne. Wynik badania krwi jest pozytywny lub negatywny. Częstotliwość zainteresuje się zdrowych ludzi, jaka część otrzyma wynik negatywny. Podobnie, jaki odsetek chorych będzie uzyskać wynik pozytywny. Częsty użytkownik obliczy je dla każdej rozważanej metody badania krwi, a następnie zaleci skorzystanie z testu, który uzyskał najlepszą parę wyników ”.
F: „Dokładnie. Czego więcej można chcieć?”
B: „A co z tymi osobami, które uzyskały pozytywny wynik testu? Będą chciały wiedzieć„ o tych, które uzyskają pozytywny wynik, ilu z nich zachoruje? ”. oraz „z tych, którzy uzyskali wynik negatywny, ilu jest zdrowych?” „
ML: „Ach tak, wydaje się, że jest to lepsza para pytań.”
F: „TUTAJ!”
B: „Znowu jedziemy. Nie lubi, dokąd to zmierza”.
ML: „Chodzi o„ priory ”, prawda?”
F: „Zło”.
B: „W każdym razie tak, masz rację ML. Aby obliczyć odsetek chorych z wynikiem dodatnim, którzy są chorzy, musisz wykonać jedną z dwóch czynności. Jedną z opcji jest przeprowadzenie testów na wielu ludziach i po prostu obserwowanie odpowiednie proporcje. Na przykład ilu z tych osób umiera z powodu tej choroby. ”
ML: „To brzmi jak to, co robię. Użyj treningu i testowania.”
B: „Możesz jednak obliczyć te liczby z wyprzedzeniem, jeśli zechcesz założyć, że wskaźnik zachorowań w populacji jest częsty. Częstotliwość dokonuje również wcześniej swoich wyliczeń, ale bez korzystania z tego wskaźnika zachorowalności na poziomie populacji”.
F: „WIĘCEJ NIEZGŁOSZONYCH ZAŁOŻEŃ”.
B: „Och, zamknij się. Wcześniej cię odkryto. ML odkrył, że tak samo lubisz nieuzasadnione założenia, jak każdy. Twoje„ udowodnione ”prawdopodobieństwo pokrycia nie będzie się układać w prawdziwym świecie, chyba że wszystkie twoje założenia się nie zmienią. Dlaczego moje wcześniejsze założenia są tak różne? Nazywasz mnie wariatem, ale udajesz, że twoje założenia są dziełem konserwatywnej, rzetelnej i pozbawionej założeń analizy ”.
B (kontynuuje): „W każdym razie, ML, jak mówiłem. Bayesianie lubią inny rodzaj oceny. Bardziej interesuje nas uwarunkowanie obserwowanych danych i odpowiednie obliczenie dokładności naszego estymatora. Nie możemy przeprowadzić tej oceny bez użycia a. Ciekawe jest to, że kiedy zdecydujemy się na tę formę oceny i kiedy wybieramy nasz przeor, mamy automatyczny „przepis”, aby stworzyć odpowiedni estymator. Częstotliwość nie ma takiego przepisu. Jeśli chce bezstronny estymator dla złożonego modelu, nie ma on żadnego automatycznego sposobu na zbudowanie odpowiedniego estymatora ”.
ML: „A ty robisz? Możesz automatycznie zbudować estymator?”
B: „Tak. Nie mam automatycznego sposobu na stworzenie bezstronnego estymatora, ponieważ myślę, że uprzedzenie jest złym sposobem oceny estymatora. Ale biorąc pod uwagę to, że podoba mi się ocena warunkowa na danych, a wcześniej mogę połączyć przeor i prawdopodobieństwo, że podam estymator ”.
ML: „W każdym razie podsumujmy. Wszyscy mamy różne sposoby oceny naszych metod i prawdopodobnie nigdy nie uzgodnimy, które metody są najlepsze.”
B: „Cóż, to niesprawiedliwe. Moglibyśmy je mieszać i dopasowywać. Jeśli któryś z nas ma dobrze oznaczone dane treningowe, prawdopodobnie powinniśmy je przetestować. Ogólnie rzecz biorąc, wszyscy powinniśmy przetestować tyle założeń, ile tylko możemy. „dowody mogą być również zabawne, przewidując wydajność przy założonym modelu generowania danych”.
F: „Tak, chłopaki. Bądźmy pragmatyczni w ocenie. I właściwie przestanę mieć obsesję na punkcie właściwości nieskończonej próbki. Poprosiłem naukowców, by dali mi nieskończoną próbkę, ale nadal tego nie zrobili. czas, abym skupił się ponownie na skończonych próbkach ”.
ML: „Mamy więc ostatnie pytanie. Dużo dyskutowaliśmy o tym, jak oceniać nasze metody, ale jak tworzymy nasze metody.”
B: „Ach. Jak się wcześniej zajmowałem, my Bayesianie mamy bardziej zaawansowaną ogólną metodę. Może to być skomplikowane, ale zawsze możemy napisać jakiś algorytm (być może naiwną formę MCMC), który pobierze próbki z naszego tylnej części ciała. „
F (wtrąca): „Ale może mieć tendencyjność”.
B: „Może i twoje metody. Czy potrzebuję przypomnieć, że MLE jest często stronniczy? Czasami masz duże trudności ze znalezieniem obiektywnych estymatorów, a nawet gdy masz głupi estymator (jak na naprawdę skomplikowany model), który powie wariancja jest negatywna. I nazywasz to bezstronnym. Bezstronny, tak. Ale przydatny, nie!
ML: „OK, chłopaki. Znowu się wściekasz. Pozwól, że zadam ci pytanie, F. Czy kiedykolwiek porównywałeś błąd swojej metody z błędem metody B, kiedy oboje pracowaliście nad tym samym problemem?”
F: „Tak. W rzeczywistości nie chcę tego przyznać, ale podejście B ma czasem mniejszą stronniczość i MSE niż mój estymator!”
ML: „Lekcja tutaj polega na tym, że choć nie zgadzamy się co do oceny, żaden z nas nie ma monopolu na to, jak stworzyć estymator, który ma pożądane właściwości”.
B: „Tak, powinniśmy czytać sobie nawzajem trochę więcej. Możemy dać sobie nawzajem inspirację dla estymatorów. Może się okazać, że estymatory drugiej osoby działają świetnie, od razu po wyjęciu z pudełka, na nasze własne problemy”.
F: „I powinienem przestać mieć obsesję na punkcie uprzedzeń. Bezstronny estymator może mieć absurdalną wariancję. Przypuszczam, że wszyscy musimy„ wziąć odpowiedzialność ”za wybory, których dokonujemy, oceniając i właściwości, które chcemy zobaczyć w naszych estymatorach. Nie możemy powstrzymać się od filozofii. Wypróbuj wszystkie oceny, jakie możesz. A ja będę dalej przyglądał się literaturze bayesowskiej, aby znaleźć nowe pomysły na estymatory! ”
B: „W rzeczywistości wiele osób tak naprawdę nie wie, jaka jest ich własna filozofia. Sam nawet nie jestem pewien. Jeśli użyję receptury bayesowskiej i udowodnię jakiś fajny wynik teoretyczny, to nie znaczy, że ja jestem częstym? Częstym dba o ponadprzeciętne dowody dotyczące wydajności, nie dba o przepisy. A jeśli zamiast tego zrobię kilka ćwiczeń i testów (czy też), czy to znaczy, że jestem uczniem maszyn? „
ML: „Wygląda na to, że wszyscy jesteśmy bardzo podobni.”
źródło
W takiej dyskusji zawsze przypominam sobie słynny cytat Kena Thompsona
W tym przypadku uczenie maszynowe jest zbawieniem, gdy założenia są trudne do uchwycenia; a przynajmniej jest to o wiele lepsze niż zgadywanie.
źródło
Tym, co wymusza większą separację niż powinna być, jest leksykon każdej dyscypliny.
Istnieje wiele przypadków, w których ML używa jednego terminu, a Statystyka używa innego terminu - ale oba odnoszą się do tego samego - w porządku, można się tego spodziewać i nie powoduje to trwałego zamieszania (np. Cechy / atrybuty kontra oczekiwanie zmienne lub sieć neuronowa / MLP kontra projekcja-pogoń).
O wiele bardziej kłopotliwe jest to, że obie dyscypliny używają tego samego terminu w odniesieniu do zupełnie różnych pojęć.
Kilka przykładów:
Funkcja jądra
W ML funkcje jądra są używane w klasyfikatorach (np. SVM) i oczywiście w maszynach jądra. Termin odnosi się do prostej funkcji ( cosinus, sigmoidalny, rbf, wielomian ) do mapowania nieliniowo rozdzielalnej na nową przestrzeń wejściową, dzięki czemu dane można teraz liniowo oddzielić w tej nowej przestrzeni wejściowej. (w porównaniu z użyciem nieliniowego modelu na początek).
W statystyce funkcja jądra jest funkcją ważenia używaną do szacowania gęstości w celu wygładzenia krzywej gęstości.
Regresja
W ML, algorytmów predykcyjnych lub wdrożeń tych algorytmów, które Naklejki klasy „klasyfikatorów” są (czasami) dalej maszyny --eg, maszyna wsparcie wektor , maszyna jądra . Odpowiednikiem maszyn są regresory , które zwracają wynik (zmienna ciągła) - np . Regresja wektora wsparcia .
Rzadko algorytmy mają różne nazwy w zależności od trybu - np. MLP to termin używany, niezależnie od tego, czy zwraca etykietę klasy, czy ciągłą zmienną.
W statystyce regresja , jeśli próbujesz zbudować model oparty na danych empirycznych, aby przewidzieć pewną zmienną odpowiedzi w oparciu o jedną lub więcej zmiennych objaśniających lub więcej zmiennych - wtedy przeprowadzasz analizę regresji . Nie ma znaczenia, czy wyjście jest zmienną ciągłą, czy etykietą klasy (np. Regresja logistyczna). Na przykład regresja najmniejszych kwadratów odnosi się do modelu, który zwraca wartość ciągłą; z drugiej strony regresja logistyczna zwraca oszacowanie prawdopodobieństwa, które jest następnie dyskretyzowane do etykiet klasy.
Stronniczość
W ML termin odchylenia w algorytmie jest koncepcyjnie identyczny z terminem przechwytywania stosowanym przez statystyków w modelowaniu regresji.
W statystyce odchylenie jest błędem nieprzypadkowym - tj. Pewne zjawisko wpłynęło na cały zestaw danych w tym samym kierunku, co z kolei oznacza, że tego rodzaju błędu nie można usunąć przez ponowne próbkowanie lub zwiększenie wielkości próbki.
źródło
Wydaje się, że uczenie maszynowe opiera się na pragmatyce - praktycznej obserwacji lub symulacji rzeczywistości. Nawet w ramach statystyki bezmyślne „sprawdzanie modeli i założeń” może prowadzić do odrzucenia użytecznych metod.
Na przykład lata temu pierwszy dostępny komercyjnie (i działający) model upadłości wdrożony przez biura kredytowe został utworzony za pomocą zwykłego starego modelu regresji liniowej ukierunkowanego na wynik 0-1. Technicznie jest to złe podejście, ale praktycznie zadziałało.
źródło
Największe różnice, które zauważyłem w ubiegłym roku to:
źródło
Nie zgadzam się z tym pytaniem, ponieważ sugeruje, że uczenie maszynowe i statystyki są naukami odmiennymi lub sprzecznymi .... kiedy jest odwrotnie!
uczenie maszynowe w szerokim zakresie wykorzystuje statystyki ... szybka ankieta dowolnego pakietu oprogramowania do uczenia maszynowego lub eksploracji danych ujawni techniki klastrowania, takie jak k-średnie występujące również w statystykach ... pokaże także techniki redukcji wymiarów, takie jak analiza głównych komponentów także technika statystyczna ... nawet regresja logistyczna jeszcze inna.
Moim zdaniem główna różnica polega na tym, że tradycyjnie statystyki zostały wykorzystane do udowodnienia z góry założonej teorii i zwykle analiza była projektowana wokół tej głównej teorii. Tam, gdzie w przypadku eksploracji danych lub uczenia maszynowego normą jest zwykle odwrotne podejście, ponieważ mamy wynik, po prostu chcemy znaleźć sposób, aby to przewidzieć, zamiast zadawać pytania lub formułować teorię - taki jest wynik!
źródło
Mówiłem o tym na innym forum eGroup ASA Statistics Consulting. Moja odpowiedź była bardziej szczegółowa w przypadku eksploracji danych, ale obie idą w parze. My, statystycy, zlekceważyliśmy nasze nosy przed górnikami danych, informatykami i inżynierami. To jest złe. Myślę, że częściowo dzieje się tak dlatego, że widzimy, jak niektórzy ludzie w tych dziedzinach ignorują stochastyczną naturę ich problemu. Niektórzy statystycy nazywają szpiegowanie danych lub przeszukiwanie danych. Niektóre osoby nadużywają i niewłaściwie wykorzystują metody, ale statystycy pozostają w tyle w eksploracji danych i uczeniu maszynowym, ponieważ malujemy je szerokim pędzlem. Niektóre duże wyniki statystyczne pochodzą spoza dziedziny statystyki. Ważnym przykładem jest wzmocnienie. Ale statystycy tacy jak Brieman, Friedman, Hastie, Tibshirani, Efron, Gelman i inni to zrozumieli, a ich kierownictwo włączyło statystyk do analizy mikromacierzy i innych problemów wnioskowania na dużą skalę. Więc chociaż kultury mogą nigdy nie zazębiać się, teraz jest więcej współpracy i współpracy między informatykami, inżynierami i statystykami.
źródło
Prawdziwy problem polega na tym, że to pytanie jest błędne. To nie uczenie maszynowe vs. statystyki, to uczenie maszynowe wbrew rzeczywistemu postępowi naukowemu. Jeśli urządzenie do uczenia maszynowego daje właściwe prognozy w 90% przypadków, ale nie rozumiem „dlaczego”, jaki jest wpływ uczenia maszynowego na całą naukę? Wyobraź sobie, że do przewidywania pozycji planet wykorzystano techniki uczenia maszynowego: wielu zadowolonych ludzi pomyślałoby, że mogą dokładnie przewidzieć wiele rzeczy za pomocą swoich maszyn SVM, ale co naprawdę wiedzieliby o problemie, który mieli w rękach ? Oczywiście nauka nie postępuje według przewidywań liczbowych, postępuje za pomocą modeli (mentalnych, matematycznych), które pozwalają nam widzieć znacznie więcej niż tylko liczby.
źródło
Nauka statystyczna (AKA Machine Learning) ma swoje źródło w dążeniu do tworzenia oprogramowania poprzez „uczenie się na przykładach”. Istnieje wiele zadań, które chcielibyśmy wykonać na komputerach (np. Widzenie komputerowe, rozpoznawanie mowy, sterowanie robotem), które są trudne do zaprogramowania, ale dla których łatwo jest podać przykłady szkolenia. Społeczność zajmująca się uczeniem maszynowym / statystycznym opracowała algorytmy do uczenia się funkcji na podstawie tych przykładów. Funkcja utraty była zazwyczaj związana z zadaniem wykonania (widzenie, rozpoznawanie mowy). I oczywiście nie mieliśmy powodu sądzić, że u podstaw tych zadań leżałby prosty „model” (ponieważ inaczej sami zakodowalibyśmy ten prosty program). Dlatego cały pomysł wnioskowania statystycznego nie miał sensu. Celem jest dokładność prognostyczna i nic więcej.
Z czasem różne siły zaczęły zachęcać ludzi uczących się maszyn do zdobywania dodatkowych informacji na temat statystyki. Jedną z nich była potrzeba włączenia wiedzy ogólnej i innych ograniczeń w procesie uczenia się. Doprowadziło to ludzi do rozważenia generatywnych modeli probabilistycznych, ponieważ ułatwiają one uwzględnienie wcześniejszej wiedzy poprzez strukturę modelu oraz priorytety dotyczące parametrów i struktury modelu. Doprowadziło to do odkrycia bogatej literatury statystycznej w tej dziedzinie. Kolejną siłą było odkrycie zjawiska nadmiernego dopasowania. Doprowadziło to społeczność ML do poznania krzyżowej walidacji i regularyzacji i ponownie odkryliśmy bogatą literaturę statystyczną na ten temat.
Niemniej jednak większość prac związanych z uczeniem maszynowym koncentruje się na stworzeniu systemu, który wykazuje pewną wydajność, a nie na wnioskach na temat nieznanego procesu. Jest to podstawowa różnica między ML a statystykami.
źródło
Najlepiej jest mieć dokładną wiedzę na temat statystyki i uczenia maszynowego przed próbą odpowiedzi na jego pytanie. Jestem bardzo neofitą ML, więc wybacz mi, jeśli wat powiem, że jest naiwny.
Mam ograniczone doświadczenie w SVM i drzewach regresji. To, co wydaje mi się brakujące ML z punktu widzenia statystyk, to dobrze rozwinięta koncepcja wnioskowania.
Wnioskowanie w ML wydaje się sprowadzać prawie wyłącznie do dokładności prognozowania, mierzonej (na przykład) średnim błędem klasyfikacji (MCE) lub zrównoważonym poziomem błędu (BER) lub podobnym. ML ma bardzo dobry zwyczaj losowego dzielenia danych (zwykle 2: 1) na zestaw treningowy i zestaw testowy. Modele są dopasowane przy użyciu zestawu treningowego, a wyniki (MCE, BER itp.) Są oceniane przy użyciu zestawu testowego. Jest to doskonała praktyka i powoli wkracza do statystyk głównego nurtu.
ML również intensywnie korzysta z metod ponownego próbkowania (zwłaszcza walidacji krzyżowej), których początki wydają się pochodzić ze statystyk.
Wydaje się jednak, że ML nie ma w pełni rozwiniętej koncepcji wnioskowania - poza dokładnością predykcyjną. To ma dwa wyniki.
1) Wydaje się, że nie ma szacunku, że jakakolwiek prognoza (oszacowanie parametru itp.) Jest obarczona błędem losowym i być może błędem systemowym (stronniczością). Statystycy zaakceptują, że jest to nieunikniona część prognoz i spróbują oszacować błąd. Techniki statystyczne spróbują znaleźć oszacowanie, które ma minimalne odchylenie i błąd losowy. Ich techniki są zwykle oparte na modelu przetwarzania danych, ale nie zawsze (np. Bootstrap).
2) Wydaje się, że w ML nie ma głębokiego zrozumienia granic zastosowania modelu do nowych danych do nowej próbki z tej samej populacji (pomimo tego, co powiedziałem wcześniej o podejściu do zestawu danych testu szkoleniowego). Różne techniki statystyczne, w tym krzyżowe sprawdzanie poprawności i kary stosowane w metodach opartych na prawdopodobieństwie, kierują statystykami w kompromisie między oszczędnością a złożonością modelu. Takie wytyczne w ML wydają się znacznie bardziej ad hoc.
Widziałem kilka artykułów w ML, w których stosuje się weryfikację krzyżową w celu optymalizacji dopasowania wielu modeli w zbiorze danych szkoleniowych - zapewniając lepsze i lepsze dopasowanie wraz ze wzrostem złożoności modelu. Wydaje się, że nie docenia się faktu, że niewielkie zwiększenie dokładności nie jest warte dodatkowej złożoności, co naturalnie prowadzi do nadmiernego dopasowania. Następnie wszystkie te zoptymalizowane modele są stosowane do zestawu testowego w celu sprawdzenia wydajności predykcyjnej i zapobiegania nadmiernemu dopasowaniu. Dwie rzeczy zostały zapomniane (powyżej). Wydajność predykcyjna będzie miała element stochastyczny. Po drugie, wielokrotne testy w stosunku do zestawu testów ponownie spowodują nadmierne dopasowanie. „Najlepszy” model zostanie wybrany przez praktyka ML bez pełnego uznania, że wybrał jedną z realizacji wielu możliwych wyników tego eksperymentu.
Wszelkie moje 2 centy warte. Musimy się wiele od siebie nauczyć.
źródło
Pytanie to można również rozszerzyć na tak zwaną superkulturę nauki o danych w 2015 r. David Donoho w artykule 50 lat Data Science , w którym konfrontuje różne punkty widzenia ze statystyki i informatyki (w tym uczenia maszynowego), na przykład bezpośrednie stanowiska (od różnych osób) takie, że:
oraz w połączeniu z rozważaniami historycznymi, filozoficznymi, na przykład:
Ten esej przyniósł wiele odpowiedzi i wkład w debatę.
źródło
Naprawdę nie wiem, jaka jest konceptualna / historyczna różnica między uczeniem maszynowym a statystyką, ale jestem pewien, że nie jest to takie oczywiste ... i nie interesuje mnie to, czy jestem uczniem maszyny, czy statystykiem, myślę 10 lat po pracy Breimana wielu ludzi jest ...
W każdym razie znalazłem interesujące pytanie o dokładność predykcyjną modeli . Musimy pamiętać, że nie zawsze można zmierzyć dokładność modelu, a dokładniej najczęściej dokonujemy modelowania podczas pomiaru błędów.
Na przykład średni błąd bezwzględny w prognozie szeregów czasowych jest średnią w czasie i mierzy wydajność procedury prognozowania mediany przy założeniu, że wydajność jest, w pewnym sensie, stacjonarna i wykazuje pewną właściwość ergodyczną . Jeśli (z jakiegoś powodu) musisz prognozować średnią temperaturę na Ziemi na następne 50 lat, a jeśli twoje modelowanie działa dobrze przez ostatnie 50 lat ... to nie znaczy, że ...
Mówiąc bardziej ogólnie (jeśli pamiętam, nazywa się to „darmowym lunchem”) nie można nic zrobić bez modelowania… Ponadto myślę, że statystyka próbuje znaleźć odpowiedź na pytanie: „jest czymś znaczącym, czy nie”, jest to bardzo ważne pytanie w nauce i nie można na nie odpowiedzieć w procesie uczenia się. Stwierdzając, że John Tukey (czy był statystykiem?):
Mam nadzieję że to pomoże !
źródło
Oczywiste jest, że te dwa pola wyraźnie napotykają podobne, ale różne problemy, w podobny, ale nie identyczny sposób z analogicznymi, ale nie identycznymi koncepcjami, i pracują w różnych działach, czasopismach i konferencjach.
Kiedy czytam Cressie i Read's Power Divergence Statistics , wszystko to zatrzasnęło się dla mnie. Ich formuła uogólnia powszechnie stosowane statystyki testowe na te, które różnią się o jeden wykładnik, lambda. Istnieją dwa specjalne przypadki, lambda = 0 i lambda = 1.
Informatyka i statystyka pasują do kontinuum (które prawdopodobnie mogłoby obejmować inne punkty). Przy jednej wartości lambda otrzymujesz statystyki często cytowane w kręgach Statistics, a przy drugiej otrzymujesz statystyki często cytowane w kręgach Comp Sci.
Statystyka
Informatyka:
źródło
Raz uruchamiasz fantazyjny algorytm komputerowy - i otrzymujesz prezentację / statystyki z konferencji CS (wow, co za szybka konwergencja!). Komercjalizujesz go i uruchamiasz milion razy - i popsułeś się (ouch, dlaczego cały czas otrzymuję bezużyteczne i nieodtwarzalne wyniki ???), chyba że wiesz, jak wykorzystać prawdopodobieństwo i statystyki do uogólnienia właściwości algorytmu.
źródło
Istnieje obszar zastosowania statystyki, w którym skupienie się na modelu generowania danych ma sens. W zaprojektowanych eksperymentach, np. Badaniach na zwierzętach, badaniach klinicznych, przemysłowych DOE, statystycy mogą mieć wpływ na model generowania danych. ML zwykle nie spędza dużo czasu na tym bardzo ważnym problemie, ponieważ ML zwykle koncentruje się na innym bardzo ważnym problemie przewidywania opartym na „dużych” danych obserwacyjnych. Nie oznacza to, że ML nie można stosować do „dużych” eksperymentów zaprojektowanych, ale ważne jest, aby uznać, że statystyki mają szczególną wiedzę specjalistyczną na temat „małych” problemów z danymi wynikającymi z eksperymentów ograniczonych zasobami.
Pod koniec dnia myślę, że wszyscy możemy zgodzić się na wykorzystanie tego, co działa najlepiej, aby rozwiązać dany problem. Np. Możemy zaprojektować eksperyment, który generuje bardzo szerokie dane w celu przewidywania. Bardzo przydatne są tu zasady projektowania statystycznego, a metody ML mogą być przydatne do budowy predyktora.
źródło
Myślę, że uczenie maszynowe musi być gałęzią pod statystyką, tak jak, moim zdaniem, chemia musi być gałęzią pod fizyką.
Myślę, że inspirowane fizyką spojrzenie na chemię jest dość solidne (tak sądzę). Nie sądzę, żeby była jakakolwiek reakcja chemiczna, której odpowiednik nie jest znany fizycznie. Myślę, że fizyka wykonała niesamowitą robotę, tłumacząc wszystko, co widzimy na poziomie chemicznym. Teraz wyzwaniem dla fizyków wydaje się wyjaśnienie drobnych tajemnic na poziomie kwantowym w ekstremalnych warunkach, których nie można zaobserwować.
Teraz wróć do uczenia maszynowego. Myślę, że również powinna to być pod-gałąź w statystyce (tak jak chemia jest gałęzią fizyki).
Wydaje mi się jednak, że obecny stan uczenia maszynowego lub statystyki nie jest wystarczająco dojrzały, aby doskonale to zrozumieć. Ale na dłuższą metę myślę, że jedno musi stać się pododdziałem drugiego. Myślę, że to ML będzie podlegało statystykom.
Osobiście uważam, że „uczenie się” i „analizowanie próbek” w celu oszacowania / wnioskowania funkcji lub prognoz są w zasadzie kwestią statystyki.
źródło
Z kursu Coursera „Data Science in real life” Briana Caffo
Nauczanie maszynowe
Tradycyjna analiza statystyczna
źródło
Jako informatyk zawsze intryguje mnie podejście do statystyki. Dla mnie wiele razy wygląda na to, że modele statystyczne użyte w analizie statystycznej są zbyt skomplikowane dla danych w wielu sytuacjach!
Na przykład istnieje silny związek między kompresją danych a statystykami. Zasadniczo potrzebny jest dobry model statystyczny, który jest w stanie dobrze przewidzieć dane, a to zapewnia bardzo dobrą kompresję danych. W informatyce przy kompresji danych zawsze bardzo ważna jest złożoność modelu statystycznego i dokładność prognoz. Nikt nie chce, aby KAŻDY plik danych (zawierający dane dźwiękowe lub dane obrazu lub wideo) był większy po kompresji!
Uważam, że w dziedzinie informatyki istnieją bardziej dynamiczne rzeczy, takie jak na przykład minimalna długość opisu i znormalizowane maksymalne prawdopodobieństwo .
źródło