Modele predykcyjne: statystyki nie są w stanie pokonać uczenia maszynowego? [Zamknięte]

14

Obecnie śledzę program główny koncentrujący się na statystyce / ekonometrii. U mojego mistrza wszyscy studenci musieli przeprowadzić 3 miesiące badań. W ubiegłym tygodniu wszystkie grupy musiały przedstawić swoje badania reszcie studentów studiów magisterskich.

Prawie każda grupa przeprowadziła modelowanie statystyczne i modelowanie maszynowe dla swoich tematów badawczych i za każdym razem, gdy prognozy poza próbą przychodziły mówić, proste modele uczenia maszynowego pokonały bardzo wyrafinowane modele statystyczne, nad którymi każda pracowała bardzo ciężko przez ostatnie 3 miesięcy. Bez względu na to, jak dobre są modele statystyczne Everyones, prosty losowy las prawie zawsze miał mniej błędów poza próbą.

Zastanawiałem się, czy jest to ogólnie przyjęta obserwacja? Czy jeśli chodzi o prognozowanie poza próbą, po prostu nie ma sposobu na pokonanie prostego modelu losowego lasu lub ekstremalnego modelu zwiększania gradientu? Te dwie metody są bardzo proste do wdrożenia przy użyciu pakietów R, podczas gdy wszystkie modele statystyczne, które wszyscy wymyślili, wymagają dość dużej umiejętności, wiedzy i wysiłku do oszacowania.

Co o tym sądzisz? Czy jedyną zaletą modeli statystycznych / ekonometrycznych jest interpretacja? A może nasze modele nie były na tyle dobre, aby nie przewyższały w prosty sposób losowych prognoz dotyczących lasów? Czy są jakieś dokumenty dotyczące tego problemu?

dubvice
źródło
5
Można to również zamknąć jako „zbyt szerokie”. (Mam nadzieję, że nie jako „oparte na opiniach”!) Moje zdanie: nie sądzę, że istnieje uniwersalna odpowiedź. Z mojego doświadczenia wynika, że ​​modele statystyczne są lepsze, jeśli jest mniej obserwacji, ponieważ wówczas narzucenie jakiejś struktury poprawia podejście w dużej mierze wolne od modelu. I odwrotnie, RF są lepsze, jeśli jest wiele obserwacji. ...
Stephan Kolassa
4
... Drugie pytanie dotyczy tego, co dokładnie zostało ocenione i jak. Jeśli prognozy punktowe zostały odpowiednio ocenione (pomiary dokładności mogą być zaskakująco mylące), jest to inna sprawa niż w przypadku prognoz gęstości. Modele statystyczne mogą być lepsze w prognozach gęstości, ponownie, ponieważ potrzebujesz dużo więcej danych.
Stephan Kolassa
1
@StephanKolassa: Myślę, że dobra odpowiedź (lub zestaw kilku odpowiedzi) na to pytanie zawierałaby powody, dla których nie ma uniwersalnej odpowiedzi - teoretycznie i praktycznie -, w jaki sposób ocenia się skuteczność predykcyjną, jak rozróżnić statystyczną i maszynową metody uczenia się, jakie cele mogą być poza przewidywaniami i kilka rzeczy, o których nawet nie myślałem. Tak szeroki zakres; ale moim zdaniem niezbyt szeroki, a próba ograniczenia tego może po prostu uniemożliwić przedstawienie użytecznych ogólnych uwag.
Scortchi - Przywróć Monikę
5
To, czego nie chcemy, to zbiór anegdot - wzywam użytkowników do oflagowania odpowiedzi, które przychodzą niewiele więcej niż np. „Zawsze uważałem, że losowe lasy pokonują regresję logistyczną”, jakkolwiek trudne. Możemy być nieco leniwi wobec komentarzy, ale długie wątki zostaną przeniesione na czat.
Scortchi - Przywróć Monikę
14
Nie sądzę, aby istniała znacząca różnica między statystykami a uczeniem maszynowym. Na przykład Leo Breiman, wybitny losowy badacz lasu, był profesorem statystyki na UC Berkeley. W kontekście twojej anegdoty RF okazało się lepsze niż inne modele, które ludzie pasowali, ale nie widzę powodu, dla którego musi to być w ogóle prawda (patrz także twierdzenie o braku darmowego lunchu). Być może mówi to więcej o zbiorze danych (lub nawet uczniach) niż o metodach.
Sycorax mówi Przywróć Monikę

Odpowiedzi:

20

Modelowanie statystyczne różni się od uczenia maszynowego. Na przykład regresja liniowa jest zarówno modelem statystycznym, jak i modelem uczenia maszynowego. Jeśli więc porównasz regresję liniową z losowym lasem, po prostu porównujesz prostszy model uczenia maszynowego z bardziej skomplikowanym. Ty nie porównując model statystyczny do modelu uczenia maszynowego.

Modelowanie statystyczne zapewnia coś więcej niż interpretację; faktycznie daje model pewnego parametru populacji. Zależy to od dużej struktury matematyki i teorii, która pozwala na formuły dla takich rzeczy, jak wariancja współczynników, wariancja prognoz i testowanie hipotez. Potencjalna wydajność modelowania statystycznego jest znacznie większa niż uczenie maszynowe, ponieważ można wypowiadać się silnie na temat parametrów populacji, zamiast mierzyć błąd przy zatrzymaniu, ale znacznie trudniej jest podejść do problemu z modelem statystycznym.

użytkownik0
źródło
1
O ile rozumiem, mówisz, że dzięki statystykom zyskujesz więcej korzyści, takich jak wariancja współczynników, wariancja prognoz i testowanie hipotez. Ale jeśli chodzi wyłącznie o modelowanie predykcyjne, tj. Prognozowanie punktowe niektórych zmiennych odpowiedzi, czy uważasz, że modele statystyczne mogą pokonać modele uczenia maszynowego?
dubvice
5
To odpowiedź (+1!). Moim zdaniem (i być może także innych) istnieje kilka rodzajów analiz statystycznych: opisowe, wnioskowania, predykcyjne, eksploracyjne itp. Uczenie maszynowe mieści się głównie w zakresie analizy predykcyjnej, a większość z nich nie pozwala na wnioskowanie twierdzenia na temat rzeczy, więc wszystko sprowadza się do „korzystania z odpowiedniego narzędzia do danego zadania” (biorąc pod uwagę przykład regresji liniowej, można go stosować we wszystkich dziedzinach, np. szacowanie oczekiwań warunkowych, co jest zadaniem opisowym).
Firebug
2
To brzmi jak twierdzenie, że standardowe modelowanie statystyczne może być lepsze do wnioskowania (w przeciwieństwie do przewidywania) niż uczenie maszynowe, co może pomóc w interpretacji modelu. Chociaż z pewnością jest to prawdą, jeśli porównamy zwykłą regresję najmniejszych kwadratów z głęboką siecią neuronową, biorąc pod uwagę, że pierwotne pytanie konkretnie odnosi się do losowego lasu (dobry algorytm ML do wnioskowania), takie twierdzenie jest nieco rozmyte.
Greenstick
2
Oto kilka solidnych dowodów z dziedziny szeregów czasowych, w których modele statystyczne konsekwentnie wyprzedzają podejścia uczenia maszynowego: Makridakis „Metody prognozowania statystycznego i uczenia maszynowego: obawy i kierunki rozwoju” .
Richard Hardy
1
To jest idealna odpowiedź. Oto przykład: powiedzmy, że masz miarę, która przewiduje przeżycie pacjentów z daną chorobą. Istnieją międzynarodowe standardy określania, czy ta miara jest ważna klinicznie (zasadniczo jeśli współczynnik jest różny od 0 przy wartości poniżej 5% w modelu jedno- lub wielowymiarowym). Chociaż jestem absolutnie pewien, że 99% przypadków losowy las z wystarczającą ilością danych byłby lepszym modelem prognostycznym.
Rémy Nicolle,
5

Błędnie jest podać pytanie w sposób, w jaki je sformułowałeś. Na przykład znaczną część uczenia maszynowego można nazwać uczeniem statystycznym . Twoje porównanie jest jak jabłka kontra tarty owocowe.

Jednak podążę za tym, w jaki sposób go sformułowałeś, i twierdzę, że jeśli chodzi o przewidywanie, nic nie da się zrobić bez jakiejś formy statystyki, ponieważ przewidywanie z natury ma w sobie losowość (niepewność). Zastanów się: pomimo ogromnego sukcesu uczenia maszynowego w niektórych aplikacjach nie ma absolutnie nic do popisu w prognozowaniu cen aktywów. W ogóle nic. Dlaczego? Ponieważ na większości rozwiniętych rynków płynnych ceny aktywów są z natury stochastyczne.

Możesz prowadzić uczenie maszynowe przez cały dzień, aby obserwować i uczyć się o radioaktywnym rozpadzie atomów, i nigdy nie będzie w stanie przewidzieć czasu rozpadu następnego atomu, po prostu dlatego, że jest losowy.

Jako początkujący statystyk głupio byłoby z twojej strony nie opanować uczenia maszynowego, ponieważ jest to jedno z najgorętszych zastosowań statystyki, chyba że oczywiście wiesz na pewno, że wybierasz się na studia. Każdy, kto może pójść do pracy w branży, musi opanować ML. Nie ma animozji ani rywalizacji między statystykami a tłumem ML. W rzeczywistości, jeśli lubisz programować, poczujesz się jak u siebie w dziedzinie ML

Aksakal
źródło
2

Zasadniczo nie, ale potencjalnie tak przy złym określeniu. Problem, którego szukasz, nazywa się dopuszczalnością. Decyzja jest dopuszczalna, jeśli nie ma mniej ryzykownego sposobu jej obliczenia.

Wszystkie rozwiązania bayesowskie są dopuszczalne, a rozwiązania nie bayesowskie są dopuszczalne, o ile albo pasują do rozwiązania bayesowskiego w każdej próbce, albo na granicy. Dopuszczalne rozwiązanie dla częstych lub bayesowskich zawsze pokonuje rozwiązanie ML, chyba że jest również dopuszczalne. To powiedziawszy, istnieje kilka praktycznych uwag, które sprawiają, że to stwierdzenie jest prawdziwe, ale puste.

Po pierwsze, pierwszeństwo dla opcji bayesowskiej musi być twoim prawdziwym przeorem, a nie jakąś wcześniejszą dystrybucją używaną do uszczęśliwienia redaktora czasopisma. Po drugie, wiele rozwiązań Frequentist jest niedopuszczalnych i zamiast standardowego rozwiązania należy zastosować estymator skurczu. Wiele osób nie zdaje sobie sprawy z lematu Stein'a i jego konsekwencji dla błędu braku próby. Wreszcie, ML może być nieco bardziej odporny, w wielu przypadkach, na błąd błędnej specyfikacji.

Kiedy przechodzisz do drzew decyzyjnych, a ich kuzyni do lasów, nie używasz podobnej metodologii, chyba że używasz również czegoś podobnego do sieci Bayesa. Rozwiązanie graficzne zawiera znaczną ilość informacji niejawnych, w szczególności wykres ukierunkowany. Ilekroć dodajesz informacje do procesu probabilistycznego lub statystycznego, zmniejszasz zmienność wyniku i zmieniasz to, co można by uznać za dopuszczalne.

Jeśli spojrzysz na uczenie maszynowe z perspektywy kompozycji funkcji, staje się ono po prostu rozwiązaniem statystycznym, ale używa przybliżeń, aby rozwiązanie było wykonalne. W przypadku rozwiązań bayesowskich MCMC oszczędza niewiarygodną ilość czasu, podobnie jak obniżanie gradientu dla wielu problemów ML. Gdybyś albo musiał skonstruować dokładny tył, aby zintegrować lub użyć brutalnej siły w wielu problemach ML, Układ Słoneczny umarłby śmiercią cieplną, zanim dostaniesz odpowiedź.

Domyślam się, że masz źle określony model dla tych, którzy używają statystyk lub nieodpowiednich statystyk. Uczyłem wykładu, w którym udowodniłem, że noworodki wypływają z okien, jeśli nie są odpowiednio owinięte, i gdzie metoda bayesowska tak radykalnie przewyższyła metodę częstokroć przy wyborze wielomianowym, że metoda częstokroć złamała się nawet w oczekiwaniu, podczas gdy metoda bayesowska podwoiła pieniądze uczestników . Teraz wykorzystałem statystykę w tym pierwszym i skorzystałem z niedopuszczalności estymatora Frequentist w drugim, ale naiwny użytkownik statystyk mógł łatwo zrobić to, co zrobiłem. Po prostu uczyniłem je ekstremalnymi, aby przykłady były oczywiste, ale użyłem absolutnie prawdziwych danych.

Losowe lasy są spójnymi estymatorami i wydają się przypominać pewne procesy bayesowskie. Z powodu powiązania z estymatorami jądra mogą być one dość blisko. Jeśli zauważysz istotną różnicę w wydajności między typami rozwiązań, oznacza to, że w podstawowym problemie jest coś, czego nie rozumiesz, a jeśli problem ma jakiekolwiek znaczenie, naprawdę musisz poszukać źródła różnicy, ponieważ może to być również jeśli wszystkie modele są błędnie określone.

Dave Harris
źródło
1

Wiele uczenia maszynowego może nie różnić się od hakowania p, przynajmniej do niektórych celów.

Jeśli przetestujesz każdy możliwy model, aby stwierdzić, że ma on najwyższą dokładność przewidywania (przewidywanie historyczne lub przewidywanie poza grupą) na podstawie danych historycznych, niekoniecznie oznacza to, że wyniki pomogą zrozumieć, co się dzieje. Być może jednak znajdzie możliwe relacje, które mogą stanowić podstawę hipotezy.

Motywowanie konkretnych hipotez, a następnie testowanie ich metodami statystycznymi może z pewnością być podobnie hakowane metodą p (lub podobną).

Chodzi o to, że jeśli kryterium jest „najwyższa dokładność prognoz na podstawie danych historycznych”, wówczas istnieje duże ryzyko zbytniej pewności siebie w niektórych modelach, których nie rozumie się, bez faktycznego pojęcia, co wpłynęło na te historyczne wyniki i / lub czy mogą być pouczające na przyszłość.

nathanwww
źródło