Obecnie śledzę program główny koncentrujący się na statystyce / ekonometrii. U mojego mistrza wszyscy studenci musieli przeprowadzić 3 miesiące badań. W ubiegłym tygodniu wszystkie grupy musiały przedstawić swoje badania reszcie studentów studiów magisterskich.
Prawie każda grupa przeprowadziła modelowanie statystyczne i modelowanie maszynowe dla swoich tematów badawczych i za każdym razem, gdy prognozy poza próbą przychodziły mówić, proste modele uczenia maszynowego pokonały bardzo wyrafinowane modele statystyczne, nad którymi każda pracowała bardzo ciężko przez ostatnie 3 miesięcy. Bez względu na to, jak dobre są modele statystyczne Everyones, prosty losowy las prawie zawsze miał mniej błędów poza próbą.
Zastanawiałem się, czy jest to ogólnie przyjęta obserwacja? Czy jeśli chodzi o prognozowanie poza próbą, po prostu nie ma sposobu na pokonanie prostego modelu losowego lasu lub ekstremalnego modelu zwiększania gradientu? Te dwie metody są bardzo proste do wdrożenia przy użyciu pakietów R, podczas gdy wszystkie modele statystyczne, które wszyscy wymyślili, wymagają dość dużej umiejętności, wiedzy i wysiłku do oszacowania.
Co o tym sądzisz? Czy jedyną zaletą modeli statystycznych / ekonometrycznych jest interpretacja? A może nasze modele nie były na tyle dobre, aby nie przewyższały w prosty sposób losowych prognoz dotyczących lasów? Czy są jakieś dokumenty dotyczące tego problemu?
Odpowiedzi:
Modelowanie statystyczne różni się od uczenia maszynowego. Na przykład regresja liniowa jest zarówno modelem statystycznym, jak i modelem uczenia maszynowego. Jeśli więc porównasz regresję liniową z losowym lasem, po prostu porównujesz prostszy model uczenia maszynowego z bardziej skomplikowanym. Ty nie porównując model statystyczny do modelu uczenia maszynowego.
Modelowanie statystyczne zapewnia coś więcej niż interpretację; faktycznie daje model pewnego parametru populacji. Zależy to od dużej struktury matematyki i teorii, która pozwala na formuły dla takich rzeczy, jak wariancja współczynników, wariancja prognoz i testowanie hipotez. Potencjalna wydajność modelowania statystycznego jest znacznie większa niż uczenie maszynowe, ponieważ można wypowiadać się silnie na temat parametrów populacji, zamiast mierzyć błąd przy zatrzymaniu, ale znacznie trudniej jest podejść do problemu z modelem statystycznym.
źródło
Błędnie jest podać pytanie w sposób, w jaki je sformułowałeś. Na przykład znaczną część uczenia maszynowego można nazwać uczeniem statystycznym . Twoje porównanie jest jak jabłka kontra tarty owocowe.
Jednak podążę za tym, w jaki sposób go sformułowałeś, i twierdzę, że jeśli chodzi o przewidywanie, nic nie da się zrobić bez jakiejś formy statystyki, ponieważ przewidywanie z natury ma w sobie losowość (niepewność). Zastanów się: pomimo ogromnego sukcesu uczenia maszynowego w niektórych aplikacjach nie ma absolutnie nic do popisu w prognozowaniu cen aktywów. W ogóle nic. Dlaczego? Ponieważ na większości rozwiniętych rynków płynnych ceny aktywów są z natury stochastyczne.
Możesz prowadzić uczenie maszynowe przez cały dzień, aby obserwować i uczyć się o radioaktywnym rozpadzie atomów, i nigdy nie będzie w stanie przewidzieć czasu rozpadu następnego atomu, po prostu dlatego, że jest losowy.
Jako początkujący statystyk głupio byłoby z twojej strony nie opanować uczenia maszynowego, ponieważ jest to jedno z najgorętszych zastosowań statystyki, chyba że oczywiście wiesz na pewno, że wybierasz się na studia. Każdy, kto może pójść do pracy w branży, musi opanować ML. Nie ma animozji ani rywalizacji między statystykami a tłumem ML. W rzeczywistości, jeśli lubisz programować, poczujesz się jak u siebie w dziedzinie ML
źródło
Zasadniczo nie, ale potencjalnie tak przy złym określeniu. Problem, którego szukasz, nazywa się dopuszczalnością. Decyzja jest dopuszczalna, jeśli nie ma mniej ryzykownego sposobu jej obliczenia.
Wszystkie rozwiązania bayesowskie są dopuszczalne, a rozwiązania nie bayesowskie są dopuszczalne, o ile albo pasują do rozwiązania bayesowskiego w każdej próbce, albo na granicy. Dopuszczalne rozwiązanie dla częstych lub bayesowskich zawsze pokonuje rozwiązanie ML, chyba że jest również dopuszczalne. To powiedziawszy, istnieje kilka praktycznych uwag, które sprawiają, że to stwierdzenie jest prawdziwe, ale puste.
Po pierwsze, pierwszeństwo dla opcji bayesowskiej musi być twoim prawdziwym przeorem, a nie jakąś wcześniejszą dystrybucją używaną do uszczęśliwienia redaktora czasopisma. Po drugie, wiele rozwiązań Frequentist jest niedopuszczalnych i zamiast standardowego rozwiązania należy zastosować estymator skurczu. Wiele osób nie zdaje sobie sprawy z lematu Stein'a i jego konsekwencji dla błędu braku próby. Wreszcie, ML może być nieco bardziej odporny, w wielu przypadkach, na błąd błędnej specyfikacji.
Kiedy przechodzisz do drzew decyzyjnych, a ich kuzyni do lasów, nie używasz podobnej metodologii, chyba że używasz również czegoś podobnego do sieci Bayesa. Rozwiązanie graficzne zawiera znaczną ilość informacji niejawnych, w szczególności wykres ukierunkowany. Ilekroć dodajesz informacje do procesu probabilistycznego lub statystycznego, zmniejszasz zmienność wyniku i zmieniasz to, co można by uznać za dopuszczalne.
Jeśli spojrzysz na uczenie maszynowe z perspektywy kompozycji funkcji, staje się ono po prostu rozwiązaniem statystycznym, ale używa przybliżeń, aby rozwiązanie było wykonalne. W przypadku rozwiązań bayesowskich MCMC oszczędza niewiarygodną ilość czasu, podobnie jak obniżanie gradientu dla wielu problemów ML. Gdybyś albo musiał skonstruować dokładny tył, aby zintegrować lub użyć brutalnej siły w wielu problemach ML, Układ Słoneczny umarłby śmiercią cieplną, zanim dostaniesz odpowiedź.
Domyślam się, że masz źle określony model dla tych, którzy używają statystyk lub nieodpowiednich statystyk. Uczyłem wykładu, w którym udowodniłem, że noworodki wypływają z okien, jeśli nie są odpowiednio owinięte, i gdzie metoda bayesowska tak radykalnie przewyższyła metodę częstokroć przy wyborze wielomianowym, że metoda częstokroć złamała się nawet w oczekiwaniu, podczas gdy metoda bayesowska podwoiła pieniądze uczestników . Teraz wykorzystałem statystykę w tym pierwszym i skorzystałem z niedopuszczalności estymatora Frequentist w drugim, ale naiwny użytkownik statystyk mógł łatwo zrobić to, co zrobiłem. Po prostu uczyniłem je ekstremalnymi, aby przykłady były oczywiste, ale użyłem absolutnie prawdziwych danych.
Losowe lasy są spójnymi estymatorami i wydają się przypominać pewne procesy bayesowskie. Z powodu powiązania z estymatorami jądra mogą być one dość blisko. Jeśli zauważysz istotną różnicę w wydajności między typami rozwiązań, oznacza to, że w podstawowym problemie jest coś, czego nie rozumiesz, a jeśli problem ma jakiekolwiek znaczenie, naprawdę musisz poszukać źródła różnicy, ponieważ może to być również jeśli wszystkie modele są błędnie określone.
źródło
Wiele uczenia maszynowego może nie różnić się od hakowania p, przynajmniej do niektórych celów.
Jeśli przetestujesz każdy możliwy model, aby stwierdzić, że ma on najwyższą dokładność przewidywania (przewidywanie historyczne lub przewidywanie poza grupą) na podstawie danych historycznych, niekoniecznie oznacza to, że wyniki pomogą zrozumieć, co się dzieje. Być może jednak znajdzie możliwe relacje, które mogą stanowić podstawę hipotezy.
Motywowanie konkretnych hipotez, a następnie testowanie ich metodami statystycznymi może z pewnością być podobnie hakowane metodą p (lub podobną).
Chodzi o to, że jeśli kryterium jest „najwyższa dokładność prognoz na podstawie danych historycznych”, wówczas istnieje duże ryzyko zbytniej pewności siebie w niektórych modelach, których nie rozumie się, bez faktycznego pojęcia, co wpłynęło na te historyczne wyniki i / lub czy mogą być pouczające na przyszłość.
źródło