Dwie kultury: statystyki a uczenie maszynowe?

420

W zeszłym roku przeczytałem post na blogu od Brendana O'Connora zatytułowany „Statystyka vs. uczenie maszynowe, walka!” omawiające niektóre różnice między tymi dwoma polami. Andrew Gelman odpowiedział pozytywnie na to :

Simon Blomberg:

Z pakietu fortuny R.: Prowokując parafrazując „uczenie maszynowe to statystyka pomniejszona o sprawdzenie modeli i założeń”. - Brian D. Ripley (o różnicy między uczeniem maszynowym a statystykami) useR! 2004, Wiedeń (maj 2004) :-) Pozdrowienia sezonu!

Andrew Gelman:

W takim przypadku może powinniśmy częściej pozbywać się sprawdzania modeli i założeń. Wtedy być może moglibyśmy rozwiązać niektóre problemy, które ludzie uczący się mogą rozwiązać, ale nie możemy!

Był także artykuł Leo Breimana z 2001 r. „Modelowanie statystyczne: dwie kultury”, w którym argumentowano, że statystycy zbyt mocno polegają na modelowaniu danych, a techniki uczenia maszynowego robią postępy, polegając na dokładności predykcyjnej modeli.

Czy pole statystyk zmieniło się w ciągu ostatniej dekady w odpowiedzi na te krytyki? Czy te dwie kultury nadal istnieją, czy też wzrosły statystyki, które obejmują techniki uczenia maszynowego, takie jak sieci neuronowe i obsługują maszyny wektorowe?

Shane
źródło
21
Dzięki @robin; wykonane CW. Chociaż nie do końca uważam to za „kłótliwe”; istnieją dwie dziedziny, które się nawzajem poinformowały (to fakt), a pytanie brzmi, jak bardzo ewoluowały razem w ciągu ostatniej dekady.
Shane
16
Dodaj trzecią kulturę: eksploracja danych . Uczący się maszyny i górnicy danych mówią zupełnie innymi językami. Zwykle uczący się maszyny nie rozumieją nawet, co różni się w eksploracji danych. Dla nich jest to po prostu nauka bez nadzoru; ignorują aspekty zarządzania danymi i stosują modulację danych do modnego uczenia się, co dodatkowo pogłębia zamieszanie.
Anony-Mousse,
4
Podobne pytanie dotyczy eksploracji danych i statystyki
naught101
2
Ciekawa dyskusja na blogu Wassermana .
2
Wydaje mi się, że tak naprawdę związek między ML a statystykami nie jest wystarczająco podkreślany. Wielu studentów CS ignoruje naukę czegokolwiek na temat statystyki podczas swoich fundamentalnych dni, ponieważ nie rozumie krytycznego znaczenia solidnej statystyki opartej na podstawach w wykonywaniu zadań ML. Może nawet wiele działów CS na całym świecie również działałoby powoli. Byłby to bardzo kosztowny błąd i mam nadzieję, że istnieje większa świadomość na temat znaczenia wiedzy statystycznej w CS. Zasadniczo ML = Statystyka na wiele sposobów.
xji

Odpowiedzi:

195

Myślę, że odpowiedź na twoje pierwsze pytanie jest po prostu twierdząca. Jeśli weźmiesz jakikolwiek numer z Science Science, JASA, Annals of Statistics z ostatnich 10 lat, znajdziesz artykuły na temat wzmocnienia, SVM i sieci neuronowych, chociaż ten obszar jest teraz mniej aktywny. Statystycy przywłaszczyli sobie pracę Valianta i Vapnika, ale z drugiej strony informatycy wchłonęli pracę Donoho i Talagranda. Nie sądzę, żeby istniała już duża różnica w zakresie i metodach. Nigdy nie kupiłem argumentu Breimana, że ​​ludzie CS byli zainteresowani tylko minimalizacją strat przy użyciu jakichkolwiek prac. Na ten pogląd duży wpływ miał jego udział w konferencjach sieci neuronowych i praca konsultacyjna; ale PAC, SVM, Boosting mają solidne podstawy. I dzisiaj, w przeciwieństwie do 2001 r., Statystyki bardziej dotyczą właściwości próbek skończonych,

Myślę jednak, że nadal istnieją trzy ważne różnice, które wkrótce nie znikną.

  1. Dokumenty ze statystyk metodologicznych są nadal w przeważającej mierze formalne i dedukcyjne, podczas gdy badacze Machine Learning są bardziej tolerancyjni wobec nowych podejść, nawet jeśli nie mają dołączonego dowodu;
  2. Społeczność ML dzieli się przede wszystkim nowymi wynikami i publikacjami na konferencjach i związanych z nimi postępowaniach, podczas gdy statystycy używają artykułów z czasopism. Spowalnia to postęp w statystyce i identyfikacji badaczy gwiazd. John Langford ma jakiś fajny post na ten temat od jakiegoś czasu;
  3. Statystyki nadal obejmują obszary, które (jak na razie) nie są istotne dla ML, takie jak projektowanie ankiet, pobieranie próbek, statystyki przemysłowe itp.
niezadowolony
źródło
20
Wspaniały post! Zauważ, że Vapnick miał doktorat z statystyki. Nie jestem pewien, czy jest wielu informatyków, którzy znają nazwę Talagrand i jestem pewien, że 0,01% z nich może stwierdzić przez pamięć jeden wynik talagrandu :) prawda? Nie znam pracy Valianta :)
robin girard
Widzę różne odpowiedzi, jeśli chodzi o badania naukowe i zastosowania. Myślę, że odpowiedziałeś w kontekście tego pierwszego. Myślę, że w aplikacjach największą różnicą jest sposób, w jaki pola się rozszerzają. ML poprzez kanał nauki danych akceptuje dosłownie każdego, kto umie kodować. W statystykach nadal potrzebujesz formalnego stopnia w statystykach lub w pobliżu pól, aby wejść do siły roboczej.
Aksakal
1
Zarówno pobieranie próbek do ankiet, jak i statystyki przemysłowe to wielomiliardowe pola (sekcja badań ankietowych Amerykańskiego Stowarzyszenia Statystycznego jest trzecią co do wielkości po biometrii i konsultacjach, a ta ostatnia obejmuje również dużą liczbę statystyków przemysłowych. Oddzielna sekcja dotyczy jakości , istnieją jeszcze osobne rzeczy Six-Sigma i inne metody kontroli jakości, nie wszystkie w statystyce). Obaj mają poważne braki w statystykach, ponieważ obecna siła robocza wyżu demograficznego, którzy przybyli do pracy w tych obszarach w latach 60. XX wieku, odchodzi na emeryturę.
StasK
4
Podczas gdy niektórzy ludzie dostają pracę, pozując na czerwonym dywanie podczas konferencji, inni odnajdują ją, stosując metody w prawdziwym świecie. Te ostatnie nie mają ludzie , że duże zainteresowanie identyfikacji gwiazdy wszelkiego rodzaju; raczej raczej identyfikują metody, które działają, chociaż w wielu przypadkach, po kilku latach w danej dziedzinie, ciągle prowadzisz do tych samych nazw.
StasK,
Dlaczego pobieranie próbek nie miałoby dotyczyć ML? Czy nie jest to całkiem podobne do problemu posiadania odpowiednio oznakowanych danych treningowych w ML?
gerrit
169

Największą różnicą, jaką widzę między społecznościami, jest to, że statystyki kładą nacisk na wnioskowanie, podczas gdy uczenie maszynowe kładzie nacisk na przewidywanie. Kiedy robisz statystyki, chcesz wywnioskować proces, na podstawie którego wygenerowano dane. Podczas uczenia maszynowego chcesz wiedzieć, jak przewidzieć, jak będą wyglądać przyszłe dane z pewną zmienną.

Oczywiście te dwie pokrywają się. Wiedza o tym, jak dane zostały wygenerowane, podpowie Ci na przykład, czym byłby dobry predyktor. Jednak jednym z przykładów tej różnicy jest to, że uczenie maszynowe poradziło sobie z problemem p >> n (więcej funkcji / zmiennych niż próbki szkoleniowe) od samego początku, podczas gdy statystyki zaczynają poważnie podchodzić do tego problemu. Dlaczego? Ponieważ nadal możesz robić dobre prognozy, gdy p >> n, ale nie możesz wyciągać bardzo dobrych wniosków na temat tego, które zmienne są tak naprawdę ważne i dlaczego.

dsimcha
źródło
13
Czy można to (nadmiernie) uprościć jako coś w rodzaju różnicy między modelami generatywnymi a dyskryminacyjnymi?
Wayne
5
„Należy rozwiązać problem [klasyfikacji] bezpośrednio i nigdy nie rozwiązywać bardziej ogólnego problemu jako kroku pośredniego ...” - Vapnik
Wayne
3
@mbq: Nie chciałem sugerować, że nie można wyciągać wniosków, tylko że nie jest to główny cel i że zwykle p >> nw ML, co znacznie utrudnia.
dsimcha
2
Zdecydowanie nie zgadzam się z tym poglądem. Wygląda źle. Rzeczy takie jak rekurencyjne sieci neuronowe również próbują wywnioskować procesy, a nawet kontynuować i generować nowe sekwencje.
jaskiniowiec
2
A co z robotyką? Robotyka probabilistyczna skupia się głównie na wnioskowaniu i dość dominuje w aplikacjach. Ale wciąż inny „smak” niż statystyki (i więcej inżynierii w porównaniu do maszyn / uczenia się, tj. Analiza / kontrola w czasie rzeczywistym)
GeoMatt22,
134

Bayesian: „Cześć, uczący się maszyny!”

Częstochowiec: „Witaj, uczący się maszyny!”

Machine Learning: „Słyszałem, że jesteście dobrzy w różnych rzeczach. Oto niektóre dane”.

F: „Tak, zapiszmy model, a następnie obliczmy MLE”.

n1n

F: „Ach tak, dziękuję za przypomnienie. Często myślę, że mam używać MLE do wszystkiego, ale interesują mnie obiektywne estymatory i tak dalej.”

ML: „Ech, co to za filozofowanie? Czy to mi pomoże?”

÷(n1)

ML: „Więc czym się przejmujesz?”

F: „Ocena”.

ML: „Podoba mi się to.”

θθθ

ML: „Brzmi świetnie! Wygląda na to, że częstokroć to ludzie pragmatyczni. Każdą czarną skrzynkę oceniasz na podstawie jej wyników. Kluczem jest ocena.”

F: „Rzeczywiście! Rozumiem, że przyjęliście podobne podejście. Weryfikacja krzyżowa czy coś takiego? Ale to wydaje mi się niechlujne.”

ML: „Bałagan?”

F: „Pomysł przetestowania estymatora na rzeczywistych danych wydaje mi się niebezpieczny. Dane empiryczne, z których korzystasz, mogą mieć z nim różnego rodzaju problemy i mogą nie zachowywać się zgodnie z modelem, który ustaliliśmy na potrzeby oceny”.

θ

F: „Tak. Chociaż twoja metoda mogła działać na jednym zbiorze danych (zbiorze danych z danymi pociągu i danych testowych), którego użyłeś do oceny, mogę udowodnić, że mój zawsze będzie działał”.

ML: „Dla wszystkich zestawów danych?”

F: „Nie”

ML: „Więc moja metoda została zweryfikowana krzyżowo na jednym zestawie danych. Nie przetestowałeś swojej na żadnym prawdziwym zestawie danych?”

F: „Zgadza się”.

ML: „To stawia mnie zatem na czele! Moja metoda jest lepsza od twojej. Przewiduje raka w 90% przypadków. Twój„ dowód ”jest ważny tylko wtedy, gdy cały zestaw danych zachowuje się zgodnie z założonym modelem.”

F: „Emm, tak, chyba.”

θ

F: „Zgadza się. O ile dane nie są naprawdę normalne (lub cokolwiek innego), mój dowód jest bezużyteczny.”

ML: „Więc moja ocena jest bardziej wiarygodna i wyczerpująca? Działa tylko na zestawach danych, które próbowałem do tej pory, ale przynajmniej są to prawdziwe zbiory danych, brodawki i tak dalej. Tam byłeś, próbując twierdzić, że jesteś bardziej„ konserwatywny ” i „dokładny” oraz że interesuje Cię sprawdzanie modeli i takie tam. ”

B: (wtrąca się) „Cześć chłopaki, przepraszam, że przeszkadzam. Chciałbym wkroczyć i zrównoważyć wszystko, być może demonstrując inne problemy, ale naprawdę uwielbiam patrzeć, jak mój kolega z zespołu często się wierci”.

F: „Łał!”

ML: „OK, dzieci. Chodziło o ocenę. Estymator to czarna skrzynka. Dane wchodzą, dane wychodzą. Zatwierdzamy lub odrzucamy estymator w oparciu o to, jak działa w trakcie oceny. Nie obchodzi nas to o stosowanych „przepisach” lub „zasadach projektowania”.

F: „Tak. Ale mamy bardzo różne pomysły na temat tego, które oceny są ważne. ML przeprowadzi szkolenie i przetestuje rzeczywiste dane. Podczas gdy ja dokonam oceny, która jest bardziej ogólna (ponieważ obejmuje szeroko stosowany dowód) i również bardziej ograniczone (ponieważ nie wiem, czy Twój zestaw danych jest rzeczywiście czerpany z założeń modelowania, których używam podczas projektowania mojej oceny). ”

ML: „Jakiej oceny używasz, B?”

F: (wtrąca się) „Hej. Nie rozśmieszaj mnie. Nic nie ocenia. Po prostu wykorzystuje swoje subiektywne przekonania i biegnie z nimi. Lub coś.”

B: „Jest to powszechna interpretacja. Ale możliwe jest również zdefiniowanie bayesianizmu na podstawie preferowanych ocen. Następnie możemy wykorzystać pogląd, że nikomu z nas nie zależy na tym, co jest w czarnej skrzynce, dbamy tylko o różne sposoby oceny”.

B kontynuuje: „Klasyczny przykład: badanie medyczne. Wynik badania krwi jest pozytywny lub negatywny. Częstotliwość zainteresuje się zdrowych ludzi, jaka część otrzyma wynik negatywny. Podobnie, jaki odsetek chorych będzie uzyskać wynik pozytywny. Częsty użytkownik obliczy je dla każdej rozważanej metody badania krwi, a następnie zaleci skorzystanie z testu, który uzyskał najlepszą parę wyników ”.

F: „Dokładnie. Czego więcej można chcieć?”

B: „A co z tymi osobami, które uzyskały pozytywny wynik testu? Będą chciały wiedzieć„ o tych, które uzyskają pozytywny wynik, ilu z nich zachoruje? ”. oraz „z tych, którzy uzyskali wynik negatywny, ilu jest zdrowych?” „

ML: „Ach tak, wydaje się, że jest to lepsza para pytań.”

F: „TUTAJ!”

B: „Znowu jedziemy. Nie lubi, dokąd to zmierza”.

ML: „Chodzi o„ priory ”, prawda?”

F: „Zło”.

B: „W każdym razie tak, masz rację ML. Aby obliczyć odsetek chorych z wynikiem dodatnim, którzy są chorzy, musisz wykonać jedną z dwóch czynności. Jedną z opcji jest przeprowadzenie testów na wielu ludziach i po prostu obserwowanie odpowiednie proporcje. Na przykład ilu z tych osób umiera z powodu tej choroby. ”

ML: „To brzmi jak to, co robię. Użyj treningu i testowania.”

B: „Możesz jednak obliczyć te liczby z wyprzedzeniem, jeśli zechcesz założyć, że wskaźnik zachorowań w populacji jest częsty. Częstotliwość dokonuje również wcześniej swoich wyliczeń, ale bez korzystania z tego wskaźnika zachorowalności na poziomie populacji”.

F: „WIĘCEJ NIEZGŁOSZONYCH ZAŁOŻEŃ”.

B: „Och, zamknij się. Wcześniej cię odkryto. ML odkrył, że tak samo lubisz nieuzasadnione założenia, jak każdy. Twoje„ udowodnione ”prawdopodobieństwo pokrycia nie będzie się układać w prawdziwym świecie, chyba że wszystkie twoje założenia się nie zmienią. Dlaczego moje wcześniejsze założenia są tak różne? Nazywasz mnie wariatem, ale udajesz, że twoje założenia są dziełem konserwatywnej, rzetelnej i pozbawionej założeń analizy ”.

B (kontynuuje): „W każdym razie, ML, jak mówiłem. Bayesianie lubią inny rodzaj oceny. Bardziej interesuje nas uwarunkowanie obserwowanych danych i odpowiednie obliczenie dokładności naszego estymatora. Nie możemy przeprowadzić tej oceny bez użycia a. Ciekawe jest to, że kiedy zdecydujemy się na tę formę oceny i kiedy wybieramy nasz przeor, mamy automatyczny „przepis”, aby stworzyć odpowiedni estymator. Częstotliwość nie ma takiego przepisu. Jeśli chce bezstronny estymator dla złożonego modelu, nie ma on żadnego automatycznego sposobu na zbudowanie odpowiedniego estymatora ”.

ML: „A ty robisz? Możesz automatycznie zbudować estymator?”

B: „Tak. Nie mam automatycznego sposobu na stworzenie bezstronnego estymatora, ponieważ myślę, że uprzedzenie jest złym sposobem oceny estymatora. Ale biorąc pod uwagę to, że podoba mi się ocena warunkowa na danych, a wcześniej mogę połączyć przeor i prawdopodobieństwo, że podam estymator ”.

ML: „W każdym razie podsumujmy. Wszyscy mamy różne sposoby oceny naszych metod i prawdopodobnie nigdy nie uzgodnimy, które metody są najlepsze.”

B: „Cóż, to niesprawiedliwe. Moglibyśmy je mieszać i dopasowywać. Jeśli któryś z nas ma dobrze oznaczone dane treningowe, prawdopodobnie powinniśmy je przetestować. Ogólnie rzecz biorąc, wszyscy powinniśmy przetestować tyle założeń, ile tylko możemy. „dowody mogą być również zabawne, przewidując wydajność przy założonym modelu generowania danych”.

F: „Tak, chłopaki. Bądźmy pragmatyczni w ocenie. I właściwie przestanę mieć obsesję na punkcie właściwości nieskończonej próbki. Poprosiłem naukowców, by dali mi nieskończoną próbkę, ale nadal tego nie zrobili. czas, abym skupił się ponownie na skończonych próbkach ”.

ML: „Mamy więc ostatnie pytanie. Dużo dyskutowaliśmy o tym, jak oceniać nasze metody, ale jak tworzymy nasze metody.”

B: „Ach. Jak się wcześniej zajmowałem, my Bayesianie mamy bardziej zaawansowaną ogólną metodę. Może to być skomplikowane, ale zawsze możemy napisać jakiś algorytm (być może naiwną formę MCMC), który pobierze próbki z naszego tylnej części ciała. „

F (wtrąca): „Ale może mieć tendencyjność”.

B: „Może i twoje metody. Czy potrzebuję przypomnieć, że MLE jest często stronniczy? Czasami masz duże trudności ze znalezieniem obiektywnych estymatorów, a nawet gdy masz głupi estymator (jak na naprawdę skomplikowany model), który powie wariancja jest negatywna. I nazywasz to bezstronnym. Bezstronny, tak. Ale przydatny, nie!

ML: „OK, chłopaki. Znowu się wściekasz. Pozwól, że zadam ci pytanie, F. Czy kiedykolwiek porównywałeś błąd swojej metody z błędem metody B, kiedy oboje pracowaliście nad tym samym problemem?”

F: „Tak. W rzeczywistości nie chcę tego przyznać, ale podejście B ma czasem mniejszą stronniczość i MSE niż mój estymator!”

ML: „Lekcja tutaj polega na tym, że choć nie zgadzamy się co do oceny, żaden z nas nie ma monopolu na to, jak stworzyć estymator, który ma pożądane właściwości”.

B: „Tak, powinniśmy czytać sobie nawzajem trochę więcej. Możemy dać sobie nawzajem inspirację dla estymatorów. Może się okazać, że estymatory drugiej osoby działają świetnie, od razu po wyjęciu z pudełka, na nasze własne problemy”.

F: „I powinienem przestać mieć obsesję na punkcie uprzedzeń. Bezstronny estymator może mieć absurdalną wariancję. Przypuszczam, że wszyscy musimy„ wziąć odpowiedzialność ”za wybory, których dokonujemy, oceniając i właściwości, które chcemy zobaczyć w naszych estymatorach. Nie możemy powstrzymać się od filozofii. Wypróbuj wszystkie oceny, jakie możesz. A ja będę dalej przyglądał się literaturze bayesowskiej, aby znaleźć nowe pomysły na estymatory! ”

B: „W rzeczywistości wiele osób tak naprawdę nie wie, jaka jest ich własna filozofia. Sam nawet nie jestem pewien. Jeśli użyję receptury bayesowskiej i udowodnię jakiś fajny wynik teoretyczny, to nie znaczy, że ja jestem częstym? Częstym dba o ponadprzeciętne dowody dotyczące wydajności, nie dba o przepisy. A jeśli zamiast tego zrobię kilka ćwiczeń i testów (czy też), czy to znaczy, że jestem uczniem maszyn? „

ML: „Wygląda na to, że wszyscy jesteśmy bardzo podobni.”

Aaron McDaid
źródło
8
Dla czytelników, którzy przeczytają tę odpowiedź do końca, proponuję dodać krótką wiadomość na wynos (i podać odpowiednie cytowanie, jeśli dotyczy).
chl
Z dotychczasowymi -2 głosami, myślę, że niewiele mogę zrobić, aby go uratować :) Myślę, że zakończenie, w którym wszyscy się ze sobą zgadzają i przyznają, że mogą używać metod innych bez obawy o filozofię innych, jest „wiadomość na wynos”.
Aaron McDaid
10
Nie wymaga cytowania. Właśnie to wymyśliłem. Prawdopodobnie nie jest zbyt dobrze poinformowany, opiera się na moich (błędnych) interpretacjach argumentów, które miałem przez lata z niewielką liczbą kolegów.
Aaron McDaid
3
W przeszłości widziałem taki dialog (choć krótszy) i uważam go za interesujący. Zaniepokoiły mnie również opinie negatywne, stąd moja propozycja umieszczenia krótkiego podsumowania na górze, aby zmotywować czytelników do przeczytania reszty twojego postu.
chl,
3
13/10
kłóciłby się
67

W takiej dyskusji zawsze przypominam sobie słynny cytat Kena Thompsona

W razie wątpliwości użyj brutalnej siły.

W tym przypadku uczenie maszynowe jest zbawieniem, gdy założenia są trudne do uchwycenia; a przynajmniej jest to o wiele lepsze niż zgadywanie.


źródło
2
Dzięki zwiększonym możliwościom obliczeniowym tych lat oraz autoencoderom i powiązanym technikom jest to bardziej prawdziwe niż kiedykolwiek wcześniej.
Firebug
Aby rozwiązać problem, inżynierowie używają formuł, technik i procedur, których używali wcześniej i są pewni swojego sukcesu ... Zwykle nazywa się to użyciem Brute Force lub użyciem reguł Thumb ... Nowe formuły, techniki i procedury są stosowane krok po kroku ... Działania inżynieryjne są działaniami grupowymi - gdzie inżynierowie, technicy i robotnicy pracują razem. Po wprowadzeniu nowej procedury szkolenie Techników i Robotników zajmuje tę procedurę. Tak więc modernizacja jest wprowadzana w procesie ewolucyjnym.
b.sahu
64

Tym, co wymusza większą separację niż powinna być, jest leksykon każdej dyscypliny.

Istnieje wiele przypadków, w których ML używa jednego terminu, a Statystyka używa innego terminu - ale oba odnoszą się do tego samego - w porządku, można się tego spodziewać i nie powoduje to trwałego zamieszania (np. Cechy / atrybuty kontra oczekiwanie zmienne lub sieć neuronowa / MLP kontra projekcja-pogoń).

O wiele bardziej kłopotliwe jest to, że obie dyscypliny używają tego samego terminu w odniesieniu do zupełnie różnych pojęć.

Kilka przykładów:

Funkcja jądra

W ML funkcje jądra są używane w klasyfikatorach (np. SVM) i oczywiście w maszynach jądra. Termin odnosi się do prostej funkcji ( cosinus, sigmoidalny, rbf, wielomian ) do mapowania nieliniowo rozdzielalnej na nową przestrzeń wejściową, dzięki czemu dane można teraz liniowo oddzielić w tej nowej przestrzeni wejściowej. (w porównaniu z użyciem nieliniowego modelu na początek).

W statystyce funkcja jądra jest funkcją ważenia używaną do szacowania gęstości w celu wygładzenia krzywej gęstości.

Regresja

W ML, algorytmów predykcyjnych lub wdrożeń tych algorytmów, które Naklejki klasy „klasyfikatorów” są (czasami) dalej maszyny --eg, maszyna wsparcie wektor , maszyna jądra . Odpowiednikiem maszyn są regresory , które zwracają wynik (zmienna ciągła) - np . Regresja wektora wsparcia .

Rzadko algorytmy mają różne nazwy w zależności od trybu - np. MLP to termin używany, niezależnie od tego, czy zwraca etykietę klasy, czy ciągłą zmienną.

W statystyce regresja , jeśli próbujesz zbudować model oparty na danych empirycznych, aby przewidzieć pewną zmienną odpowiedzi w oparciu o jedną lub więcej zmiennych objaśniających lub więcej zmiennych - wtedy przeprowadzasz analizę regresji . Nie ma znaczenia, czy wyjście jest zmienną ciągłą, czy etykietą klasy (np. Regresja logistyczna). Na przykład regresja najmniejszych kwadratów odnosi się do modelu, który zwraca wartość ciągłą; z drugiej strony regresja logistyczna zwraca oszacowanie prawdopodobieństwa, które jest następnie dyskretyzowane do etykiet klasy.

Stronniczość

W ML termin odchylenia w algorytmie jest koncepcyjnie identyczny z terminem przechwytywania stosowanym przez statystyków w modelowaniu regresji.

W statystyce odchylenie jest błędem nieprzypadkowym - tj. Pewne zjawisko wpłynęło na cały zestaw danych w tym samym kierunku, co z kolei oznacza, że ​​tego rodzaju błędu nie można usunąć przez ponowne próbkowanie lub zwiększenie wielkości próbki.

doug
źródło
19
W statystyce odchylenie nie jest tym samym, co błąd. Błąd jest czysto przypadkowy, błąd nie jest. Masz uprzedzenia, gdy wiesz, że oczekiwana wartość twojego oszacowania nie jest równa prawdziwej wartości.
Joris Meys,
2
(@Joris Lub nawet jeśli tego nie wiesz! Brzmi banalnie, ale stwierdzenie, czy stronniczość może być poważnym problemem praktycznym. Na podstawie samych danych, jak możesz być pewien, że oszacowany parametr regresji jest wolny od pominiętej zmiennej stronniczość?) Często błędnym przekonaniem jest, że stronniczość jest cechą danych, a nie właściwością estymatora; Zastanawiam się, czy wynika to z nietechnicznego użycia, takiego jak „ta ankieta jest stronnicza!” Statystycy również nie zawsze są zgodni w odniesieniu do terminów takich jak „błąd”: średni błąd kwadratowy (estymatora) zawiera składową kwadratową, więc „błąd” nie jest „czysto przypadkowy”.
Silverfish
2
Myślę, że termin „maszyna” w maszynach SVM należy przypisać osobistemu gustowi Vladimira Vapnic. W dzisiejszych czasach nie sądzę, że używa się go do wymieniania innych klasyfikatorów.
iliasfl
3
E[X^X]
1
[0,1]1
25

Wydaje się, że uczenie maszynowe opiera się na pragmatyce - praktycznej obserwacji lub symulacji rzeczywistości. Nawet w ramach statystyki bezmyślne „sprawdzanie modeli i założeń” może prowadzić do odrzucenia użytecznych metod.

Na przykład lata temu pierwszy dostępny komercyjnie (i działający) model upadłości wdrożony przez biura kredytowe został utworzony za pomocą zwykłego starego modelu regresji liniowej ukierunkowanego na wynik 0-1. Technicznie jest to złe podejście, ale praktycznie zadziałało.

Jay Stevens
źródło
4
przypomina to korzystanie z planetarnych modeli grawitacyjnych w ruchu miejskim. Uważam to za absurdalne, ale właściwie działa cicho dokładnie
dassouki
5
Interesuje mnie ostatnie stwierdzenie: „pierwszy komercyjnie dostępny (i działający) model upadłości wdrożony przez biura kredytowe został stworzony przez zwykły stary model regresji liniowej ukierunkowany na wynik 0-1”. Który to był model? Uważam, że pierwszym modelem był RiskCalc firmy Moody's, a nawet pierwsza wersja była modelem regresji logistycznej. Twórcami tego modelu nie byli ludzie CS z doświadczeniem w ML, ale raczej ekonometria.
szczęśliwy
2
Założę się, że zastosowali analizę dyskryminacyjną przed regresją logistyczną, ponieważ DA wymyślono na długo przed LR
Neil McGuigan
1
@gappy Mam na myśli model upadłości konsumenckiej MDS dla indywidualnych rejestrów biur kredytowych. RiskCalc był oceną ryzyka kredytowego dla firm. Model bankructwa MDS różnił się od ówczesnych modeli ryzyka FICO tym, że celem było bankructwo, a NIE zaległości kredytowe (takie jak oryginalne wyniki FICO). Mój komentarz mniej dotyczył specyfiki ML w tym kontekście (ponieważ był on ledwie w użyciu - jeśli w ogóle - w momencie budowy modelu BK), ale był związany z faktem, że praktyczna skuteczność niekoniecznie wcale jest związana z ograniczenia teoretyczne lub naruszenia założeń.
Jay Stevens
Ciekawe, dlaczego technicznie było to złe podejście. Ponieważ dokonał zbyt wielu uproszczeń, które znacznie różniłyby się od rzeczywistości?
Xji
25

Największe różnice, które zauważyłem w ubiegłym roku to:

  • Eksperci uczenia maszynowego nie poświęcają wystarczająco dużo czasu na podstawy, a wielu z nich nie rozumie optymalnego procesu decyzyjnego i właściwych zasad punktacji dokładności. Nie rozumieją, że metody predykcyjne, które nie zakładają żadnych założeń, wymagają większych próbek niż te, które to robią.
  • My, statystycy, spędzamy za mało czasu na naukę dobrej praktyki programowania i nowych języków obliczeniowych. Jesteśmy zbyt powolni, aby się zmieniać, jeśli chodzi o obliczenia i przyjęcie nowych metod z literatury statystycznej.
Frank Harrell
źródło
2
Inna uwaga jest taka, że ​​my, statystycy, mamy tendencję do ograniczania się do metod, które możemy udowodnić za pomocą matematyki, które sprawdzą się (przy założeniu być może absurdalnych założeń), szczególnie jeśli chodzi o publikacje. Osoby uczące się maszynowo bardzo chętnie korzystają z metod, które empirycznie sprawdzają się w kilku zestawach danych. W rezultacie myślę, że literatura ML porusza się znacznie szybciej, ale wymaga również większego przesiewania przez głupotę.
Cliff AB
24

Nie zgadzam się z tym pytaniem, ponieważ sugeruje, że uczenie maszynowe i statystyki są naukami odmiennymi lub sprzecznymi .... kiedy jest odwrotnie!

uczenie maszynowe w szerokim zakresie wykorzystuje statystyki ... szybka ankieta dowolnego pakietu oprogramowania do uczenia maszynowego lub eksploracji danych ujawni techniki klastrowania, takie jak k-średnie występujące również w statystykach ... pokaże także techniki redukcji wymiarów, takie jak analiza głównych komponentów także technika statystyczna ... nawet regresja logistyczna jeszcze inna.

Moim zdaniem główna różnica polega na tym, że tradycyjnie statystyki zostały wykorzystane do udowodnienia z góry założonej teorii i zwykle analiza była projektowana wokół tej głównej teorii. Tam, gdzie w przypadku eksploracji danych lub uczenia maszynowego normą jest zwykle odwrotne podejście, ponieważ mamy wynik, po prostu chcemy znaleźć sposób, aby to przewidzieć, zamiast zadawać pytania lub formułować teorię - taki jest wynik!

Mojo
źródło
21

Mówiłem o tym na innym forum eGroup ASA Statistics Consulting. Moja odpowiedź była bardziej szczegółowa w przypadku eksploracji danych, ale obie idą w parze. My, statystycy, zlekceważyliśmy nasze nosy przed górnikami danych, informatykami i inżynierami. To jest złe. Myślę, że częściowo dzieje się tak dlatego, że widzimy, jak niektórzy ludzie w tych dziedzinach ignorują stochastyczną naturę ich problemu. Niektórzy statystycy nazywają szpiegowanie danych lub przeszukiwanie danych. Niektóre osoby nadużywają i niewłaściwie wykorzystują metody, ale statystycy pozostają w tyle w eksploracji danych i uczeniu maszynowym, ponieważ malujemy je szerokim pędzlem. Niektóre duże wyniki statystyczne pochodzą spoza dziedziny statystyki. Ważnym przykładem jest wzmocnienie. Ale statystycy tacy jak Brieman, Friedman, Hastie, Tibshirani, Efron, Gelman i inni to zrozumieli, a ich kierownictwo włączyło statystyk do analizy mikromacierzy i innych problemów wnioskowania na dużą skalę. Więc chociaż kultury mogą nigdy nie zazębiać się, teraz jest więcej współpracy i współpracy między informatykami, inżynierami i statystykami.

Michael Chernick
źródło
19

Prawdziwy problem polega na tym, że to pytanie jest błędne. To nie uczenie maszynowe vs. statystyki, to uczenie maszynowe wbrew rzeczywistemu postępowi naukowemu. Jeśli urządzenie do uczenia maszynowego daje właściwe prognozy w 90% przypadków, ale nie rozumiem „dlaczego”, jaki jest wpływ uczenia maszynowego na całą naukę? Wyobraź sobie, że do przewidywania pozycji planet wykorzystano techniki uczenia maszynowego: wielu zadowolonych ludzi pomyślałoby, że mogą dokładnie przewidzieć wiele rzeczy za pomocą swoich maszyn SVM, ale co naprawdę wiedzieliby o problemie, który mieli w rękach ? Oczywiście nauka nie postępuje według przewidywań liczbowych, postępuje za pomocą modeli (mentalnych, matematycznych), które pozwalają nam widzieć znacznie więcej niż tylko liczby.

użytkownik36080
źródło
1
+1 To przypomina mi wykorzystanie modeli w ekonomii. Modele ekonometryczne są budowane w kilku celach; a mianowicie analiza i prognozowanie polityki. Ogólnie rzecz biorąc, nikt tak naprawdę nie dba o prognozowanie - najważniejsze są symulacje polityk. Jak powiedział David Hendry, najlepszy model prognozowania niekoniecznie jest najlepszym modelem do analizy polityki - i odwrotnie. Musisz się cofnąć i pomyśleć ... Jaki jest cel tego modelu? Na jakie pytania próbujemy odpowiedzieć? I jak to pasuje do dokonywania odkryć empirycznych .
Graeme Walsh,
17

Nauka statystyczna (AKA Machine Learning) ma swoje źródło w dążeniu do tworzenia oprogramowania poprzez „uczenie się na przykładach”. Istnieje wiele zadań, które chcielibyśmy wykonać na komputerach (np. Widzenie komputerowe, rozpoznawanie mowy, sterowanie robotem), które są trudne do zaprogramowania, ale dla których łatwo jest podać przykłady szkolenia. Społeczność zajmująca się uczeniem maszynowym / statystycznym opracowała algorytmy do uczenia się funkcji na podstawie tych przykładów. Funkcja utraty była zazwyczaj związana z zadaniem wykonania (widzenie, rozpoznawanie mowy). I oczywiście nie mieliśmy powodu sądzić, że u podstaw tych zadań leżałby prosty „model” (ponieważ inaczej sami zakodowalibyśmy ten prosty program). Dlatego cały pomysł wnioskowania statystycznego nie miał sensu. Celem jest dokładność prognostyczna i nic więcej.

Z czasem różne siły zaczęły zachęcać ludzi uczących się maszyn do zdobywania dodatkowych informacji na temat statystyki. Jedną z nich była potrzeba włączenia wiedzy ogólnej i innych ograniczeń w procesie uczenia się. Doprowadziło to ludzi do rozważenia generatywnych modeli probabilistycznych, ponieważ ułatwiają one uwzględnienie wcześniejszej wiedzy poprzez strukturę modelu oraz priorytety dotyczące parametrów i struktury modelu. Doprowadziło to do odkrycia bogatej literatury statystycznej w tej dziedzinie. Kolejną siłą było odkrycie zjawiska nadmiernego dopasowania. Doprowadziło to społeczność ML do poznania krzyżowej walidacji i regularyzacji i ponownie odkryliśmy bogatą literaturę statystyczną na ten temat.

Niemniej jednak większość prac związanych z uczeniem maszynowym koncentruje się na stworzeniu systemu, który wykazuje pewną wydajność, a nie na wnioskach na temat nieznanego procesu. Jest to podstawowa różnica między ML a statystykami.

Tom Dietterich
źródło
15

Najlepiej jest mieć dokładną wiedzę na temat statystyki i uczenia maszynowego przed próbą odpowiedzi na jego pytanie. Jestem bardzo neofitą ML, więc wybacz mi, jeśli wat powiem, że jest naiwny.

Mam ograniczone doświadczenie w SVM i drzewach regresji. To, co wydaje mi się brakujące ML z punktu widzenia statystyk, to dobrze rozwinięta koncepcja wnioskowania.

Wnioskowanie w ML wydaje się sprowadzać prawie wyłącznie do dokładności prognozowania, mierzonej (na przykład) średnim błędem klasyfikacji (MCE) lub zrównoważonym poziomem błędu (BER) lub podobnym. ML ma bardzo dobry zwyczaj losowego dzielenia danych (zwykle 2: 1) na zestaw treningowy i zestaw testowy. Modele są dopasowane przy użyciu zestawu treningowego, a wyniki (MCE, BER itp.) Są oceniane przy użyciu zestawu testowego. Jest to doskonała praktyka i powoli wkracza do statystyk głównego nurtu.

ML również intensywnie korzysta z metod ponownego próbkowania (zwłaszcza walidacji krzyżowej), których początki wydają się pochodzić ze statystyk.

Wydaje się jednak, że ML nie ma w pełni rozwiniętej koncepcji wnioskowania - poza dokładnością predykcyjną. To ma dwa wyniki.

1) Wydaje się, że nie ma szacunku, że jakakolwiek prognoza (oszacowanie parametru itp.) Jest obarczona błędem losowym i być może błędem systemowym (stronniczością). Statystycy zaakceptują, że jest to nieunikniona część prognoz i spróbują oszacować błąd. Techniki statystyczne spróbują znaleźć oszacowanie, które ma minimalne odchylenie i błąd losowy. Ich techniki są zwykle oparte na modelu przetwarzania danych, ale nie zawsze (np. Bootstrap).

2) Wydaje się, że w ML nie ma głębokiego zrozumienia granic zastosowania modelu do nowych danych do nowej próbki z tej samej populacji (pomimo tego, co powiedziałem wcześniej o podejściu do zestawu danych testu szkoleniowego). Różne techniki statystyczne, w tym krzyżowe sprawdzanie poprawności i kary stosowane w metodach opartych na prawdopodobieństwie, kierują statystykami w kompromisie między oszczędnością a złożonością modelu. Takie wytyczne w ML wydają się znacznie bardziej ad hoc.

Widziałem kilka artykułów w ML, w których stosuje się weryfikację krzyżową w celu optymalizacji dopasowania wielu modeli w zbiorze danych szkoleniowych - zapewniając lepsze i lepsze dopasowanie wraz ze wzrostem złożoności modelu. Wydaje się, że nie docenia się faktu, że niewielkie zwiększenie dokładności nie jest warte dodatkowej złożoności, co naturalnie prowadzi do nadmiernego dopasowania. Następnie wszystkie te zoptymalizowane modele są stosowane do zestawu testowego w celu sprawdzenia wydajności predykcyjnej i zapobiegania nadmiernemu dopasowaniu. Dwie rzeczy zostały zapomniane (powyżej). Wydajność predykcyjna będzie miała element stochastyczny. Po drugie, wielokrotne testy w stosunku do zestawu testów ponownie spowodują nadmierne dopasowanie. „Najlepszy” model zostanie wybrany przez praktyka ML bez pełnego uznania, że ​​wybrał jedną z realizacji wielu możliwych wyników tego eksperymentu.

Wszelkie moje 2 centy warte. Musimy się wiele od siebie nauczyć.

Thylacoleo
źródło
2
twój komentarz na temat „Najlepszego” modelu zostanie wybrany przez praktyka ML ... równie dobrze odnosi się do statystyk głównego nurtu. W większości procedur wyboru modelu po prostu warunkuje się ostateczny model, tak jakby nie przeprowadzono przeszukiwania przestrzeni modelu (biorąc pod uwagę, że uśrednianie modelu jest dość nowe). Więc nie sądzę, żebyś mógł użyć tego jako „klubu”, by tak rzec, by pobić praktykującego ML.
probabilislogiczny
Jako praktykujący ML nie rozpoznaję obrazu, który malujesz. Literatura ML dotyczy prawie wszystkich odmian regularyzacji, MDL, Bayesian, SRM i innych podejść do kontrolowania złożoności modelu. Z miejsca, w którym siedzę, wydaje się, że metody kontroli złożoności statystyki są mniej ustrukturyzowane, ale to jest dla ciebie stronnicze.
Muhammad Alkarouri,
13

Pytanie to można również rozszerzyć na tak zwaną superkulturę nauki o danych w 2015 r. David Donoho w artykule 50 lat Data Science , w którym konfrontuje różne punkty widzenia ze statystyki i informatyki (w tym uczenia maszynowego), na przykład bezpośrednie stanowiska (od różnych osób) takie, że:

  • Dlaczego potrzebujemy nauki danych, skoro mamy statystyki od stuleci?
  • Nauka danych to statystyka.
  • Analiza danych bez statystyk jest możliwa, a nawet pożądana.
  • Statystyka jest najmniej istotną częścią nauki o danych.

oraz w połączeniu z rozważaniami historycznymi, filozoficznymi, na przykład:

Uderzające jest to, że kiedy przeglądam prezentację na temat dzisiejszej analizy danych, w której statystyki są dość krótko przesadzone, nie mogę nie zauważyć, że wszystkie podstawowe narzędzia, przykłady i pomysły nauczane jako nauka danych były wszystkie dosłownie wynaleziony przez kogoś przeszkolonego w doktorat. statystyki, aw wielu przypadkach faktyczne oprogramowanie zostało opracowane przez osobę posiadającą tytuł magistra lub doktora. w statystykach. Zgromadzone wyniki statystyk przez stulecia są po prostu zbyt przytłaczające, aby można je całkowicie opisać, i nie można ich ukryć w nauczaniu, badaniach i ćwiczeniach związanych z Data Science.

Ten esej przyniósł wiele odpowiedzi i wkład w debatę.

Laurent Duval
źródło
3
Wygląda to na artykuł, o którym warto wspomnieć w tym ostatnim popularnym wątku stats.stackexchange.com/questions/195034 , myślę, że nikt o nim nie wspominał.
ameba
1
Myślę, że jeśli opublikujesz tam nową odpowiedź podsumowującą ten artykuł, będzie świetnie.
ameba
Najpierw muszę i muszę streścić wszystkie podane odpowiedzi
Laurent Duval,
12

Naprawdę nie wiem, jaka jest konceptualna / historyczna różnica między uczeniem maszynowym a statystyką, ale jestem pewien, że nie jest to takie oczywiste ... i nie interesuje mnie to, czy jestem uczniem maszyny, czy statystykiem, myślę 10 lat po pracy Breimana wielu ludzi jest ...

W każdym razie znalazłem interesujące pytanie o dokładność predykcyjną modeli . Musimy pamiętać, że nie zawsze można zmierzyć dokładność modelu, a dokładniej najczęściej dokonujemy modelowania podczas pomiaru błędów.

Na przykład średni błąd bezwzględny w prognozie szeregów czasowych jest średnią w czasie i mierzy wydajność procedury prognozowania mediany przy założeniu, że wydajność jest, w pewnym sensie, stacjonarna i wykazuje pewną właściwość ergodyczną . Jeśli (z jakiegoś powodu) musisz prognozować średnią temperaturę na Ziemi na następne 50 lat, a jeśli twoje modelowanie działa dobrze przez ostatnie 50 lat ... to nie znaczy, że ...

Mówiąc bardziej ogólnie (jeśli pamiętam, nazywa się to „darmowym lunchem”) nie można nic zrobić bez modelowania… Ponadto myślę, że statystyka próbuje znaleźć odpowiedź na pytanie: „jest czymś znaczącym, czy nie”, jest to bardzo ważne pytanie w nauce i nie można na nie odpowiedzieć w procesie uczenia się. Stwierdzając, że John Tukey (czy był statystykiem?):

Połączenie niektórych danych i bolesne pragnienie odpowiedzi nie gwarantuje, że z danego zbioru danych można wydobyć rozsądną odpowiedź

Mam nadzieję że to pomoże !

Robin Girard
źródło
12

Oczywiste jest, że te dwa pola wyraźnie napotykają podobne, ale różne problemy, w podobny, ale nie identyczny sposób z analogicznymi, ale nie identycznymi koncepcjami, i pracują w różnych działach, czasopismach i konferencjach.

Kiedy czytam Cressie i Read's Power Divergence Statistics , wszystko to zatrzasnęło się dla mnie. Ich formuła uogólnia powszechnie stosowane statystyki testowe na te, które różnią się o jeden wykładnik, lambda. Istnieją dwa specjalne przypadki, lambda = 0 i lambda = 1.

Informatyka i statystyka pasują do kontinuum (które prawdopodobnie mogłoby obejmować inne punkty). Przy jednej wartości lambda otrzymujesz statystyki często cytowane w kręgach Statistics, a przy drugiej otrzymujesz statystyki często cytowane w kręgach Comp Sci.

Statystyka

  • Lambda = 1
  • Sumy kwadratów pojawiają się bardzo często
  • Wariancja jako miara zmienności
  • Kowariancja jako miara asocjacji
  • Statystyka chi-kwadrat jako miara dopasowania modelu

Informatyka:

  • Lambda = 0
  • Sumy dzienników pojawiają się bardzo często
  • Entropia jako miara zmienności
  • Wzajemne informacje jako miara powiązania
  • Statystyka kwadratu G jako miara dopasowania modelu
645715
źródło
9

Raz uruchamiasz fantazyjny algorytm komputerowy - i otrzymujesz prezentację / statystyki z konferencji CS (wow, co za szybka konwergencja!). Komercjalizujesz go i uruchamiasz milion razy - i popsułeś się (ouch, dlaczego cały czas otrzymuję bezużyteczne i nieodtwarzalne wyniki ???), chyba że wiesz, jak wykorzystać prawdopodobieństwo i statystyki do uogólnienia właściwości algorytmu.

StasK
źródło
3
Głosowałem za odpowiedzią w tej sprawie. Chociaż przy takim pytaniu nieuchronnie pociągną za sobą osobiste opinie, IMO powinniśmy dążyć do bardziej merytorycznej krytyki. To po prostu wychodzi na jaw.
Andy W
@ AndyW, to oczywiście przesada w tym, co widzę. Brak statystycznego myślenia o przyszłości jest również prawdziwy w świecie akademickim: powtarzalność opublikowanych wyników w psychologii lub naukach medycznych wynosi co najwyżej 25% (patrz np. Simplystatistics.tumblr.com/post/21326470429/... ) niż nominalna 95%. OP chciał, aby statystyki obejmowały informatykę; może informatyka powinna objąć niektóre statystyki, a ja podałem powody.
StasK
5
@StasK Myślę, że robisz kilka ważnych punktów, dlaczego nie spróbować, aby były nieco mniej agresywne?
Gala
2
Podobała mi się ta zwięzła odpowiedź.
Ian Warburton
6

Istnieje obszar zastosowania statystyki, w którym skupienie się na modelu generowania danych ma sens. W zaprojektowanych eksperymentach, np. Badaniach na zwierzętach, badaniach klinicznych, przemysłowych DOE, statystycy mogą mieć wpływ na model generowania danych. ML zwykle nie spędza dużo czasu na tym bardzo ważnym problemie, ponieważ ML zwykle koncentruje się na innym bardzo ważnym problemie przewidywania opartym na „dużych” danych obserwacyjnych. Nie oznacza to, że ML nie można stosować do „dużych” eksperymentów zaprojektowanych, ale ważne jest, aby uznać, że statystyki mają szczególną wiedzę specjalistyczną na temat „małych” problemów z danymi wynikającymi z eksperymentów ograniczonych zasobami.

Pod koniec dnia myślę, że wszyscy możemy zgodzić się na wykorzystanie tego, co działa najlepiej, aby rozwiązać dany problem. Np. Możemy zaprojektować eksperyment, który generuje bardzo szerokie dane w celu przewidywania. Bardzo przydatne są tu zasady projektowania statystycznego, a metody ML mogą być przydatne do budowy predyktora.

Clark
źródło
4

Myślę, że uczenie maszynowe musi być gałęzią pod statystyką, tak jak, moim zdaniem, chemia musi być gałęzią pod fizyką.

Myślę, że inspirowane fizyką spojrzenie na chemię jest dość solidne (tak sądzę). Nie sądzę, żeby była jakakolwiek reakcja chemiczna, której odpowiednik nie jest znany fizycznie. Myślę, że fizyka wykonała niesamowitą robotę, tłumacząc wszystko, co widzimy na poziomie chemicznym. Teraz wyzwaniem dla fizyków wydaje się wyjaśnienie drobnych tajemnic na poziomie kwantowym w ekstremalnych warunkach, których nie można zaobserwować.

Teraz wróć do uczenia maszynowego. Myślę, że również powinna to być pod-gałąź w statystyce (tak jak chemia jest gałęzią fizyki).

Wydaje mi się jednak, że obecny stan uczenia maszynowego lub statystyki nie jest wystarczająco dojrzały, aby doskonale to zrozumieć. Ale na dłuższą metę myślę, że jedno musi stać się pododdziałem drugiego. Myślę, że to ML będzie podlegało statystykom.

Osobiście uważam, że „uczenie się” i „analizowanie próbek” w celu oszacowania / wnioskowania funkcji lub prognoz są w zasadzie kwestią statystyki.

jaskiniowiec
źródło
3
Czy biologia, psychologia i socjologia powinny być również „gałęziami fizyki”?
ameba
Zgadza się… Psychologia to tylko wkład / rezultat dotyczący bardzo skomplikowanych maszyn biologicznych. Pewnego dnia może być konieczne wysłanie naszych samochodów do psychologa w celu zdiagnozowania błędów (sam psycholog może być komputerem).
jaskiniowiec
1
Wydaje mi się, że matematyka jest ojcem wszystkich. Stamtąd zastosowaliśmy matematykę, z której pochodzi fizyka i inne rzeczy. Statystyka jest jedną z nich. Myślę, że ML nie musi być samodzielną gałęzią i zamiast tego zostać wtopionym w statystyki. Ale jeśli ML stanie się własną gałęzią, wolę, aby była dzieckiem / gałęzią statystyki.
jaskiniowiec
4

Z kursu Coursera „Data Science in real life” Briana Caffo

Nauczanie maszynowe

  • Podkreśl przewidywania
  • Ocenia wyniki na podstawie wyników prognozowania
  • Troska o nadmierne dopasowanie, ale nie złożoność modelu per se
  • Nacisk na wydajność
  • Uogólnianie uzyskuje się dzięki wydajności nowych zestawów danych
  • Zwykle nie określa się modelu superpopulacji
  • Troska o wydajność i solidność

Tradycyjna analiza statystyczna

  • Podkreśla wnioskowanie o superpopulacji
  • Koncentruje się na hipotezach a priori
  • Prostsze modele preferują bardziej skomplikowane (parsimony), nawet jeśli bardziej złożone modele działają nieco lepiej
  • Nacisk na interpretację parametrów
  • Założenia dotyczące modelowania statystycznego lub próbkowania łączą dane z zainteresowaną populacją
  • Troska o założenia i solidność
KoenBal
źródło
-5

Jako informatyk zawsze intryguje mnie podejście do statystyki. Dla mnie wiele razy wygląda na to, że modele statystyczne użyte w analizie statystycznej są zbyt skomplikowane dla danych w wielu sytuacjach!

Na przykład istnieje silny związek między kompresją danych a statystykami. Zasadniczo potrzebny jest dobry model statystyczny, który jest w stanie dobrze przewidzieć dane, a to zapewnia bardzo dobrą kompresję danych. W informatyce przy kompresji danych zawsze bardzo ważna jest złożoność modelu statystycznego i dokładność prognoz. Nikt nie chce, aby KAŻDY plik danych (zawierający dane dźwiękowe lub dane obrazu lub wideo) był większy po kompresji!

Uważam, że w dziedzinie informatyki istnieją bardziej dynamiczne rzeczy, takie jak na przykład minimalna długość opisu i znormalizowane maksymalne prawdopodobieństwo .

cerb
źródło