Dlaczego zakładamy, że błąd jest zwykle dystrybuowany?

17

Zastanawiam się, dlaczego używamy założenia Gaussa podczas modelowania błędu. Na kursie ML Stanforda prof. Ng opisuje to zasadniczo na dwa sposoby:

  1. Jest to matematycznie wygodne. (Jest to związane z dopasowaniem najmniejszych kwadratów i łatwe do rozwiązania za pomocą pseudoinwersji)
  2. Ze względu na centralne twierdzenie graniczne możemy założyć, że istnieje wiele podstawowych faktów wpływających na proces, a suma tych pojedynczych błędów będzie miała tendencję do zachowywania się jak przy zerowym średnim rozkładzie normalnym. W praktyce wydaje się, że tak jest.

Właściwie interesuje mnie druga część. Z tego, co wiem, Twierdzenie o granicy centralnej działa dla próbek ididalnych, ale nie możemy zagwarantować, że próbki leżące u podstaw są ididalne.

Czy masz jakieś pomysły na temat Gaussowskiego założenia błędu?

petrichor
źródło
O jakim otoczeniu mówisz? Klasyfikacja, regresja czy coś bardziej ogólnego?
tdc
Zadałem pytanie w sprawie ogólnej. Większość historii zaczyna się od założenia błędu Gaussa. Ale osobiście interesuję się faktoryzacjami macierzowymi i rozwiązaniami modeli liniowych (tak powiedzmy regresją).
petrichor

Odpowiedzi:

9

Myślę, że w zasadzie trafiłeś w sedno w pytaniu, ale zobaczę, czy i tak mogę coś dodać. Odpowiem na to trochę na rondzie ...

W obszarze Robust Statistics badane jest pytanie, co zrobić, gdy załamanie Gaussa nie powiedzie się (w tym sensie, że istnieją wartości odstające):

często zakłada się, że błędy danych są normalnie rozłożone, przynajmniej w przybliżeniu, lub że można opierać się na twierdzeniu o limicie centralnym w celu uzyskania normalnie rozłożonych oszacowań. Niestety, gdy w danych występują wartości odstające, klasyczne metody często mają bardzo słabą wydajność

Zostały one również zastosowane w ML, na przykład w Mika el al. (2001) Programowanie matematyczne podejście do jądra Fisher algorytmu , opisują jak Huber Solidna Straty mogą być używane z KDFA (wraz z innymi funkcjami strata). Oczywiście jest to utrata klasyfikacji, ale KFDA jest ściśle związana z Maszyną Wektorową Istotności (patrz sekcja 4 artykułu Mika).

Jak sugeruje to pytanie, istnieje ścisły związek między funkcjami strat a modelami błędów bayesowskich (patrz tutaj dyskusja).

Jednak zdarza się, że jak tylko zaczniesz włączać „funky” funkcje strat, optymalizacja staje się trudna (zwróć uwagę, że dzieje się tak również w świecie bayesowskim). Dlatego w wielu przypadkach ludzie korzystają ze standardowych funkcji utraty, które są łatwe do optymalizacji, i zamiast tego wykonują dodatkowe przetwarzanie wstępne, aby upewnić się, że dane są zgodne z modelem.

Inną kwestią, o której wspominasz, jest to, że CLT dotyczy tylko próbek, które są IID. To prawda, ale wtedy założenia (i towarzysząca im analiza) większości algorytmów są takie same. Kiedy zaczynasz patrzeć na dane inne niż IID, sprawy stają się znacznie trudniejsze. Jednym z przykładów jest zależność czasowa, w którym to przypadku zazwyczaj zakłada się, że zależność obejmuje tylko określone okno, a zatem próbki można uznać za w przybliżeniu IID poza tym oknem (patrz na przykład ten genialny, ale twardy papier Chromatic PAC -Bayes Bounds dla danych innych niż IID: aplikacje do rankingu i stacjonarne procesy mieszania β ), po których można zastosować normalną analizę.

Tak, częściowo sprowadza się to do wygody, a po części dlatego, że w prawdziwym świecie większość błędów wygląda (z grubsza) Gaussa. Oczywiście zawsze należy zachować ostrożność, patrząc na nowy problem, aby upewnić się, że założenia nie zostaną naruszone.

tdc
źródło
1
+1 Bardzo dziękuję za wzmiankę o solidnych i nierzetelnych statystykach. Zauważyłem, że średnia i skrócona wartość średnia działa zwykle lepiej niż średnia w praktyce, ale nie znałem stojącej za nimi teorii.
petrichor
3
Kolejną wygodą związaną z normalnie dystrybuowanymi danymi jest to, że korelacja 0 oznacza niezależność.
AdamO,
3
Komentarz na temat IID-ness nie jest całkiem słuszny. Istnieje (kilka) bardzo ogólnych twierdzeń o limicie centralnym, które mają zastosowanie, gdy wyniki są niezależne, ale nie są identycznie rozłożone; patrz np. Lindeberg CLT. Istnieją również wyniki CLT, które nawet nie potrzebują niezależności; mogą wynikać na przykład z wymiennych obserwacji.
gość