Na temat znaczenia założenia iid w uczeniu statystycznym

54

W uczeniu statystycznym, w sposób dorozumiany lub jawny, zawsze zakłada się, że zestaw treningowy D={X,y} składa się z N krotek wejściowych / odpowiedzi (Xi,yi) które są niezależne od tego samego rozkładu połączeń P(X,y) z

p(X,y)=p(y|X)p(X)

oraz p(y|X) związek, który próbujemy uchwycić za pomocą określonego algorytmu uczenia się. Matematycznie to założenie pisze:

(Xi,yi)P(X,y),i=1,...,N(Xi,yi) independent of (Xj,yj),ij{1,...,N}

Myślę, że wszyscy możemy się zgodzić, że to założenie rzadko jest spełniane w praktyce, patrz powiązane pytanie SE i mądre komentarze @Glen_b i @Luca.

Moje pytanie brzmi zatem:

Gdzie dokładnie założenie iid staje się krytyczne w praktyce?

[Kontekst]

Pytam o to, ponieważ mogę sobie wyobrazić wiele sytuacji, w których tak rygorystyczne założenie nie jest potrzebne do wyszkolenia określonego modelu (np. Metody regresji liniowej), lub przynajmniej jedna może obejść założenie iid i uzyskać solidne wyniki. W rzeczywistości wyniki zwykle pozostają takie same, raczej zmieniają się wnioski, które można wyciągnąć (np. Heteroskedastyczność i spójne korelacje estymatorów HAC w regresji liniowej: chodzi o ponowne użycie starych dobrych dobrych wag regresji OLS, ale dostosowanie zachowanie skończonej próby estymatora OLS w celu wyjaśnienia naruszenia założeń Gaussa-Markowa).

Domyślam się zatem, że założenie iid jest wymagane, aby nie być w stanie wyszkolić konkretnego algorytmu uczenia się, ale raczej zagwarantować, że techniki takie jak walidacja krzyżowa mogą rzeczywiście zostać wykorzystane do ustalenia wiarygodnej miary zdolności modelu do ogólnej uogólnienia , co jest jedyną rzeczą, która nas interesuje pod koniec dnia w nauce statystycznej, ponieważ pokazuje, że rzeczywiście możemy uczyć się na podstawie danych. Intuicyjnie rozumiem, że stosowanie weryfikacji krzyżowej na zależnych danych może być optymistycznie tendencyjne (jak pokazano / wyjaśniono w tym interesującym przykładzie ).

Dla mnie iid nie ma więc nic wspólnego ze szkoleniem konkretnego modelu, ale wszystko, co dotyczy jego uogólnienia . Wydaje się to zgadzać z artykułem, który znalazłem Huan Xu i in., Patrz „Solidność i możliwość uogólnienia dla próbek Markoviana” tutaj .

Czy zgodziłbyś się z tym?

[Przykład]

Jeśli to może pomóc w dyskusji, należy rozważyć problem przy użyciu algorytmu lasso wykonać inteligentnej selekcji wśród cech podanych N próbki szkoleniowe ( X í , y i ) z i = 1 , . . . , N X I = [ X I 1 , . . . , X i P ] Możemy ponadto założyć, że:PN(Xi,yi)i=1,...,N

Xi=[Xi1,...,XiP]
  • Wejścia zależne tym samym prowadzi do naruszenia IID założeniu (na przykład dla każdej usługi j = 1 , . . , P obserwujemy N punkt szeregów czasowych, a więc wprowadzenie czasowego autokorelacja)Xij=1,..,PN
  • Odpowiedzi warunkowe są niezależne.yi|Xi
  • Mamy .PN

W jaki sposób naruszenie założeń iid może stanowić problem w takim przypadku, zakładając, że planujemy ustalić współczynnik karalności LASSO przy użyciu metody walidacji krzyżowej (na pełnym zbiorze danych) + użyć zagnieżdżonej weryfikacji krzyżowej, aby wyczuć błąd uogólnienia tej strategii uczenia się (możemy odłożyć dyskusję dotyczącą nieodłącznych zalet / wad LASSO na bok, chyba że jest to przydatne).λ

Quantuple
źródło
1
Czy możesz podać ramy odniesienia, które Cię interesują, więc dyskusja nie jest zbyt szeroka na wszystkie metody. Czy mówimy tutaj o regresji liniowej? Czy mówimy o oszacowaniu punktu dla parametrów za pomocą, powiedzmy MLE? Czy mówimy o frameworku CLT?
Greenparker
2
Jeśli też zakładając zależne, a następnie w ukaranego regresji logistycznej, jeden penalizuje logarytm wiarygodności. Jeśli dane nie są niezależne, nie można zapisać wspólnego prawdopodobieństwa dziennika, a zatem nie można ukończyć powiązanego problemu optymalizacji. yi
Greenparker
1
Nie, myślę na odwrót - jeśli szybko przejdziesz do założenia iid, możesz nie zaliczyć opóźnień , fałszywie (dla celów takich jak bezstronność, ale także szkodząc mocy predykcyjnej), uważając, że nie są one potrzebne. y
Christoph Hanck
3
Nie zgadzam się, że założenie o niezależności jest „powszechnie naruszane”. Szeregi czasowe to wyjątkowy przypadek - raczej wyjątek niż typowy przykład. Iid założenie pozwala na uproszczenie modelu i budować bardziej oszczędne jeden i może być często (np wasze przypadki są losowo wyciągnąć, więc można je założyć niezależny).
Tim
2
yiXii

Odpowiedzi:

32

(Xi,yi)i=1,,N

Podstawowe założenie

yXp(yX)

  • yiXip(yiXi)

yiiXiXi

W dalszej części nacisk zostanie położony głównie na rolę niezależności.

Modelowanie

yX

  • p(yX)yiXiXi
  • p(X,y)(X,y)p(Xy)p(y)p(yX)

p(yX)

p(yX)

Granice spójności i błędów

p(yX)p(yX)N

Xi1NXTXΣNXXiT

N

Jeśli mamy bardziej szczegółową wiedzę na temat struktury zależności, możemy zastąpić założenie dotyczące niezależności roboczej zastosowane do modelowania modelem, który również przechwytuje strukturę zależności. Często dzieje się tak w przypadku szeregów czasowych. Lepszy model roboczy może skutkować bardziej wydajną metodą.

Ocena modelu

p(yX)p(yX)

Podobnie jak w przypadku workowania, losowe dzielenie zestawu danych „zepsuje” każdą strukturę zależności. Jednak w przypadku metod opartych na założeniach niezależności pracy założenia ergodyczności słabsze niż iid powinny wystarczyć, aby oszacowania oceny były racjonalne, chociaż standardowe błędy w tych oszacowaniach będą bardzo trudne do znalezienia.

[ Edycja: Zależność między zmiennymi spowoduje rozkład wyuczonego modelu, który różni się od rozkładu przy założeniu iid. Oszacowanie powstałe w wyniku weryfikacji krzyżowej nie jest oczywiście związane z błędem generalizacji. Jeśli zależność jest silna, najprawdopodobniej będzie to słaba ocena.]

Podsumowanie (tl; dr)

p(yX)X

yX

  • przydatne założenie modelowania roboczego, które pozwala nam wyprowadzić metody uczenia się
  • wystarczające, ale niekonieczne założenie dla udowodnienia spójności i zapewnienia granic błędów
  • wystarczające, ale niekonieczne założenie do zastosowania technik losowego dzielenia danych, takich jak tworzenie worków do nauki i walidacja krzyżowa do oceny.

Dokładne zrozumienie, jakie alternatywy dla iid, które są również wystarczające, jest nietrywialne iw pewnym stopniu przedmiotem badań.

NRH
źródło
2
To niezwykle dopracowana odpowiedź. Jest na miejscu i daje mi wystarczającą ilość referencji do samokształcenia, dziękuję bardzo za to, że jestem podekscytowany @NRH. Opuszczę nagrodę, aby zachęcić innych do podjęcia tego pytania, ale już zaznaczyłem to jako zaakceptowaną odpowiedź, ponieważ pięknie odpowiada na wszystkie moje pierwotne obawy.
Quantuple
10

Co iid założenie państwa jest to, że zmienne losowe są niezależne i identycznie rozmieszczone . Możesz formalnie zdefiniować, co to znaczy, ale nieformalnie mówi, że wszystkie zmienne dostarczają tego samego rodzaju informacji niezależnie od siebie (możesz także przeczytać o powiązanej wymienności ).

Od pomysłów abstrakcyjnych przejdźmy na chwilę do konkretnego przykładu: w większości przypadków dane mogą być przechowywane w macierzy, z obserwacjami w rzędzie i zmiennymi w kolumnie. Jeśli zakładasz, że twoje dane są ididalne , oznacza to, że musisz zawracać sobie głowę tylko relacjami między kolumnami i nie musisz martwić się relacjami między wierszami. Gdybyś się tym przejmował, modelowałbyś zależność kolumn od kolumn i wierszy od rzędów, czyli wszystkiego od wszystkiego. Bardzo trudno jest uprościć i zbudować model statystyczny wszystkiego w zależności od wszystkiego.

Prawidłowo zauważyłeś, że możliwość usprawnienia umożliwia nam stosowanie metod takich jak walidacja krzyżowa lub bootstrap, ale także umożliwia stosowanie twierdzenia o limicie centralnym i umożliwia nam uproszczenia pomocne w modelowaniu (myślenie w kategoriach kolumnowych ).

Jak zauważyłeś w przykładzie LASSO, założenie o niezależności jest często złagodzone do niezależności warunkowej . Nawet w takim przypadku potrzebujemy niezależnych i identycznie rozmieszczonych „części”. Podobne, bardziej miękkie założenie jest często przyjmowane dla wspomnianych modeli szeregów czasowych, które zakładają stacjonarność (więc istnieje zależność, ale istnieje również wspólny rozkład i szereg stabilizuje się w czasie - ponownie części „iid”). Chodzi o obserwację wielu podobnych rzeczy, które niosą ten sam pogląd na temat jakiegoś ogólnego zjawiska. Jeśli mamy wiele różnych i zależnych rzeczy, nie możemy dokonywać żadnych uogólnień.

Należy pamiętać, że jest to tylko założenie, nie jesteśmy wobec tego surowi. Chodzi o posiadanie wystarczającej liczby rzeczy, które wszystkie, niezależnie, przekazują podobne informacje o niektórych wspólnych zjawiskach. Gdyby rzeczy na siebie wpływały, oczywiście przekazywałyby podobne informacje, więc nie byłyby tak przydatne.

Wyobraź sobie, że chciałeś poznać zdolności dzieci w klasie, więc daj im kilka testów. Możesz wykorzystać wyniki testu jako wskaźnik umiejętności dzieci tylko wtedy, gdy zrobiły je same, niezależnie od siebie. Gdyby się ze sobą współdziałali, prawdopodobnie zmierzyłbyś zdolności najmądrzejszego lub najbardziej wpływowego dziecka. Nie oznacza to, że musisz założyć, że nie było żadnej interakcji ani zależności między dziećmi, ale po prostu, że same wykonały testy. Dzieci muszą również być „identycznie rozmieszczone”, aby nie mogły pochodzić z różnych krajów, mówić różnymi językami, być w różnym wieku, ponieważ utrudni to interpretację wyników (być może nie zrozumiały pytań i odpowiedziały losowo). Jeśli możesz założyć, że Twoje dane są prawidłowemożesz skupić się na budowaniu ogólnego modelu. Możesz radzić sobie z danymi niepotwierdzonymi, ale wtedy musisz martwić się o „szum” w swoich danych.


Oprócz twojego głównego pytania pytasz także o walidację krzyżową z danymi niepotwierdzonymi . Choć zdajesz się nie doceniać znaczenia założenia iid , jednocześnie przesadzasz z problemami niespełnienia tego założenia w celu weryfikacji krzyżowej. Istnieje wiele sposobów radzenia sobie z takimi danymi przy użyciu metod ponownego próbkowania, takich jak bootstrap lub walidacja krzyżowa. Jeśli masz do czynienia z szeregami czasowymi, nie możesz zakładać, że wartości są niezależne, więc przyjęcie losowej części wartości byłoby złym pomysłem, ponieważ zignorowałoby autokorelowaną strukturę danych. Z tego powodu w szeregach czasowych zwykle używamy weryfikacji krzyżowej o jeden krok do przodu, tj. bierzesz udział w szeregu, aby przewidzieć następną wartość (nieużywaną do modelowania). Podobnie, jeśli twoje dane mają strukturę klastrową , próbkujesz całe klastry, aby zachować charakter danych. Podobnie jak w przypadku modelowania, możemy poradzić sobie z nonid -sness również podczas przeprowadzania weryfikacji krzyżowej, ale musimy dostosować nasze metody do charakteru danych, ponieważ metody zaprojektowane dla danych iid nie mają zastosowania w takich przypadkach.

Tim
źródło
yi|XiXi
(ctd) ... Innymi słowy, chociaż twoja odpowiedź zdecydowanie rzuca nieco światła na koncepcję iid, chciałbym dowiedzieć się więcej z technicznego punktu widzenia: kiedy zostanie to naruszone, jakie są skutki?
Quantuple
@ Quuantuple, a następnie używasz metod dla nie-danych, np. W szeregach czasowych przykładowych całych bloków danych w bootstrapie itp.
Tim
Dzięki jeszcze raz. Rzeczywiście pamiętam, że gdzieś czytałem o takich technikach. Czy istnieje źródło omawiające wszystkie potencjalne metody kandydujące? Właśnie natknąłem się na artykuł C. Bergmeira, R. Hyndmana, B. Koo „Nota na temat ważności weryfikacji krzyżowej dla oceny prognoz szeregów czasowych”, którą postaram się przeczytać jak najszybciej.
Quantuple
1
@Quantuple sprawdź klasyczne „Wprowadzenie do bootstrapu” Efrona i Tibshirani oraz „Metody bootstrapu i ich zastosowania” Davisona i Hinkleya, aby przeczytać o bootstrapie (te same pomysły dotyczą weryfikacji krzyżowej); podręczniki szeregów czasowych opisują, jak korzystać z walidacji krzyżowej i bootstrapu dla takich danych (tj. o krok dalej walidacja krzyżowa). Sprawdź także moją edycję.
Tim
3

Jedynym miejscem, w którym można bezpiecznie zignorować idid, są statystyki licencjackie i kursy uczenia maszynowego. Napisałeś, że:

można obejść to założenie i uzyskać solidne wyniki. W rzeczywistości wyniki zwykle pozostają takie same, raczej zmieniają się wnioski, które można wyciągnąć…

Jest to prawdą tylko wtedy, gdy zakłada się, że funkcjonalna forma modeli jest zasadniczo poprawna. Ale takie założenie jest jeszcze mniej prawdopodobne niż id.

Istnieją co najmniej dwa sposoby, w jakie iid jest niezwykle ważny z punktu widzenia stosowanego modelowania:

  1. Jest to wyraźne założenie w większości wnioskowania statystycznego, jak zauważono w pytaniu. W większości modeli rzeczywistych na pewnym etapie musimy użyć wnioskowania do przetestowania specyfikacji, na przykład podczas wyboru zmiennych i porównywania modeli. Tak więc, chociaż dopasowanie każdego konkretnego modelu może być prawidłowe pomimo naruszeń, możesz ostatecznie wybrać niewłaściwy model.

  2. Uważam, że przemyślenie naruszeń iid jest użytecznym sposobem myślenia o mechanizmie generowania danych, co z kolei pomaga mi z góry pomyśleć o odpowiedniej specyfikacji modelu. Dwa przykłady:

    • Jeśli dane są skupione, stanowi to naruszenie ID. Lekarstwem na to może być model mieszany. Wnioski, które wyciągnę z modeli mieszanych, są zasadniczo zupełnie inne niż te, które czerpię z OLS.
    • Nieliniowe zależności między zmiennymi zależnymi i niezależnymi często pojawiają się podczas kontroli reszt w ramach badania iid.

Oczywiście, w prawie każdym modelu, który kiedykolwiek zbudowałem, nie udało mi się zredukować rozkładu reszt do czegokolwiek zbliżonego do naprawdę normalnego rozkładu. Niemniej jednak zawsze dużo zyskuję, próbując naprawdę, naprawdę ciężko to zrobić.

Tim
źródło
Dziękuję za odpowiedź, która jest bardzo wnikliwa. Przez ostatnie zdanie (1) masz na myśli, że możesz mieć kilka modeli z przyzwoitym dopasowaniem do obserwowanych danych, ale kiedy użyjesz standardowych technik wyboru modelu (np. Walidacji krzyżowej), nie wybierzesz najlepszego ( pod względem uogólnienia), ponieważ wyciągnięte przez ciebie wnioski będą stronnicze z powodu naruszenia IID? (2) Wydaje mi się, że mówisz o resztkach IID jako części specyfikacji funkcjonalnej (np. Resztki regresji), która nie unieważnia tego, co piszesz (ctd) ...
Quantuple
(ctd) ... ale pierwotne pytanie dotyczyło przykładów szkoleniowych nie będących odpowiednikami (x, y), a nie resztek po oszacowaniu modelu. Wydaje mi się, że moje pytanie może dotyczyć, gdy masz przykłady szkoleń innych niż te (np. Szeregi czasowe), czy musisz dodać etap wstępnego przetwarzania, aby je wprowadzić? Jeśli nie, i zastosuj standardową procedurę do oszacowania / weryfikacji krzyżowej swojego modelu, gdzie jest zastrzeżenie?
Quantuple
1
Jeśli masz przykłady szkoleń innych niż idioty, pomysłem jest znalezienie modelu, który bierze pod uwagę naturę nie-iid i produkuje resztki, które są idid. Chociaż istnieją pewne problemy, w których sensowne jest wstępne przetwarzanie danych (np. Transformacje zmiennych w regresji liniowej), wiele problemów iid można lepiej rozwiązać, znajdując model, który wyraźnie rozwiązuje problem iid. Np. Funkcje przesyłania w szeregach czasowych lub modele hierarchiczne w danych przekrojowych.
Tim
Zgadzam się z tym, że ponieważ dane szeregów czasowych zwykle wykazują pewną formę zależności, naturalne jest dążenie do uchwycenia tego za pomocą modeli statystycznych dostosowanych do tego celu, np. Funkcji przenoszenia. Dotyczy to szkolenia. Teraz, jeśli chodzi o walidację krzyżową (CV), myślę, że potrzebuję również specjalnych metod, aby uwzględnić brak ididalności? Mam na myśli, że korzystanie z funkcji przesyłania nie zmieniło faktu, że moje dane nie są w pierwszej kolejności. Czy jest gdzieś lista takich specjalnych metod? Jak duże jest optymistyczne nastawienie przy stosowaniu standardowej metody CV z danymi niepotwierdzonymi?
Quantuple
1
Zależy to od charakteru metody walidacji krzyżowej i problemu. Myślę, że sztuczka polega na użyciu metod weryfikacji krzyżowej, które nie są niejawnie zbudowane wokół iid. Na przykład nóż nie miałby sensu. Ale podzielenie próbki na próbki szacunkowe, testowe i walidacyjne prawdopodobnie by tak zrobiło. Ale to naprawdę inne pytanie niż pierwotne i nie jest to moja specjalizacja.
Tim
2

Moim zdaniem istnieją dwa dość przyziemne powody, dla których założenie iid jest ważne w uczeniu się statystyki (lub statystyki w ogóle).

  1. Wiele matematyki za kulisami zależy od tego założenia. Jeśli chcesz udowodnić, że twoja metoda uczenia się faktycznie działa dla więcej niż jednego zbioru danych, założenie, że ostatecznie się pojawi. Można tego uniknąć, ale matematyka staje się kilka razy trudniejsza.

  2. Jeśli chcesz się czegoś nauczyć z danych, musisz założyć, że jest coś do nauczenia się. Uczenie się jest niemożliwe, jeśli każdy punkt danych jest generowany przez inny mechanizm. Należy zatem założyć, że coś ujednolica dany zestaw danych. Jeśli założymy, że dane są losowe, to jest to naturalnie rozkład prawdopodobieństwa, ponieważ rozkład prawdopodobieństwa obejmuje wszystkie informacje o zmiennej losowej.

    x1,...,xnxiFn

    (x1,...,xn)Fn.

    FnFmnmnFnFnnFn=Fn,xiFFnFmnF

mpiktas
źródło
xyx
(ctd) ... ale, jak powiedziałeś w swoim pierwszym punkcie, założenie przykładów szkolenia iid powróci, gdy przyjrzymy się właściwościom generalizacji LASSO. To, co byłoby miłe (i chyba desperacko szukam), to odniesienie / proste techniczne wyjaśnienie, które pokazuje, jak naruszenie założenia iid wprowadza na przykład optymistyczne nastawienie w estymatorze weryfikacji krzyżowej.
Quantuple
yi=α+β1x1i+εii=1,...,n/2yi=α+β2x2i+εii=n/2+1,...,nx1ix2i
i=1,...,n/2i=n/2+1,...,n
xE[y|X]
1

Chciałbym podkreślić, że w niektórych okolicznościach dane nie są dostępne, a nauka statystyczna jest nadal możliwa. Istotne jest posiadanie możliwego do zidentyfikowania modelu wspólnego rozkładu wszystkich obserwacji; jeśli obserwacje są takie, to ten wspólny rozkład można łatwo uzyskać z marginalnego rozkładu pojedynczych obserwacji. Ale w niektórych przypadkach wspólny rozkład jest podawany bezpośrednio, bez uciekania się do rozkładu marginalnego.

Y=Xα+Zu+ε
YRnXRn×pαRpZRn×quRqεRnXZαuuN(0,τIq)εN(0,σ2In)τσ2

Y

YN(Xα,τZZ+σ2In).
ατσ2Yn
Elvis
źródło