W uczeniu statystycznym, w sposób dorozumiany lub jawny, zawsze zakłada się, że zestaw treningowy składa się z krotek wejściowych / odpowiedzi które są niezależne od tego samego rozkładu połączeń z
oraz związek, który próbujemy uchwycić za pomocą określonego algorytmu uczenia się. Matematycznie to założenie pisze:
Myślę, że wszyscy możemy się zgodzić, że to założenie rzadko jest spełniane w praktyce, patrz powiązane pytanie SE i mądre komentarze @Glen_b i @Luca.
Moje pytanie brzmi zatem:
Gdzie dokładnie założenie iid staje się krytyczne w praktyce?
[Kontekst]
Pytam o to, ponieważ mogę sobie wyobrazić wiele sytuacji, w których tak rygorystyczne założenie nie jest potrzebne do wyszkolenia określonego modelu (np. Metody regresji liniowej), lub przynajmniej jedna może obejść założenie iid i uzyskać solidne wyniki. W rzeczywistości wyniki zwykle pozostają takie same, raczej zmieniają się wnioski, które można wyciągnąć (np. Heteroskedastyczność i spójne korelacje estymatorów HAC w regresji liniowej: chodzi o ponowne użycie starych dobrych dobrych wag regresji OLS, ale dostosowanie zachowanie skończonej próby estymatora OLS w celu wyjaśnienia naruszenia założeń Gaussa-Markowa).
Domyślam się zatem, że założenie iid jest wymagane, aby nie być w stanie wyszkolić konkretnego algorytmu uczenia się, ale raczej zagwarantować, że techniki takie jak walidacja krzyżowa mogą rzeczywiście zostać wykorzystane do ustalenia wiarygodnej miary zdolności modelu do ogólnej uogólnienia , co jest jedyną rzeczą, która nas interesuje pod koniec dnia w nauce statystycznej, ponieważ pokazuje, że rzeczywiście możemy uczyć się na podstawie danych. Intuicyjnie rozumiem, że stosowanie weryfikacji krzyżowej na zależnych danych może być optymistycznie tendencyjne (jak pokazano / wyjaśniono w tym interesującym przykładzie ).
Dla mnie iid nie ma więc nic wspólnego ze szkoleniem konkretnego modelu, ale wszystko, co dotyczy jego uogólnienia . Wydaje się to zgadzać z artykułem, który znalazłem Huan Xu i in., Patrz „Solidność i możliwość uogólnienia dla próbek Markoviana” tutaj .
Czy zgodziłbyś się z tym?
[Przykład]
Jeśli to może pomóc w dyskusji, należy rozważyć problem przy użyciu algorytmu lasso wykonać inteligentnej selekcji wśród cech podanych N próbki szkoleniowe ( X í , y i ) z ∀ i = 1 , . . . , N X I = [ X I 1 , . . . , X i P ] Możemy ponadto założyć, że:
- Wejścia zależne tym samym prowadzi do naruszenia IID założeniu (na przykład dla każdej usługi j = 1 , . . , P obserwujemy N punkt szeregów czasowych, a więc wprowadzenie czasowego autokorelacja)
- Odpowiedzi warunkowe są niezależne.
- Mamy .
W jaki sposób naruszenie założeń iid może stanowić problem w takim przypadku, zakładając, że planujemy ustalić współczynnik karalności LASSO przy użyciu metody walidacji krzyżowej (na pełnym zbiorze danych) + użyć zagnieżdżonej weryfikacji krzyżowej, aby wyczuć błąd uogólnienia tej strategii uczenia się (możemy odłożyć dyskusję dotyczącą nieodłącznych zalet / wad LASSO na bok, chyba że jest to przydatne).
źródło
Odpowiedzi:
Podstawowe założenie
W dalszej części nacisk zostanie położony głównie na rolę niezależności.
Modelowanie
Granice spójności i błędów
Jeśli mamy bardziej szczegółową wiedzę na temat struktury zależności, możemy zastąpić założenie dotyczące niezależności roboczej zastosowane do modelowania modelem, który również przechwytuje strukturę zależności. Często dzieje się tak w przypadku szeregów czasowych. Lepszy model roboczy może skutkować bardziej wydajną metodą.
Ocena modelu
Podobnie jak w przypadku workowania, losowe dzielenie zestawu danych „zepsuje” każdą strukturę zależności. Jednak w przypadku metod opartych na założeniach niezależności pracy założenia ergodyczności słabsze niż iid powinny wystarczyć, aby oszacowania oceny były racjonalne, chociaż standardowe błędy w tych oszacowaniach będą bardzo trudne do znalezienia.
[ Edycja: Zależność między zmiennymi spowoduje rozkład wyuczonego modelu, który różni się od rozkładu przy założeniu iid. Oszacowanie powstałe w wyniku weryfikacji krzyżowej nie jest oczywiście związane z błędem generalizacji. Jeśli zależność jest silna, najprawdopodobniej będzie to słaba ocena.]
Podsumowanie (tl; dr)
Dokładne zrozumienie, jakie alternatywy dla iid, które są również wystarczające, jest nietrywialne iw pewnym stopniu przedmiotem badań.
źródło
Co iid założenie państwa jest to, że zmienne losowe są niezależne i identycznie rozmieszczone . Możesz formalnie zdefiniować, co to znaczy, ale nieformalnie mówi, że wszystkie zmienne dostarczają tego samego rodzaju informacji niezależnie od siebie (możesz także przeczytać o powiązanej wymienności ).
Od pomysłów abstrakcyjnych przejdźmy na chwilę do konkretnego przykładu: w większości przypadków dane mogą być przechowywane w macierzy, z obserwacjami w rzędzie i zmiennymi w kolumnie. Jeśli zakładasz, że twoje dane są ididalne , oznacza to, że musisz zawracać sobie głowę tylko relacjami między kolumnami i nie musisz martwić się relacjami między wierszami. Gdybyś się tym przejmował, modelowałbyś zależność kolumn od kolumn i wierszy od rzędów, czyli wszystkiego od wszystkiego. Bardzo trudno jest uprościć i zbudować model statystyczny wszystkiego w zależności od wszystkiego.
Prawidłowo zauważyłeś, że możliwość usprawnienia umożliwia nam stosowanie metod takich jak walidacja krzyżowa lub bootstrap, ale także umożliwia stosowanie twierdzenia o limicie centralnym i umożliwia nam uproszczenia pomocne w modelowaniu (myślenie w kategoriach kolumnowych ).
Jak zauważyłeś w przykładzie LASSO, założenie o niezależności jest często złagodzone do niezależności warunkowej . Nawet w takim przypadku potrzebujemy niezależnych i identycznie rozmieszczonych „części”. Podobne, bardziej miękkie założenie jest często przyjmowane dla wspomnianych modeli szeregów czasowych, które zakładają stacjonarność (więc istnieje zależność, ale istnieje również wspólny rozkład i szereg stabilizuje się w czasie - ponownie części „iid”). Chodzi o obserwację wielu podobnych rzeczy, które niosą ten sam pogląd na temat jakiegoś ogólnego zjawiska. Jeśli mamy wiele różnych i zależnych rzeczy, nie możemy dokonywać żadnych uogólnień.
Należy pamiętać, że jest to tylko założenie, nie jesteśmy wobec tego surowi. Chodzi o posiadanie wystarczającej liczby rzeczy, które wszystkie, niezależnie, przekazują podobne informacje o niektórych wspólnych zjawiskach. Gdyby rzeczy na siebie wpływały, oczywiście przekazywałyby podobne informacje, więc nie byłyby tak przydatne.
Wyobraź sobie, że chciałeś poznać zdolności dzieci w klasie, więc daj im kilka testów. Możesz wykorzystać wyniki testu jako wskaźnik umiejętności dzieci tylko wtedy, gdy zrobiły je same, niezależnie od siebie. Gdyby się ze sobą współdziałali, prawdopodobnie zmierzyłbyś zdolności najmądrzejszego lub najbardziej wpływowego dziecka. Nie oznacza to, że musisz założyć, że nie było żadnej interakcji ani zależności między dziećmi, ale po prostu, że same wykonały testy. Dzieci muszą również być „identycznie rozmieszczone”, aby nie mogły pochodzić z różnych krajów, mówić różnymi językami, być w różnym wieku, ponieważ utrudni to interpretację wyników (być może nie zrozumiały pytań i odpowiedziały losowo). Jeśli możesz założyć, że Twoje dane są prawidłowemożesz skupić się na budowaniu ogólnego modelu. Możesz radzić sobie z danymi niepotwierdzonymi, ale wtedy musisz martwić się o „szum” w swoich danych.
Oprócz twojego głównego pytania pytasz także o walidację krzyżową z danymi niepotwierdzonymi . Choć zdajesz się nie doceniać znaczenia założenia iid , jednocześnie przesadzasz z problemami niespełnienia tego założenia w celu weryfikacji krzyżowej. Istnieje wiele sposobów radzenia sobie z takimi danymi przy użyciu metod ponownego próbkowania, takich jak bootstrap lub walidacja krzyżowa. Jeśli masz do czynienia z szeregami czasowymi, nie możesz zakładać, że wartości są niezależne, więc przyjęcie losowej części wartości byłoby złym pomysłem, ponieważ zignorowałoby autokorelowaną strukturę danych. Z tego powodu w szeregach czasowych zwykle używamy weryfikacji krzyżowej o jeden krok do przodu, tj. bierzesz udział w szeregu, aby przewidzieć następną wartość (nieużywaną do modelowania). Podobnie, jeśli twoje dane mają strukturę klastrową , próbkujesz całe klastry, aby zachować charakter danych. Podobnie jak w przypadku modelowania, możemy poradzić sobie z nonid -sness również podczas przeprowadzania weryfikacji krzyżowej, ale musimy dostosować nasze metody do charakteru danych, ponieważ metody zaprojektowane dla danych iid nie mają zastosowania w takich przypadkach.
źródło
Jedynym miejscem, w którym można bezpiecznie zignorować idid, są statystyki licencjackie i kursy uczenia maszynowego. Napisałeś, że:
Jest to prawdą tylko wtedy, gdy zakłada się, że funkcjonalna forma modeli jest zasadniczo poprawna. Ale takie założenie jest jeszcze mniej prawdopodobne niż id.
Istnieją co najmniej dwa sposoby, w jakie iid jest niezwykle ważny z punktu widzenia stosowanego modelowania:
Jest to wyraźne założenie w większości wnioskowania statystycznego, jak zauważono w pytaniu. W większości modeli rzeczywistych na pewnym etapie musimy użyć wnioskowania do przetestowania specyfikacji, na przykład podczas wyboru zmiennych i porównywania modeli. Tak więc, chociaż dopasowanie każdego konkretnego modelu może być prawidłowe pomimo naruszeń, możesz ostatecznie wybrać niewłaściwy model.
Uważam, że przemyślenie naruszeń iid jest użytecznym sposobem myślenia o mechanizmie generowania danych, co z kolei pomaga mi z góry pomyśleć o odpowiedniej specyfikacji modelu. Dwa przykłady:
Oczywiście, w prawie każdym modelu, który kiedykolwiek zbudowałem, nie udało mi się zredukować rozkładu reszt do czegokolwiek zbliżonego do naprawdę normalnego rozkładu. Niemniej jednak zawsze dużo zyskuję, próbując naprawdę, naprawdę ciężko to zrobić.
źródło
Moim zdaniem istnieją dwa dość przyziemne powody, dla których założenie iid jest ważne w uczeniu się statystyki (lub statystyki w ogóle).
Wiele matematyki za kulisami zależy od tego założenia. Jeśli chcesz udowodnić, że twoja metoda uczenia się faktycznie działa dla więcej niż jednego zbioru danych, założenie, że ostatecznie się pojawi. Można tego uniknąć, ale matematyka staje się kilka razy trudniejsza.
Jeśli chcesz się czegoś nauczyć z danych, musisz założyć, że jest coś do nauczenia się. Uczenie się jest niemożliwe, jeśli każdy punkt danych jest generowany przez inny mechanizm. Należy zatem założyć, że coś ujednolica dany zestaw danych. Jeśli założymy, że dane są losowe, to jest to naturalnie rozkład prawdopodobieństwa, ponieważ rozkład prawdopodobieństwa obejmuje wszystkie informacje o zmiennej losowej.
źródło
Chciałbym podkreślić, że w niektórych okolicznościach dane nie są dostępne, a nauka statystyczna jest nadal możliwa. Istotne jest posiadanie możliwego do zidentyfikowania modelu wspólnego rozkładu wszystkich obserwacji; jeśli obserwacje są takie, to ten wspólny rozkład można łatwo uzyskać z marginalnego rozkładu pojedynczych obserwacji. Ale w niektórych przypadkach wspólny rozkład jest podawany bezpośrednio, bez uciekania się do rozkładu marginalnego.
źródło