Podczas uczenia sparametryzowanego modelu (np. W celu zmaksymalizowania prawdopodobieństwa) za pomocą stochastycznego spadku gradientowego na niektórych zbiorach danych, powszechnie przyjmuje się, że próbki szkoleniowe są pobierane z rozkładu danych szkoleniowych. Jeśli więc celem jest modelowanie wspólnego rozkładu , to każda próbka treningowa powinna zostać pobrana z tego rozkładu.( x i , y i )
Jeśli celem jest zamiast tego modelowanie rozkładu warunkowego , to jak zmienia się wymaganie iid, jeśli w ogóle?
- Czy nadal musimy rysować każdą próbkę na podstawie wspólnego rozkładu?
- Czy powinniśmy narysować iid z , a następnie narysować iid z ? P ( X ) y i P ( Y | X )
- Czy możemy narysować nie iid z (np. Skorelowane w czasie), a następnie narysować iid z ? P ( X ) y i P ( Y | X )
Czy możesz skomentować ważność tych trzech podejść do stochastycznego spadku gradientu? (Lub pomóż mi sformułować pytanie, jeśli to konieczne.)
Chciałbym zrobić # 3, jeśli to możliwe. Moja aplikacja jest w nauce wzmacniania, gdzie używam sparametryzowanego modelu warunkowego jako zasady kontroli. Sekwencja stanów jest silnie skorelowana, ale z akcji próbkuje się iid z polityki stochastycznej uwarunkowanej stanem. Otrzymane próbki (lub ich podzbiór) są używane do szkolenia zasad. (Innymi słowy, wyobraź sobie, że przez pewien czas prowadzisz strategię kontroli w pewnym środowisku, zbierając zestaw danych próbek stanu / akcji. Potem, mimo że stany są korelowane w czasie, akcje są generowane niezależnie, zależnie od stanu.) Jest to nieco podobne do sytuacji w tym dokumencie .y i ( x i , y i )
Znalazłem artykuł Ryabko, 2006, „ Rozpoznawanie wzorca dla warunkowo niezależnych danych ”, który z początku wydawał się istotny; jednak tam sytuacja jest odwrócona od tego, czego potrzebuję, gdzie (etykieta / kategoria / akcja) może być narysowana nie z , a (obiekt / wzór / stan) jest narysowany z . P ( Y ) x i P ( X | Y )
Aktualizacja: Dwa artykuły ( tu i tutaj ) wymienione w artykule Ryabko wydają się tutaj istotne. Zakładają, że pochodzą z dowolnego procesu (np. Nie iid, być może niestacjonarny). Pokazują, że estymatory najbliższego sąsiada i jądra są w tym przypadku spójne. Ale bardziej interesuje mnie, czy oszacowanie oparte na stochastycznym spadku gradientu jest prawidłowe w tej sytuacji.
źródło
Odpowiedzi:
Myślę, że możesz zrobić 2 lub 3. Jednak problem z 3 polega na tym, że dopuszczając dowolne rozkłady dla X, włączasz rozkłady, które miałyby wszystkie lub prawie całe skoncentrowane prawdopodobieństwo, to mały przedział w przestrzeni x. Zaszkodziłoby to ogólnemu oszacowaniu P (Y | X), ponieważ miałbyś mało danych lub brak danych dla niektórych wartości X.
źródło