Czy model P (Y | X) można wytrenować za pomocą stochastycznego spadku gradientu z nie-iidowych próbek P (X) i iidowych próbek P (Y | X)?

10

Podczas uczenia sparametryzowanego modelu (np. W celu zmaksymalizowania prawdopodobieństwa) za pomocą stochastycznego spadku gradientowego na niektórych zbiorach danych, powszechnie przyjmuje się, że próbki szkoleniowe są pobierane z rozkładu danych szkoleniowych. Jeśli więc celem jest modelowanie wspólnego rozkładu , to każda próbka treningowa powinna zostać pobrana z tego rozkładu.( x i , y i )P(X,Y)(xi,yi)

Jeśli celem jest zamiast tego modelowanie rozkładu warunkowego , to jak zmienia się wymaganie iid, jeśli w ogóle?P(Y|X)

  1. Czy nadal musimy rysować każdą próbkę na podstawie wspólnego rozkładu?(xi,yi)
  2. Czy powinniśmy narysować iid z , a następnie narysować iid z ? P ( X ) y i P ( Y | X )xiP(X)yiP(Y|X)
  3. Czy możemy narysować nie iid z (np. Skorelowane w czasie), a następnie narysować iid z ? P ( X ) y i P ( Y | X )xiP(X)yiP(Y|X)

Czy możesz skomentować ważność tych trzech podejść do stochastycznego spadku gradientu? (Lub pomóż mi sformułować pytanie, jeśli to konieczne.)

Chciałbym zrobić # 3, jeśli to możliwe. Moja aplikacja jest w nauce wzmacniania, gdzie używam sparametryzowanego modelu warunkowego jako zasady kontroli. Sekwencja stanów jest silnie skorelowana, ale z akcji próbkuje się iid z polityki stochastycznej uwarunkowanej stanem. Otrzymane próbki (lub ich podzbiór) są używane do szkolenia zasad. (Innymi słowy, wyobraź sobie, że przez pewien czas prowadzisz strategię kontroli w pewnym środowisku, zbierając zestaw danych próbek stanu / akcji. Potem, mimo że stany są korelowane w czasie, akcje są generowane niezależnie, zależnie od stanu.) Jest to nieco podobne do sytuacji w tym dokumencie .y i ( x i , y i )xiyi(xi,yi)

Znalazłem artykuł Ryabko, 2006, „ Rozpoznawanie wzorca dla warunkowo niezależnych danych ”, który z początku wydawał się istotny; jednak tam sytuacja jest odwrócona od tego, czego potrzebuję, gdzie (etykieta / kategoria / akcja) może być narysowana nie z , a (obiekt / wzór / stan) jest narysowany z . P ( Y ) x i P ( X | Y )yiP(Y)xiP(X|Y)

Aktualizacja: Dwa artykuły ( tu i tutaj ) wymienione w artykule Ryabko wydają się tutaj istotne. Zakładają, że pochodzą z dowolnego procesu (np. Nie iid, być może niestacjonarny). Pokazują, że estymatory najbliższego sąsiada i jądra są w tym przypadku spójne. Ale bardziej interesuje mnie, czy oszacowanie oparte na stochastycznym spadku gradientu jest prawidłowe w tej sytuacji.xi

Tyler Streeter
źródło
1
Może czegoś mi brakuje i nie przeczytałem artykułu, ale: rysujesz non-iid z a następnie próbujesz iid z . Ryabko (2006) rysuje non-iid z a następnie pobiera próbki iid z . Wydaje się, że te same nazwy zmieniają się. Czy jest coś zasadniczo innego w obiektach i co sprawia, że ​​nie jest to ta sama sytuacja? xiP(X)yiP(YX)yiP(Y)xiP(XY)xy
Dougal,
@Dougal: Różnica polega na tym, że modele rozkładu warunkowego, takie jak losowe pola warunkowe, traktują i („wejścia” i „wyjścia”) inaczej ... modelują tylko jeden kierunek ( ale nie ). XYP(Y|X)P(X|Y)
Tyler Streeter,
2
W tej sprawie rozważyłbym następującą analogię. Załóżmy, że i to dwa skorelowane szeregi czasowe (korelacja w czasie). Chcielibyśmy znaleźć funkcję , która jest równoważna znalezieniu . Jeżeli , które jest resztkowe, to IID (stąd stacjonarne i nieskorelowane), wówczas procedura szacowania jest zbieżna bez uprzedzeń. Zasadniczo przetwarzanie szeregów czasowych w kolejności czasowej lub dowolnej kolejności losowej nie powinno mieć znaczenia w procedurze MLE, o ile prawdopodobieństwo warunkowe jest poprawnie określone, a reszty są IID. X i Y i = f ( X i ; θ ) P ( Y i | X i ; θ )YiXiYi=f(Xi;θ)P(Yi|Xi;θ)P(Yi|Xi;θ)
Cagdas Ozgenc

Odpowiedzi:

1

Myślę, że możesz zrobić 2 lub 3. Jednak problem z 3 polega na tym, że dopuszczając dowolne rozkłady dla X, włączasz rozkłady, które miałyby wszystkie lub prawie całe skoncentrowane prawdopodobieństwo, to mały przedział w przestrzeni x. Zaszkodziłoby to ogólnemu oszacowaniu P (Y | X), ponieważ miałbyś mało danych lub brak danych dla niektórych wartości X.

Michael R. Chernick
źródło
Czy mówisz, że przy podejściu nr 3 uzyskałbym obiektywny wynik przy potencjalnie dużej wariancji?
Tyler Streeter,
Jeśli nie ma danych w punkcie lub w pobliżu punktu x , nie można nawet oszacować P (Y | X = x ), a jeśli jest tylko kilka punktów, wariancja oszacowania będzie duża. 111
Michael R. Chernick,
Tak, to ma sens, że wariancja może być duża. Myślę, że moim głównym zmartwieniem jest to, czy oszacowane P (Y | X) będzie tendencyjne.
Tyler Streeter,
Nie dyskutowaliśmy o oszacowaniu punktowym. Jeśli masz obiektywne szacunki dla P (X), P (Y) i P (X | Y) i podłącz je do wzoru P (Y | X) = P (X | Y) P (Y) / P (X) dostaniesz stronniczy szacunek.
Michael R. Chernick
Powinienem podkreślić, że mówię o oszacowaniu P (Y | X) za pomocą stochastycznego spadku gradientu, w którym to przypadku kolejność próbek treningowych może wpływać na szybkość lub to, czy zbiega się z właściwym modelem. Nie używam tylko średnich próbek, gdzie kolejność próbek nie ma znaczenia.
Tyler Streeter,