Modelowanie, gdy zmienna zależna ma „punkt odcięcia”

12

Z góry przepraszamy, jeśli jakakolwiek terminologia, której używam, jest niepoprawna. Z zadowoleniem przyjąłbym każdą korektę. Jeśli to, co opisuję jako „punkt odcięcia”, ma inną nazwę, daj mi znać, a mogę zaktualizować pytanie.

Interesuje mnie sytuacja: masz zmienne niezależne i jedną zmienną zależną y . Pozostawię to niejasne, ale zakładam, że uzyskanie modelu regresji dla tych zmiennych byłoby stosunkowo proste.xy

Jednak model, który zamierzasz stworzyć, jest dla zmiennych niezależnych x i zmiennej zależnej w=min(y,a) , gdzie a jest pewną stałą wartością z zakresu y . Podobnie dane, do których masz dostęp, nie obejmują y , tylko w .

(Trochę nierealistycznym) przykładem tego może być próba modelowania, przez ile lat ludzie będą pobierać swoją emeryturę. W takim przypadku x może być istotną informacją, taką jak płeć, waga, godziny ćwiczeń tygodniowo itp. Zmienną „podstawową” y będzie oczekiwana długość życia. Jednak zmienną, do której miałbyś dostęp i którą próbujesz przewidzieć w swoim modelu, byłoby w=min(0,yr) gdzie r jest wiekiem emerytalnym (zakładając dla uproszczenia, że ​​jest ustalony).

Czy istnieje dobre podejście do radzenia sobie z tym w modelowaniu regresji?

Ben Aaronson
źródło
1
Nie jestem pewien, ale brzmi to tak, jakby można było to osiągnąć dzięki pewnym wariantom analizy przeżycia. 1) Obejmuje cenzurę 2) Przynajmniej w twoim przypadku wymaga czasu. Ale byłby raczej cenzurowany w lewo niż cenzurowany w prawo (co jest bardziej powszechne). Jeśli się ze mną zgadzasz, możesz dodać tag przetrwania i sprawdzić, czy ktoś na niego wskoczy.
Peter Flom - Przywróć Monikę
4
@ Peter To dla mnie wygląda dobrze ocenzurowane. Strona, po której występuje cenzura, ma niewielkie znaczenie, ponieważ poprzez zanegowanie zmiennej zależnej przełącza się między cenzurą prawą i lewą.
whuber
@ whuber Myślę, że masz rację. Ale, jak mówisz, cenzura może się łatwo zmienić.
Peter Flom - Przywróć Monikę
Wydaje się, że przykład przejścia na emeryturę wymaga modelu danych zliczania (jeśli chcesz zaokrąglić całe lata i dopóki wszyscy są martwi do czasu uruchomienia analizy). Podejście do zmiennej utajonej wydaje się z tym rozciągać, ponieważ czas nie może być ujemny.
Dimitriy V. Masterov

Odpowiedzi:

14

Ten rodzaj modelu nosi kilka nazw, w zależności od dyscypliny i obszaru tematycznego. Typowymi nazwami dla tego są Cenzurowane Zmienne Zależne, Skrócone Zmienne Zależne, Ograniczone Zmienne Zależne, Analiza Przeżycia, Tobit i Cenzurowana Regresja. Prawdopodobnie pomijam kilka innych nazwisk.

Sugerowana przez ciebie konfiguracja, w której obserwuje się nazywa się „prawą cenzurą ”, ponieważ wartości zbyt daleko w prawo na linii rzeczywistej są cenzurowane --- zamiast tego widzimy tylko punkt cenzury, .min{yi,a}yia

Jednym ze sposobów radzenia sobie z takimi danymi jest użycie ukrytych zmiennych (i to w zasadzie to, co proponujesz). Oto jeden ze sposobów postępowania:

yi=xiβ+εiwi=min{yi,a}εiN(0,σ2) iid

Następnie możesz to przeanalizować według maksymalnego prawdopodobieństwa. Obserwacje, w których występuje cenzura, przyczyniają się do w funkcji prawdopodobieństwa, a obserwacje, w których nie występuje cenzura, przyczyniają się do do funkcji prawdopodobieństwa. CDF standardowej normalnej wynosi a gęstość standardowej normalnej wynosi . Tak więc funkcja wiarygodności wygląda następująco:P{yi>a}=Φ(1σxiβa)1σϕ((yixiβ)/σ)Φϕ

L(β,σ)=i  censoredΦ(1σxiβa)i  censored1σϕ((yixiβ)/σ)

Szacujesz i , maksymalizując to. Otrzymujesz błędy standardowe jako zwykłe błędy maksymalnego prawdopodobieństwa.βσ

Jak można sobie wyobrazić, jest to tylko jedno podejście spośród wielu.

Rachunek
źródło
1
+1 Pracujący przykład rozwiązania ML pojawia się na stronie stats.stackexchange.com/questions/49443 .
whuber
@whuber To ładna ekspozycja.
Bill