Z góry przepraszamy, jeśli jakakolwiek terminologia, której używam, jest niepoprawna. Z zadowoleniem przyjąłbym każdą korektę. Jeśli to, co opisuję jako „punkt odcięcia”, ma inną nazwę, daj mi znać, a mogę zaktualizować pytanie.
Interesuje mnie sytuacja: masz zmienne niezależne i jedną zmienną zależną y . Pozostawię to niejasne, ale zakładam, że uzyskanie modelu regresji dla tych zmiennych byłoby stosunkowo proste.
Jednak model, który zamierzasz stworzyć, jest dla zmiennych niezależnych i zmiennej zależnej , gdzie jest pewną stałą wartością z zakresu . Podobnie dane, do których masz dostęp, nie obejmują , tylko .
(Trochę nierealistycznym) przykładem tego może być próba modelowania, przez ile lat ludzie będą pobierać swoją emeryturę. W takim przypadku może być istotną informacją, taką jak płeć, waga, godziny ćwiczeń tygodniowo itp. Zmienną „podstawową” będzie oczekiwana długość życia. Jednak zmienną, do której miałbyś dostęp i którą próbujesz przewidzieć w swoim modelu, byłoby gdzie r jest wiekiem emerytalnym (zakładając dla uproszczenia, że jest ustalony).
Czy istnieje dobre podejście do radzenia sobie z tym w modelowaniu regresji?
źródło
Odpowiedzi:
Ten rodzaj modelu nosi kilka nazw, w zależności od dyscypliny i obszaru tematycznego. Typowymi nazwami dla tego są Cenzurowane Zmienne Zależne, Skrócone Zmienne Zależne, Ograniczone Zmienne Zależne, Analiza Przeżycia, Tobit i Cenzurowana Regresja. Prawdopodobnie pomijam kilka innych nazwisk.
Sugerowana przez ciebie konfiguracja, w której obserwuje się nazywa się „prawą cenzurą ”, ponieważ wartości zbyt daleko w prawo na linii rzeczywistej są cenzurowane --- zamiast tego widzimy tylko punkt cenzury, .min{yi,a} yi a
Jednym ze sposobów radzenia sobie z takimi danymi jest użycie ukrytych zmiennych (i to w zasadzie to, co proponujesz). Oto jeden ze sposobów postępowania:
Następnie możesz to przeanalizować według maksymalnego prawdopodobieństwa. Obserwacje, w których występuje cenzura, przyczyniają się do w funkcji prawdopodobieństwa, a obserwacje, w których nie występuje cenzura, przyczyniają się do do funkcji prawdopodobieństwa. CDF standardowej normalnej wynosi a gęstość standardowej normalnej wynosi . Tak więc funkcja wiarygodności wygląda następująco:P{yi>a}=Φ(1σx′iβ−a) 1σϕ((yi−x′iβ)/σ) Φ ϕ
Szacujesz i , maksymalizując to. Otrzymujesz błędy standardowe jako zwykłe błędy maksymalnego prawdopodobieństwa.β σ
Jak można sobie wyobrazić, jest to tylko jedno podejście spośród wielu.
źródło