Regresja wielokrotna z brakującą zmienną predykcyjną

9

Załóżmy, że otrzymaliśmy zestaw danych w postaci i . Zadanie polega na przewidywaniu na podstawie wartości . Szacujemy dwie regresje, w których: (y,x1,x2,,xn)(y,x1,x2,,xn1)yx

(1)y=f1(x1,,xn1,xn)(2)y=f2(x1,,xn1)

Szacujemy również regresję, która przewiduje wartości na podstawie wartości , to znaczy: xn(x1,,xn1)

(3)xn=f3(x1,,xn1)

Załóżmy, że teraz otrzymujemy wartości , wtedy mielibyśmy dwie różne metody przewidywania :(x1,,xn1)y

(4)y=f1(x1,,xn1,f3(x1,,xn1))(5)y=f2(x1,,xn1)

Który ogólnie byłby lepszy?

Zgaduję, że pierwsze równanie byłoby lepsze, ponieważ wykorzystuje informacje z dwóch form punktów danych, podczas gdy drugie równanie wykorzystuje informacje tylko z punktów danych, które mają wartości predykcyjne . Moje szkolenie w zakresie statystyki jest ograniczone, dlatego chciałbym zasięgnąć profesjonalnej porady.n1

Ponadto, ogólnie, jakie jest najlepsze podejście do danych zawierających niepełne informacje? Innymi słowy, w jaki sposób możemy uzyskać jak najwięcej informacji z danych, które nie mają wartości we wszystkich wymiarach?n

Xiaowen Li
źródło
Szacowanie za pomocą faktów vs szacowanie za pomocą szacunków - ty decydujesz :)
Doktorat
Czy to naprawdę takie proste?
Xiaowen Li
Odpowiedź może być, to zależy. Ile brakuje danych? Ile masz ogólnie danych? Ile masz predyktorów?
Joel W.

Odpowiedzi:

6

+1, myślę, że to naprawdę interesujące i jasno określone pytanie. Jednak więcej informacji pomoże nam przemyśleć tę sytuację.

Na przykład, jaka jest relacja między i ? Jest całkiem możliwe, że nie ma takiego, w którym to przypadku regresja nie daje przewagi w stosunku do regresji . (W rzeczywistości jest to bardzo niewielka wada, w tym sensie, że standardowe błędy będą nieco większe, a zatem bety mogą być średnio nieco dalej od ich prawdziwych wartości.) Jeśli istnieje funkcja odwzorowująca na , wtedy z definicji są tam prawdziwe informacje, a regresja będzie lepsza w początkowej sytuacji. xny(1)(2))xny(1)

Następnie, jaki jest charakter związku między i ? Czy jest jeden Na przykład, kiedy przeprowadzamy eksperymenty, (zwykle) staramy się przypisać jednakową liczbę jednostek badania do każdej kombinacji wartości zmiennych objaśniających. (Podejście to wykorzystuje wielokrotność iloczynu kartezjańskiego poziomów poziomów IV i nazywa się projektem „pełnego czynnikowego”; zdarzają się również przypadki, w których poziomy są celowo mylone w celu zapisania danych, zwane projektami „ częściowego czynnikowego ”.) zmienne objaśniające są ortogonalne, trzecia regresja da absolutnie dokładnie dokładnie 0. Z drugiej strony, w badaniu obserwacyjnym zmienne towarzyszące są prawie zawsze(x1,,xn-1)xnwspółzależny. Im silniejsza korelacja, tym mniej informacji istnieje w . Fakty te będą modulować względne zalety regresji i regresji . xn(1)(2))

Jednak (niestety być może) jest to bardziej skomplikowane. Jednym z ważnych, ale trudnych pojęć w regresji wielorakiej jest wielokoliniowość . Jeśli spróbujesz oszacować regresję , przekonasz się, że masz doskonałą wielokoliniowość, a twoje oprogramowanie powie ci, że macierz projektowa nie jest odwracalna. Zatem chociaż regresja może oferować przewagę w stosunku do regresji , regresja nie. (4)(1)(2))(4)

Bardziej interesujące pytanie (i to, które zadajesz) brzmi: co się stanie, jeśli użyjesz regresji do prognozowania przy użyciu oszacowanych wartości uzyskanych z prognoz regresji ? (Oznacza to, że nie szacujesz regresji podłączasz dane wyjściowe z równania prognostycznego oszacowanego w regresji do modelu predykcyjnego . Chodzi o to, że tak naprawdę nie zyskujesz żadnych nowych informacje tutaj. Wszelkie informacje istniejące w pierwszych wartościach predykcyjnych dla każdej obserwacji są już optymalnie wykorzystywane przez regresję(1)yxn(3))(4)(3))(4)n-1(2)), więc nie ma zysku.

Zatem odpowiedź na twoje pierwsze pytanie brzmi: możesz równie dobrze skorzystać z regresji aby twoje przewidywania oszczędzały niepotrzebnej pracy. Zauważ, że podchodzę do tego w dość abstrakcyjny sposób, zamiast zajmować się konkretną sytuacją, którą opisujesz, w której ktoś przekazuje ci dwa zestawy danych (po prostu nie wyobrażam sobie, że to się dzieje). Zamiast tego myślę o tym pytaniu jako o próbie zrozumienia czegoś dość głębokiego na temat natury regresji. Czasami zdarza się jednak, że niektóre obserwacje mają wartości na wszystkich predyktorach, a niektóre inne obserwacje (w tym samym zestawie danych) nie mają wartości na niektórych predyktorach. Jest to szczególnie powszechne w przypadku danych podłużnych. W takiej sytuacji chcesz zbadać wielokrotne przypisanie . (2))

gung - Przywróć Monikę
źródło
Dziękuję Gung za szczegółową odpowiedź i pomagasz w modyfikacji brzmienia mojego pytania. Odpowiem, gdy w pełni zinterpretuję twoją odpowiedź. Dla twojej informacji jest to badanie obserwacyjne dotyczące ceny żarówek.xnobejmują godziny życia, jasność i temperaturę barwową żarówki. Informacje są gromadzone od sprzedawców, którzy zwykle nie dają wszystkiego, co powoduje brak predyktorów. Niemniej jednak staramy się jak najlepiej wykorzystać zebrane informacje.
Xiaowen Li
1
OK, myślałem, że chodzi tylko o zrozumienie regresji. Chciałbym spojrzeć na wiele zarzutów.
Gung - Przywróć Monikę
Dzięki Gung za wgląd. Masz rację, że żadne nowe informacje nie są uzyskiwane za pomocą równania 4. Imputacja okazuje się dokładnie tym, czego potrzebowałem. I masz rację, wpadłem na wielokrotną kolinearność, co dało mi bardzo dużą wartość p dla współczynników. Potem stanąłem przed wyborem zmniejszenia liczby zmiennych, uzyskania mniejszej wartości p dla współczynników lub uzyskania większejr2)i większy p. Myślę, że życie jest pełne kompromisów.
Xiaowen Li
Jeszcze raz dziękuję za wasze abstrakcyjne dyskusje na temat regresji. Statystyki mogą być pięknie intrygujące, jeśli spojrzymy na to jako metodę na znalezienie prawdy. Przyjrzę się temu jeszcze raz, kiedy skończę z zestawem danych :)
Xiaowen Li
Powinieneś sprawdzić parametryczne ułamkowe przypisanie. Jest to praca wykonana przez Jae Kwanga Kima w stanie Iowa, która może być idealna w tej sytuacji. Zobacz biomet.oxfordjournals.org/content/98/1/119.abstract
StatsStudent