Załóżmy, że otrzymaliśmy zestaw danych w postaci i . Zadanie polega na przewidywaniu na podstawie wartości . Szacujemy dwie regresje, w których:
Szacujemy również regresję, która przewiduje wartości na podstawie wartości , to znaczy:
Załóżmy, że teraz otrzymujemy wartości , wtedy mielibyśmy dwie różne metody przewidywania :
Który ogólnie byłby lepszy?
Zgaduję, że pierwsze równanie byłoby lepsze, ponieważ wykorzystuje informacje z dwóch form punktów danych, podczas gdy drugie równanie wykorzystuje informacje tylko z punktów danych, które mają wartości predykcyjne . Moje szkolenie w zakresie statystyki jest ograniczone, dlatego chciałbym zasięgnąć profesjonalnej porady.
Ponadto, ogólnie, jakie jest najlepsze podejście do danych zawierających niepełne informacje? Innymi słowy, w jaki sposób możemy uzyskać jak najwięcej informacji z danych, które nie mają wartości we wszystkich wymiarach?
Odpowiedzi:
+1, myślę, że to naprawdę interesujące i jasno określone pytanie. Jednak więcej informacji pomoże nam przemyśleć tę sytuację.
Na przykład, jaka jest relacja między i ? Jest całkiem możliwe, że nie ma takiego, w którym to przypadku regresja nie daje przewagi w stosunku do regresji . (W rzeczywistości jest to bardzo niewielka wada, w tym sensie, że standardowe błędy będą nieco większe, a zatem bety mogą być średnio nieco dalej od ich prawdziwych wartości.) Jeśli istnieje funkcja odwzorowująca na , wtedy z definicji są tam prawdziwe informacje, a regresja będzie lepsza w początkowej sytuacji.xn y ( 1 ) ( 2 ) xn y ( 1 )
Następnie, jaki jest charakter związku między i ? Czy jest jeden Na przykład, kiedy przeprowadzamy eksperymenty, (zwykle) staramy się przypisać jednakową liczbę jednostek badania do każdej kombinacji wartości zmiennych objaśniających. (Podejście to wykorzystuje wielokrotność iloczynu kartezjańskiego poziomów poziomów IV i nazywa się projektem „pełnego czynnikowego”; zdarzają się również przypadki, w których poziomy są celowo mylone w celu zapisania danych, zwane projektami „ częściowego czynnikowego ”.) zmienne objaśniające są ortogonalne, trzecia regresja da absolutnie dokładnie dokładnie 0. Z drugiej strony, w badaniu obserwacyjnym zmienne towarzyszące są prawie zawsze(x1, ⋯ ,xn - 1) xn współzależny. Im silniejsza korelacja, tym mniej informacji istnieje w . Fakty te będą modulować względne zalety regresji i regresji . xn ( 1 ) ( 2 )
Jednak (niestety być może) jest to bardziej skomplikowane. Jednym z ważnych, ale trudnych pojęć w regresji wielorakiej jest wielokoliniowość . Jeśli spróbujesz oszacować regresję , przekonasz się, że masz doskonałą wielokoliniowość, a twoje oprogramowanie powie ci, że macierz projektowa nie jest odwracalna. Zatem chociaż regresja może oferować przewagę w stosunku do regresji , regresja nie.( 4 ) ( 1 ) ( 2 ) ( 4 )
Bardziej interesujące pytanie (i to, które zadajesz) brzmi: co się stanie, jeśli użyjesz regresji do prognozowania przy użyciu oszacowanych wartości uzyskanych z prognoz regresji ? (Oznacza to, że nie szacujesz regresji podłączasz dane wyjściowe z równania prognostycznego oszacowanego w regresji do modelu predykcyjnego . Chodzi o to, że tak naprawdę nie zyskujesz żadnych nowych informacje tutaj. Wszelkie informacje istniejące w pierwszych wartościach predykcyjnych dla każdej obserwacji są już optymalnie wykorzystywane przez regresję( 1 ) y xn ( 3 ) ( 4 ) ( 3 ) ( 4 ) n - 1 ( 2 ) , więc nie ma zysku.
Zatem odpowiedź na twoje pierwsze pytanie brzmi: możesz równie dobrze skorzystać z regresji aby twoje przewidywania oszczędzały niepotrzebnej pracy. Zauważ, że podchodzę do tego w dość abstrakcyjny sposób, zamiast zajmować się konkretną sytuacją, którą opisujesz, w której ktoś przekazuje ci dwa zestawy danych (po prostu nie wyobrażam sobie, że to się dzieje). Zamiast tego myślę o tym pytaniu jako o próbie zrozumienia czegoś dość głębokiego na temat natury regresji. Czasami zdarza się jednak, że niektóre obserwacje mają wartości na wszystkich predyktorach, a niektóre inne obserwacje (w tym samym zestawie danych) nie mają wartości na niektórych predyktorach. Jest to szczególnie powszechne w przypadku danych podłużnych. W takiej sytuacji chcesz zbadać wielokrotne przypisanie .( 2 )
źródło