Wyniki regresji mają nieoczekiwany górny limit

Próbuję przewidzieć wynik równowagi i wypróbowałem kilka różnych metod regresji. Zauważyłem jedną rzecz, że przewidywane wartości wydają się mieć pewien górny limit. To znaczy, faktyczny bilans wynosi , ale moje przewidywania sięgają około . Poniższy wykres pokazuje rzeczywistą vs przewidywaną równowagę (przewidywaną za pomocą regresji liniowej): $[0.0, 1.0)$ $0.8$

rzeczywiste vs prognozowane

A oto dwa wykresy dystrybucji tych samych danych:

wstępna dystrybucja

Ponieważ moje predyktory są bardzo wypaczone (dane użytkownika z rozkładem prawa mocy), zastosowałem transformację Box-Cox, która zmienia wyniki na następujące:

rzeczywisty vs przewidywany po transformacji Box-Coxa

dystrybucja po transformacji Boxa-Coxa

Chociaż zmienia to rozkład prognoz, nadal istnieje górna granica. Więc moje pytania to:

Jakie są możliwe przyczyny takich górnych granic wyników prognozowania?
Jak mogę naprawić prognozy, aby odpowiadały rozkładowi rzeczywistych wartości?

Premia: skoro rozkład po transformacji Boxa-Coxa wydaje się podążać za rozkładami transformowanych predyktorów, czy jest możliwe, że jest to bezpośrednio powiązane? Jeśli tak, to czy mogę zastosować transformację, aby dopasować rozkład do rzeczywistych wartości?

Edycja: Użyłem prostej regresji liniowej z 5 predyktorami.

regression distributions data-transformation prediction bounds Mennny
źródło

Jestem naprawdę zainteresowany, aby zobaczyć, gdzie to idzie. To tylko model regresji liniowej? Ile predyktorów?

shadowtalker

Na marginesie: ponieważ zmienna wynikowa jest ograniczona przez 0 i 1, prosty model regresji liniowej prawdopodobnie przewidzi wartości poza tymi granicami, co oczywiście jest nieprawidłowe. W tym przypadku należy rozważyć inne opcje .

COOLSerdash

Ograniczone dane wejściowe oznaczają ograniczone dane wyjściowe dla modelu liniowego. Jakie są granice predyktorów (przekształconych)? Czy możesz nam pokazać tabelę podsumowującą dopasowanie modelu?

kardynał

Mennny: Wszystko, czego naprawdę potrzebujesz (na początek), to wartości współczynników i granice predyktorów. Dopasowując znaki jeden po drugim, możesz szybko określić minimalne i maksymalne przewidywanie (zakładając, że predyktory zawsze spełnią granice, pośrednio lub jawnie).

kardynał

@cardinal: Sprawdziłem granice predyktorów i byłem w stanie potwierdzić twoje przypuszczenie. Przy danych (nietransformowanych) predyktorach maksymalna prognoza wynosi ~ 0,79. Czy możesz „skopiować / wkleić” swój komentarz jako odpowiedź, aby go zaakceptować? Jak mogę kontynuować? Myślę, że to pokazuje, że nie ma liniowej zależności między moimi predyktorami a wynikiem?

Mennny

Odpowiedzi:

Twój dep var jest ograniczony od 0 do 1, dlatego OLS nie jest w pełni odpowiedni, sugeruję na przykład regresję beta i mogą istnieć inne metody. Ale po drugie, po transformacji box-cox mówisz, że twoje przewidywania są ograniczone, ale twój wykres tego nie pokazuje.

Leonardo Auslender
źródło

Chociaż duży nacisk kładziony jest na stosowanie regresji, które są zgodne z granicami 0/1, i jest to uzasadnione (i ważne!), Konkretne pytanie, dlaczego Twój LPM nie przewiduje wyników większych niż 0,8, uderza mnie jako nieco inne pytanie .

W obu przypadkach w twoich pozostałościach znajduje się zauważalny wzór, a mianowicie twój model liniowy słabo pasuje do górnej części rozkładu. Oznacza to, że w poprawnym modelu jest coś nieliniowego.

Rozwiązania uwzględniające również granicę 0/1 danych: regresja probit, logit i beta. Ta granica jest krytyczna i musi zostać rozwiązana, aby twoja praca była rygorystyczna, biorąc pod uwagę twój relatywnie bliski 1 rozkład, a zatem dużą liczbę odpowiedzi na ten temat.

Zwykle jednak problem polega na tym, że LPM przekracza granicę 0/1. Tutaj tak nie jest! Jeśli nie interesuje Cię granica 0/1 i aktywnie szukasz rozwiązania, które można wyposażyć w (x'x) ^ - 1 (x'y), zastanów się, że być może model nie jest ściśle liniowy. Dopasowanie modelu jako funkcji x ^ 2, iloczynów zmiennych niezależnych lub dzienników zmiennych niezależnych może pomóc poprawić dopasowanie i ewentualnie poprawić moc wyjaśniającą twojego modelu, tak aby oszacował wartości większe niż 0,8.

Regress Forward
źródło