Próbuję przewidzieć wynik równowagi i wypróbowałem kilka różnych metod regresji. Zauważyłem jedną rzecz, że przewidywane wartości wydają się mieć pewien górny limit. To znaczy, faktyczny bilans wynosi , ale moje przewidywania sięgają około . Poniższy wykres pokazuje rzeczywistą vs przewidywaną równowagę (przewidywaną za pomocą regresji liniowej):
A oto dwa wykresy dystrybucji tych samych danych:
Ponieważ moje predyktory są bardzo wypaczone (dane użytkownika z rozkładem prawa mocy), zastosowałem transformację Box-Cox, która zmienia wyniki na następujące:
Chociaż zmienia to rozkład prognoz, nadal istnieje górna granica. Więc moje pytania to:
- Jakie są możliwe przyczyny takich górnych granic wyników prognozowania?
- Jak mogę naprawić prognozy, aby odpowiadały rozkładowi rzeczywistych wartości?
Premia: skoro rozkład po transformacji Boxa-Coxa wydaje się podążać za rozkładami transformowanych predyktorów, czy jest możliwe, że jest to bezpośrednio powiązane? Jeśli tak, to czy mogę zastosować transformację, aby dopasować rozkład do rzeczywistych wartości?
Edycja: Użyłem prostej regresji liniowej z 5 predyktorami.
Odpowiedzi:
Twój dep var jest ograniczony od 0 do 1, dlatego OLS nie jest w pełni odpowiedni, sugeruję na przykład regresję beta i mogą istnieć inne metody. Ale po drugie, po transformacji box-cox mówisz, że twoje przewidywania są ograniczone, ale twój wykres tego nie pokazuje.
źródło
Chociaż duży nacisk kładziony jest na stosowanie regresji, które są zgodne z granicami 0/1, i jest to uzasadnione (i ważne!), Konkretne pytanie, dlaczego Twój LPM nie przewiduje wyników większych niż 0,8, uderza mnie jako nieco inne pytanie .
W obu przypadkach w twoich pozostałościach znajduje się zauważalny wzór, a mianowicie twój model liniowy słabo pasuje do górnej części rozkładu. Oznacza to, że w poprawnym modelu jest coś nieliniowego.
Rozwiązania uwzględniające również granicę 0/1 danych: regresja probit, logit i beta. Ta granica jest krytyczna i musi zostać rozwiązana, aby twoja praca była rygorystyczna, biorąc pod uwagę twój relatywnie bliski 1 rozkład, a zatem dużą liczbę odpowiedzi na ten temat.
Zwykle jednak problem polega na tym, że LPM przekracza granicę 0/1. Tutaj tak nie jest! Jeśli nie interesuje Cię granica 0/1 i aktywnie szukasz rozwiązania, które można wyposażyć w (x'x) ^ - 1 (x'y), zastanów się, że być może model nie jest ściśle liniowy. Dopasowanie modelu jako funkcji x ^ 2, iloczynów zmiennych niezależnych lub dzienników zmiennych niezależnych może pomóc poprawić dopasowanie i ewentualnie poprawić moc wyjaśniającą twojego modelu, tak aby oszacował wartości większe niż 0,8.
źródło