Rozkład błędów dla regresji liniowej i logistycznej

9

Przy ciągłych danych regresja liniowa zakłada, że ​​termin błędu jest rozproszony N (0, )Y=β1+β2X2+uσ2

1) Czy zakładamy, że Var (Y | x) jest również ~ N (0, )?σ2

2) Czym jest ten rozkład błędów w regresji logistycznej? Gdy dane mają postać 1 rekordu na przypadek, gdzie „Y” wynosi 1 lub 0, oznacza to błąd błędu rozproszonego Bernoulliego (tzn. Wariancja wynosi p (1-p))) i gdy dane mają postać # sukcesy z # prób, czy przyjmuje się, że jest dwumianowy (tzn. wariancja wynosi np (1-p)), gdzie p jest prawdopodobieństwem, że Y wynosi 1?

B_Miner
źródło
2
Nie jesteś precyzyjny. Założeniem modelu jest to, że terminy błędów są niezależne i identycznie rozłożone z rozkładem, który jest N (0, σ ) i nie jest powiązany z WSPÓŁRZĘDNYM. Co to jest Var (Y | x)? Czy warunkujesz na X = x? Czy model zakłada, że ​​zmienna towarzysząca jest w jakiś sposób losowa, czy też zakładamy, że zmienna towarzysząca jest ustalona zgodnie z macierzą projektową? Myślę, że jest to ta ostatnia i dlatego Var (Y | X = x) wynika z założeń i nie trzeba zakładać. 222
Michael R. Chernick
@MichaelChernick Dlaczego model zakłada, że jest naprawiony? Z pewnością może być tak, że jest naprawiony, ale może być również losowy. Nic w tym pytaniu nie sugeruje mi żadnego z nich. X2
Peter Flom
@PeterFlom Przeczytałem pytanie, że regresja liniowa z założonym rozkładem błędów oznaczała OLS, który wymaga ustalenia X i ustalenia. Jeśli ktoś ma regresję Deminga (tj. Błąd w regresji zmiennych), zostanie to określone w pytaniu. Patrząc na odpowiedź, którą udzielił Stat, wskazuje, że w ten sposób interpretuje pytanie. 2
Michael R. Chernick
@Michael, zakładałem, że naprawiłem X.
B_Miner

Odpowiedzi:

10

1) Jeśli ma rozkład normalny, tj. to , ponieważ nie jest zmienną losową.uN(0,σ2)Var(Y|X2)=Var(β1+β2X2)+Var(u)=0+σ2=σ2β1+β2X2

2) W regresji logistycznej zakłada się, że błędy są zgodne z rozkładem dwumianowym, jak wspomniano tutaj . Lepiej jest napisać jako , ponieważ te prawdopodobieństwa zależą od , jak podano tutaj lub w Zastosowanej regresji logistycznej .Var(Yj|Xj)=mj.E[Yj|Xj].(1E[Yj|Xj])=mjπ(Xj).(1π(Xj))Xj

Stat
źródło
Stat, więc słusznie jest powiedzieć, że wariancja dla i-tego indywidualnego błędu wynosi (1- ), co jest równoważne z tym, co wykazałeś, zakładając, że w danych występuje więcej niż 1 obserwacja z tą samą zmienną towarzyszącą wzorzec (tj. inaczej = 1 dla wszystkich j)? eipipimj
B_Miner
2
Tak, to jest poprawne. Jeśli z , to z prawdopodobieństwem lub z prawdopodobieństwem . Stąd ma rozkład ze średnią i wariancją równą . Yi=pi+eiP(Yi=1)=1P(Yi=0)=piei=1pipiei=pi1piei0pi(1pi)
Stat
Dodatkowy punkt, Stat, Musimy założyć, że X są ustalone, nieprzypadkowe dla Var (Y | X) = Var (e) zarówno dla przypadków regresji liniowej, jak i logistycznej, prawda?
B_Miner
Uwaga z prawdopodobieństwem lub z prawdopodobieństwem jest nie dwumianowego dystrybucji . ei=1pipiei=pi1piei
Scortchi - Przywróć Monikę
B_Miner: nazwa nazwa oznacza wariancję zależną od losowej zmiennej przyjmującej obserwowaną wartość . Nie ma zatem znaczenia, czy predyktory są ustalane eksperymentalnie, czy obserwowane w próbie: to, co mówi @ Stat, mówi, że niejuż one uważane za zmienne losowe do celów regresji. Var(Y|X)=Var(Y|X=x)YXx
Scortchi - Przywróć Monikę