Dlaczego w regresji liniowej zmienna odpowiedzi musi być ciągła?

13

Wiem, że w regresji liniowej zmienna odpowiedzi musi być ciągła, ale dlaczego tak jest? Nie mogę znaleźć w Internecie niczego, co wyjaśniałoby, dlaczego nie mogę używać dyskretnych danych dla zmiennej odpowiedzi.

ilovestats
źródło

Odpowiedzi:

25

Nic nie stoi na przeszkodzie, aby zastosować regresję liniową na dowolnych dwóch kolumnach, które lubisz. Są chwile, kiedy może to być całkiem rozsądny wybór.

Jednak właściwości tego, co wydostajesz się, niekoniecznie będą przydatne (np. Niekoniecznie będzie to wszystko, czego możesz chcieć).

Generalnie za pomocą regresji próbujesz dopasować jakiś związek między średnią warunkową Y i predyktorem - tj. Dopasować relacje jakiejś formy ; zapewne modelowanie zachowania warunkowa wartość oczekiwana wynosi co „regresja” jest . [Regresja liniowa ma miejsce, gdy przyjmiesz jedną szczególną formę dla g ]E(Y|x)=g(x)g

Rozważmy na przykład ekstremalne przypadki dyskrecji, zmienną odpowiedzi, której rozkład wynosi 0 lub 1 i która przyjmuje wartość 1 z prawdopodobieństwem zmiany wraz ze zmianą niektórych predyktorów ( ). To jest E ( Y | x ) = P ( Y = 1 | X = x ) .xE(Y|x)=P(Y=1|X=x)

Jeśli dopasujesz ten rodzaj relacji do modelu regresji liniowej, to oprócz wąskiego przedziału przewidzi on wartości które są niemożliwe - albo poniżej 0, albo powyżej 1 :E(Y)01

Dane 0-1 i najmniejsze kwadraty pasują

Rzeczywiście, można również zauważyć, że gdy oczekiwanie zbliża się do granic, wartości muszą coraz częściej przyjmować wartość na tej granicy, więc jej wariancja staje się mniejsza niż gdyby oczekiwanie było bliskie środka - wariancja musi zmniejszać się do 0 Tak więc zwykła regresja źle mierzy wagi, niedoważając dane w regionie, w którym oczekiwanie warunkowe jest bliskie 0 lub 1. Podobne efekty pojawiają się, jeśli masz zmienną ograniczoną między aib, powiedzmy (takie jak każda obserwacja jest liczbą dyskretną ze znanej całkowitej możliwej liczby dla tej obserwacji)

Ponadto zwykle oczekujemy, że średnia warunkowa będzie asymptotyczna w kierunku górnych i dolnych granic, co oznacza, że ​​związek byłby normalnie zakrzywiony, a nie prosty, więc nasza regresja liniowa prawdopodobnie popełni błąd również w zakresie danych.

Podobne problemy występują w przypadku danych, które są ograniczone tylko z jednej strony (np. Liczby, które nie mają górnej granicy), gdy jesteś blisko tej granicy.

Jest to możliwe (w razie rzadko) mają oddzielne dane, które nie jest ograniczone w obu końcach; jeśli zmienna przyjmuje wiele różnych wartości, dyskrecja może mieć stosunkowo niewielki wpływ, o ile opis modelu w średniej i wariancji jest uzasadniony.

Oto przykład, że regresja liniowa byłaby całkowicie uzasadniona na:

wykres pokazujący dyskretne y jako funkcję x, gdzie regresja liniowa ma sens

Mimo że w każdym cienkim pasku wartości x można zaobserwować tylko kilka różnych wartości y (być może około 10 dla przedziałów szerokości 1), oczekiwania można dobrze oszacować, a nawet standardowe błędy i p- wartości i przedziały ufności będą w tym konkretnym przypadku mniej więcej uzasadnione. Przedziały prognozowania będą działały nieco gorzej (ponieważ w tym przypadku nienormalność będzie miała bardziej bezpośredni wpływ)

-

Jeśli chcesz przeprowadzić testy hipotez lub obliczyć przedziały ufności lub prognozy, zwykłe procedury przyjmują założenie normalności. W niektórych okolicznościach może to mieć znaczenie. Można jednak wnioskować bez tego konkretnego założenia.

Glen_b - Przywróć Monikę
źródło
Dziękuję, nie jestem pewien, czy zrozumiałem wszystko, co powiedziałeś, ale będę nad tym pracował.
ilovestats
3
Jeśli masz konkretne pytania, mogę spróbować na nie odpowiedzieć
Glen_b
@ilovestats Mam tytuł magistra w dziedzinie ekonometrii i zapewniam, że ta odpowiedź jest warta zrozumienia każdego słowa. Doskonała odpowiedź, z łatwym segregowaniem / dobrym fundamentem do wprowadzenia regresji logistycznej.
d8aninja
3

Nie mogę komentować, więc odpowiem: w zwykłej regresji liniowej zmienna odpowiedzi nie musi być ciągła, twoje założenie nie jest:

y=β0+β1x

ale jest:

E[y]=β0+β1x.

Zwykła regresja liniowa wynika z minimalizacji kwadratowych reszt, co jest metodą uważaną za odpowiednią dla zmiennych ciągłych i dyskretnych (patrz twierdzenie Gaussa-Markofa). Oczywiście ogólnie stosowane przedziały ufności lub prognozy oraz testy hipotez oparte są na założeniu rozkładu normalnego, jak słusznie zauważył Glen_b, ale szacunki parametrów OLS nie.

Carlo
źródło
2

W regresji liniowej powodem, dla którego potrzebujemy ciągłej reakcji, jest przeczesywanie przyjętych założeń. Jeśli zmienna niezależna jest ciągła, to przyjmujemy liniową zależność pomiędzy i jestx yxxy

y=β0+β1x+ϵ

gdzie resztkowe są normalne. I tworzą wzór wiemy jest ciągłe.yϵy

Z drugiej strony w uogólnionym modelu liniowym zmienna odpowiedzi może być dyskretna / kategoryczna (regresja logistyczna). Lub policz (regresja Poissona).


Edytuj, aby adresować komentarze mark999 i remapt.

Regresja liniowa to ogólny termin, który może być wykorzystywany przez ludzi w różny sposób. Nic nie stoi na przeszkodzie, abyśmy używali go do zmiennej dyskretnej LUB zmienna niezależna i zmienna zależna nie są liniowe.

Jeśli niczego nie założymy i nie przeprowadzimy regresji liniowej, nadal będziemy mogli uzyskać wyniki. A jeśli wyniki spełniają nasze potrzeby, cały proces jest OK. Jednak, jak powiedział Glan_b

Jeśli chcesz przeprowadzić testy hipotez lub obliczyć przedziały ufności lub prognozy, zwykłe procedury przyjmują założenie normalności.

Mam taką odpowiedź, ponieważ zakładam, że OP prosi o regresję liniową z klasycznego podręcznika statystyki, w którym zwykle mamy takie założenie, kiedy uczymy regresji liniowej.

Haitao Du
źródło
Dziękuję, zrozumiałem twoje wyjaśnienie. Najbardziej ceniony.
ilovestats
1
Czy możesz również wyjaśnić, dlaczego zmienna objaśniająca może być ciągła lub dyskretna (jak mówi wiele publikacji)? W swoim wyjaśnieniu mówisz (i ma to sens), że zmienna niezależna x jest ciągła.
ilovestats
2
Nie sądzę, aby ta odpowiedź była poprawna. Nie zakłada się, że zmienna odpowiedzi jest funkcją deterministyczną zmiennych objaśniających i nie ma potrzeby zakładać, że zmienne objaśniające są ciągłe.
mark999
2
Wynik może być dyskretny lub kontrowersyjny, ta odpowiedź jest po prostu błędna
Repmat
@Repmat dziękuję za komentarz, sprawdź moją edycję.
Haitao Du
0

Tak nie jest. Jeśli model działa, kogo to obchodzi?

Z teoretycznego punktu widzenia powyższe odpowiedzi są poprawne. Jednak w praktyce wszystko zależy od dziedziny danych i mocy predykcyjnej twojego modelu.

Jednym z prawdziwych przykładów jest stary model bankructwa MDS. Była to jedna z pierwszych ocen ryzyka wykorzystywanych przez kredytodawców konsumenckich do przewidywania prawdopodobieństwa ogłoszenia upadłości przez pożyczkobiorcę. W tym modelu wykorzystano szczegółowe dane z raportu kredytowego pożyczkobiorcy oraz binarną flagę 0/1 w celu wskazania bankructwa w okresie prognozy. Potem wprowadziłeś te dane do ... tak ... zgadłeś.

Prosta stara regresja liniowa

Kiedyś miałem okazję porozmawiać z jedną z osób, które zbudowały ten model. Zapytałem go o naruszenie założeń. Wyjaśnił, że nawet jeśli całkowicie naruszyło to założenia dotyczące pozostałości, itp., Nie dbał o to.

Okazało się...

Ten model regresji liniowej 0/1 (po standaryzacji / skalowaniu do łatwego do odczytania wyniku i w połączeniu z odpowiednim punktem odcięcia) został sprawdzony pod kątem zatrzymania próbek danych i działał bardzo dobrze jako dobry / zły czynnik dyskryminujący w przypadku bankructwa.

Model ten był używany od lat jako 2. ocena wiarygodności kredytowej w celu ochrony przed bankructwem, równolegle z oceną ryzyka FICO (która została zaprojektowana, aby przewidzieć ponad 60-dniową zaległość kredytową).

Jay Stevens
źródło