Rodzina GLM reprezentuje rozkład zmiennej odpowiedzi lub reszt?

13

Dyskutowałem na ten temat z kilkoma członkami laboratorium i poszliśmy do kilku źródeł, ale wciąż nie do końca mamy odpowiedź:

Kiedy mówimy, że GLM ma rodzinę Poissona , powiedzmy, czy mówimy o rozkładzie reszt lub zmiennej odpowiedzi?

Punkty sporne

  1. Czytając ten artykuł, stwierdza się, że założenia GLM to: statystyczna niezależność obserwacji, poprawna specyfikacja funkcji powiązania i wariancji (co sprawia, że ​​myślę o resztach, a nie zmiennej odpowiedzi), poprawna skala pomiaru dla zmiennej odpowiedzi oraz brak nadmiernego wpływu pojedynczych punktów

  2. To pytanie ma dwie odpowiedzi z dwoma punktami każda, pierwsza, która mówi o resztach, a druga o zmiennej odpowiedzi, co to jest?

  3. W tym blogu , mówiąc o założeniach, stwierdzają: „ Rozkład reszt może być inny, np. Dwumianowy

  4. Na początku tego rozdziału mówią, że strukturą błędów musi być Poisson, ale reszty z pewnością będą miały wartości dodatnie i ujemne, jak to może być Poisson?

  5. To pytanie, często cytowane w pytaniach takich jak to, aby je zduplikować, nie ma akceptowanej odpowiedzi

  6. To pytanie mówi o odpowiedzi, a nie o resztkach

  7. W tym opisie kursu na Uniwersytecie Pensilvania mówią o zmiennej odpowiedzi w założeniach, nie reszt

Derek Corcoran
źródło

Odpowiedzi:

18

Rodzina argumentem dla modeli GLM określa rodzinę dystrybucyjną dla rozkładu warunkowego odpowiedzi , a nie z reszt (z wyjątkiem quasi -models).

Spójrz na to: w przypadku zwykłej regresji liniowej możemy zapisać model jako Oznacza to, że odpowiedź ma rozkład normalny (ze stałą wariancją), ale oczekiwanie jest różne dla każdego . Dlatego rozkład warunkowy odpowiedzi jest rozkładem normalnym (ale innym dla każdego ). Innym sposobem napisania tego modelu jest gdzie każdy jest dystrybuowany .

YiNormal(β0+xiTβ,σ2).
Yiii
Yi=β0+xiTβ+ϵi
ϵiNormal(0,σ2)

Tak więc dla normalnej rodziny dystrybucyjnej oba opisy są poprawne (przy prawidłowej interpretacji). Jest tak, ponieważ dla normalnego modelu liniowego mamy czyste oddzielenie w modelu części systematycznej ( ) i części zaburzającej ( ), które są po prostu dodawane. Ale w przypadku innych funkcji rodzinnych rozdzielenie nie jest możliwe ! Nie ma nawet co czysta definicja pozostałości środków (iz tego powodu wiele różnych definicji „resztkowe”).β0+xiTβϵi

Tak więc dla wszystkich pozostałych rodzin używamy definicji w stylu pierwszego wyświetlanego równania powyżej. To jest warunkowy rozkład odpowiedzi. Zatem nie, reszty (cokolwiek zdefiniowane) w regresji Poissona nie mają rozkładu Poissona.

kjetil b halvorsen
źródło
13

Oprócz doskonałej odpowiedzi Kjetil, chciałem dodać kilka konkretnych przykładów, które pomogą wyjaśnić znaczenie rozkładu warunkowego , który może być nieco nieuchwytną koncepcją.

Załóżmy, że pobrałeś losową próbkę 100 ryb z jeziora i jesteś zainteresowany tym, jak wiek ryby wpływa na kilka zmiennych wyników:

  1. Waga ryb (waga);
  2. Czy ryby są dłuższe niż 30 cm;
  3. Liczba łusek ryb.

Pierwsza zmienna wyniku jest ciągła, druga jest binarna (0 = ryba NIE jest dłuższa niż 30 cm; 1 = ryba JEST dłuższa niż 30 cm), a trzecia jest zmienną zliczającą.

Prosta regresja liniowa

Jak wiek wpływa na wagę? Zamierzasz sformułować prosty model regresji liniowej formularza:

Weight=β0+β1Age+ϵ

gdzie są niezależne, identycznie rozmieszczone, zgodnie z rozkładem normalnym ze średnią 0 i odchyleniem standardowym . W tym modelu zakłada się, że średnia zmiennej Waga dla wszystkich ryb w jeziorze dzielących ten sam wiek zmienia się liniowo wraz z wiekiem. Średnia warunkowa jest reprezentowana przez . Nazywa się to warunkowym, ponieważ jest średnią wagą wszystkich ryb w jeziorze o tym samym wieku . (Bezwarunkowa średnia waga byłaby średnią wagą wszystkich ryb w jeziorze, niezależnie od ich wieku). ϵσβ0+β1Age

Prosta regresja logiczna binarna

Jak wiek wpływa na to, czy ryby są dłuższe niż 30 cm? Zamierzasz sformułować prosty binarny model regresji logistycznej formularza:

log(p1p)=β0+β1Age

gdzie oznacza warunkowe prawdopodobieństwo, że ryba w danym wieku jest dłuższa niż 30 cm. W tym modelu zakłada się, że średnia warunkowa zmiennej „czy ryby są dłuższe niż 30 cm”, odpowiadającej wszystkim rybom w jeziorze mającym ten sam wiek, zmienia się liniowo z wiekiem po karmieniu transformacją logit. Średnia warunkowa przekształcona w logit jest reprezentowana przez . Ten model działa, ponieważ zakładamy, że rozkład wartości zmiennej „czy ryby są dłuższe niż 30 cm” dla danego wieku jest rozkładem Bernoulliego. Przypomnijmy, że dla tego rozkładu wariancja jest funkcją wartości średniej, więc jeśli możemy oszacować jej wartość średnią, możemy również oszacować jej wariancję.pβ0+β1Agep a wariancja to .) Zobacz także https://www.theanalysisfactor.com/link-functions-and-errors-in-logistic-regression/ .p(1p)

Prosta regresja Poissona

Jak wiek wpływa na liczbę łusek ryb? Zamierzasz sformułować prosty model regresji Poissona postaci:

log(μ)=β0+β1Age

gdzie oznacza średnią warunkową wartość zmiennej wynikowej „liczba łusek ryb” dla ryb w danym wieku (to znaczy oczekiwana liczba łusek ryb dla wszystkich ryb w jeziorze w danym wieku). W tym modelu zakłada się, że średnia warunkowa zmiennej wyniku zmienia się liniowo wraz z wiekiem po wprowadzeniu do transformacji logarytmicznej. Średnia warunkowa przekształcona w log jest reprezentowana przez . Model ten działa, ponieważ zakładamy, że rozkład wartości zmiennej „liczba łusek ryb” dla wszystkich ryb w jeziorze w danym wieku jest rozkładem Poissona. Przypomnijmy, że dla tego rozkładu średnia i wariancja są równe, więc wystarczy modelować jego średnią wartość.μβ0+β1Age

Podsumowując, rozkład warunkowy reprezentuje rozkład wartości wynikowych dla określonych wartości zmiennych predykcyjnych uwzględnionych w modelu . Każdy typ modelu regresji zilustrowany powyżej narzuca pewne założenia dystrybucyjne dotyczące warunkowego rozkładu zmiennej wynikowej dla danego wieku. Na podstawie tych założeń dystrybucyjnych model przechodzi do sformułowania, w jaki sposób (1) średnia rozkład warunkowy zmienia się w zależności od wieku (prosta regresja liniowa), (2) przekształcona logitem średnia rozkład warunkowy zmienia się w zależności od wiek (prosta binarna regresja logistyczna) lub (3) przekształcona logarytmicznie średnia rozkładu warunkowego zmienia się w zależności od wieku.

Dla każdego typu modelu można zdefiniować odpowiednie wartości resztkowe na potrzeby sprawdzania modelu. W szczególności resztki Pearsona i dewiacji można zdefiniować dla modeli regresji logistycznej i Poissona.

Isabella Ghement
źródło
2
DOSKONAŁE odpowiedzi. Dziękuję wam obu. Nigdy nie zdawałem sobie sprawy, że „rzeczywista” reszta nigdy nie jest tak naprawdę wyraźna w ogólnym frameworku GLM, tak jak w normalnym przypadku dystrybucji.
mlofton
1
@mlofton: Dziękuję za miłe słowa. Doskonałe pytanie wymagało doskonałych odpowiedzi. Wszyscy korzystamy z tej wymiany wiedzy.
Isabella Ghement,
4
Używałem GLM przez długi czas (przez rok lub dwa, jak 10 lat temu) i to zawsze było moje zamieszanie, ale nigdy nie wiedziałem, że to moje zamieszanie, dopóki nie zostało tak jasno zadane i wyjaśnione. Czasami zamieszanie oznacza nawet brak możliwości zadawania właściwego pytania. Dzięki jeszcze raz.
mlofton
1
Masz absolutną rację! Zamieszanie jest częścią uczenia się - kiedy przez jakiś czas walczymy z czymś, jesteśmy gotowi lepiej to zrozumieć, gdy nagle natkniemy się na jasne wyjaśnienie.
Isabella Ghement
1
Cała przyjemność po mojej stronie i dziękuję za doskonałą odpowiedź @ IsabellaGhement
Patrick