Oprócz doskonałej odpowiedzi Kjetil, chciałem dodać kilka konkretnych przykładów, które pomogą wyjaśnić znaczenie rozkładu warunkowego , który może być nieco nieuchwytną koncepcją.
Załóżmy, że pobrałeś losową próbkę 100 ryb z jeziora i jesteś zainteresowany tym, jak wiek ryby wpływa na kilka zmiennych wyników:
- Waga ryb (waga);
- Czy ryby są dłuższe niż 30 cm;
- Liczba łusek ryb.
Pierwsza zmienna wyniku jest ciągła, druga jest binarna (0 = ryba NIE jest dłuższa niż 30 cm; 1 = ryba JEST dłuższa niż 30 cm), a trzecia jest zmienną zliczającą.
Prosta regresja liniowa
Jak wiek wpływa na wagę? Zamierzasz sformułować prosty model regresji liniowej formularza:
Weight=β0+β1∗Age+ϵ
gdzie są niezależne, identycznie rozmieszczone, zgodnie z rozkładem normalnym ze średnią 0 i odchyleniem standardowym . W tym modelu zakłada się, że średnia zmiennej Waga dla wszystkich ryb w jeziorze dzielących ten sam wiek zmienia się liniowo wraz z wiekiem. Średnia warunkowa jest reprezentowana przez . Nazywa się to warunkowym, ponieważ jest średnią wagą wszystkich ryb w jeziorze o tym samym wieku . (Bezwarunkowa średnia waga byłaby średnią wagą wszystkich ryb w jeziorze, niezależnie od ich wieku). ϵσβ0+β1∗Age
Prosta regresja logiczna binarna
Jak wiek wpływa na to, czy ryby są dłuższe niż 30 cm? Zamierzasz sformułować prosty binarny model regresji logistycznej formularza:
log(p1−p)=β0+β1∗Age
gdzie oznacza warunkowe prawdopodobieństwo, że ryba w danym wieku jest dłuższa niż 30 cm. W tym modelu zakłada się, że średnia warunkowa zmiennej „czy ryby są dłuższe niż 30 cm”, odpowiadającej wszystkim rybom w jeziorze mającym ten sam wiek, zmienia się liniowo z wiekiem po karmieniu transformacją logit. Średnia warunkowa przekształcona w logit jest reprezentowana przez . Ten model działa, ponieważ zakładamy, że rozkład wartości zmiennej „czy ryby są dłuższe niż 30 cm” dla danego wieku jest rozkładem Bernoulliego. Przypomnijmy, że dla tego rozkładu wariancja jest funkcją wartości średniej, więc jeśli możemy oszacować jej wartość średnią, możemy również oszacować jej wariancję.pβ0+β1∗Agep a wariancja to .) Zobacz także https://www.theanalysisfactor.com/link-functions-and-errors-in-logistic-regression/ .p∗(1−p)
Prosta regresja Poissona
Jak wiek wpływa na liczbę łusek ryb? Zamierzasz sformułować prosty model regresji Poissona postaci:
log(μ)=β0+β1∗Age
gdzie oznacza średnią warunkową wartość zmiennej wynikowej „liczba łusek ryb” dla ryb w danym wieku (to znaczy oczekiwana liczba łusek ryb dla wszystkich ryb w jeziorze w danym wieku). W tym modelu zakłada się, że średnia warunkowa zmiennej wyniku zmienia się liniowo wraz z wiekiem po wprowadzeniu do transformacji logarytmicznej. Średnia warunkowa przekształcona w log jest reprezentowana przez . Model ten działa, ponieważ zakładamy, że rozkład wartości zmiennej „liczba łusek ryb” dla wszystkich ryb w jeziorze w danym wieku jest rozkładem Poissona. Przypomnijmy, że dla tego rozkładu średnia i wariancja są równe, więc wystarczy modelować jego średnią wartość.μβ0+β1∗Age
Podsumowując, rozkład warunkowy reprezentuje rozkład wartości wynikowych dla określonych wartości zmiennych predykcyjnych uwzględnionych w modelu . Każdy typ modelu regresji zilustrowany powyżej narzuca pewne założenia dystrybucyjne dotyczące warunkowego rozkładu zmiennej wynikowej dla danego wieku. Na podstawie tych założeń dystrybucyjnych model przechodzi do sformułowania, w jaki sposób (1) średnia rozkład warunkowy zmienia się w zależności od wieku (prosta regresja liniowa), (2) przekształcona logitem średnia rozkład warunkowy zmienia się w zależności od wiek (prosta binarna regresja logistyczna) lub (3) przekształcona logarytmicznie średnia rozkładu warunkowego zmienia się w zależności od wieku.
Dla każdego typu modelu można zdefiniować odpowiednie wartości resztkowe na potrzeby sprawdzania modelu. W szczególności resztki Pearsona i dewiacji można zdefiniować dla modeli regresji logistycznej i Poissona.