Kształt przedziału ufności dla przewidywanych wartości w regresji liniowej

69

Zauważyłem, że przedział ufności dla przewidywanych wartości w regresji liniowej jest zwykle wąski wokół średniej predyktora, a tłuszcz wokół minimalnych i maksymalnych wartości predyktora. Można to zobaczyć na wykresach tych 4 regresji liniowych:

wprowadź opis zdjęcia tutaj

Początkowo myślałem, że dzieje się tak, ponieważ większość wartości predyktorów była skoncentrowana wokół średniej predyktora. Zauważyłem jednak, że wąski środek przedziału ufności wystąpiłby nawet, gdyby wiele wartości koncentrowało się wokół skrajności predyktora, tak jak w regresji liniowej u dołu po lewej, które wiele wartości predyktora koncentruje się wokół minimum predyktor.

czy ktokolwiek jest w stanie wyjaśnić, dlaczego przedziały ufności dla przewidywanych wartości w regresji liniowej bywają wąskie w środku, a tłuszczu skrajnie?

luciano
źródło

Odpowiedzi:

86

Omówię to w intuicyjny sposób.

Zarówno przedziały ufności, jak i przedziały predykcyjne w regresji uwzględniają fakt, że punkt przecięcia i nachylenie są niepewne - szacujesz wartości na podstawie danych, ale wartości populacji mogą być różne (jeśli weźmiesz nową próbkę, otrzymasz inne oszacowane wartości).

(x¯,y¯)y=a+b(xx¯)a^=y¯

(x¯,y¯)

±

wprowadź opis zdjęcia tutaj

x¯,y¯

wprowadź opis zdjęcia tutaj

(x¯,y¯)x

wprowadź opis zdjęcia tutaj

±

x¯

To jest intuicja.


Teraz, jeśli chcesz, możemy rozważyć trochę algebry (ale nie jest to konieczne):

W rzeczywistości jest to pierwiastek kwadratowy z sumy kwadratów tych dwóch efektów - można to zobaczyć we wzorze przedziału ufności. Zbudujmy elementy:

abσ/nayxx¯

baσ/i=1n(xix¯)2xxx¯(xx¯)σ/i=1n(xix¯)2

y=a+b(xx¯)ab

(σ/n)2+[(xx¯)σ/i=1n(xix¯)2]2

x

σ1n+(xx¯)2i=1n(xix¯)2

xx¯

[Przy przedziałach predykcyjnych istnieje również zmiana pozycji ze względu na zmienność procesu; dodaje to kolejny termin, który przesuwa granice w górę i w dół, czyniąc znacznie szerszy spread, a ponieważ termin ten zwykle dominuje w sumie pod pierwiastkiem kwadratowym, krzywizna jest znacznie mniej wyraźna.]

Glen_b
źródło
Dzięki Glen_b to bardzo intuicyjne. Nie przyszło mi do głowy, że to właśnie uwzględnia przedział ufności.
luciano
1

Przyjęta odpowiedź przynosi rzeczywiście niezbędną intuicję. Brakuje jedynie wizualizacji łączenia niepewności zarówno liniowej, jak i kątowej, co bardzo ładnie odnosi się do wykresów w pytaniu. Więc proszę. Zadzwońmy a'i b'niepewności a, a bodpowiednio ilości zwykle zwracane przez dowolny popularny pakiet statystyk. Następnie, oprócz najlepszego dopasowania a*x + b, mamy cztery możliwe linie do narysowania (w tym przypadku 1 zmienna współrzędna x):

  • (a+a')*x + b+b'
  • (a-a')*x + b-b'
  • (a+a')*x + b-b'
  • (a-a')*x + b+b'

Są to cztery zakrzywione linie na poniższym wykresie. Czarna gruba linia pośrodku reprezentuje najlepsze dopasowanie bez niepewności. Aby narysować cieniowanie „hiperboliczne”, należy wziąć wartości maksymalne i minimalne tych czterech linii łącznie, które w rzeczywistości są czterema segmentami linii, bez krzywych (zastanawiam się, jak dokładnie te wykresy częstości rysują zakrzywienie, nie wydaje się wszelkie dokładne dla mnie).

Mam nadzieję, że to dodaje coś do i tak miłej odpowiedzi z @Glen_b.

wprowadź opis zdjęcia tutaj

ouranos
źródło