Zauważyłem, że przedział ufności dla przewidywanych wartości w regresji liniowej jest zwykle wąski wokół średniej predyktora, a tłuszcz wokół minimalnych i maksymalnych wartości predyktora. Można to zobaczyć na wykresach tych 4 regresji liniowych:
Początkowo myślałem, że dzieje się tak, ponieważ większość wartości predyktorów była skoncentrowana wokół średniej predyktora. Zauważyłem jednak, że wąski środek przedziału ufności wystąpiłby nawet, gdyby wiele wartości koncentrowało się wokół skrajności predyktora, tak jak w regresji liniowej u dołu po lewej, które wiele wartości predyktora koncentruje się wokół minimum predyktor.
czy ktokolwiek jest w stanie wyjaśnić, dlaczego przedziały ufności dla przewidywanych wartości w regresji liniowej bywają wąskie w środku, a tłuszczu skrajnie?
Przyjęta odpowiedź przynosi rzeczywiście niezbędną intuicję. Brakuje jedynie wizualizacji łączenia niepewności zarówno liniowej, jak i kątowej, co bardzo ładnie odnosi się do wykresów w pytaniu. Więc proszę. Zadzwońmy
a'
ib'
niepewnościa
, ab
odpowiednio ilości zwykle zwracane przez dowolny popularny pakiet statystyk. Następnie, oprócz najlepszego dopasowaniaa*x + b
, mamy cztery możliwe linie do narysowania (w tym przypadku 1 zmienna współrzędna x):(a+a')*x + b+b'
(a-a')*x + b-b'
(a+a')*x + b-b'
(a-a')*x + b+b'
Są to cztery zakrzywione linie na poniższym wykresie. Czarna gruba linia pośrodku reprezentuje najlepsze dopasowanie bez niepewności. Aby narysować cieniowanie „hiperboliczne”, należy wziąć wartości maksymalne i minimalne tych czterech linii łącznie, które w rzeczywistości są czterema segmentami linii, bez krzywych (zastanawiam się, jak dokładnie te wykresy częstości rysują zakrzywienie, nie wydaje się wszelkie dokładne dla mnie).
Mam nadzieję, że to dodaje coś do i tak miłej odpowiedzi z @Glen_b.
źródło