Mam trudności z uchwyceniem kształtu przedziału ufności regresji wielomianowej.
Oto przykład . Lewy rysunek przedstawia UPV (nieskalowana wariancja predykcji), a prawy wykres pokazuje przedział ufności i (sztucznie) zmierzone punkty przy X = 1,5, X = 2 i X = 3.
Szczegóły podstawowych danych:
zestaw danych składa się z trzech punktów danych (1,5; 1), (2; 2,5) i (3; 2,5).
każdy punkt został „zmierzony” 10 razy, a każda zmierzona wartość należy do . Na 30 wynikowych punktach wykonano MLR z modelem spoczynkowym.
przedział ufności obliczono z recepturami i r(x0)-tα/2,dF(eRROR)√
(obie formuły pochodzą z Myers, Montgomery, Anderson-Cook, „Response Surface Methodology”, czwarte wydanie, strony 407 i 34)
i σ 2 = M S E = S S E / ( n - s ) ~ 0,075 .
bardzo wysoka przewidywana wariancja poza przestrzenią projektową jest normalna, ponieważ dokonujemy ekstrapolacji
ale dlaczego wariancja jest mniejsza między X = 1,5 a X = 2 niż w zmierzonych punktach?
i dlaczego wariancja staje się szersza dla wartości powyżej X = 2, a następnie maleje po X = 2.3, aby ponownie stała się mniejsza niż w punkcie pomiaru przy X = 3?
Czy nie byłoby logiczne, aby wariancja była mała w zmierzonych punktach i duża między nimi?
Edycja: ta sama procedura, ale z punktami danych [(1,5; 1), (2,25; 2,5), (3; 2,5)] i [(1,5; 1), (2; 2,5), (2,5; 2,2), (3; 2.5)].
źródło
Odpowiedzi:
Płacimy za konieczność patrzenia na trójwymiarowe obiekty, co jest trudne do zrobienia na ekranie statycznym. (Uważam, że nieskończenie obracające się obrazy są denerwujące i dlatego nie narzucą ci żadnego z nich, nawet jeśli mogą być pomocne.) Ta odpowiedź może nie wszystkim przypadać do gustu. Ale ci, którzy zechcą dodać trzeci wymiar swoją wyobraźnią, zostaną nagrodzeni. Proponuję ci pomóc w tym przedsięwzięciu za pomocą starannie dobranej grafiki.
Zacznijmy od wizualizacji zmiennych niezależnych . W modelu regresji kwadratowej
Regresja kwadratowa dopasowuje płaszczyznę do tych punktów.
Oto płaszczyzna najmniejszych kwadratów dopasowana do tych punktów:
Pasmo ufności dla tej dopasowanej krzywej pokazuje, co może się stać z dopasowaniem, gdy punkty danych są losowo zmieniane. Nie zmieniając punktu widzenia, narysowałem pięć dopasowanych płaszczyzn (i ich podniesione krzywe) do pięciu niezależnych nowych zestawów danych (z których tylko jedna jest pokazana):
Spójrzmy na to samo, unosząc się nad trójwymiarową fabułą i patrząc nieco w dół i wzdłuż osi ukośnej płaszczyzny. Aby zobaczyć, jak zmieniają się płaszczyzny, skompresowałem również wymiar pionowy.
Ta analiza koncepcyjnie dotyczy regresji wielomianowej wyższego stopnia, a także ogólnie regresji wielokrotnej. Chociaż nie możemy tak naprawdę „zobaczyć” więcej niż trzech wymiarów, matematyka regresji liniowej gwarantuje, że intuicja wyprowadzona z dwu- i trójwymiarowych wykresów pokazanego tutaj typu pozostaje dokładna w wyższych wymiarach.
źródło
Intuicyjny
W bardzo intuicyjnym i szorstkim sensie możesz zobaczyć krzywą wielomianową jako zszyte dwie krzywe liniowe (jedna wznosząca się, malejąca). Dla tych krzywych liniowych możesz zapamiętać wąski kształt w środku .
Punkty po lewej stronie piku mają stosunkowo niewielki wpływ na prognozy po prawej stronie piku i odwrotnie.
Można więc spodziewać się dwóch wąskich regionów po obu stronach szczytu (gdzie zmiany nachylenia obu stron mają stosunkowo niewielki wpływ).
Obszar wokół szczytu jest stosunkowo bardziej niepewny, ponieważ zmiana nachylenia krzywej ma większy wpływ w tym regionie. Możesz narysować wiele krzywych z dużym przesunięciem piku, który nadal przebiega rozsądnie przez punkty pomiarowe
Ilustracja
Poniżej znajduje się ilustracja z kilkoma różnymi danymi, która pokazuje łatwiej, w jaki sposób może powstać ten wzór (można powiedzieć podwójny węzeł):
Formalny
źródło