Jeśli nie możesz tego zrobić ortogonalnie, zrób to na surowo (regresja wielomianowa)

11

Podczas przeprowadzania regresji wielomianowej dla na ludzie czasami używają surowych wielomianów, czasem ortogonalnych wielomianów. Ale kiedy używają tego, co wydaje się całkowicie arbitralne.XYX

Tu i tutaj używane są surowe wielomiany. Ale tu i tutaj wydaje się, że ortogonalne wielomiany dają prawidłowe wyniki. Co, jak, dlaczego ?!

W przeciwieństwie do tego, gdy uczymy się o regresji wielomianowej z podręcznika (np. ISLR ), który nawet nie wspomina o surowych lub ortogonalnych wielomianach - podaje się tylko model, który należy dopasować.

Kiedy więc musimy korzystać z czego?
I dlaczego poszczególne wartości p dla , itd. Różnią się znacznie między tymi dwiema wartościami?X 2XX2)

l7ll7
źródło
1
Powinieneś zastanowić się, które wartości p są różne, gdy dopasujesz ten sam model do tych samych danych przy użyciu surowych i ortogonalnych wielomianów oraz ich interpretacji. Co z przewidywaniami modelu?
Scortchi - Przywróć Monikę
@Scortchi Dodałem odpowiednie informacje do mojego pytania.
l7ll7
4
Innym dobrym powodem do zastosowania wielomianów ortogonalnych jest stabilność numeryczna; powiązana macierz projektowa do dopasowania w podstawie monomialnej może być dość źle uwarunkowana do dopasowania w wysokim stopniu, ponieważ monomale wyższego rzędu są „bardzo prawie liniowo zależne” (koncepcja, którą można by uczynić bardziej matematyczną), podczas gdy macierz projektowa dla ortogonalnych wielomianów zachowuje się nieco lepiej. Omówiłem tu przypadek nierównej nierówności (Gram) , ale sprawa jest podobna w przypadku nierównej.
JM nie jest statystykiem
(Niemniej jednak nie należy dopasowywać się do wielomianów wysokiego stopnia bez uzasadnionego powodu.)
JM nie jest statystykiem

Odpowiedzi:

7

Zmienne i X 2 nie są liniowo niezależne. Więc nawet jeśli nie ma efektu kwadratowa, dodając X 2 do modelu zmodyfikuje szacowany efekt X .XX2)X2)X

Spójrzmy na bardzo prostą symulację.

> x <- runif(1e3)
> y <- x + rnorm(length(x))
> summary(lm(y~x))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.03486    0.06233  -0.559    0.576    
x            1.05843    0.10755   9.841   <2e-16 ***

Teraz z kwadratowym terminem w modelu, aby pasował.

> summary(lm(y~x+I(x^2)))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  0.03275    0.09528   0.344    0.731
x            0.65742    0.44068   1.492    0.136
I(x^2)       0.39914    0.42537   0.938    0.348

Oczywiście test zbiorczy jest nadal znaczący, ale myślę, że wynik, którego szukamy, nie jest ten. Rozwiązaniem jest użycie wielomianów ortogonalnych.

 > summary(lm(y~poly(x,2)))

 Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.49744    0.03098  16.059   <2e-16 ***
poly(x, 2)1  9.63943    0.97954   9.841   <2e-16 ***
poly(x, 2)2  0.91916    0.97954   0.938    0.348    

Zauważ, że współczynniki xw pierwszym modelu i poly(x,2)1w drugim modelu nie są równe, a nawet przecięcia są różne. Jest tak, ponieważ polydostarcza wektory ortonormalne, które są również ortogonalne względem wektora rep(1, length(x)). Tak poly(x,2)1nie jest, xale raczej (x -mean(x))/sqrt(sum((x-mean(x))**2))...

Ważną kwestią jest to, że testy Walda w tym ostatnim modelu są niezależne. Możesz użyć ortogonalnych wielomianów, aby zdecydować, do jakiego stopnia chcesz przejść, po prostu patrząc na test Walda: tutaj decydujesz się zachować ale nie X 2 . Oczywiście można znaleźć ten sam model, porównując dwa pierwsze dopasowane modele, ale w ten sposób jest to prostsze - jeśli weźmiesz pod uwagę wyższe stopnie, jest to o wiele prostsze.XX2)

Gdy już zdecydujesz, które warunki zachować, możesz wrócić do surowych wielomianów i X 2 w celu interpretacji lub prognozowania.XX2)

Elvis
źródło
+1 Wreszcie jasna odpowiedź! Dziękuję Ci! Zanim zaakceptuję, czy możesz mi powiedzieć, czy są jakieś inne statystyki, takie jak R ^ 2 lub statystyka F, że lepiej powinienem czytać podsumowanie wykresu ortogonalnego niż surowe? Poza wykreślaniem zmiennych, czy dopasowanie przy użyciu surowych wielomianów jest przydatne do czegokolwiek innego w tym scenariuszu?
l7ll7
A kiedy mam wiele predyktorów, czy to samo jest prawdziwe?
l7ll7
W jaki sposób „użyłbyś ortogonalnych wielomianów, aby zdecydować, czy chcesz uwzględnić wyrażenie kwadratowe, czy nie”?
Scortchi - Przywróć Monikę
1
Chodzi o to, że test efektu najwyższego rzędu, w tym przypadku kwadratowy, jest taki sam, niezależnie od tego, czy używasz wielomianów surowych czy ortogonalnych. Dlaczego więc zawracać sobie głowę wielomianami ortogonalnymi?
Scortchi - Przywróć Monikę
4
Cóż, oczywiście, po prostu nie powinieneś wykonywać tych marginalnych testów w tym modelu; powinieneś ponownie dopasować po odrzuceniu efektu najwyższego rzędu. Wielomiany ortogonalne oszczędzają ci kłopotów, umożliwiając łatwą procedurę stopniowego obniżania - być może możesz to zilustrować za pomocą terminu sześciennego.
Scortchi - Przywróć Monikę
3

Aby naiwnie ocenić sytuację:

{pn}n=1{p~}n=1L.2)([za,b])

L.2)([za,b])yL.2)([za,b])θnθ~nRn=1,2),L.2)

n=1θ~np~n=y=n=1θnpn.

k<

{pn}n=1k
{p~}n=1k,
L.2)([za,b])

{p~}n=1{pn}n=1y{p}n=1kkL.2)([za,b])

p

Dlatego pod względem przewidywania nie ma (w tym przypadku) różnicy.

vzar(θ~^)=jaσ²


Naturalne pytanie powstaje, jeśli istnieje najlepszy skrócony system podstawowy. Jednak odpowiedź na to pytanie nie jest ani prosta, ani niepowtarzalna i zależy na przykład od definicji słowa „najlepszy”, tj. Od tego, co próbujesz zarchiwizować.

chrrr
źródło
1
(+1) Brak różnicy w zakresie prognoz; i można powiedzieć, że nie ma różnicy pod względem jakiegokolwiek znaczącego wnioskowania.
Scortchi - Przywróć Monikę