Ujednolicony pogląd na kurczenie się: jaka jest relacja (jeśli występuje) między paradoksem Steina, regresją grzbietu i efektami losowymi w modelach mieszanych?

64

Rozważ następujące trzy zjawiska.

  1. Paradoks Steina: biorąc pod uwagę niektóre dane z wielowymiarowego rozkładu normalnego w Rn,n3 , średnia próbki nie jest bardzo dobrym estymatorem prawdziwej średniej. Można uzyskać oszacowanie z niższym średnim błędem do kwadratu, jeśli zmniejsza się wszystkie współrzędne średniej próbki w kierunku zera [lub w kierunku ich średniej, lub faktycznie w kierunku dowolnej wartości, jeśli dobrze rozumiem].

    Uwaga: zwykle paradoksem Stein formułuje poprzez rozpatrywanie tylko jednego punktu danych z Rn ; proszę mnie poprawić, jeśli jest to kluczowe, a moje sformułowanie powyżej jest nieprawidłowe.

  2. Regresja grzbietowa: biorąc pod uwagę pewną zmienną zależną y i niektóre zmienne niezależne X , regresja standardowa β=(XX)1Xy ma tendencję do przekraczania danych i prowadzi do słabej wydajności poza próbą. Często można ograniczyć nadmierne dopasowanie zmniejszając β do zera: β=(XX+λI)1Xy .

  3. Efekty losowe w modelach wielopoziomowych / mieszanych: biorąc pod uwagę pewną zmienną zależną y (np. Wzrost ucznia), która zależy od niektórych predyktorów jakościowych (np. Identyfikator szkoły i płeć ucznia), często zaleca się traktowanie niektórych predyktorów jako „losowych”, tj. Przypuszczenie, że średni wzrost ucznia w każdej szkole pochodzi z pewnego rozkładu normalnego. Powoduje to zmniejszenie szacunków średniej wysokości na szkołę do średniej globalnej.

Mam wrażenie, że wszystko to jest różnymi aspektami tego samego zjawiska „kurczenia się”, ale nie jestem pewien i na pewno brakuje mi dobrej intuicji. Więc moje główne pytanie brzmi: czy rzeczywiście istnieje głębokie podobieństwo między tymi trzema rzeczami, czy jest to tylko pozór pozorny? Jaki jest tutaj wspólny motyw? Jaka jest właściwa intuicja?

Ponadto, oto kilka elementów tej układanki, które tak naprawdę nie pasują do mnie:

  • W regresji grzbietowej nie zmniejsza się równomiernie; skurcz grzbietu jest faktycznie związany z rozkładem wartości X w liczbie pojedynczej , przy czym kierunki o niskiej wariancji są bardziej zmniejszane (patrz np . Elementy uczenia statystycznego 3.4.1). Ale estymator Jamesa-Steina po prostu bierze średnią próbki i mnoży ją przez jeden współczynnik skalowania. Jak to do siebie pasuje?βX

    Aktualizacja: patrz Estymator Jamesa-Steina z nierównymi wariancjami i np. Tutaj odnośnie wariancji współczynników .β

  • Średnia próbki jest optymalna w wymiarach poniżej 3. Czy oznacza to, że gdy w modelu regresji występuje tylko jeden lub dwa predyktory, regresja grzbietu zawsze będzie gorsza niż zwykłe najmniejsze kwadraty? Właściwie, pomyśl o tym, nie wyobrażam sobie sytuacji w 1D (tj. Prostej regresji bez wielokrotności), w której skurcz kalenicy byłby korzystny ...

    Aktualizacja: Nie. Patrz dokładnie, w jakich warunkach regresja kalenicy jest w stanie zapewnić poprawę w stosunku do zwykłej regresji metodą najmniejszych kwadratów?

  • Z drugiej strony średnia próbki jest zawsze nieoptymalna w wymiarach powyżej 3. Czy to oznacza, że ​​przy więcej niż 3 predyktorach regresja grzbietu jest zawsze lepsza niż OLS, nawet jeśli wszystkie predyktory są nieskorelowane (ortogonalne)? Zwykle regresja kalenicy jest motywowana wielokoliniowością i potrzebą „stabilizacji” terminu .(XX)1

    Aktualizacja: Tak! Zobacz ten sam wątek jak powyżej.

  • Często toczy się gorąca dyskusja na temat tego, czy różne czynniki ANOVA powinny być uwzględniane jako efekty stałe czy losowe. Czy nie powinniśmy, zgodnie z tą samą logiką, traktować czynnik losowo, jeśli ma więcej niż dwa poziomy (lub jeśli istnieją więcej niż dwa czynniki? Teraz jestem zdezorientowany)?

    Aktualizacja :?


Aktualizacja: otrzymałem kilka doskonałych odpowiedzi, ale żadna z nich nie zapewnia wystarczająco dużego obrazu, więc pozwolę, by pytanie „się otworzyło”. Mogę obiecać, że przyznam nagrodę w wysokości co najmniej 100 punktów za nową odpowiedź, która przewyższy istniejące. Głównie szukam ujednoliconego poglądu, który mógłby wyjaśnić, w jaki sposób ogólne zjawisko skurczu przejawia się w tych różnych kontekstach i wskazać podstawowe różnice między nimi.

ameba mówi Przywróć Monikę
źródło
Rozumiem, że regresja kalenicowa (i jej kuzyni, tacy jak Lasso i siatka elastyczna) zmniejsza współczynniki dla skorelowanych zmiennych wspólnych dla wszystkich obserwacji w regresji (np. Status społeczno-ekonomiczny studenta i GPA), podczas gdy model efektów losowych zmniejsza się o współczynniki dla wzajemnie wykluczające się poziomy lub grupy skorelowanych obserwacji (takie jak status społeczno-ekonomiczny studenta pogrupowany według identyfikatora szkoły).
RobertF
3
Myślę, że najlepszym miejscem na uzyskanie jednoczącej odpowiedzi jest spojrzenie na słowo kluczowe BLUP (dla najlepszego liniowego bezstronnego predyktora) esp. w literaturze dotyczącej hodowli zwierząt. Zobacz na przykład ankietę Robinsona w statystyce. Lub książka
Xi'an
2
@ Xi'an: Bardzo dziękuję, sam już znalazłem książkę Grubera i chociaż z pewnością dużo omawia zarówno Jamesa-Steina, jak i regresję grzbietu, nie znalazłem od razu żadnego bezpośredniego porównania obu (czytanie całej książki jest nie jest dla mnie teraz opcją ...). Dzięki za link do ankiety Robinsona, przyjrzę się; hodowla zwierząt ! kto by pomyślał. Nawiasem mówiąc, widziałem wasze komentarze na powiązane tematy i domyślam się, że możesz być jedną z osób, które naprawdę mogą udzielić satysfakcjonującej odpowiedzi tutaj! Byłoby świetnie; jak dotąd brak odpowiedzi sprawia, że ​​jestem zadowolony.
ameba mówi Przywróć Monikę
2
@ Xi'an: Cóż, twoje pomocne komentarze poniżej sprawiają, że tęsknię za tobą tutaj. W każdym razie zacząłem czytać Robinsona i zdałem sobie sprawę, że „Najlepszy liniowy bezstronny predyktor” jest tendencyjnym estymatorem (oczywiście, ponieważ wprowadza skurcz)! Cóż za miła terminologia.
ameba mówi Przywróć Monikę
4
Są dobrzy w nazwach w hodowli zwierząt: po tym, jak Casella i George 1992 „Gibbs dla dzieci” musieli zmienić tytuł, aby zostać opublikowanym, Wang i Gianola napisali wprowadzenie „Gibbs dla świń” w 1993 roku na spotkaniu Europejskiego Stowarzyszenia Produkcji Zwierząt!
Xi'an

Odpowiedzi:

30

Związek między estymatorem Jamesa-Steina a regresją kalenicową

Niech być wektorem obserwacji o długości , , estymator James-Stein, Jeśli chodzi o regresję grzbietu, możemy oszacować za pomocą gdzie rozwiązaniem jest Łatwo zauważyć, że dwa estymatory są w tej samej formie, ale musimy to oszacowaćyθmyN(θ,σ2I)

θ^JS=(1(m2)σ2y2)y.
θσ 2 λminθyθ2+λθ2,
θ^ridge=11+λy.
σ2 w estymatorze Jamesa-Steina i określ w regresji grzbietu za pomocą walidacji krzyżowej.λ

Związek między estymatorem Jamesa-Steina a modelami efektów losowych

Najpierw omówmy modele efektów mieszanych / losowych w genetyce. Model to Jeśli nie ma ustalonych efektów i , model staje się co odpowiada ustawieniu estymatora Jamesa-Steina, z pewnymi Pomysł bayesowski.Z = I y = θ + e , θ N ( 0 , σ 2 θ I ) , eN ( 0 , σ

y=Xβ+Zθ+e,θN(0,σθ2I),eN(0,σ2I).
Z=I
y=θ+e,θN(0,σθ2I),eN(0,σ2I),

Związek między modelami efektów losowych a regresją grzbietu

Jeśli skupimy się na powyższych modelach efektów losowych, Szacowanie jest równoważne z rozwiązaniem problemu kiedy . Dowód można znaleźć w rozdziale 3 Rozpoznawanie wzorców i uczenie maszynowe .min θy - Z θ 2 + λ θ 2 λ = σ 2 / σ 2 θ

y=Zθ+e,θN(0,σθ2I),eN(0,σ2I).
minθyZθ2+λθ2
λ=σ2/σθ2

Związek między (wielopoziomowymi) modelami efektów losowych a genetyką

W powyższym modelu efektów losowych wymiar wynosi a wymiar to . Jeśli wektoryzujemy jako i powtórzymy odpowiednio, wówczas mamy strukturę hierarchiczną / klastrową, klastrów i każdą z jednostek. Jeśli regresujemy na powtarzanym , wówczas możemy uzyskać losowy wpływ na dla każdego klastra, chociaż jest to coś w rodzaju regresji odwrotnej. m × 1 , Z m × p Z ( m p ) × 1 , y p m v e c ( Z ) y Z yym×1,Zm×pZ(mp)×1,ypmvec(Z)yZy


Potwierdzenie : pierwsze trzy punkty zostały w dużej mierze wyciągnięte z tych dwóch chińskich artykułów, 1 , 2 .

Randel
źródło
(+1) Wielkie dzięki! Jest to bardzo pomocne i na pewno zajrzę do podręcznika Bishopa, który znam dobrze i często z niego korzystam. Nie spodziewałem się, że znajdę tam coś w modelach mieszanych, ale wygląda na to, że rozdział 3.3 „Bayesowska regresja liniowa” jest właściwie na ten temat, tylko używa innej terminologii. Bardzo dobrze wiedzieć! Ale co sądzisz o moich pytaniach?
ameba mówi Przywróć Monikę
Masz za dużo pytań w poście. :) 1) Jak odpowiedziałem powyżej, estymator Jamesa-Steina i regresja kalenicy są równoważne, gdy nie ma współzmiennych , lub tylko macierz tożsamości. 2,3,4), jak wspomniano @James, liczba predyktorów ( powyżej) niekoniecznie jest równa wymiarowi odpowiedzi . p mXpm
Randel
BTW, nie widzę, że średnia / średnia próbki jest używana w estymatorze Jamesa-Steina, faktycznie bierze estymator a następnie zmniejsza go do . 0y0
Randel
2
Estymator JS i regresja kalenicy są różne. Szacunki regresji grzbiet -wymiarowej lokalizacji P-wektor odpowiada matrycy projektu , co prowadzi do oszacowania , w którym brakuje terminu (nieliniowy!) w mianowniku estymatora JSI p ( 1 + λ ) - 1 I p yy 2pIp(1+λ)1Ipyy2
Andrew M
3
Myślę, że wszystko zależy od tego, co nazywacie estymatorem grzbietu. We wczesnym sensie Hoerla i Kennarda (1970) rzeczywiście nie ma zależności od danych. W późniejszym sensie pracy doktorskiej Caselli (1978) ręczne określenie jest zastąpione funkcją resztkowej sumy kwadratów. λλλ
Xi'an
6

Zostawię to jako ćwiczenie dla społeczności, aby dopełnić tę odpowiedź, ale ogólnie powodem, dla którego estymatory skurczu będą * dominować * obiektywne estymatory w skończonych próbkach, jest to, że estymatory Bayesa nie mogą być zdominowane , i wiele estymatorów skurczu można wyprowadzić jako Bayesa. 2 3 41234

Wszystko to należy do teorii teorii decyzji. Wyczerpującym, ale raczej nieprzyjaznym odniesieniem jest „Teoria szacowania punktów” Lehmanna i Caselli. Może inni mogą wejść z bardziej przyjaznymi referencjami?


1 Estymator parametru na danych jest zdominowany przez inny estymator jeśli dla każdego ryzyko (np. Średni błąd kwadratowy) z jest równy lub większy niż , a bije dla co najmniej jednego . Innymi słowy, uzyskasz taką samą lub lepszą wydajność dla wszędzie w obszarze parametrów.δ1(X)θΩXδ2(X)θΩδ1δ2δ2δ1θδ2

θ π δ ( X ) = E ( θ | X ) Ω π θ 0 = { 1 jeśli  θ = θ 0 0 θ θ 0 θ 0 δ ( X ) = θ 0 θ 0 θ 02 Estymatorem jest Bayes (i tak pod utratą błędu kwadratu), jeśli jest to późniejsze oczekiwanie , biorąc pod uwagę dane, pod pewnym wcześniejszym , np. , gdzie oczekiwanie jest podejmowane z tyłu. Oczywiście różne priorytety prowadzą do różnych zagrożeń dla różnych podgrup . Ważnym przykładem zabawka jest przed , która stawia wszystkie wcześniejsze masa wokół punktu . Następnie możesz pokazać, że estymator Bayesa jest funkcją stałąθπδ(X)=E(θ|X)Ω

πθ0={1if θ=θ00θθ0
θ0δ(X)=θ0, która oczywiście ma wyjątkowo dobrą wydajność w pobliżu i bardzo wydajność w innych miejscach. Niemniej jednak nie można go zdominować, ponieważ tylko ten estymator prowadzi do zerowego ryzyka na poziomie .θ0θ0

3 Naturalnym pytaniem jest, czy jakiś estymator, który nie może być zdominowany (nazywany dopuszczalnym , choć czy niezłomny nie byłby snazzerem?) Musiałby być Bayes? Odpowiedź jest prawie. Zobacz „pełne twierdzenia klasowe”.

1 / λ 2 β σ 24 Na przykład regresja grzbietu powstaje jako procedura bayesowska po umieszczeniu Normalnego (0, ) przed , a modele efektów losowych powstają jako empiryczna procedura bayesowska w podobnych ramach . Argumenty te komplikuje fakt, że waniliowa wersja Bayesowskich twierdzeń o dopuszczalności zakłada, że ​​każdy parametr ma na sobie odpowiedni wcześniejszy parametr. Nawet w regresji grzbietowej nie jest to prawdą, ponieważ „wcześniejsze” jest umieszczane na wariancji1/λ2βσ2terminu błędu jest funkcją stałą (miara Lebesgue'a), która nie jest właściwym (całkowitym) rozkładem prawdopodobieństwa. Niemniej jednak można wykazać, że wiele takich „częściowo” estymatorów Bayesa jest dopuszczalnych poprzez wykazanie, że są one „granicą” sekwencji estymatorów, które są odpowiednimi bayesowskimi. Ale dowody tutaj stają się raczej skomplikowane i delikatne. Zobacz „uogólnione estymatory Bayesa”.

Andrew M.
źródło
1
Wielkie dzięki, bardzo interesujące (+1). Mogę tylko żałować, że twoja odpowiedź nie była bardziej szczegółowa ... Re: Twój przypis (3): czy mówisz, że wszystkie estymatory Bayesa są dopuszczalne / niezłomne (podoba mi się to słowo), niezależnie od wcześniejszego? Ale estymator Jamesa-Steina można wyprowadzić z empirycznego Bayesa; dlaczego zatem jest to niedopuszczalne? Oznaczałoby to również, że np. W regresji grzbietowej mogę wziąć wcześniej skoncentrowaną wartość nie około zera, ale około innej wartości: i nadal będzie rozsądna strategia regularyzacji? βN(β0,1/λ2)
ameba mówi Przywróć Monikę
2
Z tego powodu, że estymator Jamesa-Steina jest niedopuszczalny, odpowiedź znajdziesz tutaj . Szczegółowa i interesująca dyskusja znajduje się także w Lehmann & Casella (1998), Theory of Point Estimation .
Randel
@Randel: tak, wiem, że jest to niedopuszczalne i widziałem to rozumowanie, po prostu zastanawiam się, jak pasuje do stwierdzenia Andrew (biorąc pod uwagę, że dobrze to zrozumiałem), że wszystkie estymatory Bayesa są dopuszczalne, ponieważ James-Stein można zrozumieć za pomocą empirycznego Bayes ...
ameba mówi Przywróć Monikę
2
@Amoeba: tak, każdy estymator Bayesa, który jest tylny pod jakimkolwiek właściwym wcześniejszym, prowadzi do dopuszczalnego estymatora. Jeśli chodzi o empiryczne Bayesa, takie procedury nie są tak naprawdę luźnymi Bayesami, ponieważ uprzednie uzależnienie od danych może prowadzić do patologii. Czasem można wykazać, że są dopuszczalne, a czasem nie - zazwyczaj trzeba pracować indywidualnie. Zredagowałem moją odpowiedź, aby być nieco bardziej klarownym w tej kwestii, ponieważ w rzeczywistości nie wiem, czy klasyczne liniowe modele mieszane są dopuszczalne!
Andrew M
3
Trzeba tylko zaznaczyć, że prawdziwe właściwe estymatory Bayesa rzadko działają jako estymatory Jamesa-Steina, ponieważ nie są one minimax. Bill Strawderman wykazał na przykład (w 1975 r.), Że nie ma właściwego estymatora Bayesa w wymiarach mniejszych niż 5 dla zwykłego normalnego średniego problemu, który to wszystko ustawia.
Xi'an
2
  • James-Stein zakłada, że ​​wymiar odpowiedzi wynosi co najmniej 3. W standardowej regresji grzbietowej odpowiedź jest jednowymiarowa. Mylisz liczbę predyktorów z wymiarem odpowiedzi.

  • Biorąc to pod uwagę, widzę podobieństwo między tymi sytuacjami, ale co dokładnie zrobić, np. Czy czynnik powinien być stały czy losowy, ile skurczu, jeśli w ogóle, zależy od konkretnego zestawu danych. Np. Im bardziej ortogonalne są predyktory, tym mniej sensowne jest wybranie regresji Ridge'a niż regresji standardowej. Im większa liczba parametrów, tym bardziej sensowne jest wyodrębnienie wcześniejszego zbioru danych z samego zestawu danych empirycznych Bayesa, a następnie wykorzystanie go do zmniejszenia oszacowań parametrów. Im wyższy stosunek sygnału do szumu, tym mniejsze korzyści skurczu itp.

James
źródło
Dziękuję za Twoją odpowiedź. Jeśli chodzi o twoją pierwszą kulę: to, co zmniejsza się w regresji grzbietowej, to , która ma tyle wymiarów, co predyktory, prawda? β
ameba mówi Przywróć Monikę
1
Ok, więc teoretycznie JS powinien działać lepiej, zakładając, że został rozszerzony na przypadek oszacowania MSE, a macierz wariancji-kowariancji beta jest dowolna. W takim przypadku JS nie tylko oszacuje punkt beta i pomnoży go przez współczynnik skalowania. Podobnie do regresji grzbietowej, różne składniki beta zostaną zmniejszone w różny sposób.
James
Bardzo dobra uwaga na temat macierzy kowariancji ! Wydaje mi się, że to odpowiada (przynajmniej intuicyjnie) mojej pierwszej kuli. β
ameba mówi Przywróć Monikę
2
@James: modele liniowe można pomyśleć o rzutowaniu próbki (która żyje w ) na podprzestrzeń wymiarową (kolumny rozproszone przez macierz projektową). W szczególności zawsze moglibyśmy w sposób trywialny rzutować ją na tożsamość, która to to samo, co użycie średniej próbki wektora gdy masz tylko jedną obserwację. p nRnpn
Andrew M
2

Jak powiedzieli inni, związek między tymi trzema polega na tym, jak uwzględnić wcześniejsze informacje w pomiarze.

  1. W przypadku paradoksu Stein wiesz, że prawdziwa korelacja między zmiennymi wejściowymi powinna wynosić zero (i wszystkie możliwe miary korelacji, ponieważ chcesz sugerować niezależność, a nie tylko nieskorelację), dlatego możesz skonstruować zmienną lepiej niż zwykłą próbkuj średnią i pomiń różne miary korelacji. W ramach bayesowskiej można zbudować przeor, który dosłownie obniża zdarzenia, które prowadzą do korelacji między średnimi próbkami, a podwyższa pozostałe.
  2. W przypadku regresji grzbietu należy znaleźć dobre oszacowanie dla wartości warunkowego oczekiwania E (y | x). Zasadniczo jest to problem nieskończenie wymiarowy i źle zdefiniowany, ponieważ mamy tylko skończoną liczbę pomiarów. Jednak wcześniejsza wiedza jest taka, że ​​szukamy funkcji Continuos, która modeluje dane. Jest to nadal źle zdefiniowane, ponieważ wciąż istnieje nieskończenie wiele sposobów modelowania funkcji ciągłych, ale zestaw jest nieco mniejszy. Regresja grzbietu jest tylko jednym prostym sposobem na posortowanie możliwych funkcji ciągłych, przetestowanie ich i zatrzymanie się na końcowym stopniu swobody. Interpretacja jest obrazem wymiaru VC: podczas regresji kalenicy sprawdza się, czy model af (x, p1, p2 ...) z danym stopniem swobody opisuje niepewność związaną z danymi. Praktycznie mierzy, jak dobrze może f (x, p1, p2 ... ), a empiryczna P (p1, p2 ...) może zrekonstruować pełny rozkład P (y | x), a nie tylko E (y | x). W ten sposób obciąża się modele o zbyt dużym stopniu swobody (które zwykle się pokrywają), ponieważ większa średnia parametru po pewnym stopniu swobody da większe korelacje między parametrami, aw konsekwencji znacznie szersze P (f (x, p1, p2). ..)) dystrybucje. Inną interpretacją jest to, że pierwotna funkcja straty jest również wartością miary, a ocena na danej próbce jest niepewna, więc prawdziwym zadaniem nie jest minimalizowanie funkcji straty, ale znalezienie minimum, które jest znacznie niższe niż wartość inne (praktycznie zmiana jednego stopnia swobody na inny jest decyzją bayesowską, więc zmienia się liczbę parametrów tylko wtedy, gdy dają one znaczący spadek funkcji straty). Regresję grzbietu można interpretować jako przybliżenie tych dwóch zdjęć (wymiar CV, oczekiwana strata). W niektórych przypadkach chcesz preferować wyższe stopnie swobody, na przykład w fizyce cząstek badasz kolizję cząstek, w której oczekujesz, że wyprodukowana liczba cząstek będzie rozkładem Poissona, więc rekonstruujesz ścieżkę cząstek na podstawie obrazu (na przykład zdjęcia ) w sposób preferujący określoną liczbę ścieżek i tłumi modele, które mają mniejszą lub wyższą interpretację obrazu ścieżki.
  3. Trzeci przypadek stara się również wprowadzić do pomiaru wcześniejszą informację, a mianowicie, że z poprzednich pomiarów wiadomo, że wysokość uczniów może być bardzo dobrze modelowana na przykład przez rozkłady Gaussa, a nie przez Cauchy'ego.

Krótko mówiąc, odpowiedź jest taka, że ​​możesz zmniejszyć niepewność pomiaru, jeśli wiesz, czego się spodziewać, i skategoryzować dane według niektórych wcześniejszych danych (wcześniejsze informacje). Te poprzednie dane ograniczają twoją funkcję modelowania, której używasz do dopasowania pomiarów. W prostych przypadkach możesz zapisać swój model w ramach Bayesa, ale czasami jest to niepraktyczne, jak na przykład zintegrowanie wszystkich możliwych funkcji continuos w celu znalezienia tej, która ma wartość Bayesian Maximal A posterior.

Peter Kövesárki
źródło
2

Estymator Jamesa Steina i regresja Ridge'a

Rozważać

y=Xβ+ϵ

Z ϵN(0,σ2I)

Najmniejsze rozwiązanie kwadratowe ma formę

S=X'Xβ^=S1Xy , gdzie .S=XX

betaĎ2S-1β^ jest bezstronny dla i ma macierz kowariancji . Dlatego możemy pisaćβσ2S1

β^N(β,σ2S1) Zauważ, że są szacunkami największego prawdopodobieństwa, MLE.β^

James Stein

Dla uproszczenia dla Jame Stein zakładamy . James i Stein dodadzą następnie opcję na formularzuS=Iβ

βN(0,aI)

I dostanie a posterior w postaci , oni następnie oszacuje pomocą i otrzyma estymator Jamesa Steinaaa+σ2β^=(1σ2a+σ2)β^1a+σ2p2β^2

β^=(1p2β^2)β^ .

Regresja Ridge

W regresji grzbietowej jest zwykle standaryzowany (średnia 0, vairance 1 dla każdej kolumny ), dzięki czemu parametry regresji są porównywalne. Gdy jest to dla .XXβ=(β1,β2,,βp)Sii=1i=1,2,,p

Szacunki regresji grzbiet jest definiowany jako, , byćβλ0

β^(λ)=(S+λI)1Xy=(S+λI)1Sβ^ zauważ, że to MLE.β^

Jak powstał ?? Odwołanieβ^(λ)

β^N(β^,σ2S1) i jeśli dodamy przedtem Bayesian

βN(0,σ2λI)

Potem dostaniemy

E(β|β^)=(S+λI)1Sβ^

To samo co oszacowanie regresji grzbietu . Tak więc podana tutaj oryginalna forma Jamesa Stein'a przyjmuje i .S=I=σ2β^(λ)S=Ia=σ2λ

Chamberlain Foncha
źródło