Rozważ następujące trzy zjawiska.
Paradoks Steina: biorąc pod uwagę niektóre dane z wielowymiarowego rozkładu normalnego w , średnia próbki nie jest bardzo dobrym estymatorem prawdziwej średniej. Można uzyskać oszacowanie z niższym średnim błędem do kwadratu, jeśli zmniejsza się wszystkie współrzędne średniej próbki w kierunku zera [lub w kierunku ich średniej, lub faktycznie w kierunku dowolnej wartości, jeśli dobrze rozumiem].
Uwaga: zwykle paradoksem Stein formułuje poprzez rozpatrywanie tylko jednego punktu danych z ; proszę mnie poprawić, jeśli jest to kluczowe, a moje sformułowanie powyżej jest nieprawidłowe.
Regresja grzbietowa: biorąc pod uwagę pewną zmienną zależną i niektóre zmienne niezależne , regresja standardowa ma tendencję do przekraczania danych i prowadzi do słabej wydajności poza próbą. Często można ograniczyć nadmierne dopasowanie zmniejszając do zera: .
Efekty losowe w modelach wielopoziomowych / mieszanych: biorąc pod uwagę pewną zmienną zależną (np. Wzrost ucznia), która zależy od niektórych predyktorów jakościowych (np. Identyfikator szkoły i płeć ucznia), często zaleca się traktowanie niektórych predyktorów jako „losowych”, tj. Przypuszczenie, że średni wzrost ucznia w każdej szkole pochodzi z pewnego rozkładu normalnego. Powoduje to zmniejszenie szacunków średniej wysokości na szkołę do średniej globalnej.
Mam wrażenie, że wszystko to jest różnymi aspektami tego samego zjawiska „kurczenia się”, ale nie jestem pewien i na pewno brakuje mi dobrej intuicji. Więc moje główne pytanie brzmi: czy rzeczywiście istnieje głębokie podobieństwo między tymi trzema rzeczami, czy jest to tylko pozór pozorny? Jaki jest tutaj wspólny motyw? Jaka jest właściwa intuicja?
Ponadto, oto kilka elementów tej układanki, które tak naprawdę nie pasują do mnie:
W regresji grzbietowej nie zmniejsza się równomiernie; skurcz grzbietu jest faktycznie związany z rozkładem wartości X w liczbie pojedynczej , przy czym kierunki o niskiej wariancji są bardziej zmniejszane (patrz np . Elementy uczenia statystycznego 3.4.1). Ale estymator Jamesa-Steina po prostu bierze średnią próbki i mnoży ją przez jeden współczynnik skalowania. Jak to do siebie pasuje?
Aktualizacja: patrz Estymator Jamesa-Steina z nierównymi wariancjami i np. Tutaj odnośnie wariancji współczynników .
Średnia próbki jest optymalna w wymiarach poniżej 3. Czy oznacza to, że gdy w modelu regresji występuje tylko jeden lub dwa predyktory, regresja grzbietu zawsze będzie gorsza niż zwykłe najmniejsze kwadraty? Właściwie, pomyśl o tym, nie wyobrażam sobie sytuacji w 1D (tj. Prostej regresji bez wielokrotności), w której skurcz kalenicy byłby korzystny ...
Aktualizacja: Nie. Patrz dokładnie, w jakich warunkach regresja kalenicy jest w stanie zapewnić poprawę w stosunku do zwykłej regresji metodą najmniejszych kwadratów?
Z drugiej strony średnia próbki jest zawsze nieoptymalna w wymiarach powyżej 3. Czy to oznacza, że przy więcej niż 3 predyktorach regresja grzbietu jest zawsze lepsza niż OLS, nawet jeśli wszystkie predyktory są nieskorelowane (ortogonalne)? Zwykle regresja kalenicy jest motywowana wielokoliniowością i potrzebą „stabilizacji” terminu .
Aktualizacja: Tak! Zobacz ten sam wątek jak powyżej.
Często toczy się gorąca dyskusja na temat tego, czy różne czynniki ANOVA powinny być uwzględniane jako efekty stałe czy losowe. Czy nie powinniśmy, zgodnie z tą samą logiką, traktować czynnik losowo, jeśli ma więcej niż dwa poziomy (lub jeśli istnieją więcej niż dwa czynniki? Teraz jestem zdezorientowany)?
Aktualizacja :?
Aktualizacja: otrzymałem kilka doskonałych odpowiedzi, ale żadna z nich nie zapewnia wystarczająco dużego obrazu, więc pozwolę, by pytanie „się otworzyło”. Mogę obiecać, że przyznam nagrodę w wysokości co najmniej 100 punktów za nową odpowiedź, która przewyższy istniejące. Głównie szukam ujednoliconego poglądu, który mógłby wyjaśnić, w jaki sposób ogólne zjawisko skurczu przejawia się w tych różnych kontekstach i wskazać podstawowe różnice między nimi.
źródło
Odpowiedzi:
Związek między estymatorem Jamesa-Steina a regresją kalenicową
Niech być wektorem obserwacji o długości , , estymator James-Stein, Jeśli chodzi o regresję grzbietu, możemy oszacować za pomocą gdzie rozwiązaniem jest Łatwo zauważyć, że dwa estymatory są w tej samej formie, ale musimy to oszacowaćy θ m y∼N(θ,σ2I)
Związek między estymatorem Jamesa-Steina a modelami efektów losowych
Najpierw omówmy modele efektów mieszanych / losowych w genetyce. Model to Jeśli nie ma ustalonych efektów i , model staje się co odpowiada ustawieniu estymatora Jamesa-Steina, z pewnymi Pomysł bayesowski.Z = I y = θ + e , θ ∼ N ( 0 , σ 2 θ I ) , e ∼ N ( 0 , σ
Związek między modelami efektów losowych a regresją grzbietu
Jeśli skupimy się na powyższych modelach efektów losowych, Szacowanie jest równoważne z rozwiązaniem problemu kiedy . Dowód można znaleźć w rozdziale 3 Rozpoznawanie wzorców i uczenie maszynowe .min θ ‖ y - Z θ ‖ 2 + λ ‖ θ ‖ 2 λ = σ 2 / σ 2 θ
Związek między (wielopoziomowymi) modelami efektów losowych a genetyką
W powyższym modelu efektów losowych wymiar wynosi a wymiar to . Jeśli wektoryzujemy jako i powtórzymy odpowiednio, wówczas mamy strukturę hierarchiczną / klastrową, klastrów i każdą z jednostek. Jeśli regresujemy na powtarzanym , wówczas możemy uzyskać losowy wpływ na dla każdego klastra, chociaż jest to coś w rodzaju regresji odwrotnej. m × 1 , Z m × p Z ( m p ) × 1 , y p m v e c ( Z ) y Z yy m×1, Z m×p Z (mp)×1, y p m vec(Z) y Z y
Potwierdzenie : pierwsze trzy punkty zostały w dużej mierze wyciągnięte z tych dwóch chińskich artykułów, 1 , 2 .
źródło
Zostawię to jako ćwiczenie dla społeczności, aby dopełnić tę odpowiedź, ale ogólnie powodem, dla którego estymatory skurczu będą * dominować * obiektywne estymatory w skończonych próbkach, jest to, że estymatory Bayesa nie mogą być zdominowane , i wiele estymatorów skurczu można wyprowadzić jako Bayesa. 2 3 41 2 3 4
Wszystko to należy do teorii teorii decyzji. Wyczerpującym, ale raczej nieprzyjaznym odniesieniem jest „Teoria szacowania punktów” Lehmanna i Caselli. Może inni mogą wejść z bardziej przyjaznymi referencjami?
θ π δ ( X ) = E ( θ | X ) Ω π θ 0 = { 1 jeśli θ = θ 0 0 θ ≠ θ 0 θ 0 δ ( X ) = θ 0 θ 0 θ 02 Estymatorem jest Bayes (i tak pod utratą błędu kwadratu), jeśli jest to późniejsze oczekiwanie , biorąc pod uwagę dane, pod pewnym wcześniejszym , np. , gdzie oczekiwanie jest podejmowane z tyłu. Oczywiście różne priorytety prowadzą do różnych zagrożeń dla różnych podgrup . Ważnym przykładem zabawka jest przed
, która stawia wszystkie wcześniejsze masa wokół punktu . Następnie możesz pokazać, że estymator Bayesa jest funkcją stałąθ π δ(X)=E(θ|X) Ω
1 / λ 2 β σ 24 Na przykład regresja grzbietu powstaje jako procedura bayesowska po umieszczeniu Normalnego (0, ) przed , 1/λ2 β σ2 terminu błędu jest funkcją stałą (miara Lebesgue'a), która nie jest właściwym (całkowitym) rozkładem prawdopodobieństwa. Niemniej jednak można wykazać, że wiele takich „częściowo” estymatorów Bayesa jest dopuszczalnych poprzez wykazanie, że są one „granicą” sekwencji estymatorów, które są odpowiednimi bayesowskimi. Ale dowody tutaj stają się raczej skomplikowane i delikatne. Zobacz „uogólnione estymatory Bayesa”.
a modele efektów losowych powstają jako empiryczna procedura bayesowska w podobnych ramach. Argumenty te komplikuje fakt, że waniliowa wersja Bayesowskich twierdzeń o dopuszczalności zakłada, że każdy parametr ma na sobie odpowiedni wcześniejszy parametr. Nawet w regresji grzbietowej nie jest to prawdą, ponieważ „wcześniejsze” jest umieszczane na wariancjiźródło
James-Stein zakłada, że wymiar odpowiedzi wynosi co najmniej 3. W standardowej regresji grzbietowej odpowiedź jest jednowymiarowa. Mylisz liczbę predyktorów z wymiarem odpowiedzi.
Biorąc to pod uwagę, widzę podobieństwo między tymi sytuacjami, ale co dokładnie zrobić, np. Czy czynnik powinien być stały czy losowy, ile skurczu, jeśli w ogóle, zależy od konkretnego zestawu danych. Np. Im bardziej ortogonalne są predyktory, tym mniej sensowne jest wybranie regresji Ridge'a niż regresji standardowej. Im większa liczba parametrów, tym bardziej sensowne jest wyodrębnienie wcześniejszego zbioru danych z samego zestawu danych empirycznych Bayesa, a następnie wykorzystanie go do zmniejszenia oszacowań parametrów. Im wyższy stosunek sygnału do szumu, tym mniejsze korzyści skurczu itp.
źródło
Jak powiedzieli inni, związek między tymi trzema polega na tym, jak uwzględnić wcześniejsze informacje w pomiarze.
Krótko mówiąc, odpowiedź jest taka, że możesz zmniejszyć niepewność pomiaru, jeśli wiesz, czego się spodziewać, i skategoryzować dane według niektórych wcześniejszych danych (wcześniejsze informacje). Te poprzednie dane ograniczają twoją funkcję modelowania, której używasz do dopasowania pomiarów. W prostych przypadkach możesz zapisać swój model w ramach Bayesa, ale czasami jest to niepraktyczne, jak na przykład zintegrowanie wszystkich możliwych funkcji continuos w celu znalezienia tej, która ma wartość Bayesian Maximal A posterior.
źródło
Estymator Jamesa Steina i regresja Ridge'a
Rozważać
Zϵ∼N(0,σ2I)
Najmniejsze rozwiązanie kwadratowe ma formę
S=X'Xβ^=S−1X′y , gdzie .S=X′X
betaĎ2S-1β^ jest bezstronny dla i ma macierz kowariancji . Dlatego możemy pisaćβ σ2S−1
James Stein
Dla uproszczenia dla Jame Stein zakładamy . James i Stein dodadzą następnie opcję na formularzuS=I β
I dostanie a posterior w postaci , oni następnie oszacuje pomocą i otrzyma estymator Jamesa Steinaaa+σ2β^=(1−σ2a+σ2)β^ 1a+σ2 p−2∥β^∥2
Regresja Ridge
W regresji grzbietowej jest zwykle standaryzowany (średnia 0, vairance 1 dla każdej kolumny ), dzięki czemu parametry regresji są porównywalne. Gdy jest to dla .X X β=(β1,β2,…,βp) Sii=1 i=1,2,…,p
Szacunki regresji grzbiet jest definiowany jako, , byćβ λ≥0
Jak powstał ?? Odwołanieβ^(λ)
Potem dostaniemy
To samo co oszacowanie regresji grzbietu . Tak więc podana tutaj oryginalna forma Jamesa Stein'a przyjmuje i .S=I=σ2β^(λ) S=I a=σ2λ
źródło