Nierówność Oracle: w kategoriach podstawowych

15

Przeglądam artykuł, który wykorzystuje nierówność wyroczni, aby coś udowodnić, ale nie jestem w stanie zrozumieć, co on nawet próbuje zrobić. Kiedy szukałem w Internecie „Nierówności Oracle”, niektóre źródła skierowały mnie do artykułu „Candes, Emmanuel J.„ Nowoczesne oszacowanie statystyczne poprzez nierówności wyroczni ”. ”, który można znaleźć tutaj https://statweb.stanford.edu/~candes/papers/NonlinearEstimation.pdf . Ale ta książka wydaje mi się zbyt ciężka i uważam, że brakuje mi pewnych warunków wstępnych.

Moje pytanie brzmi: jak wyjaśniłbyś, czym jest wyrocznia dla nie-matematyki (w tym inżynierów)? Po drugie, w jaki sposób poleciłbyś im omówienie wymagań wstępnych / tematów przed próbą nauczenia się czegoś takiego jak wyżej wspomniana książka.

Zdecydowanie poleciłbym, aby ktoś, kto ma konkretną wiedzę i duże doświadczenie w statystyce wielowymiarowej, odpowiedział na to.

Wolcott
źródło
2
Czy każdy, kto ma więcej niż 1k reputacji, może zaoferować nagrodę za to pytanie. To by naprawdę pomogło. Nie sądzę, aby użytkownicy CV mogli zapoznać się z tą koncepcją, ponieważ większość użytkowników używa statystyk do analizy danych, a nie analizy teoretycznej, chociaż jako społeczność całkowicie oparta na statystykach, uważam, że musi być ktoś, kto mógłby odpowiednio odpowiedzieć na to pytanie. Uważam, że na pytanie nie zwrócono wystarczającej uwagi.
Wolcott,
1
Myślałem o tym samym pytaniu
jeza
„Definicja” podana na str. 22 linku „Nierówność wyroczni wiąże wydajność estymatora z idealnym estymatorem, który opiera się na doskonałej informacji dostarczonej przez wyrocznię i który nie jest dostępny w praktyce”. Czy to nie przekazuje ci istoty definicji?
Mark L. Stone,
2
@ Mark L. Stone dla mnie, nie robi
jeza
1
Nawet jeśli spojrzysz na przykład i dyskusję podane w kilku poprzednich zdaniach, tj. Stwierdzenie i dyskusję Twierdzenia 4.1, jako przykład nierówności wyroczni? Mówiąc w skrócie: Gee, nie znamy optymalnej wartości (dostarczanej przez wyrocznię) współczynnika skurczu, którego powinniśmy użyć. Ale wiedząc, że optymalna wartość współczynnika skurczu może poprawić MSE o nie więcej niż 2 w porównaniu z brakiem optymalnego współczynnika skurczu z wyroczni.
Mark L. Stone,

Odpowiedzi:

9

Spróbuję to wyjaśnić w przypadku liniowym. Rozważ model liniowy Gdy (liczba zmiennych niezależnych mniejsza lub równa liczbie obserwacji) i macierz projektowa ma pełną rangę, najmniejszym kwadratowym estymatorem jest Błąd i przewidywania to z którego możemy wywnioskować Oznacza to, że każdy parametr jest szacowany z dokładnością do kwadratuWięc ogólna kwadratowa dokładność wynosiP n b b = ( X , T X ) - 1 x T Y X ( b - β 0 ) 2 2

Yi=j=1pβjXi(j)+ϵi,i=1,...,n.
pnb
b^=(XTX)1XTY
X(b^β0)22σ2
EX(b^β0)22n=σ2np.
βj0σ2/n,j=1,...,p.(σ2/n)p.

Co teraz, jeśli liczba obserwacji jest mniejsza niż liczba zmiennych niezależnych ? „Uważamy”, że nie wszystkie nasze niezależne zmienne odgrywają rolę w wyjaśnianiu , więc tylko kilka, powiedzmy , jest niezerowych. Gdybyśmy wiedzieli, które zmienne są niezerowe, moglibyśmy pominąć wszystkie inne zmienne i powyższym argumentem ogólna kwadratowa dokładność wynosiłaby(p>n)Yk(σ2/n)k.

Ponieważ zestaw niezerowych zmiennych jest nieznany, potrzebujemy pewnej kary regularyzacji (na przykład ) z parametrem regularyzacji (który kontroluje liczbę zmiennych). Teraz chcesz uzyskać wyniki podobne do omówionych powyżej, chcesz oszacować dokładność do kwadratu. Problem polega na tym, że twój optymalny estymator jest teraz zależny od . Ale wielkim faktem jest to, że przy właściwym wyborze można z dużym prawdopodobieństwem uzyskać górną granicę błędu prognozy, czyli „nierówność wyroczni” Zwróć uwagę na dodatkowy czynnik X β X X X ( β - β 0 ) 2 2l1λβ^λλlogpc

X(β^β0)22nconst.σ2logpnk.
logp, czyli cena za brak znajomości zestawu zmiennych niezerowych. „ ” zależy tylko od lub .p nconst.pn
Dato Gogolashvili
źródło
Ściśle mówiąc, nie potrzebujemy, aby liczba obserwacji była mniejsza niż liczba zmiennych niezależnych, aby wszystkie kolejne części były poprawne.
jbowman
Czy możesz wyjaśnić, w jaki sposób otrzymano równanie oczekiwania (od drugiego do ostatniego) i nierówności (ostatnie równanie)?
user13985,
(σ2/n)pX(b^β0)22σ2 ma rozkład chi-kwadrat zp stopniami swobody, więc jego oczekiwanie wynosi . Ostatnia nierówność jest nierównością wyroczni. Dowód nie jest tak trywialny, mogę polecić tę książkę: Statystyka danych (σ2/n)p
wielowymiarowych