Termin wariancji w rozkładzie wariancji odchylenia regresji liniowej

9

W „Elementach uczenia statystycznego” wyrażenie dekompozycji wariancji odchylenia modelu liniowego podano jako gdzie jest rzeczywistą funkcją docelową, to wariancja błędu losowego w modelu

Err(x0)=σϵ2+E[f(x0)Ef^(x0)]2+||h(x0)||2σϵ2,
f(x0)σϵ2y=f(x)+ϵ i f^(x) jest estymatorem liniowym f(x).

Problem wariancji niepokoi mnie tutaj, ponieważ równanie implikuje, że wariancja byłaby zerowa, gdyby cele były bezszumowe, to znaczy σϵ2=0. Ale to nie ma dla mnie sensu, ponieważ nawet przy zerowym hałasie wciąż mogę uzyskać różne estymatory f^(x0) dla różnych zestawów treningowych, co sugeruje, że wariancja jest niezerowa.

Załóżmy na przykład, że funkcja celu jest kwadratowa, a dane treningowe zawierają dwa punkty losowo pobrane z tej kwadratowej; oczywiście dostanę inne dopasowanie liniowe za każdym razem, gdy próbuję losowo dwa punkty z kwadratu-celu. Jak więc wariancja może wynosić zero?f(x0)

Czy ktoś może mi pomóc dowiedzieć się, co jest złego w moim rozumieniu rozkładu wariancji odchylenia wstępnego?

Abhinav Gupta
źródło

Odpowiedzi:

6

W leczeniu uprzedzeń i wariancji zawsze czai się subtelność i ważne jest, aby zwracać na to szczególną uwagę podczas nauki. Jeśli ponownie przeczytasz kilka pierwszych słów ESL w dziale z tego rozdziału, autorzy wyrażą temu szacunek.

Dyskusje na temat szacowania poziomu błędu mogą być mylące, ponieważ musimy wyjaśnić, które wielkości są stałe, a które losowe

Subtelność jest ustalona, ​​a losowa .

W tradycyjnych metodach regresji liniowej dane Xjest traktowany jako ustalony i znany. Jeśli podążysz za argumentami w języku ESL, przekonasz się, że autorzy również przyjmują to założenie. Przy tych założeniach twój przykład nie wchodzi w grę, ponieważ jest to jedyne źródło losowości wynikające z rozkładu warunkowegoy dany X. Jeśli to pomoże, możesz zastąpić notacjęErr(x0) w myślach z Err(x0X).

Nie oznacza to, że twoje obawy są nieważne, z pewnością prawdą jest, że wybór danych treningowych rzeczywiście wprowadza losowość w naszym algorytmie modelowym, a sumienny praktykujący spróbuje oszacować wpływ tej losowości na swoje wyniki. W rzeczywistości dość wyraźnie widać, że powszechne praktyki ładowania i weryfikacji krzyżowej wyraźnie uwzględniają te źródła losowości w swoich wnioskach.

Aby uzyskać wyraźne wyrażenie matematyczne dla odchylenia i wariancji modelu liniowego w kontekście losowego zestawu danych treningowych, należałoby poczynić pewne założenia dotyczące struktury losowości w Xdane. Wymagałoby to pewnych przypuszczeń dotyczących dystrybucjiX. Można to zrobić, ale nie stało się częścią głównego nurtu tych pomysłów.

Matthew Drury
źródło
Wielkie dzięki za wyjaśnienie faktu, że autorzy założyli X do naprawienia, więc oczekiwanie tutaj jest wrt Y|X nie (X,Y). Ale możemy pisaćE=EXEY|X, co oznacza, że ​​będziemy traktować X jako przypadek Var(f^(x0))=EX[||h(x0)||2σϵ2]. Gdyby to było nadal zeroσϵ2wynosi zero. Miałem podobne wątpliwości co do tego równania, moje pochodzenie można znaleźć w tym poście: stats.stackexchange.com/questions/307110/…
Abhinav Gupta
Sądzę, że autorzy zakładają, że model jest poprawnie określony, tj. Zawiera wszystkie i tylko odpowiednie predyktory z poprawnymi transformacjami. Musiałbym jednak wrócić do książki zamiast polegać na mojej pamięci, żeby to potwierdzić.
Matthew Drury
Jeśli przez „poprawnie określone” masz na myśli, że funkcja celu jest rzeczywiście liniowa, rozumiem, że zerowy szum oznaczałby zerową stronniczość. Ale okazuje się, że nawet jeśli funkcja celu nie jest liniowa, otrzymujemy dokładnie to samo wyrażenie dla wariancji.
Abhinav Gupta
1
To prawda, ale w takim przypadku „poprawnie określone” oznaczałoby, że użyłeś regresji liniowej, aby dopasować model zawierający prawidłowe predyktory. Więc jeśli prawdziwy związek jest kwadratowy, to zakładasz, że twój model zawiera warunki kwadratowe.
Matthew Drury