Usiłuję uchwycić pojęcie uprzedzeń w kontekście analizy regresji liniowej.
Jaka jest matematyczna definicja błędu?
Co dokładnie jest stronnicze i dlaczego / jak?
Obrazowy przykład?
źródło
Usiłuję uchwycić pojęcie uprzedzeń w kontekście analizy regresji liniowej.
Jaka jest matematyczna definicja błędu?
Co dokładnie jest stronnicze i dlaczego / jak?
Obrazowy przykład?
Odchylenie jest różnicą między oczekiwaną wartością estymatora a szacowaną wartością rzeczywistą. Na przykład średnia próbki dla prostej próby losowej (SRS) jest obiektywnym estymatorem średniej populacji, ponieważ jeśli weźmiesz wszystkie możliwe wartości SRS znajdź ich średnie i weź średnią tych średnich, otrzymasz średnią populacji (dla skończonej populacje, to tylko algebra, aby to pokazać). Ale jeśli użyjemy mechanizmu próbkowania, który jest w jakiś sposób związany z wartością, wówczas średnia może stać się stronnicza, pomyślmy o losowej próbce wybierania cyfr zadającej pytanie o dochód.
Są też niektóre estymatory, które są naturalnie stronnicze. Skrócona średnia będzie tendencyjna dla wypaczonej populacji / rozkładu. Standardowa wariancja jest bezstronna dla SRS, jeśli albo średnia populacji jest stosowana z mianownikiem albo średnia próbki jest stosowana z mianownikiem .
Oto prosty przykład z użyciem R, generujemy wiązkę próbek z wartości normalnej ze średnią 0 i odchyleniem standardowym 1, a następnie obliczamy średnią średnią, wariancję i odchylenie standardowe z próbek. Zauważ, jak bliskie są średnie i wariancje średnich z prawdziwymi wartościami (błąd próbkowania oznacza, że nie będą dokładne), teraz porównaj średnią sd, jest to stronniczy estymator (choć nie bardzo stronniczy).
> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121
W regresji możemy uzyskać tendencyjne estymatory nachyleń, wykonując regresję krokową. Zmienna jest bardziej prawdopodobne, że będzie utrzymywana w regresji krokowej, jeśli szacowane nachylenie jest większe od 0, a bardziej prawdopodobne, że zostanie upuszczone, jeśli jest bliższe 0, więc jest to stronnicze próbkowanie, a nachylenia w ostatecznym modelu będą miały tendencję do dalszego od 0 niż prawdziwe nachylenie. Techniki takie jak odchylenie regresji lassa i grzbietu nachylają się w kierunku 0, aby przeciwdziałać odchyleniu selekcji od 0.
Odchylenie oznacza, że oczekiwana wartość estymatora nie jest równa parametrowi populacji.
Intuicyjnie w analizie regresji oznaczałoby to, że oszacowanie jednego z parametrów jest zbyt wysokie lub zbyt niskie. Jednak szacunki regresji metodą najmniejszych kwadratów są NIEBIESKIE, co oznacza najlepsze liniowe obiektywne estymatory. W innych formach regresji szacunki parametrów mogą być tendencyjne. Może to być dobry pomysł, ponieważ często występuje kompromis między stronniczością a wariancją. Na przykład czasami stosuje się regresję grzbietu w celu zmniejszenia wariancji oszacowań, gdy występuje kolinearność.
Prosty przykład może to lepiej zilustrować, chociaż nie w kontekście regresji. Załóżmy, że ważysz 150 funtów (sprawdzone na wadze, która ma cię w jednym koszyku, a stos ciężarów w drugim koszu). Teraz masz dwie wagi łazienkowe. Ważysz się 5 razy na każdym.
Skala 1 podaje wagi 152, 151, 151,5, 150,5 i 152.
Skala 2 podaje wagi 145, 155, 154, 146 i 150.
Skala 1 jest tendencyjna, ale ma mniejszą wariancję; średnia masy nie jest twoją prawdziwą wagą. Skala 2 jest bezstronna (średnia wynosi 150), ale ma znacznie większą wariancję.
Która skala jest „lepsza”? To zależy od tego, co chcesz zrobić z wagą.
źródło
W analizie regresji liniowej odchylenie odnosi się do błędu, który jest wprowadzany przez przybliżenie rzeczywistego problemu, który może być skomplikowany, przez znacznie prostszy model. Mówiąc prościej, zakładamy prosty model liniowy, taki jak y * = (a *) x + b *, gdzie tak jak w prawdziwym życiu problemem biznesowym może być y = ax ^ 3 + bx ^ 2 + c.
Można powiedzieć, że oczekiwany test MSE (średni błąd kwadratu) z problemu regresji można rozłożyć jak poniżej. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Bias (f * (x0))] ^ 2 + Var (e)
f * -> forma funkcjonalna przyjęta dla modelu regresji liniowej y0 -> pierwotna wartość odpowiedzi zapisana w danych testowych x0 -> wartość predyktora pierwotnego zapisana w danych testowych e -> błąd nieredukowalny Tak więc celem jest wybór najlepszej metody uzyskania modelu, który osiąga niską wariancję i niską stronniczość.
Uwaga: Wprowadzenie do uczenia statystycznego autorstwa Trevora Hastiego i Roberta Tibshirani ma dobre spostrzeżenia na ten temat
źródło