Bardzo często, gdy badam nowe metody i pojęcia statystyczne, napotykam kwadratową różnicę (lub średni błąd kwadratu lub mnogość innych epitetów). Na przykład, r Pearsona jest ustalane na podstawie średniej kwadratowej różnicy od linii regresji, którą leżą punkty. W przypadku ANOVA patrzysz na sumę kwadratów i tak dalej.
Rozumiem teraz, że wszystko do kwadratu gwarantuje, że dane z wartościami odstającymi naprawdę zostaną ukarane. Dlaczego jednak wykładnik jest używany dokładnie 2? Dlaczego nie 2.1, e, pi, czy cokolwiek innego? Czy jest jakiś szczególny powód, dla którego używa się 2, czy jest to tylko konwencja? Podejrzewam, że wyjaśnienie może mieć coś wspólnego z krzywą dzwonową, ale jestem całkiem pewien.
normal-distribution
Speldosa
źródło
źródło
Odpowiedzi:
Podejście teoretyczne do statystyki zapewnia głębokie wyjaśnienie. Mówi, że wyrównywanie różnic stanowi przybliżenie dla szerokiego zakresu funkcji strat, które (ilekroć można je uzasadnić) prowadzą do znacznego uproszczenia możliwych procedur statystycznych, które należy wziąć pod uwagę.
Niestety, wyjaśnienie, co to oznacza, i wskazanie, dlaczego tak jest, zajmuje dużo czasu. Notacja może szybko stać się niezrozumiała. To, co zamierzam tutaj zrobić, to jedynie naszkicowanie głównych pomysłów, przy niewielkim rozwinięciu. Aby uzyskać pełniejsze konta, zobacz referencje.
Standardowy, bogaty model danych zakłada, że są one realizacją (rzeczywistej, wektorowej) zmiennej losowej X, której rozkład F jest znany tylko jako element pewnego zestawu Ω rozkładów, stanów natury . Statystyczna procedura jest funkcją t od x przyjmujących wartości w pewnym zbiorze orzeczeń D , w przestrzeni decyzyjnej.x X fa Ω t x D
Na przykład problem przewidywania lub klasyfikacji polegałby na połączeniu „zestawu treningowego” i „zestawu testowego danych”, a t zamapuje x na zestaw prognozowanych wartości dla zestawu testowego. Zbiór wszystkich możliwych wartości przewidywanych byłoby D .x t x D
Pełna teoretyczna dyskusja na temat procedur musi uwzględniać procedury randomizowane . Procedura losowa wybiera jedną lub dwie możliwe decyzje zgodnie z pewnym rozkładem prawdopodobieństwa (zależnym od danych ). Uogólnia to intuicyjny pomysł, że gdy dane wydają się nie rozróżniać dwóch alternatyw, następnie „rzucasz monetą”, aby zdecydować o konkretnej alternatywie. Wiele osób nie lubi randomizowanych procedur, sprzeciwiając się podejmowaniu decyzji w tak nieprzewidywalny sposób.x
Cechą wyróżniającą teorii decyzji jest jego użycie funkcji utrata .W Dla każdego stanu natury i decyzji d ∈ D , strataF∈Ω d∈D
to wartość liczbowa reprezentująca, jak „źle” byłoby podjąć decyzję gdy prawdziwym stanem natury jest F : małe straty są dobre, duże straty są złe. Na przykład w sytuacji testowania hipotezy D ma dwa elementy: „zaakceptuj” i „odrzuć” (hipoteza zerowa). Funkcja strat kładzie nacisk na podjęcie właściwej decyzji: jest ustawiona na zero, gdy decyzja jest poprawna, a poza tym jest pewne stałe w . (To się nazywa „ 0 - 1 utrata funkcji:” wszystkie złe decyzje są równie złe, a wszystkie decyzje dobre są równie dobre.) W szczególności, W ( F , akceptować ) = 0 , gdyd F D w 0−1 W(F, accept)=0 jest w hipotezie zerowej, a W ( F , odrzucenie ) = 0, gdy F jest w hipotezie alternatywnej.F W(F, reject)=0 F
Podczas korzystania z procedury utratę danych x, gdy prawdziwym stanem natury jest F, można zapisać W ( F , t ( x ) ) . To sprawia, że strata W ( K , T ( X ) ) zmienną losową , której rozkład jest określona przez (The nieznane) F .t x F W(F,t(x)) W(F,t(X)) F
Chcielibyśmy zatem wiedzieć, jak zmieniłby się wybór najlepszej procedury po zmianie straty? Okazuje się, że w wielu powszechnych, praktycznych sytuacjach można tolerować pewną zmienność bez zmiany najlepszej procedury. Sytuacje te charakteryzują następujące warunki:
Przestrzeń decyzyjna jest zbiorem wypukłym (często przedział liczb). Oznacza to, że każda wartość leżąca między dowolnymi dwiema decyzjami jest również ważną decyzją.
Strata wynosi zero, gdy podejmowana jest najlepsza możliwa decyzja, a w przeciwnym razie wzrasta (aby odzwierciedlić rozbieżności między decyzją, która została podjęta, a najlepszą, którą można podjąć dla prawdziwego - ale nieznanego - stanu natury).
(1) Nie musimy brać pod uwagę randomizowanych procedur [Lehmann, wniosek 6.2].
Te wyniki (choć oczywiście ograniczone warunkami, które zostały nałożone) pomagają wyjaśnić, dlaczego straty kwadratowe są wszechobecne w teorii i praktyce statystycznej: w ograniczonym stopniu jest to analitycznie dogodny wskaźnik zastępczy dla dowolnej wypukłej różniczkowalnej funkcji straty.
Kwadratowa strata w żadnym wypadku nie jest jedyną, a nawet najlepszą stratą do rozważenia. Rzeczywiście, Lehman to pisze
[Lehman, sekcja 1.6; z pewnymi zmianami notacji.]
Rozważenie strat alternatywnych otwiera bogaty zestaw możliwości: regresję kwantową, estymatory M, solidne statystyki i wiele innych elementów można sformułować w sposób teoretyczny i uzasadnić za pomocą alternatywnych funkcji strat. Prosty przykład znajduje się w części Funkcje strat procentowych .
Bibliografia
Jack Carl Kiefer, Wprowadzenie do wnioskowania statystycznego. Springer-Verlag 1987.
EL Lehmann, Teoria szacowania punktów . Wiley 1983.
źródło
Właściwości geometryczne tego pomiaru odległości są takie, że będzie on łatwy w użyciu.
I oczywiście łatwiejsza matematyka, jeśli masz analityczne rozwiązanie większości problemów.
źródło