Dlaczego różnica kwadratowa jest tak często stosowana?

14

Bardzo często, gdy badam nowe metody i pojęcia statystyczne, napotykam kwadratową różnicę (lub średni błąd kwadratu lub mnogość innych epitetów). Na przykład, r Pearsona jest ustalane na podstawie średniej kwadratowej różnicy od linii regresji, którą leżą punkty. W przypadku ANOVA patrzysz na sumę kwadratów i tak dalej.

Rozumiem teraz, że wszystko do kwadratu gwarantuje, że dane z wartościami odstającymi naprawdę zostaną ukarane. Dlaczego jednak wykładnik jest używany dokładnie 2? Dlaczego nie 2.1, e, pi, czy cokolwiek innego? Czy jest jakiś szczególny powód, dla którego używa się 2, czy jest to tylko konwencja? Podejrzewam, że wyjaśnienie może mieć coś wspólnego z krzywą dzwonową, ale jestem całkiem pewien.

Speldosa
źródło
4
Po pierwsze, nadużywają terminu wykładniczy, który odnosi się do rzeczy, jak zamiast x . Po drugie, spójrz na stats.stackexchange.com/questions/118/…, gdzie dokładnie omówiono ten temat. axxa
Russ Lenth
@rvl Dzięki, edytowałem ten termin z mojego pytania. I dzięki, sprawdzę to pytanie!
Speldosa
3
Jeden dobry powód, dla którego się pojawiają, ostatecznie wynika z prostych formuł, które odnoszą wariancje sum do wariancji (i ewentualnie kowariancji) składników oraz zgrabne wyniki dotyczące rozkładu kwadratów. Jeśli powyższe pytanie @rvl odpowiada na twoje pytanie, rozważ zamknięcie pytania. Jeśli nie w pełni odpowiada na twoje pytanie, edytuj pytanie, aby podkreślić różnice między tym, co chcesz wiedzieć, a tym, co się tam dzieje.
Glen_b
Myślę, że to jest inne pytanie niż inny (popularny) wątek dotyczący kwadratu. Istnieje różnica koncepcyjna między kwadratową funkcją straty (która na dole jest kluczem do odpowiedzi na to pytanie) a kwadratową w celu oceny odchyleń (która jest naciskiem drugiego wątku).
whuber
Sprawdź tutaj i tutaj podobne problemy.
Tim

Odpowiedzi:

16

Podejście teoretyczne do statystyki zapewnia głębokie wyjaśnienie. Mówi, że wyrównywanie różnic stanowi przybliżenie dla szerokiego zakresu funkcji strat, które (ilekroć można je uzasadnić) prowadzą do znacznego uproszczenia możliwych procedur statystycznych, które należy wziąć pod uwagę.

Niestety, wyjaśnienie, co to oznacza, i wskazanie, dlaczego tak jest, zajmuje dużo czasu. Notacja może szybko stać się niezrozumiała. To, co zamierzam tutaj zrobić, to jedynie naszkicowanie głównych pomysłów, przy niewielkim rozwinięciu. Aby uzyskać pełniejsze konta, zobacz referencje.


Standardowy, bogaty model danych zakłada, że ​​są one realizacją (rzeczywistej, wektorowej) zmiennej losowej X, której rozkład F jest znany tylko jako element pewnego zestawu Ω rozkładów, stanów natury . Statystyczna procedura jest funkcją t od x przyjmujących wartości w pewnym zbiorze orzeczeń D , w przestrzeni decyzyjnej.xXFΩtxD

Na przykład problem przewidywania lub klasyfikacji polegałby na połączeniu „zestawu treningowego” i „zestawu testowego danych”, a t zamapuje x na zestaw prognozowanych wartości dla zestawu testowego. Zbiór wszystkich możliwych wartości przewidywanych byłoby D .xtxD

Pełna teoretyczna dyskusja na temat procedur musi uwzględniać procedury randomizowane . Procedura losowa wybiera jedną lub dwie możliwe decyzje zgodnie z pewnym rozkładem prawdopodobieństwa (zależnym od danych ). Uogólnia to intuicyjny pomysł, że gdy dane wydają się nie rozróżniać dwóch alternatyw, następnie „rzucasz monetą”, aby zdecydować o konkretnej alternatywie. Wiele osób nie lubi randomizowanych procedur, sprzeciwiając się podejmowaniu decyzji w tak nieprzewidywalny sposób.x

Cechą wyróżniającą teorii decyzji jest jego użycie funkcji utrata . W Dla każdego stanu natury i decyzji d D , strataFΩdD

W(F,d)

to wartość liczbowa reprezentująca, jak „źle” byłoby podjąć decyzję gdy prawdziwym stanem natury jest F : małe straty są dobre, duże straty są złe. Na przykład w sytuacji testowania hipotezy D ma dwa elementy: „zaakceptuj” i „odrzuć” (hipoteza zerowa). Funkcja strat kładzie nacisk na podjęcie właściwej decyzji: jest ustawiona na zero, gdy decyzja jest poprawna, a poza tym jest pewne stałe w . (To się nazywa „ 0 - 1 utrata funkcji:” wszystkie złe decyzje są równie złe, a wszystkie decyzje dobre są równie dobre.) W szczególności, W ( F ,  akceptować ) = 0 , gdydFDw01W(F, accept)=0 jest w hipotezie zerowej, a W ( F ,  odrzucenie ) = 0, gdy F jest w hipotezie alternatywnej.FW(F, reject)=0F

Podczas korzystania z procedury utratę danych x, gdy prawdziwym stanem natury jest F, można zapisać W ( F , t ( x ) ) . To sprawia, że strata W ( K , T ( X ) ) zmienną losową , której rozkład jest określona przez (The nieznane) F .txFW(F,t(x))W(F,t(X))F

trtFF

rt(F)=EF(W(F,t(X))).

WW1/ww=101

01FFFpowert(F)=1rt(F)). W tym widzimy, jak całość klasycznej (częstej) teorii testowania hipotez stanowi konkretny sposób porównywania funkcji ryzyka dla szczególnego rodzaju straty.

Ωrttrtrtrt

W

Chcielibyśmy zatem wiedzieć, jak zmieniłby się wybór najlepszej procedury po zmianie straty? Okazuje się, że w wielu powszechnych, praktycznych sytuacjach można tolerować pewną zmienność bez zmiany najlepszej procedury. Sytuacje te charakteryzują następujące warunki:

  • Przestrzeń decyzyjna jest zbiorem wypukłym (często przedział liczb). Oznacza to, że każda wartość leżąca między dowolnymi dwiema decyzjami jest również ważną decyzją.

  • Strata wynosi zero, gdy podejmowana jest najlepsza możliwa decyzja, a w przeciwnym razie wzrasta (aby odzwierciedlić rozbieżności między decyzją, która została podjęta, a najlepszą, którą można podjąć dla prawdziwego - ale nieznanego - stanu natury).

  • 01

W

(1) Nie musimy brać pod uwagę randomizowanych procedur [Lehmann, wniosek 6.2].

tWt W

ΩμΩμΩμXnμDμμ^

W(μ,μ^)0

W(μ,μ^)=0μ=μ^

W(μ,μ^)=w2(μ^μ)2+o(μ^μ)2

w2o(y)pff(y)/yp0y0Ww2=1ΩXX¯μn(x1,,xn)Wx¯W

n

z=|μ^μ|22.1,e,πexp(z)1z

Postać

2(exp(|z|)1|z|)z20

Te wyniki (choć oczywiście ograniczone warunkami, które zostały nałożone) pomagają wyjaśnić, dlaczego straty kwadratowe są wszechobecne w teorii i praktyce statystycznej: w ograniczonym stopniu jest to analitycznie dogodny wskaźnik zastępczy dla dowolnej wypukłej różniczkowalnej funkcji straty.


Kwadratowa strata w żadnym wypadku nie jest jedyną, a nawet najlepszą stratą do rozważenia. Rzeczywiście, Lehman to pisze

W(F,d)

... [F] rosnące funkcje strat prowadzą do estymatorów, które wydają się być wrażliwe na założenia poczynione na temat [zachowania ogona [założonego rozkładu], a te założenia zwykle opierają się na niewielkiej ilości informacji, a zatem nie są bardzo niezawodny.

Okazuje się, że estymatory wytworzone przez kwadratową utratę błędów często są pod tym względem niewygodne.

[Lehman, sekcja 1.6; z pewnymi zmianami notacji.]

Rozważenie strat alternatywnych otwiera bogaty zestaw możliwości: regresję kwantową, estymatory M, solidne statystyki i wiele innych elementów można sformułować w sposób teoretyczny i uzasadnić za pomocą alternatywnych funkcji strat. Prosty przykład znajduje się w części Funkcje strat procentowych .


Bibliografia

Jack Carl Kiefer, Wprowadzenie do wnioskowania statystycznego. Springer-Verlag 1987.

EL Lehmann, Teoria szacowania punktów . Wiley 1983.

Whuber
źródło
0

Właściwości geometryczne tego pomiaru odległości są takie, że będzie on łatwy w użyciu.

I oczywiście łatwiejsza matematyka, jeśli masz analityczne rozwiązanie większości problemów.

Analityk
źródło
2
Może mógłbyś rozwinąć nieco więcej?
Tim
@Tim, nierówność trójkąta i matematyczne właściwości form kwadratowych przyszły mi do głowy ...
Analityk
Dla każdej metryki odległości istnieje nierówność trójkąta. Tym, co wyróżnia odległość euklidesowa / 2 normy / różnicę kwadratową / MSE, jest duży zestaw transformacji, który ją zachowuje (wszystkie macierze ortogonalne).
Federico Poloni,