Powszechnym podejściem do szacowania parametrów rozkładu normalnego jest użycie średniej i odchylenia standardowego / wariancji próbki.
Jeśli jednak występują pewne wartości odstające, mediana i odchylenie mediany od mediany powinny być znacznie bardziej niezawodne, prawda?
Na niektórych zbiorów danych Próbowałem, rozkład normalny szacowany przez wydaje się produkować znacznie lepsze dopasowanie niż klasyczny stosując średnią i Odchylenie RMS.
Czy jest jakiś powód, aby nie używać mediany, jeśli zakładasz, że w zbiorze danych występują pewne wartości odstające? Czy znasz jakieś odniesienia do tego podejścia? Szybkie wyszukiwanie w Google nie przyniosło mi przydatnych wyników, które omawiają korzyści płynące z zastosowania median tutaj (ale oczywiście „mediana szacowania parametrów rozkładu normalnego” nie jest bardzo konkretnym zestawem wyszukiwanych haseł).
Mediana odchylenia, czy jest stronnicza? Czy powinienem pomnożyć to przez aby zmniejszyć stronniczość?
Czy znasz podobne niezawodne metody szacowania parametrów dla innych rozkładów, takich jak rozkład gamma lub wykładniczo zmodyfikowany rozkład Gaussa (który wymaga Skośności w szacowaniu parametrów, a wartości odstające naprawdę psują tę wartość)?
źródło
Odpowiedzi:
Obserwacja, że w przykładzie z danymi pochodzącymi z zanieczyszczonego rozkładu Gaussa można uzyskać lepsze oszacowania parametrów opisujących większość danych, używając zamiast med | x - med ( x ) | gdzie mad ( x ) to:mad med|x−med(x)| mad(x)
- gdzie, jest współczynnikiem spójności zaprojektowanym, aby zapewnić, że E ( szalony ( x ) 2 ) = Var ( x ), gdy x nie jest zanieczyszczony - został pierwotnie wykonany przez Gaussa (Walker , H. (1931)).(Φ−1(0.75))−1=1.4826
Nie mogę wymyślić żadnego powodu, aby w tym przypadku nie używać zamiast średniej próbki. Niższa wydajność (u Gaussa!) Szaleństwa może być powodem, aby nie używać szaleństwa w twoim przykładzie. Istnieją jednak równie solidne i wysoce wydajne alternatywy dla szaleńca . Jednym z nich jest Q nmed mad mad mad Qn . Ten estymator ma wiele innych zalet. Jest również bardzo niewrażliwy na wartości odstające (w rzeczywistości prawie tak niewrażliwy jak szaleniec). W przeciwieństwie do szaleństwa, nie jest zbudowany wokół oszacowania lokalizacji i nie zakłada, że rozkład niezanieczyszczonej części danych jest symetryczny. Podobnie jak szalenie, opiera się on na statystykach zamówień, dzięki czemu jest zawsze dobrze zdefiniowany, nawet jeśli podstawowy rozkład próbki nie ma momentów. Podobnie jak szalony, ma prostą, wyraźną formę. Nawet bardziej niż szaleniec, nie widzę powodów, by używać przykładowego odchylenia standardowego zamiast w opisanym przykładzie (patrz Rousseeuw i Croux 1993, aby uzyskać więcej informacji na temat Q n ).Qn Qn
Jeśli chodzi o ostatnie pytanie, o konkretnym przypadku, gdzie , a następniex∼Γ(ν,λ)
i
(w obu przypadkach przybliżenia stają się dobre, gdy ), więcν>1.5
i
Zobacz Chen i Rubin (1986), aby uzyskać pełne pochodzenie.
źródło
Jeśli, jak twierdzisz, dane są normalne, z wyjątkiem niewielkiej części wartości odstających, mediana i absolutne odchylenie bezwzględne będą odporne na rażące błędy, ale nie będą bardzo efektywnie wykorzystywać informacji zawartych w danych niepowiązanych.
Jeśli znasz jakieś a priori związane z odsetkiem wartości odstających, możesz przyciąć tę proporcję dla średniej i Winsorize odchylenie standardowe. Alternatywą, która nie wymaga takiej wiedzy, byłoby użycie estymatorów M dla lokalizacji i powiązanych wielkości dla wariancji. Wzrost wydajności, jeśli twoje założenia są prawidłowe (np. Dane są naprawdę normalne, z wyjątkiem niewielkiego odsetka wartości odstających), może w niektórych okolicznościach być znaczny.
źródło