Tor zderzeniowy w solidnym szacowaniu średniej

15

Mam kilka (około 1000) oszacowań i wszystkie one mają być oszacowaniami długoterminowej elastyczności. Nieco ponad połowa z nich jest szacowana za pomocą metody A, a reszta za pomocą metody B. Gdzieś czytam coś w stylu „Myślę, że metoda B ocenia coś zupełnie innego niż metoda A, ponieważ szacunki są znacznie (50-60%) wyższe „. Moja wiedza na temat solidnych statystyk jest prawie niczym, więc obliczyłem tylko średnie próbki i mediany obu próbek ... i natychmiast zauważyłem różnicę. Metoda A jest bardzo skoncentrowana, różnica między medianą a średnią jest bardzo mała, ale próbka metody B była bardzo zróżnicowana.

Doszedłem do wniosku, że wartości odstające i błędy pomiaru wypaczają próbkę metody B, więc wyrzuciłem około 50 wartości (około 15%), które były bardzo niespójne z teorią ... i nagle średnie dla obu próbek (w tym ich CI) były bardzo podobne . Wykresy gęstości również.

(W dążeniu do wyeliminowania wartości odstających spojrzałem na zakres próbki A i usunąłem wszystkie punkty próbki w B, które wypadły poza nią). Chciałbym, abyś powiedział mi, gdzie mogę znaleźć podstawy rzetelnego oszacowania środków, które mogłyby pozwólcie mi bardziej rygorystycznie ocenić tę sytuację. I mieć jakieś referencje. Nie potrzebuję bardzo głębokiego zrozumienia różnych technik, a raczej przeczytanie obszernego przeglądu metodologii solidnego szacowania.

Testowałem t pod kątem istotności średniej różnicy po usunięciu wartości odstających, a wartość p wynosiła 0,0555 (t około 1,9), dla pełnych próbek t statystyki wynosiło około 4,5. Ale tak naprawdę nie o to chodzi, środki mogą być nieco inne, ale nie powinny się różnić o 50-60%, jak stwierdzono powyżej. I nie sądzę, że tak.

Ondrej
źródło
3
Jaka jest twoja zamierzona analiza na podstawie tych danych? Praktyka usuwania wartości odstających ma wątpliwą wiarygodność statystyczną: w ten sposób można „tworzyć dane”, aby nadać znaczenie lub jego brak na dowolnym poziomie. Czy populacje A i B, które otrzymały pomiary przy użyciu metod A i B, są naprawdę jednorodnymi populacjami, czy też możliwe jest, że twoje metody dały ci różne populacje?
AdamO
Dane nie będą wymagały dalszych obliczeń ani analiz. Obie wymienione metody są zgodne, zgodnie z najnowszymi badaniami, więc populacje powinny być jednorodne; ale dane nie są dobrej jakości i jasne jest, że niektóre wartości w B są omyłkowo (metoda jest podatna na błędy), nie mają absolutnie żadnego sensu ekonomicznego. Ja wiem usunięcie jest wątpliwa, dlatego szukam czegoś bardziej rygorystyczny i wiarygodny.
Ondrej

Odpowiedzi:

18

Szukasz teorii lub czegoś praktycznego?

Jeśli szukasz książek, oto kilka, które uważam za pomocne:

  • FR Hampel, EM Ronchetti, PJRousseeuw, WA Stahel, Robust Statistics: The Approach Based in In fluence Functions , John Wiley & Sons, 1986.

  • PJ Huber, Robust Statistics , John Wiley & Sons, 1981.

  • PJ Rousseeuw, AM Leroy, Solidna regresja i wykrywanie wartości odstających , John Wiley & Sons, 1987.

  • RG Staudte, SJ Sheather, Robust Estimation and Testing , John Wiley & Sons, 1990.

Jeśli szukasz praktycznych metod, oto kilka solidnych metod szacowania średniej („estymatory lokalizacji” to chyba bardziej zasadnicze pojęcie):

  • Mediana jest prosta, dobrze znana i dość mocna. Ma doskonałą odporność na wartości odstające. „Cena” solidności wynosi około 25%.

  • Średnia obcięta o 5% jest inną możliwą metodą. Tutaj wyrzucasz 5% najwyższą i 5% najniższą wartość, a następnie bierzesz średnią (średnią) wyniku. Jest to mniej odporne na wartości odstające: tak długo, jak nie więcej niż 5% twoich punktów danych jest uszkodzonych, jest to dobre, ale jeśli więcej niż 5% jest uszkodzonych, nagle robi się okropnie (nie degraduje się z wdziękiem). „Cena” solidności jest mniejsza niż mediana, chociaż nie wiem, co to dokładnie jest.

  • {(xi+xj)/2:1ijn}n(n+1)/2x1,,xnsą obserwacjami. Ma to bardzo dobrą solidność: może poradzić sobie z uszkodzeniem do około 29% punktów danych bez całkowitego rozpadu. „Cena” solidności jest niska: około 5%. Jest to wiarygodna alternatywa dla mediany.

  • Średnia międzykwartylowa jest czasem innym estymatorem. Oblicza średnią pierwszego i trzeciego kwartylu, a zatem jest łatwy do obliczenia. Ma bardzo dobrą odporność: może tolerować uszkodzenie nawet do 25% punktów danych. Jednak „cena” solidności nie jest trywialna: około 25%. W rezultacie wydaje się to gorsze od mediany.

  • Zaproponowano wiele innych środków, ale powyższe wydają się uzasadnione.

Krótko mówiąc, zasugerowałbym medianę lub ewentualnie estymator Hodgesa-Lehmanna.

PS Och, powinienem wyjaśnić, co rozumiem przez „cenę” solidności. Solidny estymator został zaprojektowany tak, aby nadal działał przyzwoicie, nawet jeśli niektóre punkty danych zostały uszkodzone lub w inny sposób są odstające. Ale co, jeśli użyjesz niezawodnego estymatora w zestawie danych, który nie ma wartości odstających i nie ma uszkodzeń? W idealnej sytuacji chcielibyśmy, aby solidny estymator był tak efektywny w wykorzystywaniu danych, jak to możliwe. Tutaj możemy zmierzyć wydajność za pomocą błędu standardowego (intuicyjnie, typowa ilość błędu w oszacowaniu wygenerowana przez estymator). Wiadomo, że jeśli twoje obserwacje pochodzą z rozkładu Gaussa (iid), a jeśli wiesz, że nie będziesz potrzebował solidności, to średnia jest optymalna: ma najmniejszy możliwy błąd oszacowania. „Cena” solidności powyżej jest o ile wzrasta standardowy błąd, jeśli zastosujemy konkretny solidny estymator w tej sytuacji. Cena odporności 25% dla mediany oznacza, że ​​rozmiar typowego błędu oszacowania z medianą będzie o około 25% większy niż rozmiar typowego błędu oszacowania ze średnią. Oczywiście im niższa jest „cena”, tym lepiej.

DW
źródło
n(n+1)/2(xi+xj)/21ijnwilcox.test(..., conf.int=TRUE)
+1, to jest naprawdę doskonałe. Mam jednak jedną nitpick: w ostatnim akapicie nie użyłbym wyrażenia „termin błędu”, ponieważ często jest używane w znaczeniu innym; Zamiast tego użyłbym „błędu standardowego rozkładu próbkowania” lub po prostu „błędu standardowego”.
gung - Przywróć Monikę
Bardzo dobrze skonstruowana i zwięzła odpowiedź, dziękuję! Potrzebowałem przeglądu, przeczytam artykuł zasugerowany przez Henrika i powinienem go omówić. W przypadku długiej letniej rozrywki na pewno sprawdzę książki sugerowane przez ciebie i jbowmana.
Ondrej,
@caracal, masz rację. Moja charakterystyka estymatora HL była nieprawidłowa. Dziękuję za poprawienie mnie. Zaktualizowałem odpowiednio swoją odpowiedź.
DW
Dzięki, @gung! Zredagowałem odpowiedź, by użyć „standardowego błędu”, jak sugerujesz.
DW
7

Jeśli lubisz coś krótkiego i łatwego do strawienia, spójrz na następujący artykuł z literatury psychologicznej:

Erceg-Hurn, DM i Mirosevich, VM (2008). Nowoczesne, solidne metody statystyczne: Łatwy sposób na maksymalizację dokładności i siły swoich badań. American Psychologist , 63 (7), 591–601. doi: 10.1037 / 0003-066X.63.7.591

Opierają się głównie na książkach Rand R Wilcox (które nie są też zbyt matematyczne):

Wilcox, RR (2001). Podstawy nowoczesnych metod statystycznych: znacząca poprawa siły i dokładności. Nowy Jork; Berlin: Springer.
Wilcox, RR (2003). Zastosowanie współczesnych technik statystycznych. Amsterdam; Boston: Academic Press.
Wilcox, RR (2005). Wprowadzenie do solidnego szacowania i testowania hipotez. Prasa akademicka.

Henrik
źródło
5

Jedną książką, która dość dobrze łączy teorię z praktyką, są Solidne metody statystyczne z R. autorstwa Jurečková i Picka. Lubię też Robust Statistics , autorstwa Maronna i in. Oba mogą mieć jednak więcej matematyki, niż byś się spodziewał. W przypadku bardziej stosowanego samouczka skoncentrowanego na języku R ten dokument BelVenTutorial pdf może pomóc.

łucznik
źródło
Ach, prof. Jurečková - nauczycielka na naszej uczelni, jakie są szanse. Sprawdzę obie książki. Chociaż szukałem bardziej ... krótkiego dokumentu (ponieważ ten problem jest dla mnie bardzo marginalny), nie zagłębia się w to trochę głębiej. Dzięki!
Ondrej
1
To mały świat! Cóż, przynajmniej poprawiłem pisownię, kopiując z twojego komentarza ...
jbowman