Mam kilka (około 1000) oszacowań i wszystkie one mają być oszacowaniami długoterminowej elastyczności. Nieco ponad połowa z nich jest szacowana za pomocą metody A, a reszta za pomocą metody B. Gdzieś czytam coś w stylu „Myślę, że metoda B ocenia coś zupełnie innego niż metoda A, ponieważ szacunki są znacznie (50-60%) wyższe „. Moja wiedza na temat solidnych statystyk jest prawie niczym, więc obliczyłem tylko średnie próbki i mediany obu próbek ... i natychmiast zauważyłem różnicę. Metoda A jest bardzo skoncentrowana, różnica między medianą a średnią jest bardzo mała, ale próbka metody B była bardzo zróżnicowana.
Doszedłem do wniosku, że wartości odstające i błędy pomiaru wypaczają próbkę metody B, więc wyrzuciłem około 50 wartości (około 15%), które były bardzo niespójne z teorią ... i nagle średnie dla obu próbek (w tym ich CI) były bardzo podobne . Wykresy gęstości również.
(W dążeniu do wyeliminowania wartości odstających spojrzałem na zakres próbki A i usunąłem wszystkie punkty próbki w B, które wypadły poza nią). Chciałbym, abyś powiedział mi, gdzie mogę znaleźć podstawy rzetelnego oszacowania środków, które mogłyby pozwólcie mi bardziej rygorystycznie ocenić tę sytuację. I mieć jakieś referencje. Nie potrzebuję bardzo głębokiego zrozumienia różnych technik, a raczej przeczytanie obszernego przeglądu metodologii solidnego szacowania.
Testowałem t pod kątem istotności średniej różnicy po usunięciu wartości odstających, a wartość p wynosiła 0,0555 (t około 1,9), dla pełnych próbek t statystyki wynosiło około 4,5. Ale tak naprawdę nie o to chodzi, środki mogą być nieco inne, ale nie powinny się różnić o 50-60%, jak stwierdzono powyżej. I nie sądzę, że tak.
źródło
Odpowiedzi:
Szukasz teorii lub czegoś praktycznego?
Jeśli szukasz książek, oto kilka, które uważam za pomocne:
FR Hampel, EM Ronchetti, PJRousseeuw, WA Stahel, Robust Statistics: The Approach Based in In fluence Functions , John Wiley & Sons, 1986.
PJ Huber, Robust Statistics , John Wiley & Sons, 1981.
PJ Rousseeuw, AM Leroy, Solidna regresja i wykrywanie wartości odstających , John Wiley & Sons, 1987.
RG Staudte, SJ Sheather, Robust Estimation and Testing , John Wiley & Sons, 1990.
Jeśli szukasz praktycznych metod, oto kilka solidnych metod szacowania średniej („estymatory lokalizacji” to chyba bardziej zasadnicze pojęcie):
Mediana jest prosta, dobrze znana i dość mocna. Ma doskonałą odporność na wartości odstające. „Cena” solidności wynosi około 25%.
Średnia obcięta o 5% jest inną możliwą metodą. Tutaj wyrzucasz 5% najwyższą i 5% najniższą wartość, a następnie bierzesz średnią (średnią) wyniku. Jest to mniej odporne na wartości odstające: tak długo, jak nie więcej niż 5% twoich punktów danych jest uszkodzonych, jest to dobre, ale jeśli więcej niż 5% jest uszkodzonych, nagle robi się okropnie (nie degraduje się z wdziękiem). „Cena” solidności jest mniejsza niż mediana, chociaż nie wiem, co to dokładnie jest.
Średnia międzykwartylowa jest czasem innym estymatorem. Oblicza średnią pierwszego i trzeciego kwartylu, a zatem jest łatwy do obliczenia. Ma bardzo dobrą odporność: może tolerować uszkodzenie nawet do 25% punktów danych. Jednak „cena” solidności nie jest trywialna: około 25%. W rezultacie wydaje się to gorsze od mediany.
Zaproponowano wiele innych środków, ale powyższe wydają się uzasadnione.
Krótko mówiąc, zasugerowałbym medianę lub ewentualnie estymator Hodgesa-Lehmanna.
PS Och, powinienem wyjaśnić, co rozumiem przez „cenę” solidności. Solidny estymator został zaprojektowany tak, aby nadal działał przyzwoicie, nawet jeśli niektóre punkty danych zostały uszkodzone lub w inny sposób są odstające. Ale co, jeśli użyjesz niezawodnego estymatora w zestawie danych, który nie ma wartości odstających i nie ma uszkodzeń? W idealnej sytuacji chcielibyśmy, aby solidny estymator był tak efektywny w wykorzystywaniu danych, jak to możliwe. Tutaj możemy zmierzyć wydajność za pomocą błędu standardowego (intuicyjnie, typowa ilość błędu w oszacowaniu wygenerowana przez estymator). Wiadomo, że jeśli twoje obserwacje pochodzą z rozkładu Gaussa (iid), a jeśli wiesz, że nie będziesz potrzebował solidności, to średnia jest optymalna: ma najmniejszy możliwy błąd oszacowania. „Cena” solidności powyżej jest o ile wzrasta standardowy błąd, jeśli zastosujemy konkretny solidny estymator w tej sytuacji. Cena odporności 25% dla mediany oznacza, że rozmiar typowego błędu oszacowania z medianą będzie o około 25% większy niż rozmiar typowego błędu oszacowania ze średnią. Oczywiście im niższa jest „cena”, tym lepiej.
źródło
wilcox.test(..., conf.int=TRUE)
Jeśli lubisz coś krótkiego i łatwego do strawienia, spójrz na następujący artykuł z literatury psychologicznej:
Erceg-Hurn, DM i Mirosevich, VM (2008). Nowoczesne, solidne metody statystyczne: Łatwy sposób na maksymalizację dokładności i siły swoich badań. American Psychologist , 63 (7), 591–601. doi: 10.1037 / 0003-066X.63.7.591
Opierają się głównie na książkach Rand R Wilcox (które nie są też zbyt matematyczne):
Wilcox, RR (2001). Podstawy nowoczesnych metod statystycznych: znacząca poprawa siły i dokładności. Nowy Jork; Berlin: Springer.
Wilcox, RR (2003). Zastosowanie współczesnych technik statystycznych. Amsterdam; Boston: Academic Press.
Wilcox, RR (2005). Wprowadzenie do solidnego szacowania i testowania hipotez. Prasa akademicka.
źródło
Jedną książką, która dość dobrze łączy teorię z praktyką, są Solidne metody statystyczne z R. autorstwa Jurečková i Picka. Lubię też Robust Statistics , autorstwa Maronna i in. Oba mogą mieć jednak więcej matematyki, niż byś się spodziewał. W przypadku bardziej stosowanego samouczka skoncentrowanego na języku R ten dokument BelVenTutorial pdf może pomóc.
źródło