Dlaczego solidne (i odporne) statystyki nie zastąpiły klasycznych technik?

82

Przy rozwiązywaniu problemów biznesowych z wykorzystaniem danych często zdarza się, że co najmniej jedno kluczowe założenie, że klasyczne statystyki poniżej szpilek są nieprawidłowe. Przez większość czasu nikt nie zadaje sobie trudu, aby sprawdzić te założenia, więc tak naprawdę nigdy nie wiadomo.

Na przykład, że tak wiele typowych wskaźników internetowych jest „długich ogonków” (w stosunku do normalnego rozkładu), jest już tak dobrze udokumentowane, że bierzemy to za pewnik. Kolejny przykład, społeczności online - nawet w społecznościach z tysiącami członków, jest dobrze udokumentowane, że zdecydowanie największy udział w / w wielu z tych społeczności można przypisać niewielkiej grupie „super-współpracowników”. (Np. Kilka miesięcy temu, tuż po udostępnieniu SO API w wersji beta, członek StackOverflow opublikował krótką analizę danych zebranych przez API; jego wniosek - mniej niż jeden procent członków SO stanowi większość aktywność na SO (przypuszczalnie zadając pytania i odpowiadając na nie), pozostałe 1-2% stanowiło resztę, a przeważająca większość członków nic nie robi).

Tego rodzaju rozkłady - znowu częściej reguła niż wyjątek - są często najlepiej modelowane za pomocą funkcji gęstości prawa mocy . W przypadku tego rodzaju rozkładów problematyczne jest zastosowanie nawet centralnego twierdzenia o granicy.

Biorąc pod uwagę tak dużą liczbę populacji, które mogą zainteresować analityków, oraz biorąc pod uwagę, że klasyczne modele wykazują wyraźnie słabe wyniki w odniesieniu do tych danych, a także biorąc pod uwagę, że istnieją solidne i odporne metody od dłuższego czasu (co najmniej 20 lat, jak sądzę) - dlaczego czy nie są używane częściej? (Ja też zastanawiać, dlaczego ja nie używam ich częściej, ale to naprawdę nie jest pytanie do CrossValidated ).

Tak, wiem, że są rozdziały podręczników poświęcone w całości solidnym statystykom i wiem, że istnieje (kilka) pakietów R ( robustbase to ten, który znam i którego używam) itp.

A jednak, biorąc pod uwagę oczywiste zalety tych technik, często są one wyraźnie lepszymi narzędziami do pracy - dlaczego nie są używane znacznie częściej ? Czy nie powinniśmy oczekiwać, że rzetelne (i odporne) statystyki będą wykorzystywane znacznie częściej (być może nawet przypuszczalnie) w porównaniu z klasycznymi analogami?

Jedynym merytorycznym (tj. Technicznym) wyjaśnieniem, jakie słyszałem, jest to, że mocne techniki (podobnie w przypadku metod opornych) nie mają mocy / wrażliwości klasycznych technik. Nie wiem, czy rzeczywiście tak jest w niektórych przypadkach, ale wiem, że nie jest to prawdą w wielu przypadkach.

Ostatnie słowo poprzedzające: tak, wiem, że na to pytanie nie ma ani jednej wyraźnie poprawnej odpowiedzi; bardzo mało pytań na tej stronie. Co więcej, pytanie to jest prawdziwym pytaniem; nie jest pretekstem do rozwijania punktu widzenia - nie mam tutaj punktu widzenia, tylko pytanie, na które mam nadzieję uzyskać wnikliwe odpowiedzi.

model-selection nonparametric outliers robust philosophical doug
źródło

12

Black Swann autorstwa Nassima Nicholasa Taleba wyjaśnia, dlaczego w świecie finansowym zastosowano proste modele i jakie to niebezpieczeństwo. Szczególnym błędem jest zrównanie bardzo niskich prawdopodobieństw z zerowym i ślepe zastosowanie normalnego rozkładu w zarządzaniu ryzykiem!

James

9

Testy oparte na wielu założeniach są mocniejsze, gdy te założenia są spełnione. Możemy sprawdzić istotność odchylenia, zakładając, że obserwacje są IID Gaussa, co daje średnią jako statystykę. Mniej restrykcyjny zestaw założeń mówi nam o zastosowaniu mediany. Możemy pójść dalej i założyć, że obserwacje są skorelowane, aby uzyskać jeszcze większą wiarygodność. Ale każdy krok zmniejsza moc naszego testu, a jeśli nie przyjmujemy żadnych założeń, nasz test jest bezużyteczny. Solidne testy domyślnie przyjmują założenia dotyczące danych i są lepsze niż klasyczne tylko wtedy, gdy założenia te lepiej pasują do rzeczywistości

Jarosław Bułatow

69

Naukowcy chcą małych wartości p, a można uzyskać mniejsze wartości p, jeśli zastosuje się metody, które przyjmą silniejsze założenia dystrybucyjne. Innymi słowy, mało wytrzymałe metody pozwalają opublikować więcej artykułów. Oczywiście więcej z tych artykułów może być fałszywie pozytywnych, ale publikacja jest publikacją. To cyniczne wyjaśnienie, ale czasem jest prawidłowe.

John D. Cook
źródło

4

„czasami” to mało powiedziane ... logika autorów często nie jest taka bezpośrednia, ale scenariusz bodźca / nagrody jest taki, że ludzie robią to w celu uwarunkowania

John

2

Nie uważam, że badacze są tak nieuczciwi, jak działając z niewiedzy. Nie rozumieją, co oznaczają statystyki i jakich założeń wymagają, ale jak powiedzieliście, wyraźnie rozumieją bodziec / nagrodę: p> 0,05 => brak publikacji.

John D. Cook

10

Musisz także przedstawić coś, co rozumieją „rządzący” (decydenci, przełożeni, recenzenci). Dlatego musi być we wspólnym języku, który ewoluuje dość wolno, ponieważ ludzie ci są starsi i bardziej odporni na zmiany, w dużej mierze ponieważ może to unieważnić ich dotychczasową karierę!

James

12

Słuszna uwaga. „Rozumiem wartości p. Po prostu daj mi wartość p”. Jak na ironię, prawdopodobnie nie rozumieją one wartości p, ale to inna sprawa.

John D. Cook

2

Nie wierzę, że jest to kategorycznie prawda. Przynajmniej słyszałem, że współczesne nieparametry często poświęcają bardzo mało mocy, jeśli w ogóle. AFAIK, utrata mocy jest najbardziej widoczna w testach obejmujących transformacje rang, które nie są wszechobecne wśród solidnych metod.

Nick Stauner

42

Tak więc „klasyczne modele” (cokolwiek to jest - zakładam, że masz na myśli coś takiego jak proste modele nauczane w podręcznikach i szacowane przez ML) zawodzą w niektórych, być może wielu, zestawach danych ze świata rzeczywistego.

Jeśli model zawiedzie, istnieją dwa podstawowe podejścia do jego naprawy:

Rób mniej założeń (mniej modelu)
Zrób więcej założeń (więcej modelu)

Solidne statystyki, quasi-prawdopodobieństwo i podejścia GEE przyjmują pierwsze podejście, zmieniając strategię szacowania na taką, w której model nie obejmuje wszystkich punktów danych (solidny) lub nie musi charakteryzować wszystkich aspektów danych (QL i GEE).

Alternatywą jest próba zbudowania modelu, który wyraźnie modeluje źródło zanieczyszczających punktów danych lub aspekty oryginalnego modelu, które wydają się fałszywe, przy jednoczesnym zachowaniu metody szacowania takiej samej jak poprzednio.

Niektórzy intuicyjnie preferują te pierwsze (jest to szczególnie popularne w ekonomii), a niektórzy intuicyjnie preferują te drugie (jest to szczególnie popularne wśród Bayesianów, którzy są bardziej zadowoleni z bardziej złożonych modeli, szczególnie gdy zdają sobie sprawę, że będą używać narzędzi symulacyjnych do wnioskowanie w każdym razie).

Założenia rozkładowe z grubym ogonem, np. Stosowanie ujemnego dwumianowego zamiast poissona lub t zamiast normalnego, należą do drugiej strategii. Większość rzeczy oznaczonych jako „solidne statystyki” należy do pierwszej strategii.

W praktyce ustalenie estymatorów dla pierwszej strategii dla realistycznie złożonych problemów wydaje się dość trudne. To nie jest powód, aby tego nie robić, ale może to wyjaśnia, dlaczego nie jest to robione bardzo często.

sprzężonyprior
źródło

4

+1. Bardzo dobre wytłumaczenie. Myślę też, że niektóre „solidne” metody są raczej ad hoc (skróty) i że „solidny” jest związany z konkretnym aspektem metody i nie jest ogólną jakością, ale wiele osób interpretuje „solidny” jako „nie nie muszę się martwić o moje dane, ponieważ moja metoda jest niezawodna ”.

Wayne

Świetna odpowiedź. Niepokoi mnie to, że tak wiele odpowiedzi koncentruje się na trudnościach w zrozumieniu solidnych statystyk lub na zachętach do ignorowania naruszenia założeń. Ignorują ludzi, którzy wiedzą, że zdarzają się przypadki, gdy potrzebne są solidne statystyki, a kiedy nie są.

Kenji

29

Sugerowałbym, że to opóźnienie w nauczaniu. Większość ludzi uczy się statystyki na studiach lub uniwersytetach. Jeśli statystyka nie jest twoim pierwszym stopniem, a zamiast tego zrobiła matematykę lub informatykę, prawdopodobnie obejmujesz tylko podstawowe moduły statystyczne:

Prawdopodobieństwo
Testowanie hipotez
Regresja

Oznacza to, że w obliczu problemu próbujesz użyć tego, co wiesz, aby rozwiązać problem.

Dane nie są normalne - weź dzienniki.
Dane mają irytujące wartości odstające - usuń je.

Jeśli nie natkniesz się na coś innego, trudno jest zrobić coś lepszego. Naprawdę trudno jest znaleźć Google, jeśli czegoś nie wiesz, jak to się nazywa!

Myślę, że przy wszystkich technikach trochę potrwa, zanim nowsze techniki odfiltrują. Jak długo zajęły standardowe testy hipotez, aby stać się częścią standardowego programu statystycznego?

BTW, ze stopniem naukowym nadal będzie opóźnienie w nauczaniu - tylko krótsze!

csgillespie
źródło

4

Rodzi to jednak ciekawy problem pedagogiczny, przynajmniej w psychologii, ponieważ o ile wiem, większość książek wprowadzających do statystyki wykorzystywanych w mojej dziedzinie tak naprawdę nie omawia solidnych środków, poza tym, że są na marginesie.

russellpierce

3

Jest to bardzo prawdziwe, a także w psychologii, denerwujące jest pomieszanie między nieparametrycznym i nienormalnym, co wydaje się utrudniać zrozumienie.

richiemorrisroe

2

Niektórzy z nas, psychologów, są zdezorientowani co do wszystkiego, co statystyczne! :)

Nick Stauner

21

Każdy przeszkolony w zakresie analizy danych statystycznych na rozsądnym poziomie regularnie korzysta z koncepcji solidnych statystyk. Większość badaczy wie wystarczająco dużo, aby szukać poważnych wartości odstających i błędów zapisu danych; polityka usuwania podejrzanych punktów danych sięga XIX wieku wraz z Lordem Rayleigh, GG Stokes i innymi osobami w ich wieku. Jeśli pytanie brzmi:

Dlaczego badacze nie używają bardziej nowoczesnych metod obliczania szacunków lokalizacji, skali, regresji itp.?

odpowiedź jest podana powyżej - metody zostały w dużej mierze opracowane w ciągu ostatnich 25 lat, powiedzmy w latach 1985–2010. Opóźnienie w nauce nowych metod jest uwarunkowane, podobnie jak bezwładność połączona z „mitem”, że nie ma nic złego w ślepo stosując klasyczne metody. John Tukey komentuje, że to, jakich metod niezawodnych / odpornych używasz, nie jest ważne - ważne jest, abyś używał niektórych. Całkowicie właściwe jest rutynowe stosowanie zarówno klasycznych, jak i solidnych / odpornych metod, i martw się tylko wtedy, gdy różnią się wystarczająco, aby mieć znaczenie. Ale kiedy się różnią , powinieneś mocno się zastanowić .

Jeśli zamiast tego pytanie brzmi:

Dlaczego badacze nie zatrzymują się i nie zadają pytań na temat swoich danych, zamiast ślepo stosować wysoce niestabilne szacunki?

wtedy odpowiedź naprawdę sprowadza się do treningu. Jest zdecydowanie zbyt wielu badaczy, którzy nigdy nie zostali odpowiednio przeszkoleni w statystyce, podsumowanych przez ogólne poleganie na wartościach p jako całości i na końcu „istotności statystycznej”.

@Kwak: Szacunki Hubera z lat 70. są solidne, w klasycznym znaczeniu tego słowa: są odporne na wartości odstające. A estymatory ponownego poszukiwania faktycznie datowane są na długo przed latami 80. XX wieku: badanie niezawodności Princeton (z 1971 r.) Obejmowało bisquare oszacowanie lokalizacji, szacunek powtórnej oceny.

Wesley Burr
źródło

2

projecteuclid.org/… Wolno dostępny dokument napisany przez Petera Hubera na temat wkładu Johna Tukeya w solidne statystyki. Dość łatwy do odczytania, lekki na formułach.

Wesley Burr,

20

Statystyka jest narzędziem dla badaczy nie nastawionych statystycznie i po prostu ich to nie obchodzi.

Kiedyś próbowałem pomóc w artykule o medycynie, którego moja była żona była współautorką. Napisałem kilka stron opisujących dane, co to sugerowało, dlaczego pewne obserwacje zostały wykluczone z badania ... a główny badacz, lekarz, wyrzucił to wszystko i poprosił kogoś, aby obliczył wartość p, czyli tyle, ile ona (i prawie każdy, kto przeczytałby ten artykuł) dbał o to.

Carlos Accioly
źródło

12

Udzielam odpowiedzi w dwóch kierunkach:

rzeczy, które są solidne, niekoniecznie są oznaczone jako solidne. Jeśli wierzysz, że odporność na wszystko istnieje, jesteś naiwny.
Podejścia statystyczne, które pozostawiają problem odporności, nie są czasem dostosowane do realnego świata, ale często są bardziej wartościowe (jako koncepcja) niż algorytm wyglądający jak kuchnia.

rozwój

Po pierwsze, myślę, że istnieje wiele dobrych podejść w statystyce (znajdziesz je w pakietach R niekoniecznie z solidną wzmiankowaną gdzieś), które są naturalnie solidne i przetestowane na rzeczywistych danych oraz fakt, że nie znajdziesz algorytmu z „solidnym” „gdzieś wspomniany nie oznacza, że nie jest solidny. W każdym razie, jeśli uważasz, że bycie solidnym oznacza bycie uniwersalnym, to nigdy nie znajdziesz żadnej solidnej procedury (bez darmowego lunchu), musisz mieć trochę wiedzy / specjalistycznej wiedzy na temat analizowanych danych, aby użyć dostosowanego narzędzia lub stworzyć dostosowany model.

Z drugiej strony niektóre podejścia w statystyce nie są solidne, ponieważ dotyczą jednego modelu. Myślę, że czasem warto pracować w laboratorium, aby spróbować zrozumieć. Dobrze jest także traktować problem osobno, aby zrozumieć, na czym polega nasze rozwiązanie ... tak działa matematyk. Przykład elokanta modelu Gaussa: jest bardzo krytykowany, ponieważ założenie gaussowskie nigdy się nie spełnia, ale przyniosło 75% pomysłów wykorzystywanych obecnie w statystyce. Czy naprawdę sądzisz, że to wszystko polega na pisaniu papieru, aby przestrzegać zasady publikowania lub zginięcia (co mi się nie podoba, zgadzam się)?

Robin Girard
źródło

11

Jako ktoś, kto nauczył się trochę statystyk dla moich własnych badań, zgaduję, że przyczyny są pedagogiczne i bezwładne.

Zauważyłem w obrębie mojej dziedziny, że kolejność nauczania tematów odzwierciedla historię tej dziedziny. Te pomysły, które pojawiły się na początku, są nauczane jako pierwsze i tak dalej. Dla osób, które zanurzają się w statystykach tylko dla pobieżnych instrukcji, oznacza to, że nauczą się klasycznych statystyk najpierw, a zapewne na końcu. Następnie, nawet jeśli nauczą się więcej, klasyczne rzeczy lepiej się z nimi trzymają dzięki efektom prymatu.

Ponadto wszyscy wiedzą, co to jest test t dla dwóch próbek. Mniej niż wszyscy wiedzą, czym jest test sumy rang Manna-Whitneya lub Wilcoxona. Oznacza to, że muszę poświęcić trochę energii na wyjaśnienie, na czym polega mój solidny test, w przeciwieństwie do tego, że nie muszę wykonywać żadnego testu klasycznego. Takie warunki spowodują oczywiście, że mniej osób będzie stosowało solidne metody niż powinno.

JoFrhwld
źródło

9

Wooldridge „Ekonometria wprowadzająca - nowoczesne podejście” 2E str. 261.

Jeśli błędy standardowe odporne na heteroskedastyczność są ważne częściej niż zwykłe błędy standardowe OLS, to dlaczego w ogóle przeszkadzamy zwykłym błędom standardowym? ... Jednym z powodów, dla których są one nadal stosowane w pracy przekrojowej, jest to, że jeśli założenie homoskedastyczności ma zastosowanie i errosy są zwykle rozłożone, wtedy zwykłe statystyki t mają dokładne t rozkłady, niezależnie od wielkości próbki. Solidne standardowe błędy i solidne statystyki t są uzasadnione tylko w przypadku, gdy wielkość próbki staje się duża. Przy małych rozmiarach próbek solidne statystyki t mogą mieć rozkłady, które nie są bardzo zbliżone do rozkładu t, i które mogłyby odrzucić nasze wnioskowanie. W dużych próbkach możemy argumentować za tym, aby zawsze zgłaszać tylko niezawodne standardowe błędy Heteroskedasticity w aplikacjach przekrojowych,

źródło

2

Złe wieści tutaj: pan.oxfordjournals.org/content/23/2/159

conjugateprior

7

Chociaż nie wykluczają się one wzajemnie, myślę, że rosnąca popularność statystyki bayesowskiej jest jej częścią. Statystyki bayesowskie mogą osiągnąć wiele takich samych celów poprzez priory i uśrednianie modeli, i wydają się być bardziej solidne w praktyce.

Joe
źródło

6

Nie jestem statystykiem, moje doświadczenie w statystyce jest dość ograniczone, po prostu używam solidnych statystyk w wizji komputerowej / rekonstrukcji 3D / oszacowaniu pozy. Oto moje podejście do problemu z punktu widzenia użytkownika:

Po pierwsze, solidne statystyki wykorzystały wiele w inżynierii i nauce, nie nazywając tego „solidnymi statystykami”. Wiele osób korzysta z niego intuicyjnie, przystępując do niego w trakcie dostosowywania konkretnej metody do rzeczywistego problemu. Na przykład często używane są iteracyjne zmiany wagi najmniejszych kwadratów i przycięte średnie / przycięte najmniejsze kwadraty, tak że tylko użytkownik nie wie, że stosowali solidne statystyki - po prostu sprawiają, że metoda jest wykonalna dla rzeczywistych, niesyntetycznych danych.

Po drugie, zarówno „intuicyjna”, jak i świadoma, solidna statystyka praktycznie zawsze stosowana w przypadku, gdy wyniki są weryfikowalne lub gdy istnieją wyraźnie widoczne miary błędów. Jeśli wyniki uzyskane przy rozkładzie normalnym są oczywiście nieważne lub nieprawidłowe, ludzie zaczynają majstrować przy odważnikach, przycinaniu, próbkowaniu, czytają papier i kończą przy użyciu solidnych estymatorów, niezależnie od tego, czy znają termin, czy nie. Z drugiej strony, jeśli końcowy wynik badań to tylko niektóre grafiki i diagramy i nie ma nieczułości na weryfikację wyników, lub jeśli normalne statystyki generują wystarczająco dobre wyniki - ludzie po prostu nie przejmują się.

I wreszcie, na temat przydatności solidnych statystyk jako teorii - chociaż sama teoria jest bardzo interesująca, często nie daje żadnych praktycznych korzyści. Większość solidnych estymatorów jest dość trywialna i intuicyjna, często ludzie opracowują je na nowo bez wiedzy statystycznej. Teoria, taka jak szacowanie punktu podziału, asymptotyki, głębokość danych, heteroskedacity itp., Pozwala na głębsze zrozumienie danych, ale w większości przypadków jest to po prostu niepotrzebne. Jednym wielkim wyjątkiem jest skrzyżowanie solidnych statystyk i wykrywania ściskania, które dają nowe praktyczne metody, takie jak „krzyżowanie bukietów”

mirror2image
źródło

5

Moja wiedza na temat niezawodnych estymatorów dotyczy wyłącznie solidnych błędów standardowych parametrów regresji, więc mój komentarz dotyczy tylko tych. Sugeruję, aby ludzie przeczytali ten artykuł,

O tak zwanym „Huber Sandwich Estimator” i „Solidnych błędach standardowych”: Freedman, A. David The American Statistician, t. 60, nr 4. (listopad 2006), s. 299–302. doi: 10.1198 / 000313006X152207 ( wersja PDF )

Szczególnie niepokoją mnie te podejścia, które nie są w błędzie, ale po prostu odwracają uwagę od większych problemów. Dlatego całkowicie zgadzam się z odpowiedzią Robina Girarda i jego wzmianką o „braku darmowego lunchu”.

Andy W.
źródło

3

Rachunek i prawdopodobieństwo potrzebne do uzyskania solidnych statystyk jest (zwykle) trudniejsze, więc (a) jest mniej teorii i (b) trudniej jest je uchwycić.

JohnRos
źródło

2

Jestem zaskoczony, widząc, że twierdzenie Gaussa-Markowa nie jest wymienione na tej długiej liście odpowiedzi, afaics:

W modelu liniowym z błędami sferycznymi (który z kolei obejmuje założenie braku wartości odstających, poprzez wariancję błędu skończonego), OLS jest skuteczny w klasie liniowych obiektywnych estymatorów - istnieją (restrykcyjne, oczywiście) warunki, w których „ nie możesz zrobić lepiej niż OLS ”.

Nie twierdzę, że powinno to usprawiedliwiać używanie OLS prawie przez cały czas, ale z pewnością przyczynia się do tego (zwłaszcza, że jest to dobra wymówka, aby tak bardzo skupić się na OLS w nauczaniu).

Christoph Hanck
źródło

Cóż, tak, ale zakłada to, że minimalizacja wariancji jest właściwym kryterium, a przy ciężkich ogonach może nie być tak!

kjetil b halvorsen

1

Pewnie. Chciałem tylko dodać to, co moim zdaniem jest najsłynniejszym powodem, dla którego myślę, że OLS jest użyteczną techniką na liście zrozumiałych powodów, dla których solidne techniki go nie zastąpiły : są przypadki, w których nie powinieneś go zastępować.

Christoph Hanck

0

Domyślam się, że solidne statystyki nigdy nie są wystarczające, tj. Aby być solidnymi, pomiń niektóre informacje o dystrybucji. Podejrzewam, że nie zawsze jest to dobra rzecz. Innymi słowy, istnieje kompromis między solidnością a utratą informacji.

Np. Mediana jest solidna, ponieważ (w przeciwieństwie do średniej) wykorzystuje informacje tylko o połowie elementów (w przypadku dyskretnym):

m e d i a n ({1, 2, 3, 4, 5}) = 3 = m e d i a n ({0.1, 0.2, 3, 4000, 5000})

$median(\{1, 2, 3, 4, 5\})=3=median(\{0.1, 0.2, 3, 4000, 5000\})$

ayorgo
źródło

1

Zobacz stats.stackexchange.com/questions/74113/…, aby zapoznać się z sytuacją, w której mediana jest bardzo delikatna, a średnia bardzo dobrze się zachowuje.

Nick Cox,

Dlaczego solidne (i odporne) statystyki nie zastąpiły klasycznych technik?

Odpowiedzi: