Przy rozwiązywaniu problemów biznesowych z wykorzystaniem danych często zdarza się, że co najmniej jedno kluczowe założenie, że klasyczne statystyki poniżej szpilek są nieprawidłowe. Przez większość czasu nikt nie zadaje sobie trudu, aby sprawdzić te założenia, więc tak naprawdę nigdy nie wiadomo.
Na przykład, że tak wiele typowych wskaźników internetowych jest „długich ogonków” (w stosunku do normalnego rozkładu), jest już tak dobrze udokumentowane, że bierzemy to za pewnik. Kolejny przykład, społeczności online - nawet w społecznościach z tysiącami członków, jest dobrze udokumentowane, że zdecydowanie największy udział w / w wielu z tych społeczności można przypisać niewielkiej grupie „super-współpracowników”. (Np. Kilka miesięcy temu, tuż po udostępnieniu SO API w wersji beta, członek StackOverflow opublikował krótką analizę danych zebranych przez API; jego wniosek - mniej niż jeden procent członków SO stanowi większość aktywność na SO (przypuszczalnie zadając pytania i odpowiadając na nie), pozostałe 1-2% stanowiło resztę, a przeważająca większość członków nic nie robi).
Tego rodzaju rozkłady - znowu częściej reguła niż wyjątek - są często najlepiej modelowane za pomocą funkcji gęstości prawa mocy . W przypadku tego rodzaju rozkładów problematyczne jest zastosowanie nawet centralnego twierdzenia o granicy.
Biorąc pod uwagę tak dużą liczbę populacji, które mogą zainteresować analityków, oraz biorąc pod uwagę, że klasyczne modele wykazują wyraźnie słabe wyniki w odniesieniu do tych danych, a także biorąc pod uwagę, że istnieją solidne i odporne metody od dłuższego czasu (co najmniej 20 lat, jak sądzę) - dlaczego czy nie są używane częściej? (Ja też zastanawiać, dlaczego ja nie używam ich częściej, ale to naprawdę nie jest pytanie do CrossValidated ).
Tak, wiem, że są rozdziały podręczników poświęcone w całości solidnym statystykom i wiem, że istnieje (kilka) pakietów R ( robustbase to ten, który znam i którego używam) itp.
A jednak, biorąc pod uwagę oczywiste zalety tych technik, często są one wyraźnie lepszymi narzędziami do pracy - dlaczego nie są używane znacznie częściej ? Czy nie powinniśmy oczekiwać, że rzetelne (i odporne) statystyki będą wykorzystywane znacznie częściej (być może nawet przypuszczalnie) w porównaniu z klasycznymi analogami?
Jedynym merytorycznym (tj. Technicznym) wyjaśnieniem, jakie słyszałem, jest to, że mocne techniki (podobnie w przypadku metod opornych) nie mają mocy / wrażliwości klasycznych technik. Nie wiem, czy rzeczywiście tak jest w niektórych przypadkach, ale wiem, że nie jest to prawdą w wielu przypadkach.
Ostatnie słowo poprzedzające: tak, wiem, że na to pytanie nie ma ani jednej wyraźnie poprawnej odpowiedzi; bardzo mało pytań na tej stronie. Co więcej, pytanie to jest prawdziwym pytaniem; nie jest pretekstem do rozwijania punktu widzenia - nie mam tutaj punktu widzenia, tylko pytanie, na które mam nadzieję uzyskać wnikliwe odpowiedzi.
Odpowiedzi:
Naukowcy chcą małych wartości p, a można uzyskać mniejsze wartości p, jeśli zastosuje się metody, które przyjmą silniejsze założenia dystrybucyjne. Innymi słowy, mało wytrzymałe metody pozwalają opublikować więcej artykułów. Oczywiście więcej z tych artykułów może być fałszywie pozytywnych, ale publikacja jest publikacją. To cyniczne wyjaśnienie, ale czasem jest prawidłowe.
źródło
Tak więc „klasyczne modele” (cokolwiek to jest - zakładam, że masz na myśli coś takiego jak proste modele nauczane w podręcznikach i szacowane przez ML) zawodzą w niektórych, być może wielu, zestawach danych ze świata rzeczywistego.
Jeśli model zawiedzie, istnieją dwa podstawowe podejścia do jego naprawy:
Solidne statystyki, quasi-prawdopodobieństwo i podejścia GEE przyjmują pierwsze podejście, zmieniając strategię szacowania na taką, w której model nie obejmuje wszystkich punktów danych (solidny) lub nie musi charakteryzować wszystkich aspektów danych (QL i GEE).
Alternatywą jest próba zbudowania modelu, który wyraźnie modeluje źródło zanieczyszczających punktów danych lub aspekty oryginalnego modelu, które wydają się fałszywe, przy jednoczesnym zachowaniu metody szacowania takiej samej jak poprzednio.
Niektórzy intuicyjnie preferują te pierwsze (jest to szczególnie popularne w ekonomii), a niektórzy intuicyjnie preferują te drugie (jest to szczególnie popularne wśród Bayesianów, którzy są bardziej zadowoleni z bardziej złożonych modeli, szczególnie gdy zdają sobie sprawę, że będą używać narzędzi symulacyjnych do wnioskowanie w każdym razie).
Założenia rozkładowe z grubym ogonem, np. Stosowanie ujemnego dwumianowego zamiast poissona lub t zamiast normalnego, należą do drugiej strategii. Większość rzeczy oznaczonych jako „solidne statystyki” należy do pierwszej strategii.
W praktyce ustalenie estymatorów dla pierwszej strategii dla realistycznie złożonych problemów wydaje się dość trudne. To nie jest powód, aby tego nie robić, ale może to wyjaśnia, dlaczego nie jest to robione bardzo często.
źródło
Sugerowałbym, że to opóźnienie w nauczaniu. Większość ludzi uczy się statystyki na studiach lub uniwersytetach. Jeśli statystyka nie jest twoim pierwszym stopniem, a zamiast tego zrobiła matematykę lub informatykę, prawdopodobnie obejmujesz tylko podstawowe moduły statystyczne:
Oznacza to, że w obliczu problemu próbujesz użyć tego, co wiesz, aby rozwiązać problem.
Jeśli nie natkniesz się na coś innego, trudno jest zrobić coś lepszego. Naprawdę trudno jest znaleźć Google, jeśli czegoś nie wiesz, jak to się nazywa!
Myślę, że przy wszystkich technikach trochę potrwa, zanim nowsze techniki odfiltrują. Jak długo zajęły standardowe testy hipotez, aby stać się częścią standardowego programu statystycznego?
BTW, ze stopniem naukowym nadal będzie opóźnienie w nauczaniu - tylko krótsze!
źródło
Każdy przeszkolony w zakresie analizy danych statystycznych na rozsądnym poziomie regularnie korzysta z koncepcji solidnych statystyk. Większość badaczy wie wystarczająco dużo, aby szukać poważnych wartości odstających i błędów zapisu danych; polityka usuwania podejrzanych punktów danych sięga XIX wieku wraz z Lordem Rayleigh, GG Stokes i innymi osobami w ich wieku. Jeśli pytanie brzmi:
Dlaczego badacze nie używają bardziej nowoczesnych metod obliczania szacunków lokalizacji, skali, regresji itp.?
odpowiedź jest podana powyżej - metody zostały w dużej mierze opracowane w ciągu ostatnich 25 lat, powiedzmy w latach 1985–2010. Opóźnienie w nauce nowych metod jest uwarunkowane, podobnie jak bezwładność połączona z „mitem”, że nie ma nic złego w ślepo stosując klasyczne metody. John Tukey komentuje, że to, jakich metod niezawodnych / odpornych używasz, nie jest ważne - ważne jest, abyś używał niektórych. Całkowicie właściwe jest rutynowe stosowanie zarówno klasycznych, jak i solidnych / odpornych metod, i martw się tylko wtedy, gdy różnią się wystarczająco, aby mieć znaczenie. Ale kiedy się różnią , powinieneś mocno się zastanowić .
Jeśli zamiast tego pytanie brzmi:
Dlaczego badacze nie zatrzymują się i nie zadają pytań na temat swoich danych, zamiast ślepo stosować wysoce niestabilne szacunki?
wtedy odpowiedź naprawdę sprowadza się do treningu. Jest zdecydowanie zbyt wielu badaczy, którzy nigdy nie zostali odpowiednio przeszkoleni w statystyce, podsumowanych przez ogólne poleganie na wartościach p jako całości i na końcu „istotności statystycznej”.
@Kwak: Szacunki Hubera z lat 70. są solidne, w klasycznym znaczeniu tego słowa: są odporne na wartości odstające. A estymatory ponownego poszukiwania faktycznie datowane są na długo przed latami 80. XX wieku: badanie niezawodności Princeton (z 1971 r.) Obejmowało bisquare oszacowanie lokalizacji, szacunek powtórnej oceny.
źródło
Statystyka jest narzędziem dla badaczy nie nastawionych statystycznie i po prostu ich to nie obchodzi.
Kiedyś próbowałem pomóc w artykule o medycynie, którego moja była żona była współautorką. Napisałem kilka stron opisujących dane, co to sugerowało, dlaczego pewne obserwacje zostały wykluczone z badania ... a główny badacz, lekarz, wyrzucił to wszystko i poprosił kogoś, aby obliczył wartość p, czyli tyle, ile ona (i prawie każdy, kto przeczytałby ten artykuł) dbał o to.
źródło
Udzielam odpowiedzi w dwóch kierunkach:
rozwój
Po pierwsze, myślę, że istnieje wiele dobrych podejść w statystyce (znajdziesz je w pakietach R niekoniecznie z solidną wzmiankowaną gdzieś), które są naturalnie solidne i przetestowane na rzeczywistych danych oraz fakt, że nie znajdziesz algorytmu z „solidnym” „gdzieś wspomniany nie oznacza, że nie jest solidny. W każdym razie, jeśli uważasz, że bycie solidnym oznacza bycie uniwersalnym, to nigdy nie znajdziesz żadnej solidnej procedury (bez darmowego lunchu), musisz mieć trochę wiedzy / specjalistycznej wiedzy na temat analizowanych danych, aby użyć dostosowanego narzędzia lub stworzyć dostosowany model.
Z drugiej strony niektóre podejścia w statystyce nie są solidne, ponieważ dotyczą jednego modelu. Myślę, że czasem warto pracować w laboratorium, aby spróbować zrozumieć. Dobrze jest także traktować problem osobno, aby zrozumieć, na czym polega nasze rozwiązanie ... tak działa matematyk. Przykład elokanta modelu Gaussa: jest bardzo krytykowany, ponieważ założenie gaussowskie nigdy się nie spełnia, ale przyniosło 75% pomysłów wykorzystywanych obecnie w statystyce. Czy naprawdę sądzisz, że to wszystko polega na pisaniu papieru, aby przestrzegać zasady publikowania lub zginięcia (co mi się nie podoba, zgadzam się)?
źródło
Jako ktoś, kto nauczył się trochę statystyk dla moich własnych badań, zgaduję, że przyczyny są pedagogiczne i bezwładne.
Zauważyłem w obrębie mojej dziedziny, że kolejność nauczania tematów odzwierciedla historię tej dziedziny. Te pomysły, które pojawiły się na początku, są nauczane jako pierwsze i tak dalej. Dla osób, które zanurzają się w statystykach tylko dla pobieżnych instrukcji, oznacza to, że nauczą się klasycznych statystyk najpierw, a zapewne na końcu. Następnie, nawet jeśli nauczą się więcej, klasyczne rzeczy lepiej się z nimi trzymają dzięki efektom prymatu.
Ponadto wszyscy wiedzą, co to jest test t dla dwóch próbek. Mniej niż wszyscy wiedzą, czym jest test sumy rang Manna-Whitneya lub Wilcoxona. Oznacza to, że muszę poświęcić trochę energii na wyjaśnienie, na czym polega mój solidny test, w przeciwieństwie do tego, że nie muszę wykonywać żadnego testu klasycznego. Takie warunki spowodują oczywiście, że mniej osób będzie stosowało solidne metody niż powinno.
źródło
Wooldridge „Ekonometria wprowadzająca - nowoczesne podejście” 2E str. 261.
Jeśli błędy standardowe odporne na heteroskedastyczność są ważne częściej niż zwykłe błędy standardowe OLS, to dlaczego w ogóle przeszkadzamy zwykłym błędom standardowym? ... Jednym z powodów, dla których są one nadal stosowane w pracy przekrojowej, jest to, że jeśli założenie homoskedastyczności ma zastosowanie i errosy są zwykle rozłożone, wtedy zwykłe statystyki t mają dokładne t rozkłady, niezależnie od wielkości próbki. Solidne standardowe błędy i solidne statystyki t są uzasadnione tylko w przypadku, gdy wielkość próbki staje się duża. Przy małych rozmiarach próbek solidne statystyki t mogą mieć rozkłady, które nie są bardzo zbliżone do rozkładu t, i które mogłyby odrzucić nasze wnioskowanie. W dużych próbkach możemy argumentować za tym, aby zawsze zgłaszać tylko niezawodne standardowe błędy Heteroskedasticity w aplikacjach przekrojowych,
źródło
Chociaż nie wykluczają się one wzajemnie, myślę, że rosnąca popularność statystyki bayesowskiej jest jej częścią. Statystyki bayesowskie mogą osiągnąć wiele takich samych celów poprzez priory i uśrednianie modeli, i wydają się być bardziej solidne w praktyce.
źródło
Nie jestem statystykiem, moje doświadczenie w statystyce jest dość ograniczone, po prostu używam solidnych statystyk w wizji komputerowej / rekonstrukcji 3D / oszacowaniu pozy. Oto moje podejście do problemu z punktu widzenia użytkownika:
Po pierwsze, solidne statystyki wykorzystały wiele w inżynierii i nauce, nie nazywając tego „solidnymi statystykami”. Wiele osób korzysta z niego intuicyjnie, przystępując do niego w trakcie dostosowywania konkretnej metody do rzeczywistego problemu. Na przykład często używane są iteracyjne zmiany wagi najmniejszych kwadratów i przycięte średnie / przycięte najmniejsze kwadraty, tak że tylko użytkownik nie wie, że stosowali solidne statystyki - po prostu sprawiają, że metoda jest wykonalna dla rzeczywistych, niesyntetycznych danych.
Po drugie, zarówno „intuicyjna”, jak i świadoma, solidna statystyka praktycznie zawsze stosowana w przypadku, gdy wyniki są weryfikowalne lub gdy istnieją wyraźnie widoczne miary błędów. Jeśli wyniki uzyskane przy rozkładzie normalnym są oczywiście nieważne lub nieprawidłowe, ludzie zaczynają majstrować przy odważnikach, przycinaniu, próbkowaniu, czytają papier i kończą przy użyciu solidnych estymatorów, niezależnie od tego, czy znają termin, czy nie. Z drugiej strony, jeśli końcowy wynik badań to tylko niektóre grafiki i diagramy i nie ma nieczułości na weryfikację wyników, lub jeśli normalne statystyki generują wystarczająco dobre wyniki - ludzie po prostu nie przejmują się.
I wreszcie, na temat przydatności solidnych statystyk jako teorii - chociaż sama teoria jest bardzo interesująca, często nie daje żadnych praktycznych korzyści. Większość solidnych estymatorów jest dość trywialna i intuicyjna, często ludzie opracowują je na nowo bez wiedzy statystycznej. Teoria, taka jak szacowanie punktu podziału, asymptotyki, głębokość danych, heteroskedacity itp., Pozwala na głębsze zrozumienie danych, ale w większości przypadków jest to po prostu niepotrzebne. Jednym wielkim wyjątkiem jest skrzyżowanie solidnych statystyk i wykrywania ściskania, które dają nowe praktyczne metody, takie jak „krzyżowanie bukietów”
źródło
Moja wiedza na temat niezawodnych estymatorów dotyczy wyłącznie solidnych błędów standardowych parametrów regresji, więc mój komentarz dotyczy tylko tych. Sugeruję, aby ludzie przeczytali ten artykuł,
O tak zwanym „Huber Sandwich Estimator” i „Solidnych błędach standardowych”: Freedman, A. David The American Statistician, t. 60, nr 4. (listopad 2006), s. 299–302. doi: 10.1198 / 000313006X152207 ( wersja PDF )
Szczególnie niepokoją mnie te podejścia, które nie są w błędzie, ale po prostu odwracają uwagę od większych problemów. Dlatego całkowicie zgadzam się z odpowiedzią Robina Girarda i jego wzmianką o „braku darmowego lunchu”.
źródło
Rachunek i prawdopodobieństwo potrzebne do uzyskania solidnych statystyk jest (zwykle) trudniejsze, więc (a) jest mniej teorii i (b) trudniej jest je uchwycić.
źródło
Jestem zaskoczony, widząc, że twierdzenie Gaussa-Markowa nie jest wymienione na tej długiej liście odpowiedzi, afaics:
W modelu liniowym z błędami sferycznymi (który z kolei obejmuje założenie braku wartości odstających, poprzez wariancję błędu skończonego), OLS jest skuteczny w klasie liniowych obiektywnych estymatorów - istnieją (restrykcyjne, oczywiście) warunki, w których „ nie możesz zrobić lepiej niż OLS ”.
Nie twierdzę, że powinno to usprawiedliwiać używanie OLS prawie przez cały czas, ale z pewnością przyczynia się do tego (zwłaszcza, że jest to dobra wymówka, aby tak bardzo skupić się na OLS w nauczaniu).
źródło
Domyślam się, że solidne statystyki nigdy nie są wystarczające, tj. Aby być solidnymi, pomiń niektóre informacje o dystrybucji. Podejrzewam, że nie zawsze jest to dobra rzecz. Innymi słowy, istnieje kompromis między solidnością a utratą informacji.
Np. Mediana jest solidna, ponieważ (w przeciwieństwie do średniej) wykorzystuje informacje tylko o połowie elementów (w przypadku dyskretnym):
źródło