Podsumowując , im więcej dowiaduję się o statystykach, tym mniej ufam opublikowanym artykułom w mojej dziedzinie; Po prostu uważam, że naukowcy nie robią wystarczająco dobrych statystyk.
Jestem laikiem, że tak powiem. Mam wykształcenie biologiczne, ale nie mam formalnego wykształcenia w dziedzinie statystyki lub matematyki. Lubię R i często staram się czytać (i rozumieć ...) niektóre teoretyczne podstawy metod, które stosuję podczas badań. Nie zdziwiłoby mnie to, gdyby większość osób przeprowadzających analizy dzisiaj nie była formalnie przeszkolona. Opublikowałem około 20 oryginalnych prac, z których niektóre zostały zaakceptowane przez uznane czasopisma, a statystycy często brali udział w procesie przeglądu. Moje analizy często obejmują analizę przeżycia, regresję liniową, regresję logistyczną, modele mieszane. Nigdy wcześniej recenzent nie pytał o założenia modelu, dopasowanie lub ocenę.
Dlatego tak naprawdę nigdy nie przejmowałem się zbytnio założeniami, dopasowaniem i oceną modelu. Zaczynam od hipotezy, przeprowadzam regresję, a następnie prezentuję wyniki. W niektórych przypadkach starałem się ocenić te rzeczy, ale zawsze kończyło się to „ dobrze, że nie spełniało ono wszystkich założeń, ale ufam wynikom („ wiedza merytoryczna ”) i są one wiarygodne, więc jest w porządku ” i podczas konsultacji ze statystykami zawsze wydawali się zgadzać.
Rozmawiałem teraz z innymi statystykami i statystykami (chemikami, lekarzami i biologami), którzy sami przeprowadzają analizy; wydaje się, że ludzie tak naprawdę nie przejmują się zbytnio tymi wszystkimi założeniami i formalnymi ocenami. Ale tutaj w CV jest mnóstwo ludzi pytających o wartości resztkowe, dopasowanie modelu, sposoby oceny, wartości własne, wektory i lista jest długa. Powiem to w ten sposób, kiedy lme4 ostrzega przed dużymi wartościami własnymi, naprawdę wątpię, aby wielu jego użytkowników chciało rozwiązać ten problem ...
Czy to warte dodatkowego wysiłku? Czy nie jest prawdopodobne, że większość wszystkich opublikowanych wyników nie przestrzega tych założeń i być może nawet ich nie oceniła? Jest to prawdopodobnie rosnący problem, ponieważ bazy danych rosną z każdym dniem i istnieje przekonanie, że im większe dane, tym mniej ważne są założenia i oceny.
Mogę się całkowicie mylić, ale tak to postrzegałem.
Aktualizacja: Cytat zapożyczony ze StasK (poniżej): http://www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15050
źródło
Odpowiedzi:
Jestem szkolony jako statystyk, a nie biolog lub lekarz. Ale robię sporo badań medycznych (współpracując z biologami i lekarzami), w ramach moich badań nauczyłem się sporo o leczeniu różnych chorób. Czy to oznacza, że jeśli przyjaciel zapyta mnie o chorobę, którą zbadałem, mogę napisać mu receptę na lek, o którym wiem, że jest powszechnie stosowany w tej konkretnej chorobie? Gdybym to zrobił (nie robię tego), w wielu przypadkach prawdopodobnie byłoby to w porządku (ponieważ lekarz zaleciłby właśnie ten sam lek), ale zawsze istnieje możliwość, że mają alergię / lek interakcja / inna, o którą lekarz powinien zapytać, której nie robię, i ostatecznie wyrządzam więcej szkody niż pożytku.
Jeśli robisz statystyki, nie rozumiejąc, co zakładasz i co może pójść nie tak (lub konsultujesz się ze statystą po drodze, który będzie szukał tych rzeczy), wtedy praktykujesz nadużycia statystyczne. Przez większość czasu będzie to prawdopodobnie OK, ale co z sytuacją, w której ważne założenie się nie sprawdza, ale po prostu to ignorujesz?
Pracuję z niektórymi lekarzami, którzy są dość kompetentni statystycznie i mogą przeprowadzić wiele własnych analiz, ale nadal będą mnie przepuszczać. Często potwierdzam, że zrobili prawidłową rzecz i że mogą przeprowadzić analizę samodzielnie (i ogólnie są wdzięczni za potwierdzenie), ale czasami zrobią coś bardziej złożonego, a kiedy wspomnę o lepszym podejściu, zwykle odwrócą analizę. do mnie lub mojego zespołu, a przynajmniej przyprowadź mnie do bardziej aktywnej roli.
Więc moja odpowiedź na twoje tytułowe pytanie brzmi „nie”, nie przesadzamy, raczej powinniśmy kłaść nacisk na niektóre rzeczy, aby laicy mieli większe szanse na przynajmniej dwukrotne sprawdzenie swoich procedur / wyników za pomocą statystyk.
Edytować
Jest to dodatek oparty na poniższym komentarzu Adama (będzie nieco dłuższy dla kolejnego komentarza).
Adam, dziękuję za komentarz. Krótka odpowiedź brzmi „nie wiem”. Myślę, że poczyniono postępy w poprawie jakości statystycznej artykułów, ale sprawy potoczyły się tak szybko na wiele różnych sposobów, że nadrobienie i zagwarantowanie jakości zajmie trochę czasu. Część rozwiązania koncentruje się na założeniach i konsekwencjach naruszeń kursów wprowadzających statystyki. Jest to bardziej prawdopodobne, gdy statystyki są prowadzone przez statystyków, ale musi się zdarzyć we wszystkich klasach.
Niektóre czasopisma mają się lepiej, ale chciałbym, aby określony recenzent statystyczny stał się standardem. Kilka lat temu był artykuł (przepraszam, nie mam przy sobie podręcznika, ale był w JAMA lub New England Journal of Medicine), który wykazał większe prawdopodobieństwo opublikowania (choć nie tak duża różnica, jak powinna) be) w JAMA lub NEJM, jeśli biostatysta lub epidemiolog był jednym ze współautorów.
Ciekawym artykułem, który niedawno ukazał się jest: http://www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412, który omawia niektóre z tych samych problemów.
źródło
Cóż, tak, założenia mają znaczenie - gdyby w ogóle nie miały znaczenia, nie musielibyśmy ich robić, prawda?
Pytanie brzmi, jak ważne są one - różnią się w zależności od procedur i założeń oraz tego, co chcesz twierdzić o swoich wynikach (a także jak tolerancyjni są twoi odbiorcy w przybliżeniu - a nawet niedokładności - w takich twierdzeniach).
Tak więc na przykład sytuacji, w której założenie jest krytyczne, rozważ założenie normalności w teście F wariancji; nawet dość niewielkie zmiany w rozkładzie mogą mieć dość dramatyczny wpływ na właściwości (rzeczywisty poziom istotności i moc) procedury. Jeśli twierdzisz, że przeprowadzasz test na poziomie 5%, a tak naprawdę na poziomie 28%, w pewnym sensie robisz to samo, co kłamstwo na temat tego, jak przeprowadziłeś eksperymenty. Jeśli nie uważasz, że takie problemy statystyczne są ważne, przedstaw argumenty, które na nich nie polegają. Z drugiej strony, jeśli chcesz użyć informacji statystycznych jako wsparcia, nie możesz wprowadzać w błąd w podawaniu tego wsparcia.
W innych przypadkach konkretne założenia mogą być znacznie mniej krytyczne. Jeśli szacujesz współczynnik w regresji liniowej i nie obchodzi cię, czy jest on statystycznie istotny i nie zależy ci na wydajności, cóż, niekoniecznie ma to znaczenie, czy utrzymuje się założenie homoskedastyczności. Ale jeśli chcesz powiedzieć, że jest to istotne statystycznie lub wykazywać przedział ufności, tak, to na pewno może mieć znaczenie.
źródło
Chociaż Glen_b dał świetną odpowiedź , chciałbym dodać do tego kilka centów.
Jednym z rozważań jest to, czy naprawdę chcesz poznać prawdę naukową, która wymagałaby dopracowania wyników i ustalenia wszystkich szczegółów, czy twoje podejście jest możliwe do obrony, w porównaniu z publikacją w „no cóż, i tak nikt nie sprawdza tych wartości własnych w mojej dyscyplinie” tryb. Innymi słowy, musiałbyś zapytać swoje wewnętrzne sumienie zawodowe, czy wykonujesz najlepszą możliwą pracę. Odwołanie się do niskiej znajomości statystyki i luźnych praktyk statystycznych w twojej dyscyplinie nie stanowi przekonującego argumentu. Recenzenci często są w najlepszym wypadku w połowie pomocni, jeśli pochodzą z tej samej dyscypliny, z tymi luźnymi standardami, chociaż niektóre najlepsze punkty sprzedaży mają wyraźne inicjatywy w celu wniesienia specjalistycznej wiedzy statystycznej do procesu przeglądu.
Ale nawet jeśli jesteś cynicznym krajalnikiem salami „publikuj lub giń”, drugim aspektem jest bezpieczeństwo reputacji badacza. Jeśli Twój model zawiedzie i nie wiesz o tym, narażasz się na ryzyko odparcia ze strony tych, którzy mogą przyjść i wbić topór w pęknięcia kontroli modelu za pomocą bardziej wyrafinowanych instrumentów. To prawda, że prawdopodobieństwo tego wydaje się niewielkie, ponieważ społeczność naukowa, pomimo nominalnych filozoficznych wymagań dotyczących reputacji i odtwarzalności, rzadko podejmuje próby odtworzenia cudzych badań. (Byłem zaangażowany w napisanie kilku artykułów, które w zasadzie zaczynały się od: „o mój Boże, czy naprawdę tak było?”napisać to? ”i zaproponował krytykę oraz udoskonalenie recenzowanego, opublikowanego pół-statystycznego podejścia.) Jednak niepowodzenia analiz statystycznych, gdy zostaną ujawnione , często powodują duże i nieprzyjemne rozpryski.
źródło
Charakter naruszeń założeń może być ważną wskazówką dla przyszłych badań. Na przykład naruszenie założenia o proporcjonalnych zagrożeniach w analizie przeżycia Coxa może być spowodowane zmienną o dużym wpływie na przeżycie krótkoterminowe, ale niewielką w dłuższej perspektywie. Jest to rodzaj nieoczekiwanej, ale potencjalnie ważnej informacji, którą można uzyskać, badając poprawność swoich założeń w teście statystycznym.
Robisz więc siebie, a nie tylko literaturę, potencjalną szkodę, jeśli nie przetestujesz podstawowych założeń. Ponieważ czasopisma wysokiej jakości zaczynają wymagać bardziej wyrafinowanego przeglądu statystycznego, będziesz częściej do tego wezwany. Nie chcesz być w sytuacji, w której test wymagany przez recenzenta statystycznego podważa to, co według ciebie było kluczowym punktem twojego artykułu.
źródło
Odpowiem z pośredniej perspektywy. Nie jestem statystykiem, jestem chemikiem. Jednak ostatnie 10 lat specjalizowałem się w chemometrii = analizie danych statystycznych dla danych związanych z chemią.
Tak jest prawdopodobnie.
Krótka wersja:
Teraz o założeniach. IMHO sytuacja tutaj jest zdecydowanie zbyt różnorodna, aby poradzić sobie z tym w jednym stwierdzeniu. Zrozumienie, do czego dokładnie potrzebne jest założenie i w jaki sposób wniosek może zostać naruszony przez aplikację, jest konieczne, aby ocenić, czy naruszenie jest nieszkodliwe czy krytyczne. A to wymaga zarówno statystyk, jak i znajomości aplikacji.
Jednak jako praktykujący w obliczu nieosiągalnych założeń potrzebuję również czegoś innego: chciałbym mieć „drugą linię obrony”, która np. Pozwala mi ocenić, czy naruszenie rzeczywiście powoduje problemy, czy też jest nieszkodliwe.
Długa wersja:
Z praktycznego punktu widzenia niektóre typowe założenia prawie nigdy nie są spełnione. Czasami potrafię sformułować rozsądne założenia dotyczące danych, ale często problemy stają się tak skomplikowane ze statystycznego punktu widzenia, że rozwiązania nie są jeszcze znane. Do tej pory uważam, że uprawianie nauki oznacza, że przekroczysz granice tego, co wiadomo, prawdopodobnie nie tylko w twojej konkretnej dyscyplinie, ale może także w innych dyscyplinach (tutaj: statystyki stosowane).
Istnieją inne sytuacje, w których pewne naruszenia są zwykle nieszkodliwe - np. Potrzebna jest normalność wielowymiarowa z jednakową kowariancją dla LDA, aby wykazać, że LDA jest optymalna, ale dobrze wiadomo, że projekcja przebiega według heurystyki, która często działa dobrze również wtedy, gdy założenie nie jest spełnione. I które naruszenia mogą powodować problemy: Wiadomo również, że ciężkie ogony w dystrybucji prowadzą do problemów z LDA w praktyce.
Niestety taka wiedza rzadko trafia do skróconego pisania artykułu, więc czytelnik nie ma pojęcia, czy autorzy zdecydowali się na swój model po dokładnym rozważeniu właściwości aplikacji, a także modelu, czy po prostu wybrali dowolny model natknęli się.
Czasami ewoluują praktyczne podejścia (heurystyka), które okazują się bardzo przydatne z praktycznego punktu widzenia, nawet jeśli potrzeba dziesięcioleci, zanim ich właściwości statystyczne zostaną zrozumiane (myślę o PLS).
Inną rzeczą, która się wydarza (i powinna się zdarzyć częściej) jest to, że możliwe konsekwencje naruszenia mogą być monitorowane (mierzone), co pozwala zdecydować, czy występuje problem, czy nie. W przypadku aplikacji może nie dbam o to, czy mój model jest optymalny, o ile jest wystarczająco dobry.
W chemometrii skupiamy się raczej na prognozowaniu. Jest to bardzo przyjemna ucieczka w przypadku niespełnienia założeń modelowania: niezależnie od tych założeń możemy zmierzyć, czy model działa dobrze. Z punktu widzenia praktyka powiedziałbym, że możesz robić, co chcesz, podczas modelowania, jeśli robisz to i zgłaszasz uczciwą najnowocześniejszą walidację.
W przypadku analizy chemometrycznej danych spektroskopowych jesteśmy w punkcie, w którym nie patrzymy na pozostałości, ponieważ wiemy, że modele łatwo się dopasowują. Zamiast tego patrzymy na wydajność danych testowych (i być może różnica w stosunku do danych treningowych predyktuje wydajność).
Istnieją inne sytuacje, w których nie jesteśmy w stanie dokładnie przewidzieć, ile naruszeń które założenie prowadzi do załamania modelu, ale jesteśmy w stanie zmierzyć konsekwencje poważnych naruszeń tego założenia raczej bezpośrednio.
Następny przykład: dane badawcze, z którymi zazwyczaj mam do czynienia, to rzędy wielkości poniżej wielkości próby, które zalecają praktyczne reguły statystyczne dla poszczególnych przypadków (w celu zagwarantowania stabilnych szacunków). Jednak w książkach statystycznych zazwyczaj nie zależy na tym, co robić w praktyce, jeśli nie można spełnić tego założenia. Ani jak zmierzyć, czy rzeczywiście masz kłopoty w tym zakresie. Ale: takie pytania są traktowane w bardziej stosowanych dyscyplinach. Okazuje się, że często dość łatwo jest bezpośrednio zmierzyć stabilność modelu lub przynajmniej to, czy twoje prognozy są niestabilne (przeczytaj tutaj na CV na temat walidacji ponownego próbkowania i stabilności modelu). Są też sposoby na stabilizację modeli niestabilnych (np. Pakowanie).
Jako przykład „drugiej linii obrony” rozważ walidację ponownego próbkowania. Najczęstszym i najsilniejszym założeniem jest to, że wszystkie modele zastępcze są równoważne modelowi wyuczonemu na całym zestawie danych. Jeśli założenie to zostanie naruszone, otrzymamy znane uprzedzenie pesymistyczne. Druga linia mówi, że przynajmniej modele zastępcze są sobie równoważne, więc możemy połączyć wyniki testu.
Na koniec chciałbym zachęcić „naukowców zajmujących się klientami” i statystyków, aby rozmawiali ze sobą więcej . Analiza danych statystycznych IMHO nie jest czymś, co można zrobić w jeden sposób. W pewnym momencie każda ze stron będzie musiała zdobyć wiedzę na temat drugiej strony. Czasami pomagam w „tłumaczeniu” między statystykami a chemikami i biologami. Statystyka może wiedzieć, że model wymaga regulacji. Ale aby wybrać, powiedzmy, między LASSO a grzbietem, muszą znać właściwości danych, które może znać tylko chemik, fizyk lub biolog.
źródło
Biorąc pod uwagę, że CV jest wypełniane przez statystyków i ludzi, którzy są ciekawi, jeśli nie kompetentni, w zakresie statystyki, nie jestem zaskoczony wszystkimi odpowiedziami podkreślającymi potrzebę zrozumienia założeń. Zasadniczo zgadzam się również z tymi odpowiedziami.
Biorąc jednak pod uwagę presję na publikację i niski standard rzetelności statystycznej, muszę powiedzieć, że odpowiedzi te są dość naiwne. Możemy powiedzieć ludziom, co powinni zrobić przez cały dzień (czyli sprawdzić założenie), ale to, co oni będą robić zależy wyłącznie od zachęt instytucjonalnych. Sam OP twierdzi, że udaje mu się opublikować 20 artykułów, nie rozumiejąc założenia modelu. Biorąc pod uwagę moje własne doświadczenie, nie trudno mi w to uwierzyć.
Dlatego chcę grać w adwokata diabła, bezpośrednio odpowiadając na pytanie OP. W żadnym wypadku nie jest to odpowiedź promująca „dobrą praktykę”, ale odzwierciedla ona sposób, w jaki rzeczy są praktykowane z nutą satyry.
Nie, jeśli celem jest publikacja, nie warto poświęcać całego czasu na zrozumienie modelu. Postępuj zgodnie z powszechnym modelem w literaturze. W ten sposób: 1) twój artykuł łatwiej przejdzie recenzje, oraz 2) ryzyko narażenia się na „niekompetencję statystyczną” jest niewielkie, ponieważ narażenie cię oznacza odsłonięcie całej dziedziny, w tym wielu starszych osób.
Tak, prawdopodobne jest, że większość opublikowanych wyników nie jest prawdziwa. Im bardziej jestem zaangażowany w rzeczywiste badania, tym bardziej myślę, że to prawdopodobne.
źródło
Krótka odpowiedź brzmi „nie”. Metody statystyczne opracowano na podstawie zestawów założeń, które należy spełnić, aby wyniki były ważne. Rozumie się zatem, że jeżeli założenia nie zostaną spełnione, wyniki mogą nie być prawidłowe. Oczywiście niektóre szacunki mogą być nadal wiarygodne, pomimo naruszenia założeń modelu. Na przykład logom wielomianowym wydaje się działać dobrze pomimo naruszenia założenia IIA (patrz rozprawa Kropko [2011] w odnośniku poniżej).
Jako naukowcy mamy obowiązek upewnić się, że przedstawione tam wyniki są prawidłowe, nawet jeśli ludzie w terenie nie dbają o to, czy założenia zostały spełnione. Wynika to z faktu, że nauka opiera się na założeniu, że naukowcy będą postępować we właściwy sposób, dążąc do faktów. Możemy zaufać naszym kolegom, aby sprawdzić swoją pracę przed wysłaniem go do czasopism. Możemy zaufać sędziom kompetentnie recenzję pracy zanim zostanie opublikowany. my zakładamyże zarówno badacze, jak i sędziowie wiedzą, co robią, aby można było zaufać wynikom prac opublikowanych w recenzowanych czasopismach. Wiemy, że nie zawsze jest to prawdą w prawdziwym świecie opartym na ogromnej ilości artykułów w literaturze, w których kręcisz głową i przewracasz oczami na wyraźnie wybrane wyniki w szanowanych czasopismach („ Jama opublikował ten artykuł ?! „).
Zatem nie, nie można przecenić znaczenia, zwłaszcza że ludzie ufają tobie - ekspertowi - że dołożyłeś należytej staranności. Możesz przynajmniej porozmawiać o tych naruszeniach w sekcji „ograniczenia” swojego artykułu, aby pomóc ludziom interpretować ważność twoich wyników.
Odniesienie
Kropko, J. 2011. Nowe podejście do dyskretnego wyboru i metodologii przekrojów szeregów czasowych w badaniach politycznych (rozprawa doktorska). UNC-Chapel Hill, Chapel Hill, Karolina Północna.
źródło
Jeśli potrzebujesz bardzo zaawansowanych statystyk, najprawdopodobniej twoje dane to bałagan, co ma miejsce w przypadku większości nauk społecznych, nie mówiąc już o psychologii. W tych obszarach, w których masz dobre dane, potrzebujesz bardzo mało statystyk. Fizyka jest bardzo dobrym przykładem.
Rozważ ten cytat z Galileusza z jego słynnego eksperymentu przyspieszenia grawitacyjnego:
Zwróć uwagę na wyróżniony przeze mnie tekst. To są dobre dane. Pochodzi z dobrze zaplanowanego eksperymentu opartego na dobrej teorii. Nie potrzebujesz statystyk, by wyodrębnić to, co cię interesuje. W tym czasie nie było statystyk, ani komputerów. Wynik? Całkiem fundamentalna relacja, która nadal istnieje i może być przetestowana w domu przez szóstoklasistę.
Ukradłem cytat z tej niesamowitej strony .
źródło
To pytanie wydaje się być przypadkiem uczciwości zawodowej.
Problem wydaje się polegać na tym, że albo: (a) nie ma wystarczającej krytycznej oceny analizy statystycznej przez laików lub (b) przypadek powszechnej wiedzy jest niewystarczający do zidentyfikowania błędu statystycznego (jak błąd typu 2)?
Wiem wystarczająco dużo o mojej dziedzinie wiedzy specjalistycznej, aby poprosić o opinie ekspertów, kiedy jestem blisko granicy tej wiedzy. Widziałem ludzi używających takich rzeczy jak test F (i R-kwadrat w Excelu) bez wystarczającej wiedzy.
Z mojego doświadczenia wynika, że systemy edukacji, które z chęcią promują statystyki, nadmiernie uprościły narzędzia i zaniżały ryzyko / ograniczenia. Czy to wspólny temat, którego inni doświadczyli i wyjaśniliby sytuację?
źródło