Czy wyolbrzymiamy znaczenie założenia i oceny modelu w czasach, gdy analizy są często przeprowadzane przez laików

54

Podsumowując , im więcej dowiaduję się o statystykach, tym mniej ufam opublikowanym artykułom w mojej dziedzinie; Po prostu uważam, że naukowcy nie robią wystarczająco dobrych statystyk.


Jestem laikiem, że tak powiem. Mam wykształcenie biologiczne, ale nie mam formalnego wykształcenia w dziedzinie statystyki lub matematyki. Lubię R i często staram się czytać (i rozumieć ...) niektóre teoretyczne podstawy metod, które stosuję podczas badań. Nie zdziwiłoby mnie to, gdyby większość osób przeprowadzających analizy dzisiaj nie była formalnie przeszkolona. Opublikowałem około 20 oryginalnych prac, z których niektóre zostały zaakceptowane przez uznane czasopisma, a statystycy często brali udział w procesie przeglądu. Moje analizy często obejmują analizę przeżycia, regresję liniową, regresję logistyczną, modele mieszane. Nigdy wcześniej recenzent nie pytał o założenia modelu, dopasowanie lub ocenę.

Dlatego tak naprawdę nigdy nie przejmowałem się zbytnio założeniami, dopasowaniem i oceną modelu. Zaczynam od hipotezy, przeprowadzam regresję, a następnie prezentuję wyniki. W niektórych przypadkach starałem się ocenić te rzeczy, ale zawsze kończyło się to „ dobrze, że nie spełniało ono wszystkich założeń, ale ufam wynikom („ wiedza merytoryczna ”) i są one wiarygodne, więc jest w porządku ” i podczas konsultacji ze statystykami zawsze wydawali się zgadzać.

Rozmawiałem teraz z innymi statystykami i statystykami (chemikami, lekarzami i biologami), którzy sami przeprowadzają analizy; wydaje się, że ludzie tak naprawdę nie przejmują się zbytnio tymi wszystkimi założeniami i formalnymi ocenami. Ale tutaj w CV jest mnóstwo ludzi pytających o wartości resztkowe, dopasowanie modelu, sposoby oceny, wartości własne, wektory i lista jest długa. Powiem to w ten sposób, kiedy lme4 ostrzega przed dużymi wartościami własnymi, naprawdę wątpię, aby wielu jego użytkowników chciało rozwiązać ten problem ...

Czy to warte dodatkowego wysiłku? Czy nie jest prawdopodobne, że większość wszystkich opublikowanych wyników nie przestrzega tych założeń i być może nawet ich nie oceniła? Jest to prawdopodobnie rosnący problem, ponieważ bazy danych rosną z każdym dniem i istnieje przekonanie, że im większe dane, tym mniej ważne są założenia i oceny.

Mogę się całkowicie mylić, ale tak to postrzegałem.

Aktualizacja: Cytat zapożyczony ze StasK (poniżej): http://www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15050

Adam Robinsson
źródło
34
Chciałbym ostrzec, że zamknięcie tego pytania uniemożliwiłoby ważną okazję do przedyskutowania, w jaki sposób statystyki są wykorzystywane w „prawdziwym świecie” poza murami departamentów statystycznych. CV jest jednym z niewielu miejsc, w których ludzie i statystyki spotykają się w prawdziwym świecie, a utrzymywanie otwartych linii komunikacji jest ważną, choć domyślną, misją CV. Całkowicie zgadzam się z tymi, którzy kliknęli „zamknij”, ponieważ jest to bardzo szerokie i oparte na opiniach, ale nadal mam nadzieję, że możemy kontynuować tę dyskusję.
StasK
5
Nie fakt, że wiele publikacji, naukowcy lub nawet całe pola traktować niedbale założenia sugerują, że nie obchodzi mnie tyle ? Możliwe jest również, że statystycy i podręczniki wyolbrzymiają ich znaczenie, ale z pewnością ich popularność wśród praktyków i świeckich nie może być wyznacznikiem tego. Również konwencje i standardy są bardzo różne. Niektóre dyscypliny prawdopodobnie bardziej troszczą się o to niż te, które znasz, podczas gdy inne prawdopodobnie nie dbają o rzeczy, które są bardzo ważne, aby opublikować je w swojej dziedzinie.
Gala
6
Po napisaniu artykułu z komentarzem krytykującym poprzednie badanie, w którym świadomie naruszono założenia modelu i wyciągnięto nieprawidłowe wnioski, moja rada nie polegałaby na wynikach i byłaby samokrytyczna, jak tylko możesz.
Dikran Torbacz
7
„Im większe dane, tym mniej ważne założenia” nie dotyczą rzeczywistego wzrostu danych: rośnie (głównie) liczba zależnych obserwacji / cech wynikających z postępów w technikach pomiarowych. Natomiast liczba niezależnych obserwacji, tj. Jednostek eksperymentalnych lub probantów, pozostaje raczej ograniczona (ponieważ populacje nie rosną w wyniku postępu technicznego ...). Niestety, tylko niezależność od dużych zbiorów danych sprawia, że ​​założenia (często nie zawsze) są mniej ważne ze względu na centralne twierdzenie graniczne.
Horst Grünbusch
3
@AdamRobinsson: Podoba mi się wniosek, który zamieściłeś na górze pytania. Byłbym jeszcze bardziej nieufny w stosunku do artykułów publikowanych przez Big Names lub wspieranych przez Big Institutions. Kiedy widzę papiery z 15 starszych autorów z szanowanych instytucji w czołowych czasopismach, moim pierwszym odruchem jest faktycznie do kontroli papieru nawet więcej , ponieważ istnieje możliwość, że papier został opublikowany z powodu wpływów autorów '/ instytucji. Dokumenty te mają również daleko idące konsekwencje dla polityki. Jednym z przykładów z mojej dziedziny (zdrowie publiczne) był obrzezanie mężczyzn w badaniach nad zapobieganiem HIV (ciąg dalszy)
Markiz de Carabas

Odpowiedzi:

26

Jestem szkolony jako statystyk, a nie biolog lub lekarz. Ale robię sporo badań medycznych (współpracując z biologami i lekarzami), w ramach moich badań nauczyłem się sporo o leczeniu różnych chorób. Czy to oznacza, że ​​jeśli przyjaciel zapyta mnie o chorobę, którą zbadałem, mogę napisać mu receptę na lek, o którym wiem, że jest powszechnie stosowany w tej konkretnej chorobie? Gdybym to zrobił (nie robię tego), w wielu przypadkach prawdopodobnie byłoby to w porządku (ponieważ lekarz zaleciłby właśnie ten sam lek), ale zawsze istnieje możliwość, że mają alergię / lek interakcja / inna, o którą lekarz powinien zapytać, której nie robię, i ostatecznie wyrządzam więcej szkody niż pożytku.

Jeśli robisz statystyki, nie rozumiejąc, co zakładasz i co może pójść nie tak (lub konsultujesz się ze statystą po drodze, który będzie szukał tych rzeczy), wtedy praktykujesz nadużycia statystyczne. Przez większość czasu będzie to prawdopodobnie OK, ale co z sytuacją, w której ważne założenie się nie sprawdza, ale po prostu to ignorujesz?

Pracuję z niektórymi lekarzami, którzy są dość kompetentni statystycznie i mogą przeprowadzić wiele własnych analiz, ale nadal będą mnie przepuszczać. Często potwierdzam, że zrobili prawidłową rzecz i że mogą przeprowadzić analizę samodzielnie (i ogólnie są wdzięczni za potwierdzenie), ale czasami zrobią coś bardziej złożonego, a kiedy wspomnę o lepszym podejściu, zwykle odwrócą analizę. do mnie lub mojego zespołu, a przynajmniej przyprowadź mnie do bardziej aktywnej roli.

Więc moja odpowiedź na twoje tytułowe pytanie brzmi „nie”, nie przesadzamy, raczej powinniśmy kłaść nacisk na niektóre rzeczy, aby laicy mieli większe szanse na przynajmniej dwukrotne sprawdzenie swoich procedur / wyników za pomocą statystyk.

Edytować

Jest to dodatek oparty na poniższym komentarzu Adama (będzie nieco dłuższy dla kolejnego komentarza).

Adam, dziękuję za komentarz. Krótka odpowiedź brzmi „nie wiem”. Myślę, że poczyniono postępy w poprawie jakości statystycznej artykułów, ale sprawy potoczyły się tak szybko na wiele różnych sposobów, że nadrobienie i zagwarantowanie jakości zajmie trochę czasu. Część rozwiązania koncentruje się na założeniach i konsekwencjach naruszeń kursów wprowadzających statystyki. Jest to bardziej prawdopodobne, gdy statystyki są prowadzone przez statystyków, ale musi się zdarzyć we wszystkich klasach.

Niektóre czasopisma mają się lepiej, ale chciałbym, aby określony recenzent statystyczny stał się standardem. Kilka lat temu był artykuł (przepraszam, nie mam przy sobie podręcznika, ale był w JAMA lub New England Journal of Medicine), który wykazał większe prawdopodobieństwo opublikowania (choć nie tak duża różnica, jak powinna) be) w JAMA lub NEJM, jeśli biostatysta lub epidemiolog był jednym ze współautorów.

Ciekawym artykułem, który niedawno ukazał się jest: http://www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412, który omawia niektóre z tych samych problemów.

Greg Snow
źródło
1
Podzielam twój punkt widzenia, Greg. Myślę, że twoja odpowiedź wyjaśnia to jasno. Ale chciałbym zacytować: „[...] wtedy praktykujesz nadużycia statystyczne. Przez większość czasu będzie to prawdopodobnie w porządku”. Istnieje ryzyko, że pojęcie to się rozpowszechni i że ludzie postrzegają je jako: każdy może robić statystyki (co jest zasadniczo błędne, jeśli zapytasz mnie, kto podrapał się trochę na powierzchni statystyki). Pytanie brzmi: w jaki sposób zapewniamy poprawność opublikowanych prac pod względem analiz statystycznych? Ponieważ zaczynam się zastanawiać, ile artykułów nie przeszło statystykowi ...
Adam Robinsson
@AdamRobinsson, zobacz mój dodatek powyżej.
Greg Snow
To jest raczej elitarne. Zgadzam się, że zawodowi statystycy mogą posiadać kompetencje i wiedzę specjalistyczną do przeprowadzania analiz statystycznych, ale także naukowcy. Rzeczywiście, niektóre z przełomowych osiągnięć w statystyce pochodzą od naukowców (np. Fisher i Jeffrey) praktykujących statystyki w prawdziwym świecie.
innisfree
Dziwnie jest też powiedzieć, że to, co stanowi błąd w sztuce statystycznej, zależy nie tylko od jakości lub wyników analizy statystycznej, ale także od subiektywnych osądów dotyczących siły zrozumienia statystyk przez analityków
innisfree
@innisfree, nie rozumiem twoich komentarzy, a może nie rozumiesz mojej pozycji. Nie twierdzę, że tylko statystycy mogą przyjrzeć się założeniom / warunkom, tylko że są one ważne i albo należy się skonsultować ze statystykiem, albo naukowcy niebędący statystyką powinni nauczyć się wystarczającej liczby statystyk, aby zrozumieć problemy poza zwykłymi liczbami do formuły / komputera. Osobiście chciałbym zobaczyć o wiele więcej nieletnich statystyk z doświadczeniem w medycynie / inżynierii / itp., Ale także z lepszym zrozumieniem idei stojących za statystykami.
Greg Snow
28

Cóż, tak, założenia mają znaczenie - gdyby w ogóle nie miały znaczenia, nie musielibyśmy ich robić, prawda?

Pytanie brzmi, jak ważne są one - różnią się w zależności od procedur i założeń oraz tego, co chcesz twierdzić o swoich wynikach (a także jak tolerancyjni są twoi odbiorcy w przybliżeniu - a nawet niedokładności - w takich twierdzeniach).

Tak więc na przykład sytuacji, w której założenie jest krytyczne, rozważ założenie normalności w teście F wariancji; nawet dość niewielkie zmiany w rozkładzie mogą mieć dość dramatyczny wpływ na właściwości (rzeczywisty poziom istotności i moc) procedury. Jeśli twierdzisz, że przeprowadzasz test na poziomie 5%, a tak naprawdę na poziomie 28%, w pewnym sensie robisz to samo, co kłamstwo na temat tego, jak przeprowadziłeś eksperymenty. Jeśli nie uważasz, że takie problemy statystyczne są ważne, przedstaw argumenty, które na nich nie polegają. Z drugiej strony, jeśli chcesz użyć informacji statystycznych jako wsparcia, nie możesz wprowadzać w błąd w podawaniu tego wsparcia.

W innych przypadkach konkretne założenia mogą być znacznie mniej krytyczne. Jeśli szacujesz współczynnik w regresji liniowej i nie obchodzi cię, czy jest on statystycznie istotny i nie zależy ci na wydajności, cóż, niekoniecznie ma to znaczenie, czy utrzymuje się założenie homoskedastyczności. Ale jeśli chcesz powiedzieć, że jest to istotne statystycznie lub wykazywać przedział ufności, tak, to na pewno może mieć znaczenie.

Glen_b
źródło
2
Komentarz Glen_b jest dobrze powiedziany ze statystycznego podejścia do znaczenia założeń. Myślę jednak, że należy również zauważyć, że dla celów publikacji kontrola założeń jest nieco inną sprawą, ponieważ naruszenie założeń ma znaczenie tylko tyle, na ile dbają o to recenzenci lub redaktorzy. Na przykład teoria leżąca u podstaw wyniku może zapewnić wystarczającą wartość do publikacji, w przypadku której istnieje nadzieja, że ​​problemy z analizą zostaną rozwiązane w przyszłych publikacjach.
Jonathan Lisic
Cóż, nawet jeśli recenzenci sprawdzą artykuł, odpowiedzialność za błędy spoczywa na autorach. Więc we własnym interesie powinieneś sprawdzić ...
kjetil b halvorsen
W rzeczywistości odpowiedzialność zawsze spoczywa na autorach. Ale w dzisiejszych czasach autorzy są popychani przez niewłaściwych kierowców, którzy zmuszają ich do publikowania, nierzadko w szybki i brudny sposób. Chciałbym zobaczyć proces przeglądu, który nakazuje deklarację najbardziej krytycznych założeń statystycznych. Dziś przyjmuje się za pewnik, że analiza statystyczna została wykonana zgodnie z książką, ale uważam, że jest rzadsza niż powszechna.
Adam Robinsson,
3
+1 „Pytanie brzmi, jak bardzo się liczą” - w gruncie rzeczy cały problem jest w skrócie. Powinienem również zauważyć, że przy zastosowaniu wnioskowania statystycznego nie można poznać zakresu, w jakim naruszane są niektóre założenia statystyczne. Możemy postulować lub rozważać wiarygodność analizy tylko wtedy, gdy są, i jest to istotny, ale często pomijany aspekt praktyki statystycznej.
heropup
18

Chociaż Glen_b dał świetną odpowiedź , chciałbym dodać do tego kilka centów.

Jednym z rozważań jest to, czy naprawdę chcesz poznać prawdę naukową, która wymagałaby dopracowania wyników i ustalenia wszystkich szczegółów, czy twoje podejście jest możliwe do obrony, w porównaniu z publikacją w „no cóż, i tak nikt nie sprawdza tych wartości własnych w mojej dyscyplinie” tryb. Innymi słowy, musiałbyś zapytać swoje wewnętrzne sumienie zawodowe, czy wykonujesz najlepszą możliwą pracę. Odwołanie się do niskiej znajomości statystyki i luźnych praktyk statystycznych w twojej dyscyplinie nie stanowi przekonującego argumentu. Recenzenci często są w najlepszym wypadku w połowie pomocni, jeśli pochodzą z tej samej dyscypliny, z tymi luźnymi standardami, chociaż niektóre najlepsze punkty sprzedaży mają wyraźne inicjatywy w celu wniesienia specjalistycznej wiedzy statystycznej do procesu przeglądu.

Ale nawet jeśli jesteś cynicznym krajalnikiem salami „publikuj lub giń”, drugim aspektem jest bezpieczeństwo reputacji badacza. Jeśli Twój model zawiedzie i nie wiesz o tym, narażasz się na ryzyko odparcia ze strony tych, którzy mogą przyjść i wbić topór w pęknięcia kontroli modelu za pomocą bardziej wyrafinowanych instrumentów. To prawda, że ​​prawdopodobieństwo tego wydaje się niewielkie, ponieważ społeczność naukowa, pomimo nominalnych filozoficznych wymagań dotyczących reputacji i odtwarzalności, rzadko podejmuje próby odtworzenia cudzych badań. (Byłem zaangażowany w napisanie kilku artykułów, które w zasadzie zaczynały się od: „o mój Boże, czy naprawdę tak było?”napisać to? ”i zaproponował krytykę oraz udoskonalenie recenzowanego, opublikowanego pół-statystycznego podejścia.) Jednak niepowodzenia analiz statystycznych, gdy zostaną ujawnione , często powodują duże i nieprzyjemne rozpryski.

StasK
źródło
Bardzo podoba mi się to podejście: sumienie zawodowe i wierzę, że wielu ma sumienie, ale wciąż nie ma wiedzy; ale nie powstrzyma ich to przed prezentowaniem danych tak, jakby to było idealnie zrobione. Co ciekawe, cytujesz artykuł naukowy, który jasno to określa: „[...] powszechna obawa, że ​​podstawowe błędy w analizie danych przyczyniają się do nieodtwarzalności wielu opublikowanych wyników badań”. Naprawdę uważam, że my, świeccy, tak naprawdę nie szanujemy trudności metod statystycznych i powinien to być rosnący problem, jak wyjaśniono powyżej.
Adam Robinsson,
1
W mojej obecnej grupie badawczej jest 15 badaczy (biologów, lekarzy) i niektórzy z nich są naprawdę produktywni, ale żaden nie jest statystykiem. Wszyscy młodsi badacze zainstalowali R lub SAS i przeprowadzają obliczenia, zwykle po przeczytaniu zaledwie kilku samouczków w Internecie. To duży problem.
Adam Robinsson
4
@AdamRobinsson, sam fakt, że pytałeś o to w CV, mówi o twoim sumieniu. Jeszcze jeden link do natury, który możesz przeczytać, na temat nieco pokrewnego zagadnienia obliczeń naukowych (i braku wdrożenia najlepszych praktyk w tworzeniu oprogramowania przez naukowców piszących własny kod C / Fortran / R) - nature.com/news/2010 /101013/full/467775a.html .
StasK
3
ponieważ środowisko naukowe, pomimo nominalnych filozoficznych wymagań dotyczących reputacji i odtwarzalności, rzadko angażuje się w próby odtworzenia badań innych osób , całkowicie zgadzam się z tym stwierdzeniem.
Robert Smith
software-carpentry.org , „organizacja non-profit działająca na zasadzie wolontariatu zajmująca się nauczaniem naukowców podstawowych umiejętności obsługi komputera”, ma całkiem niezłe tutoriale i seminaria.
den
9

Charakter naruszeń założeń może być ważną wskazówką dla przyszłych badań. Na przykład naruszenie założenia o proporcjonalnych zagrożeniach w analizie przeżycia Coxa może być spowodowane zmienną o dużym wpływie na przeżycie krótkoterminowe, ale niewielką w dłuższej perspektywie. Jest to rodzaj nieoczekiwanej, ale potencjalnie ważnej informacji, którą można uzyskać, badając poprawność swoich założeń w teście statystycznym.

Robisz więc siebie, a nie tylko literaturę, potencjalną szkodę, jeśli nie przetestujesz podstawowych założeń. Ponieważ czasopisma wysokiej jakości zaczynają wymagać bardziej wyrafinowanego przeglądu statystycznego, będziesz częściej do tego wezwany. Nie chcesz być w sytuacji, w której test wymagany przez recenzenta statystycznego podważa to, co według ciebie było kluczowym punktem twojego artykułu.

EdM
źródło
Zgadzam się w pełni z tym komentarzem, który moim zdaniem jest bardzo ważny.
Adam Robinsson
9

Odpowiem z pośredniej perspektywy. Nie jestem statystykiem, jestem chemikiem. Jednak ostatnie 10 lat specjalizowałem się w chemometrii = analizie danych statystycznych dla danych związanych z chemią.

Po prostu uważam, że naukowcy nie robią wystarczająco dobrych statystyk.

Tak jest prawdopodobnie.


Krótka wersja:

Teraz o założeniach. IMHO sytuacja tutaj jest zdecydowanie zbyt różnorodna, aby poradzić sobie z tym w jednym stwierdzeniu. Zrozumienie, do czego dokładnie potrzebne jest założenie i w jaki sposób wniosek może zostać naruszony przez aplikację, jest konieczne, aby ocenić, czy naruszenie jest nieszkodliwe czy krytyczne. A to wymaga zarówno statystyk, jak i znajomości aplikacji.
Jednak jako praktykujący w obliczu nieosiągalnych założeń potrzebuję również czegoś innego: chciałbym mieć „drugą linię obrony”, która np. Pozwala mi ocenić, czy naruszenie rzeczywiście powoduje problemy, czy też jest nieszkodliwe.


Długa wersja:

  • Z praktycznego punktu widzenia niektóre typowe założenia prawie nigdy nie są spełnione. Czasami potrafię sformułować rozsądne założenia dotyczące danych, ale często problemy stają się tak skomplikowane ze statystycznego punktu widzenia, że ​​rozwiązania nie są jeszcze znane. Do tej pory uważam, że uprawianie nauki oznacza, że ​​przekroczysz granice tego, co wiadomo, prawdopodobnie nie tylko w twojej konkretnej dyscyplinie, ale może także w innych dyscyplinach (tutaj: statystyki stosowane).

  • Istnieją inne sytuacje, w których pewne naruszenia są zwykle nieszkodliwe - np. Potrzebna jest normalność wielowymiarowa z jednakową kowariancją dla LDA, aby wykazać, że LDA jest optymalna, ale dobrze wiadomo, że projekcja przebiega według heurystyki, która często działa dobrze również wtedy, gdy założenie nie jest spełnione. I które naruszenia mogą powodować problemy: Wiadomo również, że ciężkie ogony w dystrybucji prowadzą do problemów z LDA w praktyce.
    Niestety taka wiedza rzadko trafia do skróconego pisania artykułu, więc czytelnik nie ma pojęcia, czy autorzy zdecydowali się na swój model po dokładnym rozważeniu właściwości aplikacji, a także modelu, czy po prostu wybrali dowolny model natknęli się.

  • Czasami ewoluują praktyczne podejścia (heurystyka), które okazują się bardzo przydatne z praktycznego punktu widzenia, nawet jeśli potrzeba dziesięcioleci, zanim ich właściwości statystyczne zostaną zrozumiane (myślę o PLS).

  • Inną rzeczą, która się wydarza (i powinna się zdarzyć częściej) jest to, że możliwe konsekwencje naruszenia mogą być monitorowane (mierzone), co pozwala zdecydować, czy występuje problem, czy nie. W przypadku aplikacji może nie dbam o to, czy mój model jest optymalny, o ile jest wystarczająco dobry.
    W chemometrii skupiamy się raczej na prognozowaniu. Jest to bardzo przyjemna ucieczka w przypadku niespełnienia założeń modelowania: niezależnie od tych założeń możemy zmierzyć, czy model działa dobrze. Z punktu widzenia praktyka powiedziałbym, że możesz robić, co chcesz, podczas modelowania, jeśli robisz to i zgłaszasz uczciwą najnowocześniejszą walidację.
    W przypadku analizy chemometrycznej danych spektroskopowych jesteśmy w punkcie, w którym nie patrzymy na pozostałości, ponieważ wiemy, że modele łatwo się dopasowują. Zamiast tego patrzymy na wydajność danych testowych (i być może różnica w stosunku do danych treningowych predyktuje wydajność).

  • Istnieją inne sytuacje, w których nie jesteśmy w stanie dokładnie przewidzieć, ile naruszeń które założenie prowadzi do załamania modelu, ale jesteśmy w stanie zmierzyć konsekwencje poważnych naruszeń tego założenia raczej bezpośrednio.
    Następny przykład: dane badawcze, z którymi zazwyczaj mam do czynienia, to rzędy wielkości poniżej wielkości próby, które zalecają praktyczne reguły statystyczne dla poszczególnych przypadków (w celu zagwarantowania stabilnych szacunków). Jednak w książkach statystycznych zazwyczaj nie zależy na tym, co robić w praktyce, jeśli nie można spełnić tego założenia. Ani jak zmierzyć, czy rzeczywiście masz kłopoty w tym zakresie. Ale: takie pytania są traktowane w bardziej stosowanych dyscyplinach. Okazuje się, że często dość łatwo jest bezpośrednio zmierzyć stabilność modelu lub przynajmniej to, czy twoje prognozy są niestabilne (przeczytaj tutaj na CV na temat walidacji ponownego próbkowania i stabilności modelu). Są też sposoby na stabilizację modeli niestabilnych (np. Pakowanie).

  • Jako przykład „drugiej linii obrony” rozważ walidację ponownego próbkowania. Najczęstszym i najsilniejszym założeniem jest to, że wszystkie modele zastępcze są równoważne modelowi wyuczonemu na całym zestawie danych. Jeśli założenie to zostanie naruszone, otrzymamy znane uprzedzenie pesymistyczne. Druga linia mówi, że przynajmniej modele zastępcze są sobie równoważne, więc możemy połączyć wyniki testu.


Na koniec chciałbym zachęcić „naukowców zajmujących się klientami” i statystyków, aby rozmawiali ze sobą więcej . Analiza danych statystycznych IMHO nie jest czymś, co można zrobić w jeden sposób. W pewnym momencie każda ze stron będzie musiała zdobyć wiedzę na temat drugiej strony. Czasami pomagam w „tłumaczeniu” między statystykami a chemikami i biologami. Statystyka może wiedzieć, że model wymaga regulacji. Ale aby wybrać, powiedzmy, między LASSO a grzbietem, muszą znać właściwości danych, które może znać tylko chemik, fizyk lub biolog.

cbeleites obsługuje Monikę
źródło
6

Biorąc pod uwagę, że CV jest wypełniane przez statystyków i ludzi, którzy są ciekawi, jeśli nie kompetentni, w zakresie statystyki, nie jestem zaskoczony wszystkimi odpowiedziami podkreślającymi potrzebę zrozumienia założeń. Zasadniczo zgadzam się również z tymi odpowiedziami.

Biorąc jednak pod uwagę presję na publikację i niski standard rzetelności statystycznej, muszę powiedzieć, że odpowiedzi te są dość naiwne. Możemy powiedzieć ludziom, co powinni zrobić przez cały dzień (czyli sprawdzić założenie), ale to, co oni będą robić zależy wyłącznie od zachęt instytucjonalnych. Sam OP twierdzi, że udaje mu się opublikować 20 artykułów, nie rozumiejąc założenia modelu. Biorąc pod uwagę moje własne doświadczenie, nie trudno mi w to uwierzyć.

Dlatego chcę grać w adwokata diabła, bezpośrednio odpowiadając na pytanie OP. W żadnym wypadku nie jest to odpowiedź promująca „dobrą praktykę”, ale odzwierciedla ona sposób, w jaki rzeczy są praktykowane z nutą satyry.

Czy to warte dodatkowego wysiłku?

Nie, jeśli celem jest publikacja, nie warto poświęcać całego czasu na zrozumienie modelu. Postępuj zgodnie z powszechnym modelem w literaturze. W ten sposób: 1) twój artykuł łatwiej przejdzie recenzje, oraz 2) ryzyko narażenia się na „niekompetencję statystyczną” jest niewielkie, ponieważ narażenie cię oznacza odsłonięcie całej dziedziny, w tym wielu starszych osób.

Czy nie jest prawdopodobne, że większość wszystkich opublikowanych wyników nie przestrzega tych założeń i być może nawet ich nie oceniła? Jest to prawdopodobnie rosnący problem, ponieważ bazy danych rosną z każdym dniem i istnieje przekonanie, że im większe dane, tym mniej ważne są założenia i oceny.

Tak, prawdopodobne jest, że większość opublikowanych wyników nie jest prawdziwa. Im bardziej jestem zaangażowany w rzeczywiste badania, tym bardziej myślę, że to prawdopodobne.

Heisenberg
źródło
1
Myślę, że masz kilka bardzo dobrych punktów, które nie zostały wymienione powyżej; mianowicie presja na publikację i czasopisma, aby znaleźć artykuły do ​​wypełnienia czasopisma. To koszmar dla redaktorów, że nie mają artykułów do opublikowania, a naukowcy muszą publikować ze względu na swoje istnienie. Jednak z metodologicznego punktu widzenia, im bardziej angażuję się w badania, tym bardziej uważam, że większość opublikowanych wyników jest błędna / mniej poprawna / niedoskonała w różnym stopniu (z statystycznego punktu widzenia).
Adam Robinsson,
4

Krótka odpowiedź brzmi „nie”. Metody statystyczne opracowano na podstawie zestawów założeń, które należy spełnić, aby wyniki były ważne. Rozumie się zatem, że jeżeli założenia nie zostaną spełnione, wyniki mogą nie być prawidłowe. Oczywiście niektóre szacunki mogą być nadal wiarygodne, pomimo naruszenia założeń modelu. Na przykład logom wielomianowym wydaje się działać dobrze pomimo naruszenia założenia IIA (patrz rozprawa Kropko [2011] w odnośniku poniżej).

Jako naukowcy mamy obowiązek upewnić się, że przedstawione tam wyniki są prawidłowe, nawet jeśli ludzie w terenie nie dbają o to, czy założenia zostały spełnione. Wynika to z faktu, że nauka opiera się na założeniu, że naukowcy będą postępować we właściwy sposób, dążąc do faktów. Możemy zaufać naszym kolegom, aby sprawdzić swoją pracę przed wysłaniem go do czasopism. Możemy zaufać sędziom kompetentnie recenzję pracy zanim zostanie opublikowany. my zakładamyże zarówno badacze, jak i sędziowie wiedzą, co robią, aby można było zaufać wynikom prac opublikowanych w recenzowanych czasopismach. Wiemy, że nie zawsze jest to prawdą w prawdziwym świecie opartym na ogromnej ilości artykułów w literaturze, w których kręcisz głową i przewracasz oczami na wyraźnie wybrane wyniki w szanowanych czasopismach („ Jama opublikował ten artykuł ?! „).

Zatem nie, nie można przecenić znaczenia, zwłaszcza że ludzie ufają tobie - ekspertowi - że dołożyłeś należytej staranności. Możesz przynajmniej porozmawiać o tych naruszeniach w sekcji „ograniczenia” swojego artykułu, aby pomóc ludziom interpretować ważność twoich wyników.

Odniesienie

Kropko, J. 2011. Nowe podejście do dyskretnego wyboru i metodologii przekrojów szeregów czasowych w badaniach politycznych (rozprawa doktorska). UNC-Chapel Hill, Chapel Hill, Karolina Północna.

Markiz de Carabas
źródło
Zgadzam się z tymi cennymi komentarzami. Ale czy nie uważasz, że słowo „może” w „może nie być nieprawidłowe” jest powodem, dla którego ludzie nie przejmują się zbytnio nimi. Uważam, że samo istnienie hipotezy może wywoływać stronniczość analizy istotną dla tego zagadnienia.
Adam Robinsson
TIL Kropko jest użytkownikiem CV.
Przywróć Monikę
@AdamRobinsson, myślę, że ludzie nie przejmują się nimi, ponieważ nie do końca rozumieją, w jaki sposób lub dlaczego wyniki mogą być nieprawidłowe. Ogromna część problemu leży w edukacji statystycznej w dziedzinie „stosowanej”. Moje własne szkolenie dotyczy dziedziny stosowanej. Moje zajęcia z ekonometrii nie udawały, że są pełnymi klasami ekonometrii i były nazywane „zaawansowanymi metodami badawczymi” lub coś w tym rodzaju. Ponieważ nie było żadnych wstępnych wymagań statystycznych, profs zastanawiałby się nad założeniami modelu na korzyść spędzania więcej czasu na poleceniach Stata i interpretacji wyników.
Markiz de Carabas
@AdamRobinsson, Kiedy po raz pierwszy byłem na studiach magisterskich, dotyczyło to także dziedziny stosowanej, ale zajęcia były prowadzone przez biostatystów. Biostatystycy nauczyli dogłębnie założeń modelu i różnych kontroli, które powinniśmy wykonać, ponieważ niektórzy uczniowie w klasie byli studentami biostatystyki. Było jednak jasne, że reszta uczniów, którzy byli na tych zajęciach, nie rozumiała, dlaczego sprawdzamy te założenia, ponieważ profesorowie nie komunikowali znaczenia w języku, który uczniowie rozumieli.
Markiz de Carabas
1
@marquisdecarabas, zgodził się. Oczywiście ich niezrozumienie jest podstawową kwestią. Czasami jednak zastanawiam się, czy to nie z powodu ogromnej ilości czasu poświęconego na manipulowanie danymi, która wyczerpuje chęć przyjęcia założeń.
Adam Robinsson
2

Jeśli potrzebujesz bardzo zaawansowanych statystyk, najprawdopodobniej twoje dane to bałagan, co ma miejsce w przypadku większości nauk społecznych, nie mówiąc już o psychologii. W tych obszarach, w których masz dobre dane, potrzebujesz bardzo mało statystyk. Fizyka jest bardzo dobrym przykładem.

Rozważ ten cytat z Galileusza z jego słynnego eksperymentu przyspieszenia grawitacyjnego:

Wzięto kawałek drewnianej listwy lub kantówki o długości około 12 łokci, szerokości pół łokcia i grubości trzech palców; na jego krawędzi rozcięto kanał nieco więcej niż jeden palec; po uczynieniu tego rowka bardzo prostym, gładkim i wypolerowanym i po wyłożeniu go pergaminem, również tak gładkim i wypolerowanym, jak to możliwe, przetoczyliśmy wzdłuż niego twardą, gładką i bardzo okrągłą brązową kulkę. Po ustawieniu tej deski w pozycji pochyłej, podnosząc jeden koniec o jeden lub dwa łokcie nad drugim, przetoczyliśmy piłkę, jak właśnie mówiłem, wzdłuż kanału, zwracając uwagę, w sposób, który obecnie zostanie opisany, wymagany czas zrobić zejście. Powtórzyliśmy ten eksperyment więcej niż jeden raz, aby zmierzyć czas z dokładnością taką, że odchylenie między dwiema obserwacjami nigdy nie przekraczało jednej dziesiątej uderzenia tętna. Po wykonaniu tej operacji i upewnieniu się o jej niezawodności, przetoczyliśmy piłkę tylko o jedną czwartą długości kanału; i mierząc czas jego zejścia, znaleźliśmy dokładnie połowę tego pierwszego. Następnie wypróbowaliśmy inne odległości, porównując czas na całej długości z czasem dla połowy, lub z czasem dla dwóch trzecich lub trzech czwartych, a nawet dla dowolnej części; w takich eksperymentach, powtarzanych sto razy, zawsze stwierdziliśmy, że przemierzane przestrzenie były do ​​siebie jak kwadraty czasu, i było to prawdą dla wszystkich nachyleń płaszczyzny, tj. kanału, po którym przetoczyliśmy piłka. Zauważyliśmy również, że czasy opadania, dla różnych nachyleń płaszczyzny, miały dokładnie taki stosunek, który, jak zobaczymy później,

Do pomiaru czasu wykorzystaliśmy duże naczynie z wodą umieszczone na podwyższeniu; na dnie tego naczynia przylutowano rurkę o małej średnicy, dającą cienki strumień wody, który gromadziliśmy w małej szklance podczas każdego zejścia, czy to na całej długości kanału, czy na części jego długości; tak zebrana woda była ważona, po każdym zejściu, z bardzo dokładną wagą; różnice i stosunki tych wag dały nam różnice i stosunki czasów, i to z taką dokładnością, że chociaż operacja była powtarzana wiele, wiele razy, nie było znaczącej rozbieżności w wynikach .

Zwróć uwagę na wyróżniony przeze mnie tekst. To są dobre dane. Pochodzi z dobrze zaplanowanego eksperymentu opartego na dobrej teorii. Nie potrzebujesz statystyk, by wyodrębnić to, co cię interesuje. W tym czasie nie było statystyk, ani komputerów. Wynik? Całkiem fundamentalna relacja, która nadal istnieje i może być przetestowana w domu przez szóstoklasistę.

Ukradłem cytat z tej niesamowitej strony .

χ2

Aksakal
źródło
2
„W tych dziedzinach, w których masz dobre dane, potrzebujesz bardzo mało statystyk. Fizyka jest bardzo dobrym przykładem”. Rozumiem, o co chodzi, ale warto podkreślić, że fizycy cząstek mają zarówno bogactwo danych, jak i opracowali cały szereg zaawansowanych technik statystycznych do ich analizy.
Silverfish,
@Silverfish, czy możesz podać tam przykład zaawansowanych statystyk? To, co widziałem, nie zrobiło na mnie dużego wrażenia. Przeciętny doktorant ekon będzie znał więcej statystyk niż światowej klasy fizyk cząstek. Fizycy są naprawdę dobrzy w mechanice statystycznej, ale to bardzo różni się od tego, co nazwalibyśmy „zaawansowanymi statystykami”. Całkowicie się z tobą zgadzam, że ich zbiory danych są oszałamiające. Zaczęli używać dużych zbiorów danych, zanim „duże zbiory danych” stały się denerwującym słowem.
Aksakal
1
Mają dość interesujące podejście do „przedziału ufności”, szczególnie w przypadku parametrów, które nie mogą być ujemne, patrz np. En.wikipedia.org/wiki/CLs_upper_limits_%28particle_physics%29
Silverfish
(Myślę, że niesprawiedliwe może być wzięcie pierwszego dnia kursu wprowadzającego jako reprezentatywnego dla wszystkich statystyk potrzebnych do bycia fizykiem cząstek!)
Silverfish
@Aksakal, moje osobiste rozumienie jest takie, że metody bayesowskie robią cuda, gdy istnieje niewielka niepewność modelu, tj. Twarde nauki, w których modele są tym, co daje równanie Schrodingera, po około 5000 wymiarowej integracji. W ekonomii podejście bayesowskie prawie nie przetrwa, biorąc pod uwagę skupienie się badaczy empirycznych na wnioskach, które są odporne na potencjalnie poważne błędne specyfikacje modelu. (Jestem fizykiem na studiach licencjackich, chociaż nie uczyłem żadnej fizyki od ponad 20 lat, i ilościowym naukowcem społecznym według kierunku pracy.)
StasK
2

To pytanie wydaje się być przypadkiem uczciwości zawodowej.

Problem wydaje się polegać na tym, że albo: (a) nie ma wystarczającej krytycznej oceny analizy statystycznej przez laików lub (b) przypadek powszechnej wiedzy jest niewystarczający do zidentyfikowania błędu statystycznego (jak błąd typu 2)?

Wiem wystarczająco dużo o mojej dziedzinie wiedzy specjalistycznej, aby poprosić o opinie ekspertów, kiedy jestem blisko granicy tej wiedzy. Widziałem ludzi używających takich rzeczy jak test F (i R-kwadrat w Excelu) bez wystarczającej wiedzy.

Z mojego doświadczenia wynika, że ​​systemy edukacji, które z chęcią promują statystyki, nadmiernie uprościły narzędzia i zaniżały ryzyko / ograniczenia. Czy to wspólny temat, którego inni doświadczyli i wyjaśniliby sytuację?

MarkR
źródło