Lubię książkę G van Belle'a na temat statystycznych reguł kciuka oraz, w mniejszym stopniu, typowych błędów w statystyce (i jak ich uniknąć) autorstwa Phillipa I Gooda i Jamesa W. Hardina. Odnoszą się do typowych problemów podczas interpretacji wyników badań eksperymentalnych i obserwacyjnych oraz dostarczają praktycznych zaleceń dotyczących wnioskowania statystycznego lub analizy danych eksploracyjnych. Uważam jednak, że nieco brakuje „nowoczesnych” wytycznych, zwłaszcza w związku z coraz większym wykorzystaniem obliczeniowych i rzetelnych statystyk w różnych dziedzinach lub wprowadzeniem technik od społeczności uczących się maszynowo, np. W biostatystyce klinicznej lub epidemiologii genetycznej.
Oprócz sztuczek obliczeniowych lub typowych pułapek w wizualizacji danych, które można by rozwiązać w innym miejscu, chciałbym zapytać: jakie są najważniejsze zasady, które poleciłbyś w celu wydajnej analizy danych? ( jedna zasada na odpowiedź, proszę ).
Mam na myśli wytyczne, które możesz przekazać koledze, badaczowi bez silnego doświadczenia w modelowaniu statystycznym lub studentowi na kursie od średniego do zaawansowanego. Może to dotyczyć różnych etapów analizy danych, np. Strategii próbkowania, wyboru cech lub budowy modelu, porównania modeli, szacowania końcowego itp.
Zachowaj powtarzalność analizy. Recenzent, szef lub ktoś inny ostatecznie zapyta cię, jak dokładnie osiągnąłeś swój wynik - prawdopodobnie sześć miesięcy lub dłużej po przeprowadzeniu analizy. Będzie nie pamiętać, jak czyścić dane, co analiza zrobiłeś, dlaczego wybrał ten konkretny model został użyty ... i odbudowę tego wszystkiego jest ból.
Następstwo: użyj jakiegoś języka skryptowego, dodaj komentarze do skryptów analitycznych i zachowaj je. To, czego używasz (R, SAS, Stata, cokolwiek) jest mniej ważne niż posiadanie całkowicie powtarzalnego skryptu. Odrzuć środowiska, w których jest to niemożliwe lub niezręczne.
źródło
Nie ma darmowego lunchu
Duża część błędów statystycznych powstaje poprzez kliknięcie dużego błyszczącego przycisku o nazwie „Oblicz znaczenie” bez uwzględnienia ciężaru ukrytych założeń.
Powtarzać
Nawet jeśli w grę wchodzi pojedyncze połączenie z losowym generatorem, można mieć szczęście lub pecha i wyciągnąć błędne wnioski.
źródło
Jedna reguła na odpowiedź ;-)
Porozmawiaj ze statystykami przed przeprowadzeniem badania. Jeśli to możliwe, przed złożeniem wniosku o dotację. Pomóż mu / jej zrozumieć badany problem, uzyskaj informacje na temat analizy danych, które zamierzasz gromadzić, i zastanów się, co to oznacza dla twojego projektu badania i wymagań dotyczących danych. Być może statystyki facet / gal sugerują zrobienie modelu hierarchicznego w celu uwzględnienia tego, kto zdiagnozował pacjentów - wtedy trzeba śledzić, kto zdiagnozował kogo. Brzmi to trywialnie, ale o wiele lepiej pomyśleć o tym przed zebraniem danych (i nie uda się zebrać czegoś kluczowego) niż później.
Na pokrewną uwagę: wykonaj analizę mocy przed rozpoczęciem. Nic nie jest tak frustrujące, jak brak budżetu na wystarczająco dużą próbkę. Myśląc o tym, jakiego rozmiaru efektu oczekujesz, pamiętaj o uprzedzeniu publikacji - rozmiar efektu, który zamierzasz znaleźć, będzie prawdopodobnie mniejszy niż oczekiwano, biorąc pod uwagę (stronniczą) literaturę.
źródło
Jedną rzeczą, którą mówię moim uczniom, jest stworzenie odpowiedniego wykresu dla każdej wartości p. np. wykres rozrzutu, jeśli testują korelację, wykresy pudełkowe obok siebie, jeśli wykonują jednokierunkową ANOVA itp.
źródło
Jeśli decydujesz się na dwa sposoby analizy danych, wypróbuj je w obie strony i sprawdź, czy to robi różnicę.
Jest to przydatne w wielu kontekstach:
Nie powinno to zwalniać z przemyślenia problemu, ale przynajmniej daje poczucie stopnia, w jakim merytoryczne ustalenia są wiarygodne przy wyborze.
źródło
Zapytaj o swoje dane. W dzisiejszej erze taniej pamięci RAM często pracujemy na dużych ilościach danych. Jeden błąd „grubego palca” lub „utracone miejsce po przecinku” może łatwo zdominować analizę. Bez podstawowego sprawdzania rozsądku (lub kreślenia danych, jak sugerują inni tutaj), można zmarnować dużo czasu. Sugeruje to również stosowanie podstawowych technik „odporności” na wartości odstające.
źródło
Użyj oprogramowania, które pokazuje łańcuch logiki programowania od surowych danych, aż do końcowych analiz / wyników. Unikaj oprogramowania takiego jak Excel, w którym jeden użytkownik może popełnić niewykrywalny błąd w jednej komórce, który wykryje tylko ręczne sprawdzanie.
źródło
Zawsze zadawaj sobie pytanie „co oznaczają te wyniki i jak będą one wykorzystywane?”
Zwykle celem korzystania ze statystyk jest pomoc w podejmowaniu decyzji w warunkach niepewności. Dlatego ważne jest, aby mieć na uwadze: „Jakie decyzje zostaną podjęte w wyniku tej analizy i jak ta analiza wpłynie na te decyzje?” (np. opublikuj artykuł, zalecenie zastosowania nowej metody, zapewnij Y dofinansowania w wysokości X, uzyskaj więcej danych, zgłoś szacunkową ilość jako E itp. itd.)
Jeśli nie uważasz, że należy podjąć jakąkolwiek decyzję, to zastanawiasz się, dlaczego przeprowadzasz analizę w pierwszej kolejności (ponieważ analiza jest dość droga). Uważam statystyki za „uciążliwe”, ponieważ są one środkiem do celu, a nie samym celem. Moim zdaniem określamy tylko niepewność, abyśmy mogli wykorzystać ją do podejmowania decyzji, które dokładnie wyjaśniają tę niepewność.
Myślę, że jest to jeden z powodów, dla których uproszczenie jest ogólnie dobrą polityką, ponieważ zazwyczaj o wiele łatwiej jest odnieść proste rozwiązanie do realnego świata (a zatem do środowiska, w którym podejmowana jest decyzja) niż rozwiązanie złożone . Zazwyczaj łatwiej jest zrozumieć ograniczenia prostej odpowiedzi. Następnie przechodzisz do bardziej złożonych rozwiązań, gdy rozumiesz ograniczenia prostego rozwiązania i jak rozwiązuje je złożone.
źródło
Może istnieć długa lista, ale kilka: (bez określonej kolejności)
Wartość p NIE jest prawdopodobieństwem. W szczególności nie jest prawdopodobne popełnienie błędu typu I. Podobnie CI nie mają probabilistycznej interpretacji dla danych. Mają one zastosowanie do powtarzanych eksperymentów.
Problem związany z wariancją dominuje tendencyjność przez większość czasu w praktyce, więc tendencyjne oszacowanie przy małej wariancji jest lepsze niż oszacowanie bezstronne przy dużej wariancji (przez większość czasu).
Dopasowanie modelu jest procesem iteracyjnym. Przed analizą danych należy zrozumieć źródło danych i możliwe modele, które pasują lub nie pasują do opisu. Spróbuj także modelować wszelkie problemy projektowe w swoim modelu.
Skorzystaj z narzędzi wizualizacji, spójrz na dane (w celu wykrycia ewentualnych nieprawidłowości, oczywistych trendów itp.), Aby je przeanalizować). Użyj metod wizualizacji (jeśli to możliwe), aby zobaczyć, jak model pasuje do tych danych.
Wreszcie, używaj oprogramowania statystycznego do tego, do czego są stworzone (aby ułatwić zadanie obliczeń), nie zastępują one ludzkiego myślenia.
źródło
W przypadku organizacji / zarządzania danymi upewnij się, że podczas generowania nowych zmiennych w zbiorze danych (na przykład obliczania indeksu masy ciała na podstawie wzrostu i masy) oryginalne zmienne nigdy nie zostaną usunięte. Podejście nieniszczące jest najlepsze z punktu widzenia odtwarzalności. Nigdy nie wiadomo, kiedy można źle wprowadzić polecenie, a następnie trzeba powtórzyć generowanie zmiennych. Bez oryginalnych zmiennych stracisz dużo czasu!
źródło
Zastanów się dobrze nad procesem generowania danych (DGP). Jeśli model, którego chcesz użyć, nie odzwierciedla MZD, musisz znaleźć nowy model.
źródło
W przypadku histogramów należy stosować zasadę dotyczącą liczby pojemników na histogramie :
pierwiastek kwadratowy z liczby punktów danych
źródło
Pomimo coraz większych zestawów danych i wydajniejszego oprogramowania, nadmiernie dopasowane modele stanowią poważne zagrożenie dla badaczy, zwłaszcza tych, którzy nie zostali jeszcze spaleni przez nadmierne dopasowanie. Nadmierne dopasowanie oznacza, że dopasowałeś coś bardziej skomplikowanego niż twoje dane i najnowszy stan techniki. Podobnie jak miłość czy piękno, trudno je zdefiniować, nie mówiąc już o formalnym zdefiniowaniu, ale łatwiej je rozpoznać.
Minimalna reguła wynosi 10 punktów danych dla każdego parametru oszacowanego dla czegoś takiego jak regresja klasyczna i uważaj na konsekwencje, jeśli ją zignorujesz. W przypadku innych analiz zwykle potrzebujesz znacznie więcej, aby wykonać dobrą robotę, szczególnie jeśli w danych występują rzadkie kategorie.
Nawet jeśli możesz łatwo dopasować model, powinieneś stale martwić się, co to znaczy i jak daleko jest on odtwarzalny nawet przy bardzo podobnym zestawie danych.
źródło
źródło
Jeśli model nie zbiegnie się łatwo i szybko, może to być wina oprogramowania. Jednak znacznie częściej zdarza się, że dane nie są odpowiednie dla modelu lub model nie jest odpowiedni dla danych. Trudno powiedzieć, którzy empirycy i teoretycy mogą mieć różne poglądy. Ale myślenie przedmiotowe, naprawdę patrzenie na dane i ciągłe myślenie o interpretacji modelu pomagają w jak największym stopniu. Przede wszystkim wypróbuj prostszy model, jeśli skomplikowany model się nie zbiegnie.
Nie ma korzyści w wymuszaniu zbieżności lub deklarowaniu zwycięstwa i przyjmowaniu wyników po wielu iteracjach, ale zanim twój model naprawdę się zbiegnie. W najlepszym razie oszukasz się, jeśli to zrobisz.
źródło
W regresji zmiennych instrumentalnych zawsze sprawdzaj łączne znaczenie swoich instrumentów. Zasada praktyczna Staiger-Stock mówi, że statystyka F mniejsza niż 10 jest niepokojąca i wskazuje, że twoje instrumenty mogą być słabe, tj. Nie są wystarczająco skorelowane ze zmienną endogenną. Nie oznacza to jednak automatycznie, że F powyżej 10 gwarantuje mocne instrumenty. Staiger i Stock (1997) wykazali, że techniki zmiennych instrumentalnych, takie jak 2SLS, mogą być bardzo tendencyjne w „małych” próbkach, jeśli instrumenty są tylko słabo skorelowane ze zmienną endogenną. Ich przykładem było badanie przeprowadzone przez Angrista i Kruegera (1991), którzy mieli ponad 300 000 obserwacji - niepokojący fakt dotyczący pojęcia „małych” próbek.
źródło
Brak kryteriów wyboru kryteriów informacyjnych.
Kiedy ktoś powie coś w stylu „IC? Wskazuje to, ale często wiadomo, że daje złe wyniki” (gdzie? To jakikolwiek list, który lubisz), wiesz, że będziesz musiał również pomyśleć o modelu, a zwłaszcza czy to robi sens naukowy lub praktyczny.
Żadna algebra nie może ci tego powiedzieć.
źródło
Przeczytałem to gdzieś (prawdopodobnie na krzyżu) i nigdzie nie byłem w stanie jej znaleźć, więc proszę ...
Jeśli odkryłeś interesujący wynik, prawdopodobnie jest to zły.
Bardzo łatwo jest się ekscytować perspektywą oszałamiającej wartości p lub prawie idealnego błędu weryfikacji krzyżowej. Osobiście ekstatycznie przedstawiłem kolegom niesamowite (fałszywe) wyniki, aby je wycofać. Najczęściej, jeśli wygląda zbyt dobrze, aby mogło być prawdziwe ...
'skaza prawda. „Cała prawda.
źródło
Staraj się być dzielnym, a nie cnotliwym. To znaczy, nie pozwól, aby drobne oznaki nie-normalności, nie-niezależności lub nieliniowości itp. Blokowały Twoją drogę, jeśli takie wskazówki należy zignorować, aby dane mówiły głośno i wyraźnie . - W języku duńskim przymiotniki to „dristig” vs. „dydig”.
źródło
Analizując dane podłużne, należy sprawdzić, czy zmienne są kodowane w ten sam sposób w każdym okresie.
Pisząc moją rozprawę, która wymagała analizy danych wtórnych, minął tydzień całkowitej zdumienia o 1-jednostkową zmianę średnich wyników depresji w skądinąd stabilnej średniej z roku: okazało się, że jeden z lat zestaw danych, pozycje skali dla zatwierdzonego przyrządu zostały zakodowane 1–4 zamiast 0–3.
źródło
Twoja hipoteza powinna decydować o wyborze modelu, a nie na odwrót.
Parafrazując Maslowa, jeśli jesteś młotem, wszystko wygląda jak gwóźdź. Określone modele mają wbudowane oślepiające założenia i założenia dotyczące świata: na przykład modele niedynamiczne dławią informacje zwrotne na temat wyników leczenia.
źródło
Użyj symulacji, aby sprawdzić, gdzie struktura modelu może tworzyć „wyniki”, które są po prostu matematycznymi artefaktami założeń modelu
Przeprowadź analizę zmienionych losowo zmiennych lub zmiennych symulowanych, o których wiadomo, że nie są ze sobą powiązane. Czy robi to wiele razy i porównuje uśrednione oceny punktowe (i przedziały ufności lub wiarygodne) z wynikami uzyskanymi na rzeczywistych danych: czy wszystkie one są tak różne?
źródło
Jestem analitykiem danych, a nie statystykiem, ale takie są moje sugestie.
1) Przed analizą danych upewnij się, że założenia Twojej metody są prawidłowe. Gdy zobaczysz wyniki, trudno będzie je zapomnieć nawet po rozwiązaniu problemów i zmianie wyników.
2) Pomaga poznać twoje dane. Uruchomiłem szeregi czasowe i uzyskałem wynik, który nie miał sensu, biorąc pod uwagę dane z ostatnich lat. Przejrzałem metody w świetle tego i odkryłem, że uśrednianie modeli w metodzie zniekształcało wyniki dla jednego okresu (i nastąpiło pęknięcie strukturalne).
3) Uważaj na praktyczne zasady. Odzwierciedlają doświadczenia poszczególnych badaczy z ich własnych danych, a jeśli ich dziedzina bardzo różni się od twojej, ich wnioski mogą nie być poprawne dla twoich danych. Co więcej, i był to dla mnie szok, statystycy często nie zgadzają się w kluczowych punktach.
4) Spróbuj przeanalizować dane różnymi metodami i sprawdź, czy wyniki są podobne. Zrozum, że żadna metoda nie jest idealna i uważaj, aby sprawdzić, czy możesz naruszyć założenia.
źródło