Zalecenia dotyczące nietechnicznych, ale głębokich artykułów w statystyce

24

Inspiracja do tego pytania pochodzi z dobrze znanego artykułu Leo-Breimana znanego z artykułu Modelowanie statystyczne: Dwie kultury (dostępny otwarty dostęp). Autor porównuje to, co widzi jako dwa odmienne podejścia do analizy danych, dotykające kluczowych pomysłów w klasycznej statystyce i uczeniu maszynowym. Jednak artykuł jest zrozumiały dla szerokiego grona odbiorców - zapewne dla każdego, kto pracuje z danymi, niezależnie od tego, czy zajmował się statystykami na poziomie doktoranckim, czy też odbył jedynie kurs wprowadzający. Ponadto artykuł jest stymulujący . Oznacza to, że chętnie generuje dyskusję (o czym świadczy seria ożywionych komentarzy opublikowanych w tym samym numerze).

Jestem ciekawy, aby odkryć więcej artykułów o tych cechach. To znaczy artykuły, które:

  • Dotykaj podstawowych pojęć w statystyce / analizie danych
  • Może być zrozumiany przez szerokie grono odbiorców pod względem zróżnicowania w zakresie badań i formalnego szkolenia statystycznego
  • Stymuluj dyskusję, czy to poprzez wgląd, czy kontrowersje
Richard Border
źródło
2
Dotychczasowe odpowiedzi były bardzo interesujące! Niech nadchodzą. Oczywiście nie przyjmuję żadnej odpowiedzi podanej
Richard Border,
2
Nie ma Royal Road do statystyk.
Aksakal

Odpowiedzi:

15

Shmueli, Galit. „Wyjaśniać lub przewidywać?” Nauki statystyczne (2010): 289–310.

Uważam, że pasuje do twoich trzech punktów.

Mówi o modelowaniu objaśniającym kontra modelowaniu predykcyjnym (terminy powinny być oczywiste) i zauważa, że ​​różnice między nimi często nie są rozpoznawane.

Podnosi to kwestię, że w zależności od celu modelowania (objaśniający vs. predykcyjny) można zastosować różne strategie budowania modelu, a różne modele można wybrać jako „najlepszy” model.

Jest to dość obszerny artykuł i przyjemna lektura. Dyskusję na ten temat podsumowuje post na blogu Roba J. Hyndmana . Powiązana dyskusja na temat Cross Validated znajduje się w tym wątku (z dużą ilością pozytywnych opinii). Kolejne (bez odpowiedzi) pytanie na ten sam temat jest następujące .

Richard Hardy
źródło
12

Lehmann, Erich L. "Teorie testowania hipotez Fishera, Neymana-Pearsona: Jedna teoria czy dwie ?." Journal of American Statistics Association 88.424 (1993): 1242-1249.

Nie wiadomo wielu, ale kiedy giganci zawodu byli jeszcze wśród nas, nie dogadywali się ze sobą. Debata na temat podstaw testowania hipotez, niezależnie od tego, czy powinna ona być indukcyjna, czy dedukcyjna, dostrzegła kilka dość poważnych zniewag pomiędzy Fisherem z jednej strony a Neymanem-Pearsonem z drugiej. I problem nigdy nie został rozwiązany za ich życia.

Długo po tym, jak wszystkie minęły, Lehmann próbuje wypełnić lukę i moim zdaniem wykonuje dobrą robotę, ponieważ pokazuje, że podejścia te uzupełniają się, a nie wykluczają. Tak przy okazji, uczą się tego studenci. Musisz wiedzieć kilka podstawowych rzeczy na temat testowania hipotez, ale w przeciwnym razie możesz bez problemu śledzić pracę.

JohnK
źródło
1
Dzięki za cytat. Kiedyś zadałem pytanie na temat rzekomego konfliktu między podejściami F i NP: stats.stackexchange.com/questions/112769 i pomimo dużej uwagi i pozytywnych opinii wciąż nie przekonuje mnie żadna z istniejących odpowiedzi (i nie zaakceptować dowolny). Planuję wrócić do tego wątku i poczytać / wystawić nagrodę lub coś takiego, ale nigdy nie znajdę czasu; jeśli znasz artykuł Lehmanna, zachęcam do udzielenia odpowiedzi.
ameba mówi Przywróć Monikę
@amoeba Czytałem raz po raz artykuł Lehmanna, jest bardzo czytelny, ale nie sądzę, że zbadałem sprawę tak dokładnie jak ty. Więc kiedy będziesz miał czas, dobrym pomysłem byłoby przejrzenie go i zobaczenie jego punktu widzenia. Dyskusja na temat problemu Behrensa-Fishera jest szczególnie odkrywcza.
JohnK
Dzięki za udostępnienie. Może wszystko, co słyszałem, było raczej jednostronne, ale wszystko, co słyszałem o Sir Ronie Fisherze, to to, że był raczej nieprzyjemnym człowiekiem, z którym można się przynajmniej zmagać. Miał także wątpliwe opinie na temat związku między używaniem tytoniu a rakiem płuc .
Phil
„Lżejszą” alternatywą dla artykułu jest Christensen, Ronald. „Testowanie Fishera, Neymana, Pearsona i Bayesa”. The American Statistician 59.2 (2005): 121-126. Uważam to za przyjemne.
Richard Hardy
9

Wilk, MB i Gnanadesikan, R. 1968. Metody kreślenia prawdopodobieństwa do analizy danych. Biometrika 55: 1-17. Jstor link, jeśli masz dostęp

Ten artykuł ma w chwili pisania prawie 50 lat, ale wciąż wydaje się świeży i innowacyjny. Korzystając z bogatej gamy interesujących i istotnych przykładów, autorzy ujednolicają i rozszerzają różnorodne pomysły dotyczące kreślenia i porównywania rozkładów za pomocą schematów QQ (kwantyl-kwantyl) i PP (prawdopodobieństwo-prawdopodobieństwo). Rozkłady tutaj oznaczają zasadniczo wszelkie zbiory danych lub liczb (reszty, kontrasty itp.) Powstałe w ich analizach.

Poszczególne wersje tych wykresów sięgają kilku dziesięcioleci, oczywiście normalne prawdopodobieństwo lub wykresy normalnych wyników. które są w tych terminach wykresami kwantylowo-kwantylowymi, a mianowicie wykresami zaobserwowanych kwantyli w porównaniu z oczekiwanymi lub teoretycznymi kwantylami z próbki tej samej wielkości z rozkładu normalnego (Gaussa). Ale autorzy pokazują, skromnie, ale pewnie, że te same pomysły można łatwo rozszerzyć - i praktycznie za pomocą nowoczesnego komputera - do badania innych rodzajów kwantyli i automatycznego rysowania wyników.

Autorzy, wówczas obaj w Bell Telephone Laboratories, cieszyli się najnowocześniejszymi urządzeniami obliczeniowymi, a nawet wiele uniwersytetów i instytucji badawczych zajęło im dekadę. Nawet teraz pomysły zawarte w tym dokumencie zasługują na szersze zastosowanie niż są. To rzadki tekst wprowadzający lub kurs, który zawiera którekolwiek z tych pomysłów poza normalnym spisem QQ. Histogramy i wykresy pudełkowe (każdy często bardzo użyteczny, ale mimo to każdy niewygodny i ograniczony na kilka sposobów) pozostają głównymi zszywkami po wprowadzeniu wykresów dystrybucji.

Na poziomie osobistym, mimo że główne idee tego artykułu były znane przez większą część mojej kariery, lubię go czytać co kilka lat. Jednym z dobrych powodów jest przyjemność ze sposobu, w jaki autorzy przedstawiają proste, ale potężne pomysły z dobrym skutkiem na poważnych przykładach. Innym dobrym powodem jest sposób, w jaki artykuł, który jest zwięźle napisany, bez najmniejszego śladu bombasta, wskazuje na rozszerzenie głównych idei. Nie raz odkryłem zwroty akcji dotyczące głównych pomysłów zawartych w podpowiedziach i dalszych komentarzach.

To nie jest tylko praca dla osób szczególnie zainteresowanych grafiką statystyczną, choć moim zdaniem powinna ona obejmować wszystkich zainteresowanych statystykami dowolnego rodzaju. Promuje sposoby myślenia o rozkładach, które są praktycznie pomocne w rozwijaniu umiejętności i spostrzeżeń statystycznych.

Nick Cox
źródło
2
To świetny wybór. Przeczytałem to kilka razy - jak tylko zobaczyłem nazwiska autorów w twojej odpowiedzi, wiedziałem, który to jest artykuł i od razu chciałem go przeczytać ponownie. Myślę, że mam gdzieś tutaj kopię ...
Glen_b
6

Ioannidis, John PA „Dlaczego większość opublikowanych wyników badań jest fałszywa”. PLoS Medicine (2005)

Ioannidis, John PA „Jak sprawić, by więcej opublikowanych badań było prawdziwych”. PLoS Medicine (2014)

Należy przeczytać dla każdego badacza / statystyki / analityka, który chce uniknąć niebezpieczeństw związanych z niewłaściwym wykorzystywaniem i interpretacją statystyk w badaniach. Artykuł z 2005 r. Był najczęściej czytany w historii Publicznej Biblioteki Naukowej i wywołał wiele kontrowersji i dyskusji.

LindsayL
źródło
6

Tukey, JW (1960) Wnioski a decyzje Technometrics 2 (4): 423–433

Artykuł ten oparty jest na przemówieniu Tukeya po obiedzie i jest komentarz, że „nastąpiła znaczna dyskusja”, więc odpowiada co najmniej jednej trzeciej punktów kropki.

Po raz pierwszy przeczytałem ten artykuł, kiedy kończyłem doktorat z inżynierii i doceniłem jego zbadanie praktycznych aspektów analizy danych.

Tony Ladson
źródło
Link nie działa. To działa
kjetil b halvorsen
5

Efron i Morris, 1977, Paradoks statystyczny Steina .

Efron i Morris napisali serię artykułów technicznych na temat estymatora Jamesa-Steina w latach siedemdziesiątych, określając „paradoks” Steina w kontekście empirycznego Bayesa. Artykuł z 1977 roku jest popularnym tekstem opublikowanym w Scientific American .

To świetna lektura.

ameba mówi Przywróć Monikę
źródło
3

Cóż, pomimo większego zainteresowania Royem Modelem wśród ekonomistów (ale mogę się mylić), jego oryginalny artykuł „Some Thoughts on the Distribution of Earnings” z 1951 r. Jest wnikliwą i nietechniczną dyskusją na temat problemu samoselekcji. Ten artykuł był inspiracją dla wybranych modeli opracowanych przez nagrodę Nobla Jamesa Heckmana. Chociaż stary, myślę, że pasuje do twoich trzech punktów.

Rodrigo Remedio
źródło