Inspiracja do tego pytania pochodzi z dobrze znanego artykułu Leo-Breimana znanego z artykułu Modelowanie statystyczne: Dwie kultury (dostępny otwarty dostęp). Autor porównuje to, co widzi jako dwa odmienne podejścia do analizy danych, dotykające kluczowych pomysłów w klasycznej statystyce i uczeniu maszynowym. Jednak artykuł jest zrozumiały dla szerokiego grona odbiorców - zapewne dla każdego, kto pracuje z danymi, niezależnie od tego, czy zajmował się statystykami na poziomie doktoranckim, czy też odbył jedynie kurs wprowadzający. Ponadto artykuł jest stymulujący . Oznacza to, że chętnie generuje dyskusję (o czym świadczy seria ożywionych komentarzy opublikowanych w tym samym numerze).
Jestem ciekawy, aby odkryć więcej artykułów o tych cechach. To znaczy artykuły, które:
- Dotykaj podstawowych pojęć w statystyce / analizie danych
- Może być zrozumiany przez szerokie grono odbiorców pod względem zróżnicowania w zakresie badań i formalnego szkolenia statystycznego
- Stymuluj dyskusję, czy to poprzez wgląd, czy kontrowersje
źródło
Odpowiedzi:
Shmueli, Galit. „Wyjaśniać lub przewidywać?” Nauki statystyczne (2010): 289–310.
Uważam, że pasuje do twoich trzech punktów.
Mówi o modelowaniu objaśniającym kontra modelowaniu predykcyjnym (terminy powinny być oczywiste) i zauważa, że różnice między nimi często nie są rozpoznawane.
Podnosi to kwestię, że w zależności od celu modelowania (objaśniający vs. predykcyjny) można zastosować różne strategie budowania modelu, a różne modele można wybrać jako „najlepszy” model.
Jest to dość obszerny artykuł i przyjemna lektura. Dyskusję na ten temat podsumowuje post na blogu Roba J. Hyndmana . Powiązana dyskusja na temat Cross Validated znajduje się w tym wątku (z dużą ilością pozytywnych opinii). Kolejne (bez odpowiedzi) pytanie na ten sam temat jest następujące .
źródło
Nie wiadomo wielu, ale kiedy giganci zawodu byli jeszcze wśród nas, nie dogadywali się ze sobą. Debata na temat podstaw testowania hipotez, niezależnie od tego, czy powinna ona być indukcyjna, czy dedukcyjna, dostrzegła kilka dość poważnych zniewag pomiędzy Fisherem z jednej strony a Neymanem-Pearsonem z drugiej. I problem nigdy nie został rozwiązany za ich życia.
Długo po tym, jak wszystkie minęły, Lehmann próbuje wypełnić lukę i moim zdaniem wykonuje dobrą robotę, ponieważ pokazuje, że podejścia te uzupełniają się, a nie wykluczają. Tak przy okazji, uczą się tego studenci. Musisz wiedzieć kilka podstawowych rzeczy na temat testowania hipotez, ale w przeciwnym razie możesz bez problemu śledzić pracę.
źródło
Wilk, MB i Gnanadesikan, R. 1968. Metody kreślenia prawdopodobieństwa do analizy danych. Biometrika 55: 1-17. Jstor link, jeśli masz dostęp
Ten artykuł ma w chwili pisania prawie 50 lat, ale wciąż wydaje się świeży i innowacyjny. Korzystając z bogatej gamy interesujących i istotnych przykładów, autorzy ujednolicają i rozszerzają różnorodne pomysły dotyczące kreślenia i porównywania rozkładów za pomocą schematów QQ (kwantyl-kwantyl) i PP (prawdopodobieństwo-prawdopodobieństwo). Rozkłady tutaj oznaczają zasadniczo wszelkie zbiory danych lub liczb (reszty, kontrasty itp.) Powstałe w ich analizach.
Poszczególne wersje tych wykresów sięgają kilku dziesięcioleci, oczywiście normalne prawdopodobieństwo lub wykresy normalnych wyników. które są w tych terminach wykresami kwantylowo-kwantylowymi, a mianowicie wykresami zaobserwowanych kwantyli w porównaniu z oczekiwanymi lub teoretycznymi kwantylami z próbki tej samej wielkości z rozkładu normalnego (Gaussa). Ale autorzy pokazują, skromnie, ale pewnie, że te same pomysły można łatwo rozszerzyć - i praktycznie za pomocą nowoczesnego komputera - do badania innych rodzajów kwantyli i automatycznego rysowania wyników.
Autorzy, wówczas obaj w Bell Telephone Laboratories, cieszyli się najnowocześniejszymi urządzeniami obliczeniowymi, a nawet wiele uniwersytetów i instytucji badawczych zajęło im dekadę. Nawet teraz pomysły zawarte w tym dokumencie zasługują na szersze zastosowanie niż są. To rzadki tekst wprowadzający lub kurs, który zawiera którekolwiek z tych pomysłów poza normalnym spisem QQ. Histogramy i wykresy pudełkowe (każdy często bardzo użyteczny, ale mimo to każdy niewygodny i ograniczony na kilka sposobów) pozostają głównymi zszywkami po wprowadzeniu wykresów dystrybucji.
Na poziomie osobistym, mimo że główne idee tego artykułu były znane przez większą część mojej kariery, lubię go czytać co kilka lat. Jednym z dobrych powodów jest przyjemność ze sposobu, w jaki autorzy przedstawiają proste, ale potężne pomysły z dobrym skutkiem na poważnych przykładach. Innym dobrym powodem jest sposób, w jaki artykuł, który jest zwięźle napisany, bez najmniejszego śladu bombasta, wskazuje na rozszerzenie głównych idei. Nie raz odkryłem zwroty akcji dotyczące głównych pomysłów zawartych w podpowiedziach i dalszych komentarzach.
To nie jest tylko praca dla osób szczególnie zainteresowanych grafiką statystyczną, choć moim zdaniem powinna ona obejmować wszystkich zainteresowanych statystykami dowolnego rodzaju. Promuje sposoby myślenia o rozkładach, które są praktycznie pomocne w rozwijaniu umiejętności i spostrzeżeń statystycznych.
źródło
Ioannidis, John PA „Dlaczego większość opublikowanych wyników badań jest fałszywa”. PLoS Medicine (2005)
Ioannidis, John PA „Jak sprawić, by więcej opublikowanych badań było prawdziwych”. PLoS Medicine (2014)
Należy przeczytać dla każdego badacza / statystyki / analityka, który chce uniknąć niebezpieczeństw związanych z niewłaściwym wykorzystywaniem i interpretacją statystyk w badaniach. Artykuł z 2005 r. Był najczęściej czytany w historii Publicznej Biblioteki Naukowej i wywołał wiele kontrowersji i dyskusji.
źródło
Tukey, JW (1960) Wnioski a decyzje Technometrics 2 (4): 423–433
Artykuł ten oparty jest na przemówieniu Tukeya po obiedzie i jest komentarz, że „nastąpiła znaczna dyskusja”, więc odpowiada co najmniej jednej trzeciej punktów kropki.
Po raz pierwszy przeczytałem ten artykuł, kiedy kończyłem doktorat z inżynierii i doceniłem jego zbadanie praktycznych aspektów analizy danych.
źródło
Efron i Morris, 1977, Paradoks statystyczny Steina .
Efron i Morris napisali serię artykułów technicznych na temat estymatora Jamesa-Steina w latach siedemdziesiątych, określając „paradoks” Steina w kontekście empirycznego Bayesa. Artykuł z 1977 roku jest popularnym tekstem opublikowanym w Scientific American .
To świetna lektura.
źródło
Cóż, pomimo większego zainteresowania Royem Modelem wśród ekonomistów (ale mogę się mylić), jego oryginalny artykuł „Some Thoughts on the Distribution of Earnings” z 1951 r. Jest wnikliwą i nietechniczną dyskusją na temat problemu samoselekcji. Ten artykuł był inspiracją dla wybranych modeli opracowanych przez nagrodę Nobla Jamesa Heckmana. Chociaż stary, myślę, że pasuje do twoich trzech punktów.
źródło