Jakie są interesujące i dobrze napisane artykuły dotyczące statystyki stosowanej?

28

Jakie są dobre artykuły opisujące zastosowania statystyk, które byłyby zabawne i pouczające? Żeby było jasne, tak naprawdę nie szukam prac opisujących nowe metody statystyczne (np. Artykuł o regresji kątowej), ale raczej prac opisujących sposoby rozwiązywania rzeczywistych problemów.

Na przykład jeden papier, który pasowałby do tego, czego szukam, to papier klimatyczny z drugiego Cross-Validated Journal Club . Poszukuję raczej artykułów statystycznych, a nie maszynowych, ale myślę, że to trochę niewyraźne rozróżnienie (dokumenty Netflix Prize sklasyfikowałbym jako trochę na granicy, a artykuł na temat analizy sentymentów jako coś ja nie szukam).

Pytam, ponieważ większość zastosowań statystyk, które widziałem, to albo małe fragmenty, które widziałeś w podręcznikach, albo rzeczy związane z moją własną pracą, więc chciałbym trochę rozwinąć.

raegtin
źródło
4
Czy masz jakieś ogólne zainteresowania, które chciałbyś wymienić? To może pomóc w uzyskaniu wskazówek. Zastosowania statystyki stały się dość powszechne w niezwykle szerokim zakresie dziedzin.
kardynał
1
@ cardinal, nie, nie ma szczególnych zainteresowań - celem było oderwanie się od tego, co zwykle czytam, więc staram się nie ograniczać żadnych odpowiedzi. (Może to sprawia, że ​​pytanie jest nieco zbyt ogólne, ale wydaje mi się, że szukam osobistych list „najlepszych”).
raegtin
1
Klasyczna lektura obowiązkowa, szczególnie dlatego, że wszystkie wprowadzone modele prawdopodobieństwa są motywowane „fizycznym” rozumowaniem problemu, a nie wyciągane z kapelusza, to: F. Mosteller, DL Wallace (1963): Wnioskowanie na temat autorstwa: Porównawcze badanie metod dyskryminacji zastosowanych do autorstwa spornych artykułów federalistycznych , J. Am. Stat. Doc. 58 (302), s. 275–309. Również pod tym linkiem .
pglpm

Odpowiedzi:

12

Trochę trudno jest mi zobaczyć, który papier może Cię zainteresować, więc pozwól mi zaproponować następujące z literatury psychometrycznej:

Borsboom, D. (2006). Atak psychometrów . Psychometrika , 71 , 425–440.

do ubierania sceny (dlaczego musimy stosować modele statystyczne, które lepiej odzwierciedlają podstawowe hipotezy powszechnie spotykane w badaniach psychologicznych?), oraz

Borsboom, D. (2008). Perspektywy psychometryczne w systemach diagnostycznych . Journal of Clinical Psychology , 64 , 1089-1108.

dla zastosowanej perspektywy medycyny diagnostycznej (przejście od oceny tak / nie stosowanej w DSM-IV do podejścia „wymiarowego” przeznaczonego dla DSM-V). Większy przegląd modeli zmiennych utajonych w badaniach biomedycznych, które lubię to:

Rabe-Hesketh, S. i Skrondal, A. (2008). Klasyczne modele zmiennych utajonych do badań medycznych . Metody statystyczne w badaniach medycznych , 17 (1) , 5-32.

chl
źródło
@ chl (+1) te dokumenty Borsboom były wspaniałe, naprawdę poszerzyły moje myślenie o pomiarze
richiemorrisroe
+1, lubię też Borsboom. Dla osób zainteresowanych artykułem The Attack zainteresowałbym się także „The Concept of Validity”, rhowell.ba.ttu.edu/borsboomValidity2004.pdf . Chociaż jest to trochę bardziej szczegółowe, więc nie jest tak łatwe do naśladowania, jak artykuł o ataku.
Andy W
10

Oto pięć najczęściej cytowanych artykułów z ostatnich 40 lat Journal of the Royal Statistics Society, Series C: Applied Statistics, z wyraźnym zastosowaniem w tytule, które przykuło moją uwagę podczas skanowania w wynikach wyszukiwania Web of Knowledge:

onestop
źródło
9

Na szerszym poziomie poleciłbym artykuł [„Modelowanie statystyczne: dwie kultury”] [1] autorstwa Leo Breimana w 2001 r. (Cytowany 515). Wiem, że ostatnio był on objęty przez klub czasopism i uważam, że jest naprawdę interesujący. Mam c & p streszczenie.

Abstrakcyjny. Istnieją dwie kultury w stosowaniu modelowania statystycznego do wyciągania wniosków z danych. Zakłada się, że dane są generowane przez dany stochastyczny model danych. Drugi używa modeli algorytmicznych i traktuje mechanizm danych jako nieznany. Społeczność statystyczna zobowiązała się do niemal wyłącznego korzystania z modeli danych. To zobowiązanie doprowadziło do nieistotnej teorii, wątpliwych wniosków i powstrzymało statystyków od pracy nad wieloma interesującymi bieżącymi problemami. Modelowanie algorytmiczne, zarówno w teorii, jak i praktyce, szybko rozwinęło się w dziedzinach poza statystyką. Może być stosowany zarówno w dużych złożonych zestawach danych, jak i jako dokładniejsza i informacyjna alternatywa dla modelowania danych w mniejszych zestawach danych. Jeśli naszym celem jako pola jest wykorzystanie danych do rozwiązywania problemów,

[1]: https://doi.org/10.1214/ss/1009213726 (otwarty dostęp)

Parbury
źródło
8

Z perspektywy epidemiologii genetycznej poleciłbym teraz następującą serię artykułów na temat badań asocjacyjnych obejmujących cały genom :

  1. Cordell, HJ i Clayton, DG (2005). Badania asocjacji genetycznych . Lancet 366, 1121-1131.
  2. Cantor, RM, Lange, K. i Sinsheimer, JS (2010). Priorytetyzacja wyników GWAS: przegląd metod statystycznych i zaleceń dotyczących ich stosowania . The American Journal of Human Genetics 86, 6–22.
  3. Ioannidis, JPA, Thomas, G., Daly, MJ (2009). Sprawdzanie poprawności, rozszerzanie i udoskonalanie sygnałów asocjacyjnych całego genomu . Nature Reviews Genetics 10, 318-329.
  4. Balding, DJ (2006). Samouczek na temat metod statystycznych do badań asocjacyjnych populacji . Nature Reviews Genetics 7, 781-791.
  5. Green, AE i in. (2008). Wykorzystanie danych genetycznych w neuronauce kognitywnej: od narastających bólów po autentyczne spostrzeżenia . Nature Reviews Neuroscience 9, 710-720.
  6. McCarthy, MI i in. (2008). Badania asocjacyjne obejmujące cały genom dla złożonych cech: konsensusu, niepewności i wyzwań . Nature Reviews Genetics 9, 356-369.
  7. Komitet Koordynacyjny Psychiatrycznego Konsorcjum GWAS (2009). Badania Stowarzyszenia Genomewide: historia, uzasadnienie i perspektywy zaburzeń psychicznych . American Journal of Psychiatry 166 (5), 540-556.
  8. Sebastiani, P. i in. (2009). Badania asocjacyjne obejmujące cały genom i genetyczne rozwarstwienie złożonych cech . American Journal of Hematology 84 (8), 504-15.
  9. The Wellcome Trust Case Control Consortium (2007). Badanie asocjacyjne obejmujące cały genom 14 000 przypadków siedmiu powszechnych chorób i 3000 wspólnych kontroli . Nature 447, 661-678.
  10. The Wellcome Trust Case Control Consortium (2010). Badanie asocjacyjne całego genomu CNV w 16 000 przypadków ośmiu powszechnych chorób i 3000 wspólnych kontroli . Nature 464, 713-720.
chl
źródło
2

Artykuł o wczesnym wpływie na badania statystyczne w dziedzinie bioinformatyki:

Jelizarów i in . Nadoptymizm w bioinformatyce: ilustracja . Bioinformatyka, 2010

To sprawia, że ​​ciekawa dyskusja na temat źródeł stronniczości, nadmiernego dopasowania i poszukiwania znaczenia.

Borlaug
źródło