Jakie są „duże problemy” w statystyce?

77

Matematyka ma swoje słynne problemy milenijne (i historycznie Hilberta 23 ), pytania, które pomogły kształtować kierunek w tej dziedzinie.

Nie mam jednak pojęcia, jakie byłyby hipotezy Riemanna i P vs. NP statystyki.

Więc jakie są nadrzędne otwarte pytania w statystyce?

Zredagowano, aby dodać: Jako przykład ogólnego ducha odpowiedzi (jeśli nie dość specyficznej), którego szukam, znalazłem inspirowany wykład Davida Donoho „Hilberta 23” na konferencji „Wyzwania matematyczne XXI wieku”: Analiza danych wielowymiarowych: przekleństwa i błogosławieństwa wymiaru

Potencjalna odpowiedź mogłaby więc mówić o dużych zbiorach danych i dlaczego jest to ważne, rodzaje wyzwań statystycznych, jakie stanowią dane wielowymiarowe, oraz metody, które należy opracować lub pytania, na które należy odpowiedzieć, aby pomóc rozwiązać problem.

raegtin
źródło
5
Dziękujemy za opublikowanie tego. To ważna (i potencjalnie inspirująca) dyskusja.
whuber

Odpowiedzi:

48

Duży pytanie powinno dotyczyć kluczowych kwestii metodologii statystycznej lub, ponieważ statystyka jest całkowicie o aplikacjach, powinno dotyczyć jak statystyka jest stosowany przy problemach ważnych dla społeczeństwa.

Ta charakterystyka sugeruje, że przy rozważaniu dużych problemów należy uwzględnić:

  • Jak najlepiej przeprowadzać badania narkotykowe . Obecnie klasyczne testowanie hipotez wymaga wielu formalnych faz badań. Na późniejszych (potwierdzających) etapach kwestie gospodarcze i etyczne stają się coraz poważniejsze. Czy możemy zrobić lepiej? Czy musimy umieszczać setki lub tysiące chorych osób w grupach kontrolnych i trzymać ich tam na przykład do końca badania, czy też możemy znaleźć lepsze sposoby na identyfikację naprawdę skutecznych metod leczenia i dostarczenie ich członkom badania (i inni) wcześniej?

  • Radzenie sobie z uprzedzeniami publikacji naukowych . Negatywne wyniki są publikowane znacznie mniej po prostu dlatego, że po prostu nie osiągają magicznej wartości p. Wszystkie gałęzie nauki muszą znaleźć lepsze sposoby na ujawnienie ważnych naukowo , a nie tylko statystycznie istotnych wyników. (Problem wielokrotnych porównań i radzenie sobie z danymi wielowymiarowymi to podkategorie tego problemu).

  • Sondowanie granic metod statystycznych i ich interfejsów z uczeniem maszynowym i poznaniem maszynowym . Nieunikniony postęp w technologii komputerowej sprawi, że prawdziwa sztuczna inteligencja będzie dostępna za naszych czasów. Jak zaprogramujemy sztuczne mózgi? Jaką rolę może odgrywać myślenie statystyczne i uczenie się statystyki w tworzeniu tych osiągnięć? W jaki sposób statystycy mogą pomóc w myśleniu o sztucznym poznaniu, sztucznym uczeniu się, w eksplorowaniu ich ograniczeń i robieniu postępów?

  • Opracowywanie lepszych sposobów analizy danych geoprzestrzennych . Często twierdzi się, że większość lub ogromna większość baz danych zawiera odniesienia lokalizacyjne. Wkrótce wiele osób i urządzeń będzie zlokalizowanych w czasie rzeczywistym za pomocą technologii GPS i telefonów komórkowych. Metody statystyczne do analizy i wykorzystywania danych przestrzennych są naprawdę dopiero w powijakach (i wydają się być relegowane do GIS i oprogramowania przestrzennego, które jest zwykle używane przez statystyków niestatystycznych).

whuber
źródło
1
W jaki sposób ludzie próbują rozwiązać te problemy?
raegtin
3
@grautur: To cztery doskonałe pytania (plus wiele innych, ponieważ twoja odpowiedź dotyczy każdej odpowiedzi w tym wątku). Wszystkie zasługują na wyszukane odpowiedzi, ale oczywiście nie ma na to miejsca: jedno pytanie na raz, proszę!
whuber
3
Odnośnie pierwszej kuli (próby leków): nawet osoby, które w przeciwnym razie mogłyby nie być zainteresowane eksperymentami medycznymi, powinny przeczytać artykuł NYTimes Nowa debata na temat narkotyków w sprawie podstawowych zasad badań klinicznych ( nytimes.com/2010/09/19/health/research/ … ). Czytelnik statystyczny natychmiast dostrzeże nieokreślone implikacje dotyczące projektu eksperymentalnego i wykorzystania wartości p do podejmowania decyzji. Gdzieś istnieje statystyczna rezolucja w zagadce życia i śmierci opisanej w tym artykule.
whuber
26

Michael Jordan ma krótki artykuł zatytułowany Jakie są otwarte problemy w statystyce bayesowskiej? , w którym zapytał grupę statystów o ich opinie na temat otwartych problemów w statystyce. Podsumuję (aka, skopiuj i wklej) trochę tutaj, ale prawdopodobnie najlepiej po prostu przeczytać oryginał.

Nonparametrics and semiparametrics

  • W przypadku jakich problemów nieparametria bayesowska jest przydatna i warta kłopotów?
  • David Dunson: „Modele nieparametryczne Bayesa obejmują nieskończenie wiele parametrów, a priory są zazwyczaj wybierane dla wygody z hiperparametrami ustawionymi na pozornie rozsądne wartości bez odpowiedniego obiektywnego lub subiektywnego uzasadnienia”.
  • „Kilka osób zauważyło, że jednym z atrakcyjnych zastosowań częstościowych parametrów nieparametrycznych jest wnioskowanie półparametryczne, w którym składnik nieparametryczny modelu jest uciążliwym parametrem. Ludzie ci uważali, że pożądane byłoby rozwinięcie teorii (częstych) Bayipowskie semiparametryki ”.

Priors

  • „Wywoływanie pozostaje głównym źródłem otwartych problemów”.
  • „Aad van der Vaart postawił obiektywnie Bayesa na głowie i wskazał na brak teorii dla„ sytuacji, w których chce się przedostać się w przeszłość ”, w przeciwieństwie do„ jedynie zapewnienia bayesowskiego podejścia do wygładzania ”.

Relacje bayesowskie / częste

  • „Wielu respondentów wyraziło chęć dalszego zacieśniania relacji bayesowskich / częstych. Było to najczęściej widoczne w kontekście wielowymiarowych modeli i danych, w których nie tylko subiektywne podejście do specyfikacji priorytetów jest trudne do wdrożenia, ale także priorytety dla wygody mogą być (wysoce) wprowadzające w błąd ”.
  • „Niektórzy respondenci opowiadali się za teorią niesymptotyczną, która może pełniej ujawnić domniemane zalety metod bayesowskich; np. David Dunson: „Często częstą optymalną częstość uzyskuje się za pomocą procedur, które wyraźnie wypadają znacznie gorzej w próbkach skończonych niż w podejściach bayesowskich”.

Obliczenia i statystyki

  • Alan Gelfand: „Jeśli MCMC nie jest już wykonalne z powodu problemów, które ludzie chcą rozwiązać, to jaka jest rola INLA, metod wariacyjnych i podejść ABC?”
  • „Kilku respondentów poprosiło o bardziej dogłębną integrację nauk obliczeniowych i statystycznych, zauważając, że zbiór wniosków, które można wyciągnąć w dowolnej sytuacji, są wspólnie funkcją modelu, wcześniejszego, danych i zasobów obliczeniowych, i życzeniem w celu bardziej precyzyjnego zarządzania kompromisami między tymi ilościami. Rzeczywiście, Rob Kass podniósł możliwość pojęcia „wnioskowania o rozwiązaniu”, w którym pewne problemy są postrzegane jako nie do pomyślenia (np.wybór modelu w regresji, gdzie „w przypadku niewielkich ilości danych narażonych na nietrywialny hałas niemożliwe jest uzyskanie użytecznych przedziałów ufności co do współczynników regresji, gdy istnieje duża liczba zmiennych, których obecność lub brak w modelu jest z góry nieokreślony”) i gdzie istnieją inne problemy („pewne funkcjonały, dla których istnieją przydatne przedziały ufności”), dla których istnieje nadzieja ”.
  • „Kilku respondentów, przepraszając za pewną niejasność, wyraziło wrażenie, że duża ilość danych niekoniecznie oznacza dużą ilość obliczeń; raczej, że w jakiś sposób siła wnioskowania obecna w dużych danych powinna przenieść się do algorytmu i umożliwić zrobić mniejszą liczbę kroków obliczeniowych, aby uzyskać zadowalające (przybliżone) rozwiązanie wnioskowania. ”

Wybór modelu i testowanie hipotez

  • β1
  • Potrzeba dalszych prac nad teoretycznymi podstawami decyzyjnymi w wyborze modelu.
  • David Spiegelhalter: „Jak najlepiej uczynić sprawdzanie, czy konflikt danych / konflikt danych jest integralną częścią analizy bayesowskiej?”
  • Andrew Gelman: „W przypadku sprawdzania modeli kluczowym otwartym problemem jest opracowanie narzędzi graficznych do rozumienia i porównywania modeli. Grafika to nie tylko surowe dane; raczej złożone modele bayesowskie dają możliwość lepszej i bardziej skutecznej analizy danych eksploracyjnych”.
raegtin
źródło
13

Nie jestem pewien, jak duże są, ale istnieje strona Wikipedii zawierająca nierozwiązane problemy w statystykach. Ich lista obejmuje:

Wnioskowanie i testowanie

  • Błędy systematyczne
  • Dopuszczalność estymatora Graybill – Deal
  • Łączenie zależnych wartości p w metaanalizie
  • Problem Behrensa – Fishera
  • Wiele porównań
  • Otwarte problemy w statystyce bayesowskiej

Projekt eksperymentalny

  • Problemy w kwadratach łacińskich

Problemy o bardziej filozoficznym charakterze

  • Problem pobierania próbek gatunków
  • Argument Doomsday
  • Wymień paradoks
gung
źródło
6

Jako przykład ogólnego ducha (jeśli nie dość specyficznego) odpowiedzi, której szukam, znalazłem inspirowany wykład Davida Donoho „Hilberta 23” na konferencji „Wyzwania matematyczne XXI wieku”:

Analiza danych wielowymiarowych: przekleństwa i błogosławieństwa wymiaru

raegtin
źródło
2
Czy mogę zasugerować edycję głównego pytania, aby uwzględnić te informacje?
russellpierce
4

Mathoverflow ma podobne pytanie o duże problemy w teorii prawdopodobieństwa .

Z tej strony wynikałoby, że największe pytania dotyczą samodzielnego unikania przypadkowych spacerów i przesiadek.

Robby McKilliam
źródło
1
Myślę jednak, że statystyka jest odrębnym obszarem od teorii prawdopodobieństwa.
raegtin
3
@raegtin - Nie sądzę, że teoria prawdopodobieństwa jest odrębna od statystyki, a raczej teoria. „Statystyka” to zastosowanie teorii prawdopodobieństwa do problemów wnioskowania (tj. Praktyki).
prawdopodobieństwo logiczne
3

Moją odpowiedzią będzie walka między statystykami częstokrzyskimi a bayesowskimi. Kiedy ludzie pytają cię, w co „wierzysz”, to nie jest dobrze! Specjalnie dla dyscypliny naukowej.

pmgjones
źródło
2
Nie ma nic złego w tym, że naukowiec „w coś wierzy”, zwłaszcza że prawdopodobieństwo bayesowskie reprezentuje stopień przekonania lub wiedzy na temat prawdziwości niektórych twierdzeń.
Dikran Marsupial
2
... Problem pojawia się tylko wtedy, gdy naukowiec nie jest w stanie odróżnić przekonania od faktu. Nie ma nic nienaukowego w przekonaniu, że statystyki bayesowskie lub częste są lepsze, ponieważ nie ma obiektywnego testu, który mógłby rozstrzygnąć odpowiedź (AFAIK), więc wybór jest w dużej mierze subiektywny i / lub dotyczy „koni na kursy”.
Dikran Marsupial
@propofol - Zgadzam się, że słowo „wierzyć” nie jest właściwym pojęciem do użycia w statystykach - zawiera niewłaściwe konotacje. Informacja jest o wiele bardziej odpowiednim słowem (tj. „Jakie masz informacje?”). Nie zmienia matematyki ani twierdzeń o optymalności analizy bayesowskiej, ale nadaje im właściwe znaczenie pod względem sposobu ich wykorzystania. np. znajomość teorii fizycznej lub mechanizmu przyczynowego jest informacją, a nie wiarą.
probabilityislogic