Jakie są przełomy w statystykach z ostatnich 15 lat?

56

Wciąż pamiętam dokument Annals of Statistics o Boostingu autorstwa Friedmana-Hastie-Tibshirani oraz komentarze innych autorów na ten temat (w tym Freunda i Schapire'a). W tamtym czasie wyraźnie wzmocnienie było postrzegane jako przełom pod wieloma względami: wykonalne obliczeniowo, metoda złożona, z doskonałym, ale tajemniczym wykonaniem. Mniej więcej w tym samym czasie SVM osiągnął pełnoletność, oferując platformę opartą na solidnej teorii oraz wiele wariantów i aplikacji.

To było w cudownych latach 90. W ciągu ostatnich 15 lat wydaje mi się, że wiele statystyk to operacja czyszczenia i uszczegóławiania, ale z kilkoma naprawdę nowymi poglądami.

Zadam więc dwa pytania:

  1. Czy przegapiłem jakiś rewolucyjny / przełomowy artykuł?
  2. Jeśli nie, to czy istnieją nowe podejścia, które Twoim zdaniem mogą zmienić punkt widzenia wnioskowania statystycznego?

Zasady:

  1. Jedna odpowiedź na post;
  2. Referencje lub linki mile widziane.

PS: Mam kilku kandydatów do obiecujących przełomów. Wyślę je później.

gappy
źródło
5
Zobacz podobne pytanie ( stats.stackexchange.com/q/1883/159) (które zostało zamknięte jako subiektywne i kłótliwe ).
Rob Hyndman
1
Chciałem poruszyć ten sam wątek. Pachnie jak duplikat.
Dirk Eddelbuettel 21.01.11
1
To subiektywne, jasne, ale czy nadal nie jest odpowiednie dla CW?
Christopher Aden
1
To było na dłuższą skalę. Nie sądzę, że to duplikat. Jeśli chodzi o argumentację, to zależy od uczestników. Nie staram się tutaj przyznać trofeum, aby być na bieżąco z najważniejszymi artykułami, które mogłem przegapić. Ponieważ nie ma właściwej odpowiedzi, jestem za CW. Interesujące jest dla mnie to, że jak dotąd wszystkie odpowiedzi dotyczą innowacji bayesowskich.
szczęśliwy
2
To wydaje się być postem, który może być dziadkiem. Myślę, że to może pozostać otwarte.
Gung - Przywróć Monikę

Odpowiedzi:

43

Odpowiedź jest tak prosta, że ​​muszę napisać cały ten bełkot, aby CV pozwoliło mi to opublikować: R.

hans0l0
źródło
14

Nie jestem pewien, czy nazwałbyś to „przełomem per se”, ale warto zwrócić uwagę na publikację teorii prawdopodobieństwa: logiki nauki autorstwa Edwina Jaynesa i Larry'ego Bretthorst. Niektóre rzeczy, które tutaj robią to:

1) wykazać równoważność między kilkoma iteracyjnymi programami „korekty sezonowej” a integracją bayesowską „parametru uciążliwości”.

2) rozwiązano tak zwany „paradoks marginalizacji” - przez niektórych uważany za „śmierć bayesianizmu”, a przez innych „śmierć niewłaściwych przeorów”.

3) idea, że ​​prawdopodobieństwo opisuje stan wiedzy o twierdzeniu, że twierdzenie jest prawdziwe lub fałszywe, w przeciwieństwie do opisu fizycznej własności świata .

Pierwsze trzy rozdziały tej książki są dostępne za darmo tutaj .

prawdopodobieństwo prawdopodobieństwa
źródło
2
Niestety rezolucja Jaynesa dotycząca paradoksu marginalizacji była wadliwa. Zobacz uwagi Kevina Van Horna na temat leczenia paradoksu marginalizacji przez Jaynesa , dostępne tutaj .
Cyan
1
@cyan - Zauważ, że chociaż jego rozwiązanie było wadliwe w niektórych obszarach, jego podstawowe zasady go rozwiązały. Ogólna zasada właściwych priorytetów i ich zbieżnych limitów oznacza, że ​​MP nie może powstać. Wada jest najprawdopodobniej spowodowana niedokończeniem książki przez większą część drugiej części. Rozdzielczość [tutaj] ( arxiv.org/abs/math/0310006 ) podoba mi się bardziej niż wersja ksvh. krótszy i bardziej ogólny.
probabilityislogic
13

kjaja

shabbychef
źródło
Czy kiedykolwiek korzystałeś z LARS? Pytam, bo nigdy wcześniej o tym nie słyszałem i brzmi to naprawdę interesująco. Artykuł oryginalny jest nieco długi (93 strony), dlatego chciałbym uzyskać opinię, zanim się w nim zagłębię.
Tomek Tarczyński
@Tomek Tarczynski: Użyłem go w niewielkiej ilości. Jest pakiet w Matlabie (jestem pewien, że jest jeden lub więcej w R), którego użyłem. Zapewnia także rzadkie PCA, które mnie bardziej interesowało. Przyznaję, że tylko przejrzałem gazetę. ;)
shabbychef
11

Wprowadzenie funkcji straty „wewnętrznej rozbieżności” i innych funkcji strat „bez parametryzacji” do teorii decyzji. Ma wiele innych „ładnych” właściwości, ale myślę, że najlepsza jest następująca:

θθmiθsol(θ)sol(θmi)

Myślę, że to jest bardzo fajne! (np. najlepszym oszacowaniem log-odds jest log (p / (1-p)), najlepszym oszacowaniem wariancji jest kwadrat odchylenia standardowego itp.)

Haczyk? wewnętrzna rozbieżność może być trudna do wypracowania! (obejmuje min () funcion, iloraz prawdopodobieństwa i całki!)

„Przeciwdziałanie”? możesz „przearanżować” problem, aby łatwiej było go obliczyć!

„Kontratak”? zastanawianie się, jak „przearanżować” problem może być trudne!

Oto kilka znanych mi referencji, które używają tej funkcji utraty. Chociaż bardzo podoba mi się część „wewnętrznych oszacowań” tych artykułów / slajdów, mam pewne zastrzeżenia co do opisanego podejścia „wcześniejszego odniesienia”.

Testowanie hipotezy bayesowskiej: podejście referencyjne

Oszacowanie wewnętrzne

Porównywanie normalnych środków: nowe metody starego problemu

Zintegrowane obiektywne szacowanie bayesowskie i testowanie hipotez

prawdopodobieństwo prawdopodobieństwa
źródło
11

Sądzę, że po prostu mieszczą się w 15-letnim przedziale czasowym algorytmy kontrolujące współczynnik fałszywych odkryć . Podoba mi się podejście oparte na „wartości q”.

shabbychef
źródło
1
q
9

Dodając własne 5 centów, uważam, że najbardziej znaczącym przełomem w ciągu ostatnich 15 lat było Compressed Sensing. LARS, LASSO i wiele innych algorytmów należą do tej domeny, ponieważ Compressed Sensing wyjaśnia, dlaczego działają i rozszerza je na inne domeny.

niezadowolony
źródło
1
Patrzyłem na Compressed Sensing i jako niestatysta ciągle zadaję sobie pytanie: „Czy to nie jest odwrotna losowa projekcja?”. Wiem, że słowo „po prostu” jest łatwym słowem, ale wydaje się, że ludzie pomijają coś, co wydaje się oczywistymi powiązaniami między losową projekcją (około 2000 r.) A kompresją (około 2004 r.).
Wayne
9

Coś, co ma niewiele wspólnego z samymi statystykami, ale było ogromnie korzystne: rosnąca siła ognia komputerów, dzięki czemu większe zbiory danych i bardziej złożona analiza statystyczna są bardziej dostępne, szczególnie w zastosowanych dziedzinach.

Fomite
źródło
8

Algorytm przewidywania i propagacji dla wnioskowania bayesowskiego, szczególnie w klasyfikacji procesu Gaussa, był prawdopodobnie znaczącym przełomem, ponieważ zapewnia skuteczną metodę aproksymacji analitycznej, która działa prawie tak samo dobrze, jak kosztowne obliczeniowo podejścia oparte na próbkowaniu (w przeciwieństwie do zwykłego aproksymacji Laplace'a). Zobacz prace Thomasa Minki i innych na mapie drogowej PE

Dikran Torbacz
źródło
EP wydaje się fajny (chociaż wciąż boli mnie głowa). Czy nadal brakuje ogólnych gwarancji konwergencji?
conjugateprior
2

Chociaż nieco bardziej ogólne niż statystyki, myślę, że nastąpił istotny postęp w metodach badań odtwarzalnych (RR) . Na przykład rozwój R knittriSweavepakiety i zeszyty „R Markdown”, ulepszenia LyX i LaTeX znacząco przyczyniły się do udostępniania danych, współpracy, weryfikacji / walidacji, a nawet dodatkowego postępu statystycznego. Przywoływane prace w czasopismach statystycznych, medycznych i epidemiologicznych rzadko pozwalały na łatwą reprodukcję wyników przed pojawieniem się tych powtarzalnych metod / technologii badawczych. Obecnie kilka czasopism wymaga powtarzalnych badań, a wielu statystyk korzysta z RR i kodu pocztowego, swoich wyników i źródeł danych w Internecie. Pomogło to również wspierać dyscypliny nauki o danych i uczyniło naukę statystyczną bardziej dostępną.

StatsStudent
źródło
1

Moim zdaniem artykuł opublikowany w 2011 r. W magazynie Science. Autorzy proponują bardzo interesującą miarę związku między parą zmiennych losowych, która działa dobrze w wielu sytuacjach, w których podobne miary zawodzą (Pearson, Spearman, Kendall). Naprawdę fajny papier. Oto jest

Miroslav Sabo
źródło
Link wydaje się być zepsuty.
dsaxton,
Można go również znaleźć tutaj: ncbi.nlm.nih.gov/pmc/articles/PMC3325791/pdf/nihms358982.pdf
Miroslav Sabo