Wciąż pamiętam dokument Annals of Statistics o Boostingu autorstwa Friedmana-Hastie-Tibshirani oraz komentarze innych autorów na ten temat (w tym Freunda i Schapire'a). W tamtym czasie wyraźnie wzmocnienie było postrzegane jako przełom pod wieloma względami: wykonalne obliczeniowo, metoda złożona, z doskonałym, ale tajemniczym wykonaniem. Mniej więcej w tym samym czasie SVM osiągnął pełnoletność, oferując platformę opartą na solidnej teorii oraz wiele wariantów i aplikacji.
To było w cudownych latach 90. W ciągu ostatnich 15 lat wydaje mi się, że wiele statystyk to operacja czyszczenia i uszczegóławiania, ale z kilkoma naprawdę nowymi poglądami.
Zadam więc dwa pytania:
- Czy przegapiłem jakiś rewolucyjny / przełomowy artykuł?
- Jeśli nie, to czy istnieją nowe podejścia, które Twoim zdaniem mogą zmienić punkt widzenia wnioskowania statystycznego?
Zasady:
- Jedna odpowiedź na post;
- Referencje lub linki mile widziane.
PS: Mam kilku kandydatów do obiecujących przełomów. Wyślę je później.
Odpowiedzi:
Odpowiedź jest tak prosta, że muszę napisać cały ten bełkot, aby CV pozwoliło mi to opublikować: R.
źródło
Nie jestem pewien, czy nazwałbyś to „przełomem per se”, ale warto zwrócić uwagę na publikację teorii prawdopodobieństwa: logiki nauki autorstwa Edwina Jaynesa i Larry'ego Bretthorst. Niektóre rzeczy, które tutaj robią to:
1) wykazać równoważność między kilkoma iteracyjnymi programami „korekty sezonowej” a integracją bayesowską „parametru uciążliwości”.
2) rozwiązano tak zwany „paradoks marginalizacji” - przez niektórych uważany za „śmierć bayesianizmu”, a przez innych „śmierć niewłaściwych przeorów”.
3) idea, że prawdopodobieństwo opisuje stan wiedzy o twierdzeniu, że twierdzenie jest prawdziwe lub fałszywe, w przeciwieństwie do opisu fizycznej własności świata .
Pierwsze trzy rozdziały tej książki są dostępne za darmo tutaj .
źródło
Jako statystyczny i sporadyczny autor oprogramowania powiedziałbym:
WinBUGS (wydany 1997)
Opiera się na BŁĘDACH, które zostały wydane ponad 15 lat temu (1989), ale to WinBUGS udostępnił analizę bayesowską realistycznie złożonych modeli szerokiej bazie użytkowników. Patrz np. Lunn, Spiegelhalter, Thomas & Best (2009) (i dyskusja na ten temat w Statistics in Medicine vol. 28 numer 25 ).
źródło
Stan
?źródło
Wprowadzenie funkcji straty „wewnętrznej rozbieżności” i innych funkcji strat „bez parametryzacji” do teorii decyzji. Ma wiele innych „ładnych” właściwości, ale myślę, że najlepsza jest następująca:
Myślę, że to jest bardzo fajne! (np. najlepszym oszacowaniem log-odds jest log (p / (1-p)), najlepszym oszacowaniem wariancji jest kwadrat odchylenia standardowego itp.)
Haczyk? wewnętrzna rozbieżność może być trudna do wypracowania! (obejmuje min () funcion, iloraz prawdopodobieństwa i całki!)
„Przeciwdziałanie”? możesz „przearanżować” problem, aby łatwiej było go obliczyć!
„Kontratak”? zastanawianie się, jak „przearanżować” problem może być trudne!
Oto kilka znanych mi referencji, które używają tej funkcji utraty. Chociaż bardzo podoba mi się część „wewnętrznych oszacowań” tych artykułów / slajdów, mam pewne zastrzeżenia co do opisanego podejścia „wcześniejszego odniesienia”.
Testowanie hipotezy bayesowskiej: podejście referencyjne
Oszacowanie wewnętrzne
Porównywanie normalnych środków: nowe metody starego problemu
Zintegrowane obiektywne szacowanie bayesowskie i testowanie hipotez
źródło
Sądzę, że po prostu mieszczą się w 15-letnim przedziale czasowym algorytmy kontrolujące współczynnik fałszywych odkryć . Podoba mi się podejście oparte na „wartości q”.
źródło
Dodając własne 5 centów, uważam, że najbardziej znaczącym przełomem w ciągu ostatnich 15 lat było Compressed Sensing. LARS, LASSO i wiele innych algorytmów należą do tej domeny, ponieważ Compressed Sensing wyjaśnia, dlaczego działają i rozszerza je na inne domeny.
źródło
Coś, co ma niewiele wspólnego z samymi statystykami, ale było ogromnie korzystne: rosnąca siła ognia komputerów, dzięki czemu większe zbiory danych i bardziej złożona analiza statystyczna są bardziej dostępne, szczególnie w zastosowanych dziedzinach.
źródło
Algorytm przewidywania i propagacji dla wnioskowania bayesowskiego, szczególnie w klasyfikacji procesu Gaussa, był prawdopodobnie znaczącym przełomem, ponieważ zapewnia skuteczną metodę aproksymacji analitycznej, która działa prawie tak samo dobrze, jak kosztowne obliczeniowo podejścia oparte na próbkowaniu (w przeciwieństwie do zwykłego aproksymacji Laplace'a). Zobacz prace Thomasa Minki i innych na mapie drogowej PE
źródło
Myślę, że „przybliżone wnioskowanie bayesowskie dla ukrytych modeli gaussowskich wykorzystujących zintegrowane przybliżenia zagnieżdżone Laplace'a” H. Rue i in. al (2009) jest potencjalnym kandydatem.
źródło
Moim zdaniem wszystko, co pozwala na uruchamianie nowych modeli na dużą skalę, jest przełomem. Może być kandydatem do interpolacji jądra dla skalowalnych strukturalnych procesów gaussowskich (KISS-GP) (chociaż pomysł jest nowy i nie było wielu jego realizacji).
źródło
Chociaż nieco bardziej ogólne niż statystyki, myślę, że nastąpił istotny postęp w metodach badań odtwarzalnych (RR) . Na przykład rozwój R
knittr
iSweave
pakiety i zeszyty „R Markdown”, ulepszenia LyX i LaTeX znacząco przyczyniły się do udostępniania danych, współpracy, weryfikacji / walidacji, a nawet dodatkowego postępu statystycznego. Przywoływane prace w czasopismach statystycznych, medycznych i epidemiologicznych rzadko pozwalały na łatwą reprodukcję wyników przed pojawieniem się tych powtarzalnych metod / technologii badawczych. Obecnie kilka czasopism wymaga powtarzalnych badań, a wielu statystyk korzysta z RR i kodu pocztowego, swoich wyników i źródeł danych w Internecie. Pomogło to również wspierać dyscypliny nauki o danych i uczyniło naukę statystyczną bardziej dostępną.źródło
Moim zdaniem artykuł opublikowany w 2011 r. W magazynie Science. Autorzy proponują bardzo interesującą miarę związku między parą zmiennych losowych, która działa dobrze w wielu sytuacjach, w których podobne miary zawodzą (Pearson, Spearman, Kendall). Naprawdę fajny papier. Oto jest
źródło