Jakie teorie powinien znać każdy statystyk?

30

Myślę o tym z bardzo podstawowej, minimalnej perspektywy. Jakie są najważniejsze teorie, które statystycy branżowi (a nie akademiccy) powinni znać, rozumieć i wykorzystywać na bieżąco?

Wielkim, jakie przychodzi na myśl, jest prawo wielkich liczb . Jakie są najbardziej istotne dla zastosowania teorii statystycznej do analizy danych?

bnjmn
źródło

Odpowiedzi:

41

Szczerze mówiąc, nie sądzę, aby prawo wielkich liczb miało ogromną rolę w przemyśle. Pomocne jest zrozumienie asymptotycznych uzasadnień wspólnych procedur, takich jak szacunki maksymalnego prawdopodobieństwa i testy (w tym w szczególności wszechobecne GLM i regresja logistyczna), bootstrap, ale są to raczej problemy z dystrybucją niż prawdopodobieństwo trafienia złą próbą .

Oprócz już wspomnianych tematów (GLM, wnioskowanie, bootstrap), najpowszechniejszym modelem statystycznym jest regresja liniowa, więc niezbędne jest dokładne zrozumienie modelu liniowego. Możesz nigdy nie uruchamiać ANOVA w swoim życiu branżowym, ale jeśli jej nie rozumiesz, nie powinieneś nazywać się statystykami.

Istnieją różne rodzaje branż. W farmacji nie można zarabiać na życie bez randomizowanych badań i regresji logistycznej. W statystykach ankiety nie można zarabiać bez estymatora Horvitza-Thompsona i korekt braku odpowiedzi. W statystykach związanych z informatyką nie da się utrzymać bez uczenia statystycznego i eksploracji danych. W think tankach polityki publicznej (i coraz częściej statystykach edukacyjnych) nie można zarabiać na życie bez przyczynowych i szacunkowych efektów leczenia (które w coraz większym stopniu wymagają randomizowanych badań). W badaniach marketingowych musisz mieć połączenie wiedzy ekonomicznej z psychometryczną teorią pomiaru (i nie możesz się ich nauczyć w typowych ofertach działu statystycznego). Statystyka przemysłowa opiera się na swoistych paradygmatach sześciu sigma, które są jedynie zdalnie powiązane ze statystykami głównego nurtu; silniejsze wiązanie można znaleźć w projekcie materiału eksperymentalnego. Materiałami z Wall Street byłyby ekonometria finansowa, aż do rachunku stochastycznego. Są to BARDZO różne umiejętności, a termin „przemysł” jest jeszcze gorzej zdefiniowany niż „środowisko akademickie”. Nie sądzę, aby ktokolwiek mógł twierdzić, że wie więcej niż dwa lub trzy powyższe w tym samym czasie.

Najważniejsze umiejętności, które byłyby jednak powszechnie wymagane w „branży” (cokolwiek by to dla ciebie znaczyło), to zarządzanie czasem, zarządzanie projektami i komunikacja z mniej doświadczonymi statystycznie klientami. Jeśli więc chcesz się przygotować do stażu w branży, weź udział w zajęciach w szkole biznesu na te tematy.

AKTUALIZACJA: Oryginalny post został napisany w lutym 2012 r .; w tych dniach (marzec 2014 r.) prawdopodobnie powinieneś się nazywać „naukowcem danych”, a nie „statystykiem”, aby znaleźć gorącą pracę w branży ... i lepiej nauczyć się Hadoopa, aby postępować zgodnie z tym oświadczeniem.

StasK
źródło
1
Świetna odpowiedź. Dziękujemy za podkreślenie niektórych dużych różnic między statystykami w branży. To pomaga motywować moje pytanie, ponieważ uważam, że wiele osób ma inne wyobrażenie o tym, czym jest / czym zajmuje się statystyki. Wydaje mi się, że próbowałem dowiedzieć się, gdzie krzyżują się one z podstawowym zrozumieniem. Naprawdę doceniam twój ostatni akapit na tematy biznesowe i ich znaczenie. Świetne punkty, ale nadal chciałbym sprawdzić, czy ktoś może dodać do rozmowy przed zaakceptowaniem.
bnjmn
Dziwią mnie te „osobliwe paradygmaty Six Sigma”, „zdalnie połączone z głównymi statystykami”, z którymi, jak mówicie, działa statystyka przemysłowa. Wydaje mi się to całkowicie ortodoksyjne, odkładając na bok różnice w terminologii występujące między tymi wszystkimi polami.
Scortchi - Przywróć Monikę
4
109
Całkiem słusznie: powiedziałbym, że analiza systemów pomiarowych (zgodność między badaniami, badania odtwarzalności i powtarzalności mierników), statystyczna kontrola procesu, analiza niezawodności (inaczej analiza przeżycia) i projektowanie eksperymentalne ((ułamkowe) projekty czynnikowe, metodologia powierzchnia odpowiedzi ) były charakterystyczne dla statystyki przemysłowej.
Scortchi - Przywróć Monikę
12

Myślę, że dobrze rozumiem kwestie związane z kompromisem wariancji uprzedzeń . Większość statystyk w pewnym momencie skończy analizować zestaw danych, który jest wystarczająco mały, aby wariancja estymatora lub parametry modelu były wystarczająco wysokie, aby odchylenie było drugorzędne.

Dikran Torbacz
źródło
11

Aby wskazać na super oczywisty:

Twierdzenie o granicy centralnej

pp

Bootstrapping

Makro
źródło
8

Nie powiedziałbym, że jest to bardzo podobne do czegoś takiego jak prawo wielkich liczb lub centralne twierdzenie graniczne, ale ponieważ wyciąganie wniosków na temat przyczynowości jest często centralne, zrozumienie pracy Judei Pearl przy użyciu grafów strukturalnych do modelowania przyczynowości jest czymś, co ludzie powinni znać z. Zapewnia sposób zrozumienia, dlaczego badania eksperymentalne i obserwacyjne różnią się pod względem wnioskowania przyczynowego, na które pozwalają, i oferuje sposoby radzenia sobie z danymi obserwacyjnymi. Dla dobrego przeglądu jego książka jest tutaj .

gung - Przywróć Monikę
źródło
2
Istnieją również ramy scenariuszy alternatywnych Rubina; istnieją również modele modelowania równań strukturalnych i ekonometryczne techniki zmiennych instrumentalnych ... niektóre z tych opisanych w „ Eksometrii w większości nieszkodliwych”, które z najlepszych książek statystycznych napisanych przez nie-statystyków.
StasK
7

Dobre zrozumienie istotnego problemu, który ma zostać rozwiązany, jest równie ważne, jak każde szczególne podejście statystyczne. Dobry naukowiec w branży jest bardziej niż statystyczny bez takiej wiedzy, aby znaleźć rozsądne rozwiązanie swojego problemu. Statystyk posiadający wiedzę merytoryczną może pomóc.

Brett
źródło
6

Metoda Delta, jak obliczyć wariancję dziwacznych statystyk i znaleźć ich asymptotyczną wydajność względną, aby zalecić zmiany zmiennej i wyjaśnić wzrost wydajności poprzez „oszacowanie właściwej rzeczy”. W połączeniu z tym Nierówność Jensena w zrozumieniu GLM i dziwne rodzaje stronniczości, które powstają w transformacjach takich jak powyżej. A teraz, gdy wspomniane jest odchylenie i wariancja, koncepcja kompromisu odchylenia i MSE jako obiektywnej miary dokładności predykcyjnej.

AdamO
źródło
6

Moim zdaniem wnioskowanie statystyczne jest najważniejsze dla praktyka. Wnioskowanie składa się z dwóch części: 1) Oszacowanie i 2) Testowanie hipotez. Testowanie hipotez jest ważne. Ponieważ przy szacowaniu przeważnie stosowana była unikalna procedura, oszacowanie maksymalnego prawdopodobieństwa i jest ona dostępna dla większości pakietów statystycznych (więc nie ma zamieszania).

Pytania często zadawane przez praktyków dotyczą znaczących testów analizy różnicowych lub przyczynowych. W tym linku można znaleźć ważne testy hipotez .

Znajomość modeli liniowych, GLM lub ogólnie modelowania statystycznego jest wymagana do interpretacji związku przyczynowego. Zakładam, że przyszłość analizy danych obejmuje wnioskowanie bayesowskie.

vinux
źródło
0

Konieczne jest swobodne wnioskowanie. Jak rozwiązać ten podstawowy problem, nie można cofnąć się w czasie i nie dać komuś leczenia. Przeczytaj artykuły o Rubinie, Fisherze, założycielu współczesnego studenta statystyki.) .... Czego nauczyć się, aby rozwiązać ten problem, prawidłową randomizację i jak Prawo wielkich liczb mówi, że rzeczy są odpowiednio randomizowane, Testowanie hipotez, Potencjalne wyniki (wbrew założeniom hetroscastisty i świetnie radzi sobie z brakowaniem), dopasowywanie (świetne dla braków, ale potencjalne wyniki są lepsze, ponieważ są bardziej uogólnione, to znaczy, dlaczego uczyć się mnóstwa skomplikowanych rzeczy, skoro można nauczyć się tylko jednej skomplikowanej rzeczy), Bootstrap, oczywiście statystyki bayesowskie (regresja bayesowska , naiwna regresja bayesowska, czynniki bayesowskie) i alternatywy niepapetryczne.

Zwykle w praktyce wystarczy wykonać te ogólne kroki,

Jeśli chodzi o poprzedni komentarz, najpierw należy zacząć od ANOVA (efekty losowe lub efekty stałe i przekształcić ciągłe typy w kosze), a następnie zastosować regresję (która, jeśli przekształcisz i zmienisz, może być czasami tak dobra jak ANOVA, ale nigdy jej nie pobijesz) aby sprawdzić, które konkretne terapie są znaczące (przy zastosowaniu wielokrotnego testu t i zastosowania pewnej korekty, takiej jak metid Holma), użyj regresji.

W przypadkach, w których musisz przewidzieć, użyj regresji bayasowskiej.

Braki w ponad 5% wykorzystują potencjalne wyniki

Kolejną gałęzią analizy danych jest nadzorowane uczenie maszynowe, o którym należy wspomnieć

Kheagan Eckley
źródło