Jestem studentem matematyki z niewielkim doświadczeniem w matematyce stosowanej. Od ostatniej jesieni chodzę na zajęcia z książki Caselli i Bergera i ukończyłem setki (230+) stron z problemami z ćwiczeniami w książce. W tej chwili jestem w rozdziale 10.
Ponieważ jednak nie studiowałem statystyki ani nie planowałem być statystykiem, nie sądzę, że będę w stanie regularnie inwestować czas, aby kontynuować naukę analizy danych. Moje dotychczasowe doświadczenie mówi mi, że aby być statystykiem, trzeba znosić wiele żmudnych obliczeń obejmujących różne rozkłady (Weibull, Cauchy, , ...). Przekonałem się, że choć podstawowe idee są proste, wdrożenie (na przykład LRT w testowaniu hipotez) wciąż może być trudne ze względu na szczegóły techniczne.
Czy moje rozumowanie jest prawidłowe? Czy jest jakiś sposób, aby nauczyć się prawdopodobieństwa i statystyki, która nie tylko obejmuje bardziej zaawansowany materiał, ale może również pomóc w przypadku, gdy potrzebuję analizy danych w prawdziwym życiu? Będę musiał spędzić 20 godzin tygodniowo na nim jak kiedyś?
Chociaż wierzę, że nie ma królewskiej drogi w nauce matematyki, często nie mogę przestać się zastanawiać - przez większość czasu nie wiemy, jaki jest rozkład rzeczywistych danych, więc jaki jest cel, aby skupić się wyłącznie na różnych rodzinach dystrybucji ? Jeśli wielkość próby jest niewielka i nie ma zastosowania centralne twierdzenie graniczne, jak możemy właściwie analizować dane oprócz średniej próby i wariancji, jeśli rozkład jest nieznany?
Mój semestr zakończy się za miesiąc i nie chcę, aby moja wiedza wyparowała po tym, jak zacznę koncentrować się na badaniach doktoranckich. Więc postanowiłem zapytać. Uczę się języka R i mam pewne doświadczenie w programowaniu, ale mój poziom jest mniej więcej taki sam jak małpa kodowa.
źródło
Odpowiedzi dla innych, którzy później odpowiedzą na to pytanie…
Naucz się baz danych (SQL), dplyr / pandas, narzędzi unixowych (sed, grep), skrobania, skryptowania, czyszczenia danych i testowania oprogramowania. Różne wyspecjalizowane dystrybucje mają niewielką wartość w przemyśle.
Zastosowana książka regresyjna, jak Angrist i Pischke, Faraway lub Weisberg, będzie bardziej praktycznym rodzajem teorii.
Stąd zainteresowanie statystyką nieparametryczną. Ale jednocześnie nieparametryczny bez żadnych założeń jest zbyt luźny. Aby odpowiedzieć na twoje pytanie, wyspecjalizowane rodziny mogą być traktowane jako odpowiedzi na proste pytania, na które możesz się natknąć. Na przykład myślę o Gaussie jako o „gładkim” oszacowaniu punktowym. Poisson odpowiada na kolejne proste pytanie. Kiedy ludzie budują modele matematyczne, te specjalne mogą być użytecznymi punktami podparcia. (Ale naukowcy często podejmują poszukiwania dystrybucji głównej w niewłaściwy sposób).
OP: Mam nadzieję, że dobrze się bawiłeś z badaniami doktoranckimi!
źródło