Wskazówki i porady dotyczące modelowania statystycznego?

10

Pracuję w dziedzinie eksploracji danych i miałem bardzo mało formalnego wykształcenia statystycznego. Ostatnio czytam dużo pracy, która koncentruje się na bayesowskich paradygmatach uczenia się i wydobywania, które uważam za bardzo interesujące.

Moje pytanie brzmi (w kilku częściach), biorąc pod uwagę problem, czy istnieją ogólne ramy, dzięki którym można zbudować model statystyczny? Jakie są pierwsze rzeczy, które robisz, gdy otrzymujesz zestaw danych, który chcesz modelować proces bazowy? Czy istnieją dobre książki / samouczki, które wyjaśniają ten proces, czy jest to kwestia doświadczenia? Czy podczas konstruowania modelu wnioskowanie jest na pierwszym planie, czy też najpierw starasz się opisać dane, zanim zaczniesz się martwić, jak je wykorzystać do obliczeń?

Wszelkie informacje będą mile widziane! Dzięki.

Nick
źródło
4
Cześć Nick - witamy w CV. Twoje pytanie jest bardzo szerokie; możesz mieć więcej szczęścia, jeśli uzyskasz dobre odpowiedzi, jeśli podzielisz je na mniejsze pytania (a kiedy już to zrobisz, może się okazać, że na niektóre z nich już tutaj udzielono odpowiedzi). Jako minimum powinieneś zaznaczyć swoje pytanie jako „wiki społeczności”. Zasadniczo oznacza to, że zamiast zwykłego formatu konkurujących odpowiedzi tutaj, wszystkie odpowiedzi jako całość będą uważane za Odpowiedź.
Matt Parker,
1
@Matt Pole wyboru CW nie pojawia się już w przypadku pytania. Mod będzie musiał zaznaczyć pytanie jako CW w razie potrzeby.
@ Nick .. Też jestem nowy. Myślę, że ogólną rzeczą i najważniejszą rzeczą, którą należy zachować, jest to, jak chcesz opisać zmienną wyjściową. Czy jest to ciągłe, czy jest binarne? Ponieważ na koniec dnia chcesz obserwować / modelować zmienną wyjściową. Kolejną rzeczą, którą pomyślałbym, jakie są możliwe sposoby modelowania wymaganej zmiennej. To, co by się wtedy wydarzyło, to to, że jeśli zmienna jest dychotomiczna, procedura jest modelem logitowym. Następnym rozważeniem będą dane, jej drobiazgowość i różne problemy, z którymi się spotykamy .. Mam nadzieję, że to ma sens.
ayush biyani,

Odpowiedzi:

6

W statystyce, podobnie jak w Data Mining, zaczynasz od danych i celu. W statystykach duży nacisk kładzie się na wnioskowanie, czyli odpowiadanie na pytania na poziomie populacji przy użyciu próby. W eksploracji danych nacisk kładziony jest zazwyczaj na przewidywanie: tworzysz model z próbki (dane treningowe) w celu przewidywania danych testowych.

Proces statystyczny przebiega wtedy:

  1. Przeglądaj dane za pomocą podsumowań i wykresów - w zależności od tego, w jaki sposób statystyki opierają się na danych, niektórzy będą bardziej otwarci, patrząc na dane ze wszystkich stron, a inni (szczególnie naukowcy społeczni) będą patrzeć na dane przez obiektyw pytanie zainteresowania (np. wykreślić szczególnie zmienne zainteresowania, a nie inne)

    1. Wybierz odpowiednią rodzinę modeli statystycznych (np. Regresja liniowa dla ciągłego Y, regresja logistyczna dla binarnego Y lub Poissona dla danych zliczeniowych) i wykonaj wybór modelu

    2. Oszacuj ostateczny model

    3. Założenia modelu testowego, aby upewnić się, że są one właściwie spełnione (inne niż testowanie pod kątem dokładności predykcyjnej w eksploracji danych)

    4. Użyj modelu do wnioskowania - jest to główny krok, który różni się od eksploracji danych. Pojawia się tutaj słowo „wartość p” ...

Spójrz na dowolny podręcznik podstawowych statystyk, a znajdziesz rozdział poświęcony analizie danych eksploracyjnych, a następnie niektóre rozkłady (które pomogą wybrać rozsądne modele aproksymacyjne), a następnie wnioskowanie (przedziały ufności i testy hipotez) i modele regresji.

Opisałem ci klasyczny proces statystyczny. Mam jednak z tym wiele problemów. Nacisk na wnioskowanie całkowicie zdominował pola, podczas gdy przewidywanie (które jest niezwykle ważne i przydatne) zostało prawie zaniedbane. Co więcej, jeśli spojrzysz na to, jak naukowcy wykorzystują statystyki do wnioskowania, przekonasz się, że używają ich zupełnie inaczej! Możesz dowiedzieć się więcej na ten temat tutaj

Galit Shmueli
źródło
2

Jeśli chodzi o książki, „Elementy uczenia statystycznego” Hastie, Tibshirani i Friedmana są bardzo dobre.

Pełna książka jest dostępna na stronie internetowej autorów ; możesz sprawdzić, czy jest w ogóle odpowiedni dla twoich potrzeb.

NPE
źródło
1

Najlepszą wprowadzającą książką bayesowską, jaką znalazłem, jest Data Analysis - A Bayesian Tutorial . To jest całkiem praktyczne.

John Salvatier
źródło