Pracuję w dziedzinie eksploracji danych i miałem bardzo mało formalnego wykształcenia statystycznego. Ostatnio czytam dużo pracy, która koncentruje się na bayesowskich paradygmatach uczenia się i wydobywania, które uważam za bardzo interesujące.
Moje pytanie brzmi (w kilku częściach), biorąc pod uwagę problem, czy istnieją ogólne ramy, dzięki którym można zbudować model statystyczny? Jakie są pierwsze rzeczy, które robisz, gdy otrzymujesz zestaw danych, który chcesz modelować proces bazowy? Czy istnieją dobre książki / samouczki, które wyjaśniają ten proces, czy jest to kwestia doświadczenia? Czy podczas konstruowania modelu wnioskowanie jest na pierwszym planie, czy też najpierw starasz się opisać dane, zanim zaczniesz się martwić, jak je wykorzystać do obliczeń?
Wszelkie informacje będą mile widziane! Dzięki.
źródło
Odpowiedzi:
W statystyce, podobnie jak w Data Mining, zaczynasz od danych i celu. W statystykach duży nacisk kładzie się na wnioskowanie, czyli odpowiadanie na pytania na poziomie populacji przy użyciu próby. W eksploracji danych nacisk kładziony jest zazwyczaj na przewidywanie: tworzysz model z próbki (dane treningowe) w celu przewidywania danych testowych.
Proces statystyczny przebiega wtedy:
Przeglądaj dane za pomocą podsumowań i wykresów - w zależności od tego, w jaki sposób statystyki opierają się na danych, niektórzy będą bardziej otwarci, patrząc na dane ze wszystkich stron, a inni (szczególnie naukowcy społeczni) będą patrzeć na dane przez obiektyw pytanie zainteresowania (np. wykreślić szczególnie zmienne zainteresowania, a nie inne)
Wybierz odpowiednią rodzinę modeli statystycznych (np. Regresja liniowa dla ciągłego Y, regresja logistyczna dla binarnego Y lub Poissona dla danych zliczeniowych) i wykonaj wybór modelu
Oszacuj ostateczny model
Założenia modelu testowego, aby upewnić się, że są one właściwie spełnione (inne niż testowanie pod kątem dokładności predykcyjnej w eksploracji danych)
Użyj modelu do wnioskowania - jest to główny krok, który różni się od eksploracji danych. Pojawia się tutaj słowo „wartość p” ...
Spójrz na dowolny podręcznik podstawowych statystyk, a znajdziesz rozdział poświęcony analizie danych eksploracyjnych, a następnie niektóre rozkłady (które pomogą wybrać rozsądne modele aproksymacyjne), a następnie wnioskowanie (przedziały ufności i testy hipotez) i modele regresji.
Opisałem ci klasyczny proces statystyczny. Mam jednak z tym wiele problemów. Nacisk na wnioskowanie całkowicie zdominował pola, podczas gdy przewidywanie (które jest niezwykle ważne i przydatne) zostało prawie zaniedbane. Co więcej, jeśli spojrzysz na to, jak naukowcy wykorzystują statystyki do wnioskowania, przekonasz się, że używają ich zupełnie inaczej! Możesz dowiedzieć się więcej na ten temat tutaj
źródło
Jeśli chodzi o książki, „Elementy uczenia statystycznego” Hastie, Tibshirani i Friedmana są bardzo dobre.
Pełna książka jest dostępna na stronie internetowej autorów ; możesz sprawdzić, czy jest w ogóle odpowiedni dla twoich potrzeb.
źródło
Jeśli chodzi o referencje (on-line), poleciłbym zapoznanie się z samouczkami Andrew Moore'a na temat wyszukiwania danych statystycznych .
Istnieje wiele podręczników dotyczących eksploracji danych i uczenia maszynowego; być może dobrym punktem wyjścia są Zasady eksploracji danych , Hand i in. oraz Wprowadzenie do uczenia maszynowego , autorstwa Alpaydin.
źródło
Najlepszą wprowadzającą książką bayesowską, jaką znalazłem, jest Data Analysis - A Bayesian Tutorial . To jest całkiem praktyczne.
źródło