Czy w przypadku modelowania predykcyjnego musimy zajmować się pojęciami statystycznymi, takimi jak efekty losowe i nie- niezależność obserwacji (powtarzane pomiary)? Na przykład....
Mam dane z 5 kampanii mailowych (które miały miejsce w ciągu roku) z różnymi atrybutami i flagą do zakupu. Idealnie byłoby użyć wszystkich tych danych łącznie, aby zbudować model zakupu, biorąc pod uwagę atrybuty klienta w czasie kampanii. Powodem jest to, że zdarzenie zakupu jest rzadkie i chciałbym wykorzystać jak najwięcej informacji. Istnieje prawdopodobieństwo, że dany klient może uczestniczyć w dowolnym miejscu od 1 do 5 kampanii - co oznacza, że nie ma niezależności między rejestrami.
Czy ma to znaczenie przy użyciu:
1) Metoda uczenia maszynowego (np. Drzewo, MLP, SVM)
2) Podejście statystyczne (regresja logistyczna)?
**ADD:**
Myślałem o modelowaniu predykcyjnym, jeśli model działa, użyj go. Dlatego nigdy tak naprawdę nie brałem pod uwagę znaczenia założeń. Zastanawiam się nad tym, co opisałem powyżej.
Weź algorytmy uczenia maszynowego, takie jak MLP and SVM
. Są one z powodzeniem wykorzystywane do modelowania zdarzenia binarnego, takiego jak mój przykład powyżej, ale także danych szeregów czasowych, które są wyraźnie skorelowane. Jednak wiele używa funkcji utraty, które są prawdopodobieństwami i wyprowadzane przy założeniu, że błędy są ididowane. Na przykład drzewa wzmocnione gradientem w R gbm
używają funkcji utraty dewiacji pochodzących z dwumianu ( Strona 10 ).
Odpowiedzi:
Zastanawiam się nad tym sam i oto moje wstępne wnioski. Byłbym szczęśliwy, gdyby ktoś mógł uzupełnić / poprawić to swoją wiedzą i wszelkimi referencjami na ten temat.
Jeśli chcesz przetestować hipotezy dotyczące współczynników regresji logistycznej, sprawdzając istotność statystyczną, musisz modelować korelację między obserwacjami (lub w inny sposób skorygować pod kątem braku niezależności), ponieważ w przeciwnym razie Twoje standardowe błędy będą zbyt małe, przynajmniej jeśli weźmiesz pod uwagę efekty skupień. Ale współczynniki regresji są obiektywne, nawet w przypadku skorelowanych obserwacji, więc dobrze byłoby użyć takiego modelu do prognozowania.
W modelowaniu predykcyjnym nie trzeba jawnie uwzględniać korelacji podczas szkolenia modelu, niezależnie od tego, czy stosuje się regresję logistyczną, czy inne podejście. Jeśli jednak chcesz użyć zestawu wstrzymań do sprawdzania poprawności lub obliczania błędu poza próbą, chciałbyś upewnić się, że obserwacje dla każdej osoby pojawiły się tylko w jednym zestawie, zarówno szkoleniowym, jak i sprawdzającym, ale nie w obu. W przeciwnym razie twój model będzie przewidywał dla osób, o których już ma pewne informacje i nie uzyskasz prawdziwego odczytania zdolności klasyfikacji poza próbą.
źródło