Modelowanie predykcyjne - czy powinniśmy dbać o modelowanie mieszane?

19

Czy w przypadku modelowania predykcyjnego musimy zajmować się pojęciami statystycznymi, takimi jak efekty losowe i nie- niezależność obserwacji (powtarzane pomiary)? Na przykład....

Mam dane z 5 kampanii mailowych (które miały miejsce w ciągu roku) z różnymi atrybutami i flagą do zakupu. Idealnie byłoby użyć wszystkich tych danych łącznie, aby zbudować model zakupu, biorąc pod uwagę atrybuty klienta w czasie kampanii. Powodem jest to, że zdarzenie zakupu jest rzadkie i chciałbym wykorzystać jak najwięcej informacji. Istnieje prawdopodobieństwo, że dany klient może uczestniczyć w dowolnym miejscu od 1 do 5 kampanii - co oznacza, że ​​nie ma niezależności między rejestrami.

Czy ma to znaczenie przy użyciu:

1) Metoda uczenia maszynowego (np. Drzewo, MLP, SVM)

2) Podejście statystyczne (regresja logistyczna)?

**ADD:**

Myślałem o modelowaniu predykcyjnym, jeśli model działa, użyj go. Dlatego nigdy tak naprawdę nie brałem pod uwagę znaczenia założeń. Zastanawiam się nad tym, co opisałem powyżej.

Weź algorytmy uczenia maszynowego, takie jak MLP and SVM. Są one z powodzeniem wykorzystywane do modelowania zdarzenia binarnego, takiego jak mój przykład powyżej, ale także danych szeregów czasowych, które są wyraźnie skorelowane. Jednak wiele używa funkcji utraty, które są prawdopodobieństwami i wyprowadzane przy założeniu, że błędy są ididowane. Na przykład drzewa wzmocnione gradientem w R gbmużywają funkcji utraty dewiacji pochodzących z dwumianu ( Strona 10 ).

B_Miner
źródło
1
Będzie to miało znaczenie dla podejść statystycznych, które zakładają niezależność między rekordami, ponieważ wtedy masz do czynienia z powtarzanymi pomiarami.
Michelle
4
Wydaje mi się, że jedną z głównych różnic między uczeniem maszynowym skoncentrowanym na prognozowaniu a statystykami ukierunkowanymi na wnioskowanie jest dokładnie to, co mówisz, B_Miner. Uczenie maszynowe bardziej koncentruje się na tym, co działa, podczas gdy tradycyjne statystyki przywiązują szczególną wagę do założeń. W obu przypadkach musisz być świadomy założeń / właściwości swoich podejść, a następnie podjąć świadomą decyzję, czy mają one znaczenie, czy nie. Być może oszukujesz się w modelowaniu predykcyjnym o tym, czy Twój model działa, jeśli nie rozumiesz założeń / właściwości tego podejścia.
Anne Z.
2
@ AnneZ.Jeśli przestrzegasz zalecanego podejścia do sprawdzania poprawności zestawu szkoleniowego, testowego i walidacyjnego (wszystkie próbki wystarczająco duże) w modelowaniu predykcyjnym i znajdujesz coś, co działa, czy nadal musisz się martwić, czy podstawowe założenia są spełnione? Z pewnością nie polecam bezmyślnego stosowania ML, po prostu zastanawiałem się ...
steffen
2
W tym kontekście interesujący może być artykuł „Modelowanie statystyczne: dwie kultury” , omawiany w trzecim klubie czasopism z
crossvalidated

Odpowiedzi:

14

Zastanawiam się nad tym sam i oto moje wstępne wnioski. Byłbym szczęśliwy, gdyby ktoś mógł uzupełnić / poprawić to swoją wiedzą i wszelkimi referencjami na ten temat.

Jeśli chcesz przetestować hipotezy dotyczące współczynników regresji logistycznej, sprawdzając istotność statystyczną, musisz modelować korelację między obserwacjami (lub w inny sposób skorygować pod kątem braku niezależności), ponieważ w przeciwnym razie Twoje standardowe błędy będą zbyt małe, przynajmniej jeśli weźmiesz pod uwagę efekty skupień. Ale współczynniki regresji są obiektywne, nawet w przypadku skorelowanych obserwacji, więc dobrze byłoby użyć takiego modelu do prognozowania.

W modelowaniu predykcyjnym nie trzeba jawnie uwzględniać korelacji podczas szkolenia modelu, niezależnie od tego, czy stosuje się regresję logistyczną, czy inne podejście. Jeśli jednak chcesz użyć zestawu wstrzymań do sprawdzania poprawności lub obliczania błędu poza próbą, chciałbyś upewnić się, że obserwacje dla każdej osoby pojawiły się tylko w jednym zestawie, zarówno szkoleniowym, jak i sprawdzającym, ale nie w obu. W przeciwnym razie twój model będzie przewidywał dla osób, o których już ma pewne informacje i nie uzyskasz prawdziwego odczytania zdolności klasyfikacji poza próbą.

Anne Z.
źródło