Studiując metody eksploracji danych, zrozumiałem, że istnieją dwie główne kategorie:
Metody predykcyjne:
- Klasyfikacja
- Regresja
Metody opisowe:
- Grupowanie
- Zasady stowarzyszenia
Ponieważ chcę przewidzieć dostępność użytkownika (wydajność) na podstawie lokalizacji, aktywności, poziomu naładowania baterii (dane wejściowe dla modelu treningowego), myślę, że to oczywiste, że wybrałbym „metody predykcyjne”, ale teraz nie mogę wybierać między klasyfikacja i regresja. Z tego, co rozumiem do tej pory, klasyfikacja może rozwiązać mój problem, ponieważ dane wyjściowe są „dostępne” lub „niedostępne”.
Czy klasyfikacja może zapewnić prawdopodobieństwo (lub prawdopodobieństwo), że użytkownik będzie dostępny lub niedostępny?
Ponieważ na wyjściu nie będzie tylko 0 (niedostępne) lub 1 (dostępne), ale będzie to coś w stylu:
- dostępny
- niedostępne
Czy ten problem można rozwiązać również za pomocą regresji?
Rozumiem, że regresja jest używana dla ciągłego wyjścia (nie tylko 0 lub 1 wyjść), ale nie może być ciągłą wartością dostępności użytkownika (tak jak wyjście jest co oznacza, że użytkownik jest dostępne, domyślnie użytkownik jest niedostępne).
Możesz zastosować naiwną klasyfikację Bayesa i obliczyć prawdopodobieństwa tylne przy użyciu wcześniejszych przekonań lub regresji logistycznej można użyć z funkcją sigmoidalną.
źródło