Drzewo decyzyjne czy regresja logistyczna?

14

Pracuję nad problemem klasyfikacji. Mam zestaw danych zawierający taką samą liczbę zmiennych jakościowych i zmiennych ciągłych. Skąd będę wiedział, jakiej techniki użyć? między drzewem decyzyjnym a regresją logistyczną?

Czy słusznie jest założyć, że regresja logistyczna będzie bardziej odpowiednia dla zmiennej ciągłej, a drzewo decyzyjne będzie bardziej odpowiednie dla zmiennej ciągłej + kategorialnej?

Bieg
źródło
Czy możesz dodać więcej szczegółów, takich jak liczba wierszy, liczba kolumn (także ile kategoryczne / ciągłe)?
Nitesh
Cześć @Nitesh, Mam 32 zmienne wejściowe + 1 zmienna docelowa. Rekordy są bliskie 2,5 lakh dla danych treningowych i mówią około 1 lakh danych testowych. Dane testowe są poza czasem.
Arun

Odpowiedzi:

22

Krótko mówiąc : zrób to, co powiedział @untitledprogrammer, wypróbuj oba modele i dokonaj weryfikacji krzyżowej, aby wybrać jeden.

Zarówno drzewa decyzyjne (w zależności od implementacji, np. C4.5), jak i regresja logistyczna powinny dobrze radzić sobie z ciągłymi i kategorycznymi danymi. W przypadku regresji logistycznej należy zmodyfikować kodowane zmienne kategorialne .

Jak wspomniano @untitledprogrammer, trudno jest z góry ustalić, która technika będzie lepsza w oparciu o typy posiadanych funkcji, ciągłe lub inne. To naprawdę zależy od konkretnego problemu i posiadanych danych. (Zobacz twierdzenie o braku darmowego lunchu )

Należy jednak pamiętać, że model regresji logistycznej szuka pojedynczej liniowej granicy decyzji w przestrzeni cech, podczas gdy drzewo decyzyjne zasadniczo dzieli przestrzeń cech na półprzestrzenie przy użyciu liniowych granic decyzji wyrównanych do osi . Efektem netto jest to, że masz nieliniową granicę decyzyjną, prawdopodobnie więcej niż jedną.

Jest to przydatne, gdy punktów danych nie można łatwo oddzielić pojedynczą hiperpłaszczyzną, ale z drugiej strony drzewa decyzyjne są tak elastyczne, że mogą być podatne na nadmierne dopasowanie. Aby temu zaradzić, możesz spróbować przycinania. Regresja logistyczna jest zwykle mniej podatna (ale nie odporna!) Na nadmierne dopasowanie.

xyxy

Musisz więc zadać sobie pytanie:

  • jaki rodzaj granicy decyzji ma większy sens w twoim konkretnym problemie?
  • jak chcesz zrównoważyć stronniczość i wariancję?
  • czy są interakcje między moimi funkcjami?

Oczywiście zawsze dobrym pomysłem jest wypróbowanie obu modeli i przeprowadzenie weryfikacji krzyżowej. Pomoże to dowiedzieć się, który z nich ma większy błąd generalizacji.

Victor Ma
źródło
Dokładnie @Victor.
untitledprogrammer,
@Victor Bardzo dziękuję za bardzo szczegółowe wyjaśnienie.
Arun,
6

Spróbuj użyć zarówno drzewa regresji, jak i drzewa decyzyjnego. Porównaj efektywność każdej techniki, stosując 10-krotną walidację krzyżową. Trzymaj się tej o wyższej wydajności. Trudno byłoby ocenić, która metoda byłaby lepiej dopasowana, po prostu wiedząc, że zbiór danych jest ciągły i / lub kategoryczny.

untitledprogrammer
źródło
1

To naprawdę zależy od struktury podstawowej dystrybucji danych. Jeśli masz uzasadnione powody, by sądzić, że dane przybliżają rozkład Bernoulliego, wielomianowa regresja logistyczna będzie działać dobrze i da ci możliwe do interpretacji wyniki. Jeśli jednak istnieją struktury nieliniowe w rozkładzie leżącym u podstaw, powinieneś poważnie rozważyć metodę nieparametryczną.

Chociaż możesz użyć drzewa decyzyjnego jako metody nieparametrycznej, możesz również rozważyć wygenerowanie losowego lasu - generalnie generuje on dużą liczbę pojedynczych drzew decyzyjnych z podzbiorów danych, a końcową klasyfikacją jest zaglomerowany głos wszystkich drzew . Losowy las pomaga zorientować się w udziale, jaki każda zmienna predykcyjna wnosi do odpowiedzi.

Kolejnym czynnikiem, o którym należy pamiętać, jest interpretowalność. Jeśli próbujesz tylko sklasyfikować dane, prawdopodobnie nie obchodzi cię zależność między zmiennymi objaśniającymi a zmiennymi odpowiedzi. Jeśli jednak w ogóle interesuje Cię interpretowalność, wielomianowa regresja logistyczna jest znacznie łatwiejsza do interpretacji, ogólnie metody parametryczne, ponieważ przyjmują założenia dotyczące rozkładu podstawowego, mówią bardziej intuicyjnie relacje.

Theresa Barton
źródło
0

Aby użyć drzewa decyzyjnego, należy przekształcić zmienną ciągłą w jakościową.

Jeszcze jedno, regresja logistyczna jest zwykle używana do przewidywania wyniku zgodnie z prawdopodobieństwem.

Chong Zheng
źródło