Dlaczego regresja logistyczna nie jest nazywana klasyfikacją logistyczną?

75

Ponieważ regresja logistyczna jest statystycznym modelem klasyfikacji zajmującym się zmiennymi zależnymi kategorycznie, dlaczego nie nazywa się to klasyfikacją logistyczną ? Czy nazwa „regresji” nie powinna być zarezerwowana dla modeli zajmujących się ciągłymi zmiennymi zależnymi?

Ismael Ghalimi
źródło
5
Regresja logistyczna należy do rodziny modeli GLM.
Stéphane Laurent,
10
Możesz go użyć do regresji prawdopodobieństw.
Emre,
25
Podczas gdy regresję logistyczną można z pewnością zastosować do klasyfikacji poprzez wprowadzenie progu prawdopodobieństw, które zwraca, nie jest to jednak jedyne jej zastosowanie - ani nawet pierwotne. Został opracowany do celów regresji i nadal jest wykorzystywany do celów regresji, które nie mają nic wspólnego z klasyfikacją. Twierdziłbym, że wciąż jest to do czego najczęściej wykorzystywane, ale przypuszczam, że zależy to od tego, na co patrzysz.
Glen_b
6
Być może ten artykuł na temat rozwoju regresji logistycznej może być interesujący, szczególnie, że daje pewne pojęcie o rodzajach problemów, w których jest stosowany jako technika regresji.
Glen_b

Odpowiedzi:

102

Regresja logistyczna zdecydowanie nie jest algorytmem klasyfikacji. Jest to tylko algorytm klasyfikacji w połączeniu z regułą decyzyjną, która czyni dychotomią przewidywane prawdopodobieństwo wyniku. Regresja logistyczna jest modelem regresji, ponieważ szacuje prawdopodobieństwo przynależności do klasy jako (transformacja) funkcji wieloliniowej cech.

Frank Harrell opublikował wiele odpowiedzi na tej stronie, wyliczając pułapki związane z uznaniem regresji logistycznej za algorytm klasyfikacji. Pomiędzy nimi:

Jeśli dobrze pamiętam, kiedyś wskazał mi swoją książkę na temat strategii regresji, aby rozwinąć te (i więcej!) Punkty, ale wydaje mi się, że nie mogę znaleźć tego konkretnego postu.

Sycorax
źródło
1
W takim przypadku wszyscy (lub większość) klasyfikatorów przewiduje prawdopodobieństwo przynależności do klasy (o ile mi wiadomo), a następnie przekształcają ten problem w klasy. Czyż nie?
Outlier
9
@Outlier Counterexample: SVM w ogóle nie oblicza prawdopodobieństw klas, po prostu mierzy odległość między obserwacją a hiperpłaszczyzną.
Sycorax,
@Outlier w ML nazywane są klasyfikatorami probabilistycznymi; drzewa i losowy las nie są, xgboost to - przynajmniej z logloss)
seanv507
12

Abstrakcyjnie regresja jest problemem obliczania warunkowego oczekiwania . Forma przyjęta przez to oczekiwanie różni się w zależności od założeń dotyczących sposobu generowania danych:E[Y|X=x]

  • Zakładając, że (Y | X = x) jest normalnie rozłożony, daje klasyczną regresję liniową.
  • Zakładając, że rozkład Poissona daje regresję Poissona.
  • Zakładając, że rozkład Bernoulliego daje regresję logistyczną.

Termin „regresja” został również użyty bardziej ogólnie, w tym podejścia takie jak regresja kwantyli, która szacuje dane kwantyle .(Y|X=x)

Chad Scherrer
źródło
-3

Oprócz podanych już dobrych odpowiedzi, innym poglądem jest to, że regresja logistyczna przewiduje prawdopodobieństwa (które są wartością ciągłą ), które mają zakres od 0 do 1.

wprowadź opis zdjęcia tutaj

krish___na
źródło