Jaka jest różnica między regresją liniową a regresją logistyczną?

Odpowiedzi:

270
  • Wyjście regresji liniowej jako prawdopodobieństwa

    Kuszące jest użycie wyjścia regresji liniowej jako prawdopodobieństwa, ale jest to błąd, ponieważ wynik może być ujemny i większy niż 1, podczas gdy prawdopodobieństwo nie. Ponieważ regresja może faktycznie generować prawdopodobieństwa, które mogą być mniejsze niż 0 lub nawet większe niż 1, wprowadzono regresję logistyczną.

    Źródło: http://gerardnico.com/wiki/data_mining/simple_logistic_regression

    wprowadź opis zdjęcia tutaj

  • Wynik

    W regresji liniowej wynik (zmienna zależna) jest ciągły. Może mieć dowolną z nieskończonej liczby możliwych wartości.

    W regresji logistycznej wynik (zmienna zależna) ma tylko ograniczoną liczbę możliwych wartości.

  • Zmienna zależna

    Regresja logistyczna jest stosowana, gdy zmienna odpowiedzi ma charakter kategoryczny. Na przykład tak / nie, prawda / fałsz, czerwony / zielony / niebieski, 1. / 2. / 3. / 4. itd.

    Regresja liniowa jest stosowana, gdy zmienna odpowiedzi jest ciągła. Na przykład waga, wzrost, liczba godzin itp.

  • Równanie

    Regresja liniowa daje równanie, które ma postać Y = mX + C, oznacza równanie ze stopniem 1.

    Jednak regresja logistyczna daje równanie, które ma postać Y = e X + e -X

  • Interpretacja współczynnika

    W regresji liniowej interpretacja współczynników zmiennych niezależnych jest dość prosta (tj. Utrzymywanie wszystkich pozostałych zmiennych na stałym poziomie, przy jednostkowym wzroście tej zmiennej, oczekuje się, że zmienna zależna wzrośnie / zmniejszy się o xxx).

    Jednak w regresji logistycznej zależy od rodziny (dwumianowa, Poissona itp.) I używanego łącza (log, logit, log odwrotny itp.), Interpretacja jest inna.

  • Technika minimalizacji błędów

    Regresja liniowa wykorzystuje zwykłą metodę najmniejszych kwadratów , aby zminimalizować błędy i osiągnąć najlepsze możliwe dopasowanie, podczas gdy regresja logistyczna używa metody największego prawdopodobieństwa , aby dojść do rozwiązania.

    Regresję liniową zwykle rozwiązuje się poprzez zminimalizowanie błędu najmniejszych kwadratów modelu w danych, dlatego duże błędy są karane kwadratowo.

    Regresja logistyczna jest wręcz przeciwna. Korzystanie z funkcji straty logistycznej powoduje karanie dużych błędów do asymptotycznie stałej.

    Rozważ regresję liniową wyników kategorycznych {0, 1}, aby zobaczyć, dlaczego jest to problem. Jeśli twój model przewiduje, że wynik to 38, gdy prawda jest równa 1, nic nie straciłeś. Regresja liniowa próbowałaby zmniejszyć to 38, logistyka nie (tak bardzo) 2 .

Sayali Sonawane
źródło
Czy istnieje różnica między Y = e ^ X / 1 + e ^ -X i Y = e ^ X + e ^ -X?
MMS
3
e ^ X / 1? wszystko podzielone przez 1 jest takie samo. więc nie ma różnicy. Jestem pewien, że chciałeś zapytać o coś innego.
spacewanderer
Wiem, że to stary wątek, ale biorąc pod uwagę stwierdzenie: „Regresja logistyczna jest używana, gdy zmienna odpowiedzi ma charakter kategoryczny. Na przykład tak / nie, prawda / fałsz, czerwony / zielony / niebieski, 1. / 2. / 3. / 4., itp. ”; jaka jest różnica między tym a klasyfikacją?
kingJulian
@kingJulian Regresja logistyczna jest rzeczywiście używana do klasyfikacji. Sprawdź to , może ci się przydać tak jak ja
QuantumHoneybees
@kingJulian: Regresja logistyczna jest techniką klasyfikacji, a klasyfikacja oznacza kilka algorytmów, które próbują przewidzieć kilka wyników.
user3676305
204

W regresji liniowej wynik (zmienna zależna) jest ciągły. Może mieć dowolną z nieskończonej liczby możliwych wartości. W regresji logistycznej wynik (zmienna zależna) ma tylko ograniczoną liczbę możliwych wartości.

Na przykład, jeśli X zawiera powierzchnię w stopach kwadratowych domów, a Y zawiera odpowiednią cenę sprzedaży tych domów, można użyć regresji liniowej, aby przewidzieć cenę sprzedaży jako funkcję wielkości domu. Chociaż możliwa cena sprzedaży może w rzeczywistości nie być żadna , istnieje tak wiele możliwych wartości, które liniowy model regresji będą wybrane.

Jeśli zamiast tego chciałbyś przewidzieć, na podstawie wielkości, czy dom sprzedałby się za ponad 200 000 USD, zastosowałbyś regresję logistyczną. Możliwe wyniki to: Tak, dom będzie sprzedawany za ponad 200 000 USD lub Nie, dom nie.

Eric G.
źródło
3
W przykładzie regresji logistycznej andrews raka mogę narysować poziomą linię y = .5, (która oczywiście przechodzi przez y = .5), dziesięć, jeśli którykolwiek punkt znajduje się powyżej tej linii y = .5 => + ve, w przeciwnym razie -ve . Dlaczego więc potrzebuję regresji logistycznej. Próbuję tylko zrozumieć najlepsze wyjaśnienie przypadku zastosowania regresji logistycznej?
vinita
@vinita: tutaj lub tutaj jest prosty przykład niestosowania regresji liniowej, a następnie trzymania thresha w przypadku problemów z klasyfikacją.
Ankush Shah
3
regresja logistyczna jest lepszym klasyfikatorem danych kategorycznych niż regresja liniowa. Używa funkcji błędu entropii krzyżowej zamiast najmniejszych kwadratów. Dlatego nie jest tak wrażliwe na wartości odstające, a także nie karze „zbyt poprawnych” punktów danych, jak to robi najmniejsze kwadraty.
Marcel_marcel1991
15

Aby dodać poprzednie odpowiedzi.

Regresja liniowa

Ma rozwiązać problem przewidywania / szacowania wartości wyjściowej dla danego elementu X (powiedzmy f (x)). Wynik prognozy jest funkcją ciągłą, w której wartości mogą być dodatnie lub ujemne. W takim przypadku zwykle masz zestaw danych wejściowych z wieloma przykładami i wartością wyjściową dla każdego z nich. Celem jest dopasowanie modelu do tego zestawu danych, abyś mógł przewidzieć wyniki dla nowych różnych / nigdy nie widzianych elementów. Poniżej znajduje się klasyczny przykład dopasowania linii do zbioru punktów, ale ogólnie regresja liniowa może być zastosowana do dopasowania bardziej złożonych modeli (przy użyciu wyższych stopni wielomianu):

wprowadź opis zdjęcia tutaj Rozwiązanie problemu

Regresję Linea można rozwiązać na dwa różne sposoby:

  1. Równanie normalne (bezpośredni sposób rozwiązania problemu)
  2. Spadek gradientu (podejście iteracyjne)

Regresja logistyczna

Ma na celu rozwiązanie problemów z klasyfikacją , gdy biorąc pod uwagę element, musisz sklasyfikować to samo w kategorii N. Typowymi przykładami są na przykład poczta, która klasyfikuje ją jako spam lub nie, lub znaleziony pojazd do której kategorii należy (samochód, ciężarówka, furgonetka itp.). Zasadniczo wynik jest skończonym zestawem wartości descrete.

Rozwiązanie problemu

Problemy z regresją logistyczną można rozwiązać tylko przy użyciu spadku gradientu. Sformułowanie ogólnie jest bardzo podobne do regresji liniowej, jedyną różnicą jest użycie innej funkcji hipotezy. W regresji liniowej hipoteza ma postać:

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 

gdzie theta to model, który próbujemy dopasować, a [1, x_1, x_2, ..] to wektor wejściowy. W regresji logistycznej funkcja hipotezy jest inna:

g(x) = 1 / (1 + e^-x)

wprowadź opis zdjęcia tutaj

Ta funkcja ma przyjemną właściwość, w zasadzie odwzorowuje dowolną wartość do zakresu [0,1], który jest odpowiedni do obsługi możliwości podczas klasyfikowania. Na przykład w przypadku klasyfikacji binarnej g (X) można interpretować jako prawdopodobieństwo przynależności do klasy dodatniej. W tym przypadku zwykle masz różne klasy, które są oddzielone granicą decyzyjną, która zasadniczo jest krzywą, która decyduje o separacji między różnymi klasami. Poniżej znajduje się przykład zestawu danych podzielonego na dwie klasy.

wprowadź opis zdjęcia tutaj

rkachach
źródło
7

Oba są dość podobne w rozwiązywaniu rozwiązania, ale jak powiedzieli inni, jedna (regresja logistyczna) służy do przewidywania kategorii „dopasowanie” (T / N lub 1/0), a druga (regresja liniowa) służy do przewidywania wartość.

Więc jeśli chcesz przewidzieć, czy masz raka T / N (lub prawdopodobieństwo) - skorzystaj z logistyki. Jeśli chcesz wiedzieć, ile lat będziesz żyć - skorzystaj z regresji liniowej!

Doug F.
źródło
6

Podstawowa różnica:

Regresja liniowa jest w zasadzie modelem regresji, co oznacza, że ​​da nie dyskretny / ciągły wynik funkcji. To podejście daje wartość. Na przykład: biorąc x co to jest f (x)

Na przykład biorąc pod uwagę zestaw różnych czynników i cenę nieruchomości po szkoleniu, możemy podać wymagane czynniki, aby ustalić, jaka będzie cena nieruchomości.

Regresja logistyczna jest w zasadzie algorytmem binarnej klasyfikacji, co oznacza, że ​​tutaj będzie dyskretna wartość wyjściowa dla funkcji. Na przykład: dla danego x, jeśli f (x)> próg sklasyfikuj jako 1, w przeciwnym razie sklasyfikuj jako 0.

Na przykład biorąc pod uwagę zestaw wielkości guza mózgu jako dane treningowe, możemy użyć tego rozmiaru jako danych wejściowych w celu ustalenia, czy jest to guz benzynowy czy złośliwy. Dlatego tutaj wyjście jest dyskretne albo 0, albo 1.

* tutaj funkcja jest zasadniczo funkcją hipotezy

Sayantan Ghosh
źródło
5

Mówiąc najprościej, regresja liniowa jest algorytmem regresji, który wyprzedza możliwą ciągłą i nieskończoną wartość; regresja logistyczna jest uważana za binarny algorytm klasyfikujący, który generuje „prawdopodobieństwo” wejścia należącego do etykiety (0 lub 1).

Jason CHAN
źródło
Dzięki Bogu przeczytałem twoją notatkę o prawdopodobieństwie. Już miał odpisać logistykę jako binarny klasyfikator.
HashRocketSyntax
4

Regresja oznacza zmienną ciągłą, Liniowa oznacza relację liniową między yi x. Ex = Próbujesz przewidzieć wynagrodzenie na podstawie wieloletniego doświadczenia. Zatem wynagrodzenie jest zmienną niezależną (y), a rok doświadczenia jest zmienną zależną (x). y = b0 + b1 * x1 Regresja liniowa Staramy się znaleźć optymalną wartość stałej b0 i b1, która da nam najlepszą linię dopasowania dla twoich danych obserwacyjnych. Jest to równanie linii, które daje ciągłą wartość od x = 0 do bardzo dużej wartości. Ta linia nazywa się modelem regresji liniowej.

Regresja logistyczna jest rodzajem techniki klasyfikacji. Nie daj się zwieść regresji terminów. Tutaj przewidujemy, czy y = 0 czy 1.

Tutaj najpierw musimy znaleźć p (y = 1) (prawdopodobieństwo w y = 1) biorąc pod uwagę x z formuły poniżej.

prob

Prawdopodobieństwo p jest powiązane z y przez poniższy wzór

s

Np. Możemy dokonać klasyfikacji guza mającego ponad 50% szansy na raka jako 1 i guza mającego mniej niż 50% szansy na raka jako 0. 5

Tutaj czerwony punkt zostanie przewidziany jako 0, podczas gdy zielony punkt będzie przewidziany jako 1.

Ashish Anand
źródło
1

W skrócie: regresja liniowa daje ciągłą wydajność. tj. dowolna wartość z zakresu wartości. Regresja logistyczna daje dyskretny wynik. tj. Tak / Nie, rodzaj wyjścia 0/1.

Sudeep K Rana
źródło
1

Nie mogę się bardziej zgodzić z powyższymi komentarzami. Ponadto istnieje kilka innych różnic, takich jak

W regresji liniowej zakłada się, że reszty są normalnie rozłożone. W regresji logistycznej reszty muszą być niezależne, ale zwykle nie są rozkładane.

Regresja liniowa zakłada, że ​​stała zmiana wartości zmiennej objaśniającej powoduje stałą zmianę zmiennej odpowiedzi. To założenie nie obowiązuje, jeśli wartość zmiennej odpowiedzi reprezentuje prawdopodobieństwo (w regresji logistycznej)

GLM (Uogólnione modele liniowe) nie zakłada liniowej zależności między zmiennymi zależnymi i niezależnymi. Zakłada jednak liniową zależność między funkcją łącza a zmiennymi niezależnymi w modelu logit.

Rakend Dubba
źródło
1
| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |
Symfonia
źródło
0

Mówiąc prosto: jeśli w modelu regresji liniowej pojawia się więcej przypadków testowych, które są daleko od progu (powiedzmy = 0,5) dla prognozy y = 1 iy = 0. Wtedy hipoteza ulegnie zmianie i stanie się gorsza, dlatego model regresji liniowej nie jest wykorzystywany do problemu klasyfikacji.

Innym problemem jest to, że jeśli klasyfikacja wynosi y = 0 iy = 1, h (x) może wynosić> 1 lub <0. Więc używamy regresji logistycznej, która wynosiła 0 <= h (x) <= 1.

Adarsh ​​Bahadur
źródło
0

Regresja logistyczna jest używana do przewidywania wyników kategorycznych, takich jak Tak / Nie, Niska / Średnia / Wysoka itp. Masz w zasadzie 2 typy regresji logistycznej Binarna regresja logistyczna (Tak / Nie, Zatwierdzona / Odrzucona) lub Wieloklasowa regresja logistyczna (Niska / Średnia / High, cyfry od 0–9 itp.)

Z drugiej strony regresja liniowa ma miejsce, gdy zmienna zależna (y) jest ciągła. y = mx + c jest prostym równaniem regresji liniowej (m = nachylenie ic jest przecięciem y). Regresja wieloliniowa ma więcej niż 1 niezależną zmienną (x1, x2, x3 ... itd.)

ketan solanki
źródło
0

W regresji liniowej wynik jest ciągły, podczas gdy w regresji logistycznej wynik ma tylko ograniczoną liczbę możliwych wartości (dyskretnych).

przykład: w scenariuszu podana wartość x to rozmiar wykresu w stopach kwadratowych, a następnie przewidywanie y, tj. szybkość wykresu podlega regresji liniowej.

Jeśli zamiast tego chciałbyś przewidzieć, na podstawie wielkości, czy działka sprzedałaby się za więcej niż 300000 Rs, użyłbyś regresji logistycznej. Możliwe wyniki to: Tak, fabuła będzie sprzedawana za ponad 300000 Rs, lub Nie.

pradeep kumar
źródło
0

W przypadku regresji liniowej wynik jest ciągły, natomiast w przypadku regresji logistycznej wynik jest dyskretny (nie ciągły)

Aby przeprowadzić regresję liniową, potrzebujemy liniowej zależności między zmiennymi zależnymi i niezależnymi. Aby jednak przeprowadzić regresję logistyczną, nie potrzebujemy liniowej zależności między zmiennymi zależnymi i niezależnymi.

Regresja liniowa polega na dopasowaniu linii prostej w danych, natomiast regresja logistyczna polega na dopasowaniu krzywej do danych.

Regresja liniowa jest algorytmem regresji dla uczenia maszynowego, podczas gdy regresja logistyczna jest algorytmem klasyfikacji uczenia maszynowego.

Regresja liniowa zakłada rozkład gaussowski (lub normalny) zmiennej zależnej. Regresja logistyczna zakłada dwumianowy rozkład zmiennej zależnej.

Sandeep R.
źródło