Dlaczego współczynników regresji liniowej i logistycznej nie można oszacować przy użyciu tej samej metody?

9

Przeczytałem w książce dotyczącej uczenia maszynowego, że parametry regresji liniowej można oszacować (między innymi metodami) za pomocą spadku gradientu, podczas gdy parametry regresji logistycznej są zwykle szacowane przez oszacowanie maksymalnego prawdopodobieństwa.

Czy można wyjaśnić nowicjuszowi (mi), dlaczego potrzebujemy różnych metod regresji liniowej / logistycznej. alias dlaczego nie MLE dla regresji liniowej i dlaczego nie zejście gradientu dla regresji logistycznej?

Zwycięzca
źródło

Odpowiedzi:

19

Mylicie jabłka z pomarańczami. W porządku, ponieważ oba są pyszne.

Szacowanie maksymalnego prawdopodobieństwa dotyczy tego , co minimalizujesz, opadanie gradientu dotyczy tego , jak to minimalizujesz.

Dlaczego nie MLE dla regresji liniowej?

W rzeczywistości, regresja liniowa jest rozwiązany z największej wiarygodności. Standardowa metoda „minimalizacji sumy błędów kwadratowych” jest dokładnie matematycznie równoważna oszacowaniu maksymalnego prawdopodobieństwa przy użyciu warunkowego rozkładu normalnego.

Dlaczego nie obniżyć gradientu dla regresji logistycznej?

Możesz całkowicie rozwiązać regresję logistyczną, minimalizując funkcję prawdopodobieństwa za pomocą spadku gradientu. W rzeczywistości jest to świetne ćwiczenie i polecam wszystkim, aby zrobili to przynajmniej raz.

Spadek gradientu nie jest jednak standardową metodą. Nagroda ta trafia do iteracyjnie ponownie ważonej metody najmniejszych kwadratów / Newtona , która jest ulepszeniem zejścia gradientowego, uwzględniającego również drugą pochodną. Ta metoda po prostu okazuje się mieć znacznie lepsze właściwości niż spadek gradientu, ale trudniej ją zrozumieć i wdrożyć.

Matthew Drury
źródło
2
Dzięki. Czy metoda Newtona jest taka sama jak metoda Newtona Raphsona? Czy to coś innego?
Victor
2
Tak, uważam, że odnoszą się do tej samej koncepcji.
Matthew Drury,