Niedawno otrzymałem następujące pytanie przez e-mail. Odpowiem poniżej, ale chciałem usłyszeć, co myślą inni.
Czy nazwałbyś regresję logistyczną testem nieparametrycznym? Rozumiem, że samo oznaczenie testu nieparametrycznego, ponieważ jego dane nie są normalnie dystrybuowane, jest niewystarczające. Chodzi raczej o brak założeń. regresja logistyczna ma założenia.
hypothesis-testing
logistic
nonparametric
Jeromy Anglim
źródło
źródło
Odpowiedzi:
Larry Wasserman definiuje model parametryczny jako zbiór rozkładów, „które można sparametryzować za pomocą skończonej liczby parametrów”. (str. 87) Natomiast model nieparametryczny jest zbiorem rozkładów, których nie można sparametryzować skończoną liczbą parametrów.
Zatem zgodnie z tą definicją standardowa regresja logistyczna jest modelem parametrycznym. Model regresji logistycznej jest parametryczny, ponieważ ma skończony zestaw parametrów. W szczególności parametrami są współczynniki regresji. Zazwyczaj odpowiadają one jednemu dla każdego predyktora plus stałej. Regresja logistyczna jest szczególną formą uogólnionego modelu liniowego. W szczególności wymaga użycia funkcji łącza logit do modelowania danych dystrybuowanych dwumianowo.
Co ciekawe, możliwe jest przeprowadzenie nieparametrycznej regresji logistycznej (np. Hastie, 1983). Może to obejmować użycie splajnów lub jakiejś formy wygładzania nieparametrycznego do modelowania działania predyktorów.
Bibliografia
źródło
Powiedziałbym, że regresja logistyczna wcale nie jest testem; jednak regresja logistyczna może wówczas prowadzić do braku testów lub kilku testów.
Masz całkowitą rację, że oznaczenie czegoś nieparametrycznego, ponieważ nie jest to normalne, jest niewystarczające. Nazwę rodziny wykładniczej nazwałbym jawnie parametryczną, więc zwykle uważam regresję logistyczną (i regresję Poissona i regresję Gamma i ...) za parametryczną, chociaż mogą istnieć okoliczności, w których mógłbym zaakceptować argument, że konkretne regresje logistyczne mogłyby być uważane za nieparametryczne (lub przynajmniej w pewnym sensie falistym ręcznie, tylko quasi „parametryczne”).
Strzeż się wszelkich nieporozumień dotyczących dwóch zmysłów, w których regresję można nazwać nieparametryczną.
Oba zmysły są używane, ale jeśli chodzi o regresję, drugi rodzaj jest faktycznie częściej wykorzystywany.
Możliwe jest także bycie nieparametrycznym w obu zmysłach, ale trudniejsze (przy wystarczających danych mogłem na przykład dopasować lokalnie ważoną regresję liniową Theil).
W przypadku GLM druga postać nieparametrycznej regresji wielokrotnej obejmuje GAM; ta druga forma to sens, w którym Hastie ogólnie działa (i pod którym działa w tym cytacie).
źródło
Jedno pomocne rozróżnienie, które może nieco dodać do powyższych odpowiedzi: Andrew Ng podaje heurystykę tego, co to znaczy być parametrem nieparametrycznym w Wykładzie 1 z materiałów szkoleniowych dla kursu CS-229 Stanforda na temat uczenia maszynowego.
Tam Ng mówi (str. 14-15):
Myślę, że jest to użyteczny kontrastowy sposób myślenia o tym, ponieważ bezpośrednio wpływa na pojęcie złożoności. Modele nieparametryczne nie są z natury mniej skomplikowane, ponieważ mogą wymagać przechowywania znacznie większej ilości danych treningowych. Oznacza to po prostu, że nie ograniczasz wykorzystania danych treningowych przez spakowanie ich do precyzyjnie sparametryzowanych obliczeń. Aby uzyskać wydajność lub bezstronność lub szereg innych właściwości, możesz sparametryzować. Ale może wystąpić wzrost wydajności, jeśli możesz sobie pozwolić na rezygnację z parametryzacji i utrzymywanie dużej ilości danych w pobliżu.
źródło
Myślę, że regresja logistyczna jest techniką parametryczną.
Może to być pomocne, z Wolfowitz (1942) [Funkcje podziału addytywnego i klasa hipotez statystycznych The Annals of Mathematical Statistics, 1942, 13, 247-279]:
Poza tym, słysząc o tym dużo dyskutowałem, uznałem to za zabawne przez Noether (1984) [Nonparametrics: The Early Years-Impressions and Recollections The American Statistician, 1984, 38, 173-178]:
źródło
Hastie i Tibshirani definiują, że regresja liniowa jest podejściem parametrycznym, ponieważ przyjmuje liniową postać funkcjonalną f (X). Metody nieparametryczne nie przyjmują wyraźnie formy dla f (X). Oznacza to, że metoda nieparametryczna będzie pasować do modelu na podstawie oszacowania f, obliczonego na podstawie modelu. Regresja logistyczna ustala, że p (x) = Pr (Y = 1 | X = x), gdzie prawdopodobieństwo jest obliczane przez funkcję logistyczną, ale nie zakłada się granicy logistycznej oddzielającej takie klasy, co potwierdza, że LR jest również nieparametryczna
źródło