Czy regresja logistyczna jest testem nieparametrycznym?

15

Niedawno otrzymałem następujące pytanie przez e-mail. Odpowiem poniżej, ale chciałem usłyszeć, co myślą inni.

Czy nazwałbyś regresję logistyczną testem nieparametrycznym? Rozumiem, że samo oznaczenie testu nieparametrycznego, ponieważ jego dane nie są normalnie dystrybuowane, jest niewystarczające. Chodzi raczej o brak założeń. regresja logistyczna ma założenia.

Jeromy Anglim
źródło
7
(+1) Dla przypomnienia - i jako kontrapunkt do twierdzeń w pytaniu - nie znam żadnego wiarygodnego odniesienia, które definiowałoby (a nawet charakteryzowało) metody nieparametryczne jako „brak założeń”. Wszystkie procedury statystyczne przyjmują założenia. Większość procedur nieparametrycznych faktycznie przyjmuje restrykcyjne założenia ilościowe dotyczące leżących u podstaw rozkładów prawdopodobieństwa, ale założenia te nie zawężają możliwych stanów rzeczy do zbioru, który ma strukturę skończonego wymiaru.
whuber
Jeśli mówimy o liniowej regresji logistycznej (która wydaje się domyślna, w oparciu o napisaną odpowiedź), to oczywiście jest to model parametryczny, ale warto zauważyć, że jeśli dopasujesz efekt kowariancji za pomocą nieparametrycznej funkcji wygładzania, np. wtedy nie ma żadnych parametrycznych ograniczeń szacowanego prawdopodobieństwa w funkcjix. Nie dotyczy to tylko linku logistycznego; ta sama logika obowiązuje dla każdej funkcji odwracalnego łącza.
log(P(Yi=1|Xi=x)P(Yi=0|Xi=x))=f(x)
x
Makro
Pytam powiązane pytanie tutaj . Zaczynam rozumieć, że niektóre przypadki GLM (np. Model logistyczny) zapewniają test nieparametryczny. Zajrzę do książki Wassermana, chociaż (chyba że źle pamiętam) istnieje pewna różnica zdań co do niektórych zasad i ustaleń jego pracy.
AdamO,

Odpowiedzi:

19

Larry Wasserman definiuje model parametryczny jako zbiór rozkładów, „które można sparametryzować za pomocą skończonej liczby parametrów”. (str. 87) Natomiast model nieparametryczny jest zbiorem rozkładów, których nie można sparametryzować skończoną liczbą parametrów.

Zatem zgodnie z tą definicją standardowa regresja logistyczna jest modelem parametrycznym. Model regresji logistycznej jest parametryczny, ponieważ ma skończony zestaw parametrów. W szczególności parametrami są współczynniki regresji. Zazwyczaj odpowiadają one jednemu dla każdego predyktora plus stałej. Regresja logistyczna jest szczególną formą uogólnionego modelu liniowego. W szczególności wymaga użycia funkcji łącza logit do modelowania danych dystrybuowanych dwumianowo.

Co ciekawe, możliwe jest przeprowadzenie nieparametrycznej regresji logistycznej (np. Hastie, 1983). Może to obejmować użycie splajnów lub jakiejś formy wygładzania nieparametrycznego do modelowania działania predyktorów.

Bibliografia

  • Wasserman, L. (2004). Wszystkie statystyki: zwięzły kurs wnioskowania statystycznego. Springer Verlag.
  • Hastie, T. (1983). Nieparametryczna regresja logistyczna. SLAC PUB-3160, czerwiec. PDF
Jeromy Anglim
źródło
Model jest zbiorem dystrybucji? Brakuje czegoś niezbędnego.
rolando2
Czy zwykle zadajesz pytanie i sam na nie odpowiadasz?
1
@ fcop jest zalecane. blog.stackoverflow.com/2011/07/…
Anglim
Ok przepraszam, nie wiedziałem
Bez obaw. Dla mnie głównym celem witryny jest tworzenie zasobów, które inni odkrywają, szukając odpowiedzi w przyszłości. Udostępnianie własnych odpowiedzi pomaga w tym wszystkim.
Jeromy Anglim
16

Powiedziałbym, że regresja logistyczna wcale nie jest testem; jednak regresja logistyczna może wówczas prowadzić do braku testów lub kilku testów.

Masz całkowitą rację, że oznaczenie czegoś nieparametrycznego, ponieważ nie jest to normalne, jest niewystarczające. Nazwę rodziny wykładniczej nazwałbym jawnie parametryczną, więc zwykle uważam regresję logistyczną (i regresję Poissona i regresję Gamma i ...) za parametryczną, chociaż mogą istnieć okoliczności, w których mógłbym zaakceptować argument, że konkretne regresje logistyczne mogłyby być uważane za nieparametryczne (lub przynajmniej w pewnym sensie falistym ręcznie, tylko quasi „parametryczne”).

Strzeż się wszelkich nieporozumień dotyczących dwóch zmysłów, w których regresję można nazwać nieparametryczną.

xyx

yx

Oba zmysły są używane, ale jeśli chodzi o regresję, drugi rodzaj jest faktycznie częściej wykorzystywany.

Możliwe jest także bycie nieparametrycznym w obu zmysłach, ale trudniejsze (przy wystarczających danych mogłem na przykład dopasować lokalnie ważoną regresję liniową Theil).

W przypadku GLM druga postać nieparametrycznej regresji wielokrotnej obejmuje GAM; ta druga forma to sens, w którym Hastie ogólnie działa (i pod którym działa w tym cytacie).

Glen_b - Przywróć Monikę
źródło
3

Jedno pomocne rozróżnienie, które może nieco dodać do powyższych odpowiedzi: Andrew Ng podaje heurystykę tego, co to znaczy być parametrem nieparametrycznym w Wykładzie 1 z materiałów szkoleniowych dla kursu CS-229 Stanforda na temat uczenia maszynowego.

Tam Ng mówi (str. 14-15):

Lokalnie ważona regresja liniowa jest pierwszym przykładem algorytmu nieparametrycznego. (Nieważony) algorytm regresji liniowej, który widzieliśmy wcześniej, jest znany jako algorytm uczenia parametrycznego, ponieważ ma stałą, skończoną liczbę parametrów ( θja), które są dopasowane do danych. Kiedy już dopasujemyθjai przechowujemy je z dala, nie musimy już przechowywać danych szkoleniowych, aby móc przewidywać przyszłe zdarzenia. W przeciwieństwie do tego, aby przewidywać przy użyciu lokalnie ważonej regresji liniowej, musimy utrzymać cały trening w pobliżu. Termin „nieparametryczny” (z grubsza) odnosi się do faktu, że ilość rzeczy, które musimy zachować, aby przedstawić hipotezęh rośnie liniowo wraz z rozmiarem zestawu treningowego.

Myślę, że jest to użyteczny kontrastowy sposób myślenia o tym, ponieważ bezpośrednio wpływa na pojęcie złożoności. Modele nieparametryczne nie są z natury mniej skomplikowane, ponieważ mogą wymagać przechowywania znacznie większej ilości danych treningowych. Oznacza to po prostu, że nie ograniczasz wykorzystania danych treningowych przez spakowanie ich do precyzyjnie sparametryzowanych obliczeń. Aby uzyskać wydajność lub bezstronność lub szereg innych właściwości, możesz sparametryzować. Ale może wystąpić wzrost wydajności, jeśli możesz sobie pozwolić na rezygnację z parametryzacji i utrzymywanie dużej ilości danych w pobliżu.

Ely
źródło
0

Myślę, że regresja logistyczna jest techniką parametryczną.

Może to być pomocne, z Wolfowitz (1942) [Funkcje podziału addytywnego i klasa hipotez statystycznych The Annals of Mathematical Statistics, 1942, 13, 247-279]:

„ Zakłada się, że funkcje rozkładu [uwaga: liczba mnoga !!!] różnych zmiennych stochastycznych, które wchodzą w ich problemy, mają znaną postać funkcjonalną, a teorie szacowania i testowania hipotez są teoriami szacowania i testowania hipotez dotyczących , jeden lub więcej parametrów, o skończonej liczbie, których znajomość całkowicie determinowałaby różne związane z tym funkcje dystrybucji. Będziemy odnosić się do tej sytuacji dla zwięzłości jako przypadku parametrycznego, a oznaczać sytuację przeciwną, w której formy funkcjonalne rozkładów są nieznane ”, jako przypadek nieparametryczny.

Poza tym, słysząc o tym dużo dyskutowałem, uznałem to za zabawne przez Noether (1984) [Nonparametrics: The Early Years-Impressions and Recollections The American Statistician, 1984, 38, 173-178]:

„Termin nieparametryczny może mieć pewne historyczne znaczenie i znaczenie dla teoretycznych statystyk, ale służy jedynie do pomylenia statystów stosowanych.”

AndyF
źródło
0

Hastie i Tibshirani definiują, że regresja liniowa jest podejściem parametrycznym, ponieważ przyjmuje liniową postać funkcjonalną f (X). Metody nieparametryczne nie przyjmują wyraźnie formy dla f (X). Oznacza to, że metoda nieparametryczna będzie pasować do modelu na podstawie oszacowania f, obliczonego na podstawie modelu. Regresja logistyczna ustala, że ​​p (x) = Pr (Y = 1 | X = x), gdzie prawdopodobieństwo jest obliczane przez funkcję logistyczną, ale nie zakłada się granicy logistycznej oddzielającej takie klasy, co potwierdza, że ​​LR jest również nieparametryczna

Juan Zamora
źródło