Różnice między losową regresją logistyczną a zwykłą waniliową regresją logistyczną

12

Chciałbym poznać różnice pomiędzy randomizowanego regresja logistyczna (RLR) i zwykły regresja logistyczna (LR), dlatego czytam gazetę „Wybór Stabilność” przez Meinshausen, et al. ; jednak nie rozumiem, czym jest RLR i jakie są różnice między RLR i LR.

Czy ktoś mógłby wskazać, co powinienem przeczytać, aby zrozumieć RLR? Czy jest prosty przykład na początek?

Hendra Bunyamin
źródło
1
RLR nie jest terminem standardowym. Proszę zdefiniować metodę.
Frank Harrell
Dziękuję @FrankHarrell ... Metoda pochodzi z biblioteki scikit .
Hendra Bunyamin
Teraz, gdy istnieje nowa strona wymiany stosów do uczenia maszynowego / Big Data, być może to pytanie już tam jest.
Placidia
4
@Placidia To dobra sugestia. Jednak twoja własna odpowiedź pokazuje, dlaczego należy do tego pytania: lepiej jesteśmy w stanie zapewnić wyważoną perspektywę, która dokładnie charakteryzuje i porównuje zarówno statystyczne, jak i ML aspekty pytania. Chociaż możliwe jest , że ktoś na stronie „data science” mógłby udzielić takiej odpowiedzi, moje doświadczenie jest takie, że byłoby mało prawdopodobne.
whuber
3
Jestem zdziwiony, że nowa strona to nauka danych o połączeniach, która w ponad połowie dotyczy statystyk, na tym właśnie polega ta strona.
Frank Harrell,

Odpowiedzi:

17

Możesz sprawdzić to odniesienie . Sci-kit learn implementuje losową regresję logistyczną i tam opisano metodę.

Ale aby odpowiedzieć na twoje pytanie, te dwie metody różnią się znacznie pod względem celów. Regresja logistyczna polega na dopasowaniu modelu, a RLR polega na znalezieniu zmiennych, które trafiają do modelu.

Waniliowa regresja logistyczna jest uogólnionym modelem liniowym. W przypadku odpowiedzi binarnej zakładamy, że iloraz szans prawdopodobieństwa odpowiedzi jest funkcją liniową szeregu predyktorów. Współczynniki predyktorów są szacowane przy użyciu maksymalnego prawdopodobieństwa, a wnioskowanie na temat parametrów jest następnie oparte na właściwościach dużej próbki modelu. Aby uzyskać najlepsze wyniki, zazwyczaj zakładamy, że model jest dość prosty i dobrze zrozumiany. Wiemy, jakie zmienne niezależne wpływają na odpowiedź. Chcemy oszacować parametry modelu.

Oczywiście w praktyce nie zawsze wiemy, jakie zmienne powinny zostać uwzględnione w modelu. Jest to szczególnie prawdziwe w sytuacjach uczenia maszynowego, w których liczba potencjalnych zmiennych objaśniających jest ogromna, a ich wartości są rzadkie.

Przez lata wiele osób próbowało zastosować techniki dopasowania modelu statystycznego do celów selekcji zmiennych (czytaj „cecha”). Zwiększając poziom niezawodności:

  1. Dopasuj duży model i upuść zmienne z nieistotnymi statystykami Walda. Nie zawsze produkuje najlepszy model.
  2. Spójrz na wszystkie możliwe modele i wybierz „najlepsze”. Intensywnie obliczeniowe i mało odporne.
  3. Dopasuj duży model z karą L1 (styl lasso). Bezużyteczne zmienne zostają upuszczone. Lepsze, ale niestabilne z rzadkimi matrycami.
  4. Metoda randomizacji 3. Weź losowe podzbiory, dopasuj do nich model karany i zestaw wyniki. Często wybierane są zmienne. Gdy odpowiedź jest binarna, jest to losowa regresja logistyczna. Podobną technikę można wyciągnąć przy użyciu ciągłych danych i ogólnego modelu liniowego.
Placidia
źródło
2
+1 Z przyjemnością widzę tak dobrze wyartykułowane, czytelne i pouczające badanie ogólnej metodologii.
whuber