Budowanie i wybór modelu za pomocą Hosmer i in. 2013. Zastosowana regresja logistyczna w R

17

To jest mój pierwszy post na StackExchange, ale od dłuższego czasu używam go jako zasobu, zrobię co w mojej mocy, aby użyć odpowiedniego formatu i wprowadzić odpowiednie zmiany. Jest to również pytanie wieloczęściowe. Nie byłem pewien, czy powinienem podzielić pytanie na kilka różnych postów, czy tylko na jeden. Ponieważ wszystkie pytania pochodzą z jednej sekcji tego samego tekstu, pomyślałem, że bardziej odpowiednie byłoby opublikowanie jednego pytania.

Badam wykorzystanie siedlisk dużych gatunków ssaków do pracy magisterskiej. Celem tego projektu jest zapewnienie zarządcom lasów (którzy najprawdopodobniej nie są statystykami) praktycznych ram oceny jakości siedlisk na gruntach, którymi zarządzają w odniesieniu do tego gatunku. To zwierzę jest stosunkowo nieuchwytne, jest specjalistą od siedlisk i zwykle znajduje się na odległych obszarach. Przeprowadzono stosunkowo niewiele badań dotyczących rozmieszczenia gatunków, zwłaszcza sezonowych. Kilka zwierząt wyposażono w obroże GPS przez okres jednego roku. Sto lokalizacji (50 lat i 50 zim) wybrano losowo z danych obroży GPS każdego zwierzęcia. Ponadto losowo generowano 50 punktów w obrębie domowego zasięgu każdego zwierzęcia, aby służyć jako miejsca „dostępne” lub „pseudoobecności”.

Dla każdej lokalizacji pobrano próbki kilku zmiennych siedliskowych w terenie (średnice drzew, pokrywa pozioma, gruboziarniste szczątki drzewne itp.), A kilka próbek pobrano zdalnie przez GIS (wysokość, odległość od drogi, wytrzymałość itp.). Zmienne są przeważnie ciągłe, z wyjątkiem 1 zmiennej kategorialnej, która ma 7 poziomów.

Moim celem jest wykorzystanie modelowania regresji do zbudowania funkcji wyboru zasobów (RSF) w celu modelowania względnego prawdopodobieństwa użycia jednostek zasobów. Chciałbym zbudować sezonowy (zimowy i letni) RSF dla populacji zwierząt (typ projektu I), a także dla każdego pojedynczego zwierzęcia (typ projektu III).

Używam R do przeprowadzenia analizy statystycznej.

Tekst pierwotny używam jest ...

  • „Hosmer, DW, Lemeshow, S. i Sturdivant, RX 2013. Applied Logistic Regression. Wiley, Chicester”.

Większość przykładów w Hosmer i in. Zastosowanie STATA, ja również za pomocą 2 następujących tekstu jako odniesienie z R .

  • „Crawley, MJ 2005. Statystyka: wprowadzenie z wykorzystaniem RJ Wiley, Chichester, West Sussex, Anglia.”
  • „Plant, RE 2012. Analiza danych przestrzennych w ekologii i rolnictwie przy użyciu R. CRC Press, Londyn, GBR.”

Obecnie wykonuję czynności opisane w rozdziale 4 Hosmer i in. za „Celowy wybór zmiennych towarzyszących” i zadaj kilka pytań na temat tego procesu. Przedstawiłem kilka pierwszych kroków w poniższym tekście, aby pomóc w moich pytaniach.

  1. Krok 1: Jednowymiarowa analiza każdej niezależnej zmiennej (zastosowałem jednoczynnikową regresję logistyczną). Każda zmienna, której test jednoznaczny ma wartość p mniejszą niż 0,25, powinna zostać uwzględniona w pierwszym modelu wielowymiarowym.
  2. Krok 2: Dopasuj model wielowymiarowy zawierający wszystkie zmienne towarzyszące zidentyfikowane do włączenia w kroku 1 i oceń znaczenie każdego zmiennego zmiennego przy użyciu wartości p jego statystyki Walda. Zmienne, które nie przyczyniają się do tradycyjnych poziomów znaczenia, należy wyeliminować i dopasować nowy model. Nowszy, mniejszy model należy porównać ze starym, większym modelem za pomocą testu współczynnika częściowej wiarygodności.
  3. Krok 3: Porównaj wartości szacowanych współczynników w mniejszym modelu z ich odpowiednimi wartościami z dużego modelu. Każda zmienna, której współczynnik zmienił się znacznie pod względem wielkości, powinna zostać ponownie dodana do modelu, ponieważ jest to ważne w sensie zapewnienia niezbędnej korekty wpływu zmiennych, które pozostają w modelu. Wykonuj kolejno kroki 2 i 3, aż okaże się, że wszystkie ważne zmienne są uwzględnione w modelu, a te wykluczone są nieistotne klinicznie i / lub statystycznie. Hosmer i in. użyć „ procentu delta-beta-kapelusza ” jako miary zmiany wartości współczynników. Sugerują znaczącą zmianę jako procent kapelusza delta-beta > 20%. Hosmer i in. zdefiniuj delta-beta-hat-procent jako . Gdzieθ1jest mniejszy od współczynnika modelu,β1ma współczynnik większy od modelu.Δβ^%=100θ^1β^1β^1θ^1β^1
  4. Krok 4: Dodaj każdą zmienną niewybraną w kroku 1 do modelu uzyskanego na końcu kroku 3, pojedynczo, i sprawdź jej znaczenie albo przez wartość p statystyki Walda, albo test częściowego prawdopodobieństwa, jeśli jest to kategoryczny zmienna z więcej niż 2 poziomami. Ten krok jest niezbędny do identyfikacji zmiennych, które same w sobie nie są istotnie powiązane z wynikiem, ale wnoszą istotny wkład w obecności innych zmiennych. Odwołujemy się do modelu na końcu kroku 4 jako wstępnego głównego modelu efektów .
  5. Kroki 5-7: Nie osiągnąłem tego punktu, więc na razie zostawię te kroki lub zachowam je na inne pytanie.

Moje pytania:

  1. W kroku 2, jaki byłby odpowiedni jako tradycyjny poziom istotności, wartość p <0,05 coś większego jak <0,25?
  2. W kroku 2 ponownie chcę się upewnić, że kod R, którego używałem do testu częściowego prawdopodobieństwa, jest poprawny i chcę się upewnić, że poprawnie interpretuję wyniki. Oto, co robiłem… anova(smallmodel,largemodel,test='Chisq')Jeśli wartość p jest znacząca (<0,05), dodaję zmienną z powrotem do modelu, jeśli jest nieistotna, kontynuuję usuwanie?
  3. Δβ^%Δβ^%
  4. Δβ^%

    100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])

GNG
źródło
z ciekawości jaki gatunek badasz?
prezenter

Odpowiedzi:

23

P.β

Frank Harrell
źródło
3
Tak, wiedza dziedzinowa + zdrowa dawka niedowierzania w prostocie, np. Nie zakładaj, że zmienne ciągłe działają liniowo, chyba że masz wcześniejsze dane wykazujące liniowość.
Frank Harrell,
6
OP powołuje się na główny nurt w swoim trzecim wydaniu z autorami, którzy wnieśli wielki wkład w tę dziedzinę. Inne kwestie poruszone w pytaniu zostały omówione w innych wpływowych tekstach (Agresti, Gelman). Mówię o tym nie dlatego, że zgadzam się z tą strategią, ale raczej zauważam, że strategie te są zalecane w ostatnich, popularnych tekstach przez szanowanych statystyk. Podsumowując: chociaż istnieje mnóstwo literatury odradzającej to, wydaje się, że nie jest odrzucona przez społeczność statystyczną.
lipiec
2
To jest dość błędne w mojej skromnej opinii. Strategie tak mocno forsowane w niektórych tekstach nigdy nie zostały zatwierdzone. Autorzy, którzy nie wierzą w symulację, narażają się na propagowanie stosowania metod, które nie działają zgodnie z reklamą.
Frank Harrell,
2
Tak, wiem. Często odwołuję się do waszego tekstu i referatów, a jest to jedno ze źródeł, z których korzystałem, wyciągając wnioski, nie zgadzając się z powyższą strategią. Po prostu przekazuję dylemat zastosowanego użytkownika. Nie możemy wszystkiego przetestować. Polegamy na ekspertach, takich jak Ty.
lipiec
3
@GNG: FH odnosi się do symulacji jako sposobu pokazania, że ​​to podejście do wyboru modelu faktycznie robi to, co powinno (prawdopodobnie w celu poprawy dokładności prognoz modelu) w typowych aplikacjach. Wasze (bystre) pytania podkreślają jego raczej arbitralne, ad hoc, oparte na naturze włączenie zmiennych na nieokreślonej liczbie testów istotności na „tradycyjnych” poziomach, które nie mogą być pokazane przez teorię, aby zagwarantować optymalizację czegokolwiek.
Scortchi - Przywróć Monikę
5

Należy za wszelką cenę unikać metod określonych dla selekcji zmiennych przy użyciu statystyki, takiej jak P, regresja krokowa w klasycznym tekście Hosmer i in.

Niedawno natknąłem się na artykuł opublikowany w międzynarodowym czasopiśmie prognostycznym zatytułowany „ Iluzje przewidywalności ” oraz komentarz do tego artykułu autorstwa Keitha ord . Gorąco poleciłbym oba te artykuły, ponieważ wyraźnie pokazują, że stosowanie statystyki regresji jest często mylące. Follwoing to zrzut ekranu artykułu Keitha Orda, który pokazuje symulacją, dlaczego regresja krokowa (wykorzystanie statystyki p) do wyboru zmiennych jest zła.

wprowadź opis zdjęcia tutaj

Kolejny wspaniały artykuł Scotta Armstronga, który ukazał się w tym samym wydaniu czasopisma, pokazuje, dlaczego należy być bardzo ostrożnym w stosowaniu analizy regresji danych nie eksperymentalnych z analizami przypadków. Odkąd czytam te artykuły, unikam stosowania analizy regresji do wyciągania wniosków przyczynowych na temat danych nie eksperymentalnych. Jako praktykujący chciałbym czytać takie artykuły przez wiele lat, które uratowałyby mnie przed podejmowaniem złych decyzji i unikaniem kosztownych błędów.

Jeśli chodzi o konkretny problem, nie sądzę, aby w twoim przypadku możliwe były eksperymenty losowe, dlatego zalecałbym stosowanie weryfikacji krzyżowej do wybierania zmiennych. Dobry, wypracowany przykład jest dostępny w tej bezpłatnej książce online, w jaki sposób używałbyś dokładności predykcyjnej do wybierania zmiennych. Jest to również wiele innych metod selekcji zmiennych, ale ograniczę się do weryfikacji krzyżowej.

Osobiście podoba mi się cytat z Armstronga „Gdzieś natknąłem się na pomysł, że statystyki mają pomóc w komunikacji. Złożone metody regresji i stado statystyk diagnostycznych poprowadziły nas w innym kierunku”

Poniżej moja własna opinia. Nie jestem statystykiem.

  • Jako biolog uważam, że doceniłbyś ten punkt. Natura jest bardzo złożona, przyjmuje funkcję logistyczną i nie występuje w niej żadna interakcja między zmiennymi. Ponadto regresja logistyczna ma następujące założenia :

  • Prawdziwe prawdopodobieństwa warunkowe są funkcją logistyczną zmiennych niezależnych.

  • Nie pominięto żadnych ważnych zmiennych. Nie uwzględniono żadnych obcych zmiennych.

  • Zmienne niezależne mierzone są bezbłędnie.
  • Obserwacje są niezależne.
  • Zmienne niezależne nie są kombinacjami liniowymi.

Poleciłbym drzewo klasyfikacji i regresji (CART (r)) jako alternatywę dla regresji logistycznej dla tego rodzaju analizy, ponieważ jest on wolny od założeń:

  1. Nieparametryczny / Na podstawie danych / Brak założeń, że prawdopodobieństwa wyjściowe są zgodne z funkcją logistyczną.
  2. Nieliniowe
  3. umożliwia złożoną interakcję zmiennych.
  4. Zapewnia wysoce interpretowalne drzewa wizualne, które doceniliby tacy statystycy jak leśnicy.
  5. Łatwo radzi sobie z brakującymi wartościami.
  6. Nie musisz być statystykiem, aby korzystać z KOSZYKA !!
  7. automatycznie wybiera zmienne za pomocą walidacji krzyżowej.

CART jest znakiem towarowym Salford Systems. Obejrzyj ten film, aby zapoznać się z wprowadzeniem i historią KOSZYKA. Istnieją również inne filmy, takie jak hybrydowe rejestrowanie koszyka w tej samej witrynie. Sprawdziłbym to. impetacja open source w R nazywa się Tree , a w R jest wiele innych pakietów, takich jak grzechotka. Jeśli znajdę czas, opublikuję pierwszy przykład w tekście Homsera, używając CART. Jeśli nalegasz na użycie regresji logistycznej, wówczas przynajmniej użyłbym metod takich jak CART, aby wybrać zmienne, a następnie zastosować regresję logistyczną.

Osobiście wolę CART od regresji logistycznej ze względu na wspomniane zalety. Ale i tak spróbowałbym zarówno regresji logistycznej, jak i CART lub CART-Logistc Regression Hybrid, i zobaczyłem, która daje lepszą dokładność predykcyjną, a także, co ważniejsze, lepszą interpretowalność, i wybrałbym tę, która według ciebie „komunikowałaby” dane jaśniej.

Ponadto FYI CART zostało odrzucone przez główne czasopisma statystyczne, a w końcu wynalazcy CART wyszli z monografią. CART utorował drogę do nowoczesnych i wysoce skutecznych algorytmów uczenia maszynowego, takich jak Random Forest (r), Gradient Boosting Machines (GBM), wielowymiarowe adaptacyjne regresje regresji. Randomforest i GBM są bardziej dokładne niż CART, ale mniej interpretowalne (jak czarna skrzynka) niż CART.

Mam nadzieję, że jest to pomocne. Daj mi znać, jeśli ten post okaże się przydatny?

Synoptyk
źródło
8
Nie. Model logistyczny nie przyjmuje więcej założeń niż inne modele. Jego głównym unikalnym założeniem jest to, żeYjest naprawdę wszystkim lub niczym. CART jest znacznie lepszy niż regresja logistyczna. CART skutecznie pasuje do znacznie większej liczby parametrów niż regresja logistyczna, ponieważ pozwala na wszystkie możliwe interakcje. Ironią jest to, że metoda, która pozwala na maksymalną elastyczność, jest bardziej konserwatywna niż metoda bardziej ustrukturyzowana. Przekonasz się, że aby modele CART były dobrze skalibrowane, musisz przyciąć model, aby uzyskać niewielką dyskryminację predykcyjną.
Frank Harrell,
3
Ta odpowiedź przeskakuje od ogólnych komentarzy, z których wiele wydaje mi się co najmniej kontrowersyjna, do bardzo specyficznego i raczej osobistego poparcia CART jako metody wyboru. Masz prawo do swoich poglądów, tak jak inni będą uprawnieni do ich sprzeciwu. Sugeruję, aby raczej wyraźniej oznaczyć podwójny smak odpowiedzi.
Nick Cox
2
Regresja logistyczna jest uogólnionym modelem liniowym, ale poza tym jest możliwa do obrony, ponieważ jest rzeczywiście dobrze umotywowana jako naturalnie nieliniowy model (w tym sensie, że pasuje do krzywych lub równoważnych, a nie linii lub równoważnych, w zwykłej przestrzeni), który jest dobrze dostosowany do odpowiedzi binarne. Odwołanie do biologii jest tutaj obosieczne; historycznie logistyczne modele odpowiedzi binarnych były inspirowane modelami wzrostu logistycznego (np. populacji) w biologii!
Nick Cox
The Soyer i in. papier, artykuł Armstronga i komentarze są bardzo dobre. Czytałem nad nimi w ten weekend. Dziękujemy za sugestie. Nie będąc statystykiem, nie mogę komentować używania CART zamiast regresji logistycznej. Jednak twoja odpowiedź jest bardzo dobrze napisana, pomocna i otrzymała wnikliwe komentarze. Czytałem o metodach uczenia maszynowego, takich jak CART, MaxEnt, i ulepszyłem drzewa regresji i planuję omówić je z moim komitetem, aby uzyskać ich wgląd. Kiedy mam trochę wolnego czasu, film CART powinien być również interesujący.
GNG
3
Z uśmiechem myślę, że możemy odwrócić twoje komentarze na temat modeli liniowych i nalegać, że CART nie tylko nie przyjmuje założeń, ani nawet nie przyjmuje założeń, że rzeczywistość jest jak drzewo (co jeszcze?). Jeśli uważasz, że natura jest płynnie zmieniającym się kontinuum, powinieneś biec w przeciwnym kierunku.
Nick Cox
3

Myślę, że próbujesz przewidzieć obecność gatunku za pomocą podejścia obecności / tła, co jest dobrze udokumentowane w czasopismach takich jak Metody w ekologii i ewolucji, ekografia itp. Może dyskoteka pakietu R jest przydatna w twoim problemie. Zawiera ładną winietę. Korzystanie z dismo lub innego podobnego pakietu oznacza zmianę podejścia do problemu, ale uważam, że warto się przyjrzeć.

Hugo
źródło
2
Co powstrzymuje cię przed określeniem modelu? Skąd ta wielka niepewność w tym, co powinno być w modelu? Dlaczego potrzeba wyboru modelu za pomocą GLM?
Frank Harrell,
1
Obawiam się, że miksujesz kilka koncepcji. (1) w rzeczywistości maksimum to dane dotyczące obecności / tła lub dane dotyczące obecności / pseudo-nieobecności. Tak więc, maxent wykorzystuje dane tylko dla obecności i dodaje pewne punkty z krajobrazu, to znaczy tło / pseudo-nieobecności. Dzięki temu można go wykorzystać w twoim przypadku. (2) GLM zostały zaprojektowane do stosowania z „prawdziwymi” nieobecnościami. Jednak GLM został dostosowany do danych dotyczących obecności / pseudo-nieobecności. (3) pakiet dismo oferuje ulepszone drzewa regresji, ale nie tylko. Możesz również dopasować GLM, po prostu postępuj zgodnie z jedną z winiet pakietu (są 2).
Hugo,
1
Jeśli masz pytanie, które zmienne powinieneś uwzględnić jako predyktory, spójrz na następujące artykuły: Sheppard 2013. W jaki sposób wybór zmiennych klimatycznych wpływa na przewidywania rozmieszczenia gatunków? Studium przypadku trzech nowych chwastów w Nowej Zelandii. Badania nad chwastami; Harris i in. 2013. Być albo nie być? Zmienna selekcja może zmienić przewidywany los zagrożonego gatunku w przyszłym klimacie. Ecol. Manag. Restor.
Hugo,
2
Myśl, że techniki selekcji zmiennych w jakiś sposób zmniejszają nadmierne dopasowanie, jest dziwna. Pozorne oszczędności zmiennych związane z redukcją modelu są całkowicie iluzją, gdy redukcja pochodzi z samych danych.
Frank Harrell,
1
@GNG: „Moja niepewność co do pozostawienia wszystkich zmiennych w modelu wynika ze wszystkiego, czego nauczono mnie na temat kolinearności i nadmiernego dopasowania” - Czy twój model zawiera wysoce kolinearne predyktory? Czy Twój model jest zbyt dopasowany?
Scortchi - Przywróć Monikę