To jest mój pierwszy post na StackExchange, ale od dłuższego czasu używam go jako zasobu, zrobię co w mojej mocy, aby użyć odpowiedniego formatu i wprowadzić odpowiednie zmiany. Jest to również pytanie wieloczęściowe. Nie byłem pewien, czy powinienem podzielić pytanie na kilka różnych postów, czy tylko na jeden. Ponieważ wszystkie pytania pochodzą z jednej sekcji tego samego tekstu, pomyślałem, że bardziej odpowiednie byłoby opublikowanie jednego pytania.
Badam wykorzystanie siedlisk dużych gatunków ssaków do pracy magisterskiej. Celem tego projektu jest zapewnienie zarządcom lasów (którzy najprawdopodobniej nie są statystykami) praktycznych ram oceny jakości siedlisk na gruntach, którymi zarządzają w odniesieniu do tego gatunku. To zwierzę jest stosunkowo nieuchwytne, jest specjalistą od siedlisk i zwykle znajduje się na odległych obszarach. Przeprowadzono stosunkowo niewiele badań dotyczących rozmieszczenia gatunków, zwłaszcza sezonowych. Kilka zwierząt wyposażono w obroże GPS przez okres jednego roku. Sto lokalizacji (50 lat i 50 zim) wybrano losowo z danych obroży GPS każdego zwierzęcia. Ponadto losowo generowano 50 punktów w obrębie domowego zasięgu każdego zwierzęcia, aby służyć jako miejsca „dostępne” lub „pseudoobecności”.
Dla każdej lokalizacji pobrano próbki kilku zmiennych siedliskowych w terenie (średnice drzew, pokrywa pozioma, gruboziarniste szczątki drzewne itp.), A kilka próbek pobrano zdalnie przez GIS (wysokość, odległość od drogi, wytrzymałość itp.). Zmienne są przeważnie ciągłe, z wyjątkiem 1 zmiennej kategorialnej, która ma 7 poziomów.
Moim celem jest wykorzystanie modelowania regresji do zbudowania funkcji wyboru zasobów (RSF) w celu modelowania względnego prawdopodobieństwa użycia jednostek zasobów. Chciałbym zbudować sezonowy (zimowy i letni) RSF dla populacji zwierząt (typ projektu I), a także dla każdego pojedynczego zwierzęcia (typ projektu III).
Używam R do przeprowadzenia analizy statystycznej.
Tekst pierwotny używam jest ...
- „Hosmer, DW, Lemeshow, S. i Sturdivant, RX 2013. Applied Logistic Regression. Wiley, Chicester”.
Większość przykładów w Hosmer i in. Zastosowanie STATA, ja również za pomocą 2 następujących tekstu jako odniesienie z R .
- „Crawley, MJ 2005. Statystyka: wprowadzenie z wykorzystaniem RJ Wiley, Chichester, West Sussex, Anglia.”
- „Plant, RE 2012. Analiza danych przestrzennych w ekologii i rolnictwie przy użyciu R. CRC Press, Londyn, GBR.”
Obecnie wykonuję czynności opisane w rozdziale 4 Hosmer i in. za „Celowy wybór zmiennych towarzyszących” i zadaj kilka pytań na temat tego procesu. Przedstawiłem kilka pierwszych kroków w poniższym tekście, aby pomóc w moich pytaniach.
- Krok 1: Jednowymiarowa analiza każdej niezależnej zmiennej (zastosowałem jednoczynnikową regresję logistyczną). Każda zmienna, której test jednoznaczny ma wartość p mniejszą niż 0,25, powinna zostać uwzględniona w pierwszym modelu wielowymiarowym.
- Krok 2: Dopasuj model wielowymiarowy zawierający wszystkie zmienne towarzyszące zidentyfikowane do włączenia w kroku 1 i oceń znaczenie każdego zmiennego zmiennego przy użyciu wartości p jego statystyki Walda. Zmienne, które nie przyczyniają się do tradycyjnych poziomów znaczenia, należy wyeliminować i dopasować nowy model. Nowszy, mniejszy model należy porównać ze starym, większym modelem za pomocą testu współczynnika częściowej wiarygodności.
- Krok 3: Porównaj wartości szacowanych współczynników w mniejszym modelu z ich odpowiednimi wartościami z dużego modelu. Każda zmienna, której współczynnik zmienił się znacznie pod względem wielkości, powinna zostać ponownie dodana do modelu, ponieważ jest to ważne w sensie zapewnienia niezbędnej korekty wpływu zmiennych, które pozostają w modelu. Wykonuj kolejno kroki 2 i 3, aż okaże się, że wszystkie ważne zmienne są uwzględnione w modelu, a te wykluczone są nieistotne klinicznie i / lub statystycznie. Hosmer i in. użyć „ procentu delta-beta-kapelusza ” jako miary zmiany wartości współczynników. Sugerują znaczącą zmianę jako procent kapelusza delta-beta > 20%. Hosmer i in. zdefiniuj delta-beta-hat-procent jako . Gdzieθ1jest mniejszy od współczynnika modelu,β1ma współczynnik większy od modelu.
- Krok 4: Dodaj każdą zmienną niewybraną w kroku 1 do modelu uzyskanego na końcu kroku 3, pojedynczo, i sprawdź jej znaczenie albo przez wartość p statystyki Walda, albo test częściowego prawdopodobieństwa, jeśli jest to kategoryczny zmienna z więcej niż 2 poziomami. Ten krok jest niezbędny do identyfikacji zmiennych, które same w sobie nie są istotnie powiązane z wynikiem, ale wnoszą istotny wkład w obecności innych zmiennych. Odwołujemy się do modelu na końcu kroku 4 jako wstępnego głównego modelu efektów .
- Kroki 5-7: Nie osiągnąłem tego punktu, więc na razie zostawię te kroki lub zachowam je na inne pytanie.
Moje pytania:
- W kroku 2, jaki byłby odpowiedni jako tradycyjny poziom istotności, wartość p <0,05 coś większego jak <0,25?
- W kroku 2 ponownie chcę się upewnić, że kod R, którego używałem do testu częściowego prawdopodobieństwa, jest poprawny i chcę się upewnić, że poprawnie interpretuję wyniki. Oto, co robiłem…
anova(smallmodel,largemodel,test='Chisq')
Jeśli wartość p jest znacząca (<0,05), dodaję zmienną z powrotem do modelu, jeśli jest nieistotna, kontynuuję usuwanie? 100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])
Odpowiedzi:
źródło
Należy za wszelką cenę unikać metod określonych dla selekcji zmiennych przy użyciu statystyki, takiej jak P, regresja krokowa w klasycznym tekście Hosmer i in.
Niedawno natknąłem się na artykuł opublikowany w międzynarodowym czasopiśmie prognostycznym zatytułowany „ Iluzje przewidywalności ” oraz komentarz do tego artykułu autorstwa Keitha ord . Gorąco poleciłbym oba te artykuły, ponieważ wyraźnie pokazują, że stosowanie statystyki regresji jest często mylące. Follwoing to zrzut ekranu artykułu Keitha Orda, który pokazuje symulacją, dlaczego regresja krokowa (wykorzystanie statystyki p) do wyboru zmiennych jest zła.
Kolejny wspaniały artykuł Scotta Armstronga, który ukazał się w tym samym wydaniu czasopisma, pokazuje, dlaczego należy być bardzo ostrożnym w stosowaniu analizy regresji danych nie eksperymentalnych z analizami przypadków. Odkąd czytam te artykuły, unikam stosowania analizy regresji do wyciągania wniosków przyczynowych na temat danych nie eksperymentalnych. Jako praktykujący chciałbym czytać takie artykuły przez wiele lat, które uratowałyby mnie przed podejmowaniem złych decyzji i unikaniem kosztownych błędów.
Jeśli chodzi o konkretny problem, nie sądzę, aby w twoim przypadku możliwe były eksperymenty losowe, dlatego zalecałbym stosowanie weryfikacji krzyżowej do wybierania zmiennych. Dobry, wypracowany przykład jest dostępny w tej bezpłatnej książce online, w jaki sposób używałbyś dokładności predykcyjnej do wybierania zmiennych. Jest to również wiele innych metod selekcji zmiennych, ale ograniczę się do weryfikacji krzyżowej.
Osobiście podoba mi się cytat z Armstronga „Gdzieś natknąłem się na pomysł, że statystyki mają pomóc w komunikacji. Złożone metody regresji i stado statystyk diagnostycznych poprowadziły nas w innym kierunku”
Poniżej moja własna opinia. Nie jestem statystykiem.
Jako biolog uważam, że doceniłbyś ten punkt. Natura jest bardzo złożona, przyjmuje funkcję logistyczną i nie występuje w niej żadna interakcja między zmiennymi. Ponadto regresja logistyczna ma następujące założenia :
Prawdziwe prawdopodobieństwa warunkowe są funkcją logistyczną zmiennych niezależnych.
Nie pominięto żadnych ważnych zmiennych. Nie uwzględniono żadnych obcych zmiennych.
Poleciłbym drzewo klasyfikacji i regresji (CART (r)) jako alternatywę dla regresji logistycznej dla tego rodzaju analizy, ponieważ jest on wolny od założeń:
CART jest znakiem towarowym Salford Systems. Obejrzyj ten film, aby zapoznać się z wprowadzeniem i historią KOSZYKA. Istnieją również inne filmy, takie jak hybrydowe rejestrowanie koszyka w tej samej witrynie. Sprawdziłbym to. impetacja open source w R nazywa się Tree , a w R jest wiele innych pakietów, takich jak grzechotka. Jeśli znajdę czas, opublikuję pierwszy przykład w tekście Homsera, używając CART. Jeśli nalegasz na użycie regresji logistycznej, wówczas przynajmniej użyłbym metod takich jak CART, aby wybrać zmienne, a następnie zastosować regresję logistyczną.
Osobiście wolę CART od regresji logistycznej ze względu na wspomniane zalety. Ale i tak spróbowałbym zarówno regresji logistycznej, jak i CART lub CART-Logistc Regression Hybrid, i zobaczyłem, która daje lepszą dokładność predykcyjną, a także, co ważniejsze, lepszą interpretowalność, i wybrałbym tę, która według ciebie „komunikowałaby” dane jaśniej.
Ponadto FYI CART zostało odrzucone przez główne czasopisma statystyczne, a w końcu wynalazcy CART wyszli z monografią. CART utorował drogę do nowoczesnych i wysoce skutecznych algorytmów uczenia maszynowego, takich jak Random Forest (r), Gradient Boosting Machines (GBM), wielowymiarowe adaptacyjne regresje regresji. Randomforest i GBM są bardziej dokładne niż CART, ale mniej interpretowalne (jak czarna skrzynka) niż CART.
Mam nadzieję, że jest to pomocne. Daj mi znać, jeśli ten post okaże się przydatny?
źródło
Myślę, że próbujesz przewidzieć obecność gatunku za pomocą podejścia obecności / tła, co jest dobrze udokumentowane w czasopismach takich jak Metody w ekologii i ewolucji, ekografia itp. Może dyskoteka pakietu R jest przydatna w twoim problemie. Zawiera ładną winietę. Korzystanie z dismo lub innego podobnego pakietu oznacza zmianę podejścia do problemu, ale uważam, że warto się przyjrzeć.
źródło