Po szukaniu wyjaśnienia na temat współczynników modeli liniowych tutaj mam pytanie uzupełniające dotyczące braku oznakowania (wysoka wartość p) dla współczynników poziomów czynników.
Przykład: jeśli mój model liniowy zawiera współczynnik z 10 poziomami, a tylko 3 z tych poziomów mają powiązane z nimi znaczące wartości p, to przy użyciu modelu do przewidywania Y mogę nie uwzględniać współczynnika współczynnika, jeśli pacjent zalicza się do jednego z poziom niebędący sygnatariuszem?
Co bardziej drastyczne, czy niewłaściwe byłoby sprowadzenie 7 nieistotnych poziomów do jednego poziomu i ponowne przeanalizowanie?
statistical-significance
linear-model
model-selection
regression-coefficients
regression-strategies
Trees4theForest
źródło
źródło
Odpowiedzi:
Jeśli wstawiasz zmienną predykcyjną z wieloma poziomami, albo wstawiasz zmienną, albo nie, nie możesz wybierać i wybierać poziomów. Możesz zrestrukturyzować poziomy swojej zmiennej predykcyjnej, aby zmniejszyć liczbę poziomów (jeśli ma to sens w kontekście Twojej analizy). Nie jestem jednak pewien, czy spowodowałoby to pewnego rodzaju statystyczną nieważność, jeśli zwijane poziomy, ponieważ widzisz, że nie są one znaczące
źródło
Odpowiedź Ellie jest dobra.
Jeśli wstawiasz zmienną z wieloma poziomami, musisz zachować wszystkie te poziomy w swojej analizie. Wybieranie i wybieranie oparte na poziomie istotności będzie zarówno wpływać na wyniki, jak i robić dziwne rzeczy na podstawie twoich wniosków, nawet jeśli jakimś cudem twoje oszacowania pozostaną takie same, ponieważ będziesz mieć dziury w szacowanych efektach na różnych poziomach zmienna.
Zastanowiłbym się graficznie nad szacunkami dla każdego poziomu predyktora. Czy widzisz trend, gdy wchodzisz na wyższe poziomy, czy jest to nieregularne?
Ogólnie rzecz biorąc, jestem również przeciwny rekodowaniu zmiennych na podstawie testów statystycznych - lub wyłącznie na podstawie momentów statystycznych. Podziały w zmiennej powinny być oparte na czymś bardziej zwartym - logicznie znaczących punktach odcięcia, zainteresowaniu polem określonym punktem przejścia itp.
źródło
Rozwijając dwie dobre odpowiedzi, które już otrzymałeś, spójrzmy na to merytorycznie. Załóżmy, że twoja zmienna zależna to (powiedzmy) dochód, a twoja zmienna niezależna to (powiedzmy) pochodzenie etniczne, z poziomami, według definicji spisu ludności (biały, czarny / z Afryki, Am. Indian / Alaska Native, azjatycki, Native Hawaii / Pac Islander, inne i wielorasowe). Powiedzmy, że kodujesz jako sztuczny, a White jest kategorią referencyjną i dostajesz
Jeśli robisz to badanie w Nowym Jorku, prawdopodobnie dostaniesz niewielu rdzennych Hawajczyków / mieszkańców Pacyfiku. Możesz zdecydować o dołączeniu ich (jeśli istnieją) do innych. Nie można jednak użyć pełnego równania i po prostu nie uwzględniać tego współczynnika. Wtedy przechwytywanie będzie błędne, podobnie jak wszelkie przewidywane wartości dochodu.
Ale jak połączyć kategorie?
Jak powiedzieli inni, musi to mieć sens .
źródło
Aby wyrazić inną opinię: dlaczego nie uwzględnić go jako efektu losowego? To powinno ukarać te poziomy słabym wsparciem i upewnić się, że ich wielkość efektu jest minimalna. W ten sposób możesz trzymać je wszystkie bez obawy o głupie prognozy.
I tak, jest to bardziej motywowane z bayesowskiego punktu widzenia efektów losowych niż z całego widoku „próby wszystkich możliwych poziomów” efektów losowych.
źródło
Zastanawiałem się także, czy mogę połączyć nieistotne kategorie z kategorią odniesienia. Następujące stwierdzenia w książce „Data Mining for Business Intelligence: Concepts, Techniques and Applications in Microsoft Office Excel® with XLMiner®, 2nd Edition autorstwa Galit Shmueli, Nitin R. Patel, Peter C. Bruce”, str. 87-89 (Wymiar Sekcja redukcji) ( Wynik wyszukiwania Google ) wydaje się wspierać drugie zdanie odpowiedzi @ Ellie:
Planuję jednak skonsultować z ekspertami merytorycznymi, czy połączenie kategorii ma logiczny sens (jak sugerowano w poprzednich odpowiedziach / komentarzach, np. @Fomite, @gung).
źródło