Czy mogę zignorować współczynniki dla nieistotnych poziomów czynników w modelu liniowym?

15

Po szukaniu wyjaśnienia na temat współczynników modeli liniowych tutaj mam pytanie uzupełniające dotyczące braku oznakowania (wysoka wartość p) dla współczynników poziomów czynników.

Przykład: jeśli mój model liniowy zawiera współczynnik z 10 poziomami, a tylko 3 z tych poziomów mają powiązane z nimi znaczące wartości p, to przy użyciu modelu do przewidywania Y mogę nie uwzględniać współczynnika współczynnika, jeśli pacjent zalicza się do jednego z poziom niebędący sygnatariuszem?

Co bardziej drastyczne, czy niewłaściwe byłoby sprowadzenie 7 nieistotnych poziomów do jednego poziomu i ponowne przeanalizowanie?

statistical-significance linear-model model-selection regression-coefficients regression-strategies Trees4theForest
źródło

2

Cóż, możesz uzyskać stronnicze wnioskowanie, robiąc to - na przykład, jeśli tworzysz przedziały prognozowania, prawdopodobieństwo pokrycia byłoby prawdopodobnie błędne dla osób na jednym z 7 nieznaczących poziomów.

Makro

1

Otrzymałeś tutaj kilka dobrych odpowiedzi, ale możesz również być zainteresowany tym, dlaczego niewłaściwe jest odrzucanie czynników o wysokich wartościach p. Warto zauważyć, że jest to logicznie równoważne automatycznej procedurze wyboru modelu, nawet jeśli robisz to sam, zamiast robić to za Ciebie. Czytanie tego pytania i udzielonych odpowiedzi może pomóc w zrozumieniu, dlaczego te rzeczy są prawdziwe.

gung - Przywróć Monikę

1

Ten Q ma dokładną kopię od listopada 2012 roku: stats.stackexchange.com/questions/18745/... . Jest tam też trochę informacji prowokujących do myślenia.

rolando2

2

To bardzo ważne pytanie, a jednak nie ma odpowiedzi popierającej teorię. W obecnej formie są to tylko opinie. Nawet książka połączona w jednej z odpowiedzi (której wniosek różni się od innych odpowiedzi) nie zawiera odnośników. W tej sytuacji nie ufam żadnej z nich, dlatego wolałbym nic nie robić (tzn. Trzymać wszystkie kategorie / czynniki w środku).

luchonacho

13

Jeśli wstawiasz zmienną predykcyjną z wieloma poziomami, albo wstawiasz zmienną, albo nie, nie możesz wybierać i wybierać poziomów. Możesz zrestrukturyzować poziomy swojej zmiennej predykcyjnej, aby zmniejszyć liczbę poziomów (jeśli ma to sens w kontekście Twojej analizy). Nie jestem jednak pewien, czy spowodowałoby to pewnego rodzaju statystyczną nieważność, jeśli zwijane poziomy, ponieważ widzisz, że nie są one znaczące

$p$ $p$ $p$ $\alpha$ $> .0001$

Ellie
źródło

(Poprawiłem moją literówkę wartości p). Dobre punkty tutaj. Tak więc zawalanie się poziomów, pod warunkiem, że opiera się ono na jakimś realnym i logicznym uzasadnieniu uzasadnionym w kontekście badania (który może się również zdarzyć, aby je rozdzielić wzdłuż przerwy w znaczeniu) jest rozsądne, ale nie polega tylko na ich arbitralnym zbijaniu na podstawie ich znaczenia . Rozumiem.

Trees4theForest

15

Odpowiedź Ellie jest dobra.

Jeśli wstawiasz zmienną z wieloma poziomami, musisz zachować wszystkie te poziomy w swojej analizie. Wybieranie i wybieranie oparte na poziomie istotności będzie zarówno wpływać na wyniki, jak i robić dziwne rzeczy na podstawie twoich wniosków, nawet jeśli jakimś cudem twoje oszacowania pozostaną takie same, ponieważ będziesz mieć dziury w szacowanych efektach na różnych poziomach zmienna.

Zastanowiłbym się graficznie nad szacunkami dla każdego poziomu predyktora. Czy widzisz trend, gdy wchodzisz na wyższe poziomy, czy jest to nieregularne?

Ogólnie rzecz biorąc, jestem również przeciwny rekodowaniu zmiennych na podstawie testów statystycznych - lub wyłącznie na podstawie momentów statystycznych. Podziały w zmiennej powinny być oparte na czymś bardziej zwartym - logicznie znaczących punktach odcięcia, zainteresowaniu polem określonym punktem przejścia itp.

Fomite
źródło

8

Rozwijając dwie dobre odpowiedzi, które już otrzymałeś, spójrzmy na to merytorycznie. Załóżmy, że twoja zmienna zależna to (powiedzmy) dochód, a twoja zmienna niezależna to (powiedzmy) pochodzenie etniczne, z poziomami, według definicji spisu ludności (biały, czarny / z Afryki, Am. Indian / Alaska Native, azjatycki, Native Hawaii / Pac Islander, inne i wielorasowe). Powiedzmy, że kodujesz jako sztuczny, a White jest kategorią referencyjną i dostajesz

$Income = b_0 + b_1BAA + b_2AIAN + b_3AS + b_4NHPI + b_5O + b_6MR$

Jeśli robisz to badanie w Nowym Jorku, prawdopodobnie dostaniesz niewielu rdzennych Hawajczyków / mieszkańców Pacyfiku. Możesz zdecydować o dołączeniu ich (jeśli istnieją) do innych. Nie można jednak użyć pełnego równania i po prostu nie uwzględniać tego współczynnika. Wtedy przechwytywanie będzie błędne, podobnie jak wszelkie przewidywane wartości dochodu.

Ale jak połączyć kategorie?

Jak powiedzieli inni, musi to mieć sens .

Peter Flom - Przywróć Monikę
źródło

4

Aby wyrazić inną opinię: dlaczego nie uwzględnić go jako efektu losowego? To powinno ukarać te poziomy słabym wsparciem i upewnić się, że ich wielkość efektu jest minimalna. W ten sposób możesz trzymać je wszystkie bez obawy o głupie prognozy.

I tak, jest to bardziej motywowane z bayesowskiego punktu widzenia efektów losowych niż z całego widoku „próby wszystkich możliwych poziomów” efektów losowych.

Shea Parkes
źródło

0

Zastanawiałem się także, czy mogę połączyć nieistotne kategorie z kategorią odniesienia. Następujące stwierdzenia w książce „Data Mining for Business Intelligence: Concepts, Techniques and Applications in Microsoft Office Excel® with XLMiner®, 2nd Edition autorstwa Galit Shmueli, Nitin R. Patel, Peter C. Bruce”, str. 87-89 (Wymiar Sekcja redukcji) ( Wynik wyszukiwania Google ) wydaje się wspierać drugie zdanie odpowiedzi @ Ellie:

„Dopasowane modele regresji można również wykorzystać do dalszego łączenia podobnych kategorii: kategorie, które mają współczynniki, które nie są istotne statystycznie (tj. Mają wysoką wartość p), mogą być łączone z kategorią odniesienia, ponieważ wydaje się, że ich odróżnienie od kategorii odniesienia nie ma znaczący wpływ na zmienną wyjściową ”
„Kategorie o podobnych wartościach współczynników (i tym samym znaku) można często łączyć, ponieważ ich wpływ na zmienną wyjściową jest podobny”

Planuję jednak skonsultować z ekspertami merytorycznymi, czy połączenie kategorii ma logiczny sens (jak sugerowano w poprzednich odpowiedziach / komentarzach, np. @Fomite, @gung).

użytkownik 1420372
źródło

Tej odpowiedzi zaprzeczają inne odpowiedzi tutaj.

kjetil b halvorsen

Czy mogę zignorować współczynniki dla nieistotnych poziomów czynników w modelu liniowym?

Odpowiedzi: