Czy dopuszczalne jest uruchomienie dwóch modeli liniowych na tym samym zestawie danych?

10

Czy w przypadku regresji liniowej z wieloma grupami (grupy naturalne zdefiniowane z góry) dopuszczalne jest uruchomienie dwóch różnych modeli na tym samym zbiorze danych, aby odpowiedzieć na dwa następujące pytania?

  1. Czy każda grupa ma niezerowe nachylenie i niezerowe przechwytywanie i jakie są parametry dla każdej regresji wewnątrz grupy?

  2. Czy istnieje niezależnie od przynależności do grupy trend niezerowy i przechwytywanie niezerowe i jakie są parametry tego regresji w grupach?

W R pierwszy model byłby taki lm(y ~ group + x:group - 1), aby oszacowane współczynniki mogły być bezpośrednio interpretowane jako punkt przecięcia i nachylenie dla każdej grupy. Drugi model byłby lm(y ~ x + 1).

Alternatywą byłoby lm(y ~ x + group + x:group + 1), co skutkuje skomplikowaną tabelą zbiorczą współczynników, przy czym w obrębie grup nachylenia i przecięcia muszą być obliczone na podstawie różnic w nachyleniach i przecięciach z niektórych odniesień. Musisz także zmienić kolejność grup i uruchomić model po raz drugi, aby uzyskać wartość p dla ostatniej różnicy w grupie (czasami).

Czy to przy użyciu dwóch osobnych modeli w jakikolwiek sposób negatywnie wpływa na wnioskowanie lub na tę standardową praktykę?

Aby umieścić to w kontekście, rozważ x jako dawkę leku, a grupy to różne rasy. Interesujące może być poznanie zależności dawka-odpowiedź dla konkretnej rasy dla lekarza lub wyścig, w którym lek działa w ogóle, ale czasami może być interesujące, aby znać zależność dawka-odpowiedź dla całej (ludzkiej) populacji niezależnie od rasy dla urzędnika zdrowia publicznego. Jest to tylko przykład tego, jak można zainteresować się regresjami grupowymi i grupowymi oddzielnie. To, czy zależność dawka-odpowiedź powinno być liniowe, nie jest ważne.

Jdub
źródło
Czy na pewno chcesz zastosować regresje liniowe? Zależności dawka-odpowiedź prawie nigdy nie są liniowe w znacznym zakresie dawek.
Michael Lew
@Michael, przepraszam, to chyba zły wybór przykładu. Zastanawiam się nad tym w ogóle. Szczegóły relacji dawka-odpowiedź nie powinny przeszkadzać. Zredagowałem pytanie, aby to zauważyć.
Jdub
Czy rozważałeś model przechwytywania losowego, losowego nachylenia?
zakłada się, że normalny

Odpowiedzi:

2

Zacznę od stwierdzenia, że ​​myślę, że twoje pierwsze pytanie i pierwszy model R są ze sobą niezgodne. W R, gdy piszemy formułę za pomocą albo, -1albo +0, tłumimy przecięcie. W ten sposób lm(y ~ group + x:group - 1) uniemożliwia Ci to stwierdzenie, czy przechwytywanie różni się znacząco od 0. W tym samym żyle, w następujących dwóch modelach, +1jest to zbędne, przechwytywanie jest automatycznie szacowane w R. Radziłbym, abyś używał referencyjnego kodowania komórek ( zwane również „kodowaniem zastępczym”) w celu reprezentowania grup. To znaczy zg grupy, twórz g1nowe zmienne, wybierz jedną grupę jako domyślną i przypisz 0 do jednostek tej grupy w każdej z nowych zmiennych. Następnie każda nowa zmienna służy do reprezentowania członkostwa w jednej z pozostałych grup; jednostki należące do danej grupy są oznaczone 1 w odpowiedniej zmiennej i 0 w innym miejscu. Po zwróceniu współczynników, jeśli przechwytywanie jest „znaczące”, wówczas grupa domyślna ma przechwytywanie niezerowe. Niestety, standardowe testy istotności dla innych grup nie powiedzą, czy różnią się od 0, ale jeśli różnią się od grupy domyślnej. Aby ustalić, czy różnią się od 0, dodaj ich współczynniki do przecięcia i podziel sumę przez ich standardowe błędy, aby uzyskać ich wartości t. Sytuacja na stokach będzie podobna: test naXpokaże, czy nachylenie domyślnej grupy różni się znacząco od 0, a warunki interakcji powiedzą, czy nachylenie tych grup różni się od grup domyślnych. Testy dla nachyleń innych grup względem 0 mogą być konstruowane tak samo jak dla przechwyceń. Jeszcze lepiej byłoby po prostu dopasować „ograniczony” model bez żadnych zmiennych wskaźnika grupy lub warunków interakcji i przetestować ten model na pełnym modelu anova(), który powie ci, czy Twoje grupy w ogóle się znacząco różnią.

Te rzeczy zostały już powiedziane, Twoim głównym pytaniem jest, czy robienie tego wszystkiego jest dopuszczalne . Podstawowym problemem tutaj jest problem wielokrotnych porównań . Jest to od dawna i drażliwa kwestia, z wieloma opiniami. (Więcej informacji na ten temat można znaleźć w CV, przeglądając pytania oznaczone tym słowem kluczowym .) Chociaż opinie na pewno różnią się w tym temacie, myślę, że nikt nie obwiniłby cię za przeprowadzenie wielu analiz w tym samym zestawie danych, pod warunkiem że analizy były ortogonalne . Ogólnie rzecz biorąc, kontrasty ortogonalne są rozważane w kontekście zastanawiania się, jak porównać zestawggrupują się ze sobą , jednak tak nie jest w tym przypadku; twoje pytanie jest nietypowe (i, moim zdaniem, interesujące). O ile widzę, jeśli po prostu chcesz podzielić swój zestaw danych na partycjegoddzielne podzbiory i uruchom prosty model regresji dla każdego, który powinien być OK. Bardziej interesującym pytaniem jest to, czy analizę „zwiniętą” można uznać za ortogonalną względem zestawu indywidualnych analiz; Nie sądzę, bo powinieneś być w stanie odtworzyć zwiniętą analizę za pomocą liniowej kombinacji analiz grupowych.

Nieco inne pytanie brzmi, czy robienie tego jest naprawdę znaczące. Wyobraź sobie, że przeprowadzasz wstępną analizę i odkrywasz, że grupy różnią się między sobą pod względem merytorycznym; jaki sens ma połączenie tych rozbieżnych grup w bezładną całość? Wyobraź sobie na przykład, że grupy różnią się (w jakiś sposób) swoimi przechwyceniami, wówczas przynajmniej niektóre grupy nie mają przechwytu 0. Jeśli istnieje tylko jedna taka grupa, to punkt przecięcia dla całej będzie wynosił 0, jeśli ta grupa mang=0w odpowiedniej populacji. Alternatywnie, powiedzmy, że istnieją dokładnie 2 grupy z niezerowymi punktami przechwytywania z jednym dodatnim i jednym ujemnym, wówczas całość będzie miała punkt zerowy tylko wtedy, gdynz tych grup są odwrotnie proporcjonalne do wielkości rozbieżności przechwyceń. Mógłbym przejść dalej (istnieje wiele innych możliwości), ale chodzi o to, że zadajesz pytania o to, jak rozmiary grup odnoszą się do różnic w wartościach parametrów. Szczerze mówiąc, są to dla mnie dziwne pytania.

Sugeruję, abyś postępował zgodnie z protokołem, który zarysowałem powyżej. Mianowicie, fikcyjny kod twoich grup. Następnie dopasuj pełny model z uwzględnieniem wszystkich manekinów i warunków interakcji. Dopasuj zredukowany model bez tych terminów i przeprowadź test modelu zagnieżdżonego. Jeśli grupy odbiegają jakoś śledzić z (miejmy nadzieję) a-priori (teoretycznie) napędzany ortogonalnych kontrastów, aby lepiej zrozumieć, w jaki sposób grupy różnią. (I działka - zawsze, zawsze działka.)

gung - Przywróć Monikę
źródło