Porównanie dwóch modeli regresji liniowej

12

Chciałbym porównać dwa modele regresji liniowej, które reprezentują szybkości degradacji mRNA w czasie w dwóch różnych warunkach. Dane dla każdego modelu zbierane niezależnie.

Oto zestaw danych.

Rejestr czasu (godziny) (leczenie A) dziennik (leczenie B)
0 2,02 1,97
0 2,04 2,06
0 1,93 1,96
2 2,02 1,91
2 2,00 1,95
2 2,07 1,82
4 1,96 1,97
4 2,02 1,99
4 2,02 1,99
6 1,94 1,90
6 1,94 1,97
6 1,86 1,88
8 1,93 1,97
8 2,12 1,99
8 2,06 1,93
12 1,71 1,70
12 1,96 1,73
12 1,71 1,76
24 1,70 1,46
24 1,83 1,41
24 1,62 1,42

Oto moje modele:

Exp1.A.lm<-lm(Exp1$Time~Exp1$(Treatment A))
Exp1.B.lm<-lm(Exp1$Time~Exp1$(Treatment B))
Połączenie:
lm (formuła = Exp1 $ Czas ~ Exp1 $ (Leczenie A))

Pozostałości:
    Min 1Q Mediana 3Q Max 
-6,8950 -1,2322 0,2862 1,2494 5,2494 

Współczynniki:
                   Oszacuj Std. Błąd wartość t Pr (> | t |)    
(Przechwyć) 74,68 6,27 11,91 2,94e-10 ***
Exp1 $ (leczenie A) -36,14 3,38 -10,69 1,77e-09 ***
---
Signif. kody: 0 „***” 0,001 ”**„ 0,01 ”*„ 0,05 ”.” 0,1 '' 1

Błąd resztkowy standardowy: 2,97 przy 19 stopniach swobody
Wiele R-kwadrat: 0,8575, Skorygowany R-kwadrat: 0,85 
Statystyka F: 114,3 dla 1 i 19 DF, wartość p: 1,772e-09

Połączenie:
lm (formuła = Exp1 $ Czas ~ Exp1 $ (Leczenie B))

Pozostałości:
   Min 1Q Mediana 3Q Max 
-7,861 -3,278 -1,444 3,222 11,972 

Współczynniki:
                      Oszacuj Std. Błąd wartość t Pr (> | t |)    
(Przechwyć) 88,281 16,114 5,478 2,76e-05 ***
Exp1 $ (leczenie B) -41,668 8,43 -4,994 8,05e-05 ***
---
Signif. kody: 0 „***” 0,001 ”**„ 0,01 ”*„ 0,05 ”.” 0,1 '' 1

Błąd resztkowy standardowy: 5,173 przy 19 stopniach swobody
Wiele R-kwadrat: 0,5676, Skorygowany R-kwadrat: 0,5449 
Statystyka F: 24,94 dla 1 i 19 DF, wartość p: 8,052e-05

Aby porównać te dwa modele, użyłem następującego kodu.

anova(Exp1.A.lm,Exp1.B.lm)
Analiza tabeli odchyleń

Model 1: Exp1 $ Czas ~ Exp1 $ Exp1 $ (leczenie A)
Model 2: Exp1 $ Czas ~ Exp1 $ Exp1 $ (leczenie B)
  Res.Df RSS Df Sq Sq F Pr (> F)
1 19 167,60                      
2 19 508,48 0 -340,88

Moje pytanie brzmi: dlaczego analiza ANOVA nie pokazuje statystyki F i wartości p.val. Przepraszam, jeśli to naiwne pytanie.

Opierając się na różnych nachyleniach, szybkość degradacji jest różna w tych dwóch modelach, ale chciałbym wiedzieć, jak istotna statystycznie jest ta różnica. Mam nadzieję, że to ma sens.

Rooz
źródło
2
Można zauważyć, że tabela ANOVA podaje stopnie swobody związane z analizą jako 0 ; masz taką samą liczbę zmiennych w obu modelach, dlatego nie można obliczyć wartości F ani p.
gung - Przywróć Monikę
5
Nie zawracałbym sobie głowy porównywaniem tych modeli, dopóki nie sprawdzę ich dopasowania. Myślę, że znajdziesz w drugim, że ani odpowiedź, ani jej logarytm nie są liniowymi funkcjami czasu. Powoduje to (poważnie) podważenie jakiegokolwiek porównania oszacowań nachylenia.
whuber

Odpowiedzi:

11

Jeśli ustawisz dane w jednej długiej kolumnie z A i B jako nową kolumną, możesz uruchomić model regresji jako GLM z ciągłą zmienną czasową i nominalną zmienną „eksperymentalną” (A, B). Dane wyjściowe ANOVA podadzą znaczenie różnicy między parametrami. „przechwytywanie” jest wspólnym przechwytywaniem, a współczynnik „eksperymentu” będzie odzwierciedlał różnice między przechwytywaniami (właściwie ogólnymi średnimi) między eksperymentami. czynnik „Czas” będzie wspólnym nachyleniem, a interakcja jest różnicą między eksperymentami w odniesieniu na stok.

Muszę przyznać, że oszukuję (?) I uruchamiam modele oddzielnie, aby uzyskać dwa zestawy parametrów i ich błędy, a następnie uruchomić model połączony, aby uzyskać różnice między zabiegami (w twoim przypadku A i B) ...

użytkownik24187
źródło
3
To sprytne podejście. Kiedy „oszukujesz”, czy sprawdzasz, czy wariancje błędów są w przybliżeniu takie same w każdym modelu? A jeśli wydają się znacznie różne, jak to wpływa na twoje rekomendacje?
whuber
GLM jest dobrym podejściem, a do eksploracji danych dopasowanie osobnych modeli jest dobrym sposobem oceny wariancji błędów między eksperymentami. Jeśli ktoś byłby naprawdę zaniepokojony, mógłby rozszerzyć model GLM o wariancje błędu specyficzne dla grupy, a nie domniemane założenie wspólnej wariancji błędu dla wszystkich danych eksperymentalnych.
prince_of_pears
Inną rzeczą, która przychodzi na myśl, jest to, czy OP jest zainteresowany handlem, czy wskaźniki degradacji między eksperymentami są po prostu różne od siebie (ignorując wskaźnik bezwzględny), czy też wskaźniki te są również statystycznie (lub praktycznie) różne od zera. Pierwsza polega na sprawdzeniu hipotezy, że współczynnik interakcji między leczeniem a czasem jest równy zero. Drugi polega na przeprowadzeniu dwóch osobnych testów (lub jednego testu hipotezy łącznej), że każda częstość jest różna od zera. Mógłbym być bardziej zainteresowany testowaniem drugiego przed pierwszym.
prince_of_pears
5

Analiza ANOVA nie pokazuje statystyki F i wartości p., Ponieważ oba modele mają te same rezydualne stopnie swobody (tj. 19), a jeśli weźmiesz różnicę, wyniesie to zero! Po wykonaniu różnicy powinien być przynajmniej jeden stopień swobody, aby wykonać test F.

Stat
źródło
Nie jestem pewien, czy rozumiem twoją odpowiedź. Czy istnieje powód, dla którego rezydualne stopnie swobody są równe? Wszelkie sugestie dotyczące alternatywnego podejścia do porównywania stoków?
Rooz,
Tak jest. W obu modelach masz 21 obserwacji, tj. . W regresji liniowej z jedną objaśniającą zmienną losową (tj. Exp1 (leczenie B)) stopień swobody regresorów wynosi jeden. Całkowity stopień swobody wynosi . Zauważ, że . Więc w obu modelach, dlatego nie możesz tutaj użyć testu F. ( T r e a t m e n t A ) o r E x p 1 d f T = n - 1 = 20 d f T = d f e r r o r + d f r e g r e s s o r s d f e r r o rn=21(TreatmentA)orExp1dfT=n1=20dfT=dferror+dfregressorsdferror=19
Stat
Istnieje wiele sposobów na porównanie ich poza testem F. Najłatwiej jest użyć wielu R-kwadratów i skorygowanych R-kwadratów jak w podsumowaniach. Model z wyższym R-kwadratem lub Skorygowanym R-kwadratem jest lepszy. Tutaj lepszym modelem wydaje się być ten z Exp1 $ (leczenie A). Pamiętaj jednak, że powinieneś sprawdzić resztki swojego modelu, aby sprawdzić adekwatność dopasowanego modelu. Ja osobiście nie polecam polegać tylko na kryteriach R-kwadrat i powinieneś sprawdzić również inne założenia w modelu liniowym. Szczególnie sprawdź, czy reszty są autokorelowane czy nie.
Stat