Jak interpretować termin przechwytywania w GLM?

20

Używam R i analizowałem moje dane za pomocą GLM z łączem dwumianowym.

Chcę wiedzieć, jakie jest znaczenie przecięcia w tabeli wyjściowej. Punkt przecięcia dla jednego z moich modeli jest znacząco inny, jednak zmienna tak nie jest. Co to znaczy?

Co to jest przechwycenie. Nie wiem, czy po prostu się mylę, ale po przeszukaniu Internetu nic nie mówi, tylko to, zwróćcie na to uwagę ... albo nie.

Proszę o pomoc, bardzo sfrustrowany student


glm(formula = attacked_excluding_app ~ treatment, family = binomial, 
    data = data)
Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.3548   0.3593   0.3593   0.3593   0.3593  
Coefficients:
                         Estimate Std. Error z value Pr(>|z|)   
(Intercept)                 2.708      1.033   2.622  0.00874 **
treatmentshiny_non-shiny    0.000      1.461   0.000  1.00000

(Dispersion parameter for binomial family taken to be 1)
Null deviance: 14.963  on 31  degrees of freedom
Residual deviance: 14.963  on 30  degrees of freedom
(15 observations deleted due to missingness)
AIC: 18.963
Number of Fisher Scoring iterations: 5
Samuel Waldron
źródło
1
Jaką funkcję łącza określasz w glm?
Tomas
5
Punkt przecięcia to przewidywana wartość zmiennej zależnej, gdy wszystkie zmienne niezależne wynoszą 0. Bez dodatkowych informacji na temat modelu nie mogę powiedzieć, czy ma to znaczenie w twoim przypadku.
Peter Flom - Przywróć Monikę

Odpowiedzi:

21

Pojęcie punktu przecięcia jest punktem przecięcia w liniowej części równania GLM, więc twoim modelem średniej jest , gdzie g jest funkcją połączenia, a X β jest modelem liniowym. Ten model liniowy zawiera „termin przechwytywania”, tj .:mi[Y]=sol-1(Xβ)solXβ

Xβ=do+X1β1+X2)β2)+

W twoim przypadku punkt przecięcia jest znacznie różny od zera, ale zmienna nie jest, więc to mówi

Xβ=do0

Ponieważ twoja funkcja link jest zatem dwumianowa

sol(μ)=ln(μ1-μ)

I tak z tylko terminem przechwytywania, dopasowany model średniej to:

mi[Y]=11+mi-do

Widać, że jeśli odpowiada to po prostu 50:50 szansie na uzyskanie Y = 1 lub 0, tj. E [ Y ] = 1do=0mi[Y]=11+1=0,5

Więc twój wynik mówi, że nie możesz przewidzieć wyniku, ale jedna klasa (1 lub 0) jest bardziej prawdopodobna niż druga.

Corone
źródło
2
Wystraszyłeś mnie na E [Y] = .... :). Dziękuję za odpowiedź. Rozumiem, co mówisz. Powiedziałeś, że przechwytywanie jest sig. niezerowa, ale var. nie jest, to p = 1,00 !? Jaki wpływ mają zmienne wartość p na to, co mogę powiedzieć o resut?
Samuel Waldron,
2
Jeśli wartość p zmiennych nie jest mała, zazwyczaj nie uwzględniałaby tej zmiennej w modelu. W twoim przypadku nawet nie szacuje się, że zmienna ma wartość niezerową, stąd wartość p wynosząca 1,00. Zasadniczo nie ma związku między „leczeniem” a „atakiem_wykluczeniem_aplikacji”. Brak relacji jest tutaj tak doskonały, że jest prawie podejrzany, chociaż masz mały zestaw danych. Warto wizualizować dane i sprawdzać, czy jest to uzasadnione.
Corone
2
+1 za odpowiedź (i sugestię w komentarzu, że dzieje się coś dziwnego w zbiorze danych), chociaż nie zgadzam się z otwarciem twojego komentarza „Jeśli wartość p zmiennych nie jest mała, ta zazwyczaj nie zawiera tej zmiennej w Model." Niekoniecznie tak jest - często chce się zgłosić wielkość relacji, nawet jeśli nie jest ona „znacząca” (a co więcej, jeśli chciałbyś modelować relację na początek, to wynik zerowy to nadal ważne, aby zgłosić.)
James Stanley
1
@James - bardzo dobry punkt, zawsze należy zgłaszać, jakie zmienne testowałeś - powinienem być jaśniejszy, chodziło mi tylko o to, że zwykle nie uwzględniałbym tej zmiennej podczas próby użycia modelu do prognozy (ponieważ zwykle oznaczałoby to nadmierne dopasowanie ).
Corone
@Corone - jestem szczególnie zainteresowany twoimi komentarzami na temat zmiennej w / wykluczenia i ich relacji do wątku na stats.stackexchange.com/questions/17624/…
rolando2
5

Wygląda mi na problem z danymi. Dziwne, że oszacowanie parametru dla współczynnika wynosi 0,000. Wygląda na to, że zarówno twoje DV, jak i IV są dychotomiczne i że proporcje twojego DV nie różnią się wcale z twoim IV. Czy to jest poprawne?

Punkt przecięcia, jak zauważyłem w moim komentarzu (i jak sugeruje odpowiedź @corone), jest wartością DV, gdy IV wynosi 0. W jaki sposób zakodowano twoje IV? Jednak fakt, że oszacowanie współczynnika wynosi 0,000, oznacza, że ​​IV nie robi różnicy.

log(p1-p)

Peter Flom - Przywróć Monikę
źródło
Cześć chłopaki, jeszcze raz dziękuję za komentarze. Punkty danych są prawie identyczne. Zgłaszam to w sprawozdaniu i muszę je jednak podkreślić. Właśnie dlatego wyniki wyglądają dziwnie. Z tymi danymi (GLM) i innymi zestawami danych w moich raportach (GLMM) zdecydowanie uruchamiam (# TEAM2x2x2x2), zanim będę mógł przejść. Myślę, że moim głównym problemem jest wiedza o tym, co muszę zgłosić, czy mam na myśli statystyki dla przechwytywania czy dla IV? Poniżej mój (mam nadzieję, że bardziej standardowy) GLMM ponownie z linkiem dwumianowym.
Samuel Waldron
Uogólniony liniowy model mieszany dopasowany przez aproksymację Laplace'a Wzór: Atakowany ~ Leczenie + próba + leczenie * Próbka + (1 | Ptak) Dane: dane AIC BIC log Odchylenie logiczne 139,6 153,8 -64,78 129,6 Efekty losowe: Grupy Nazwa Odmiana Std.Dev. Ptak (przechwytywanie) 0,87795 0,93699 Liczba obs .: 128, grupy: Ptak, 32
Samuel Waldron
Naprawiono efekty: oszacuj standardowe. Błąd z wartości Pr (> | z |) (przechwycenie) 3,19504 0,90446 3,533 0,000412 *** Zabiegi błyszczący błyszczący nie 0,02617 1,26964 0,021 .983558 Próba -1,53880 0,36705 -4,192 2,76e-05 *** Leczenie: Próba 0,16909 0,49501 0,322 .732655 --- Signif. kody: 0 ' 0,001 ' 0,01 '0,05'. 0.1 '' 1 Korelacja efektów stałych: (Intr) Trtm_- Trial Trtmntshn_- -0,712 Trial -0,895 0,638 Trtmnts _-: T 0,644 -0,896 -0,742
Samuel Waldron
3

W twoim przypadku punkt przecięcia jest główną wartością attacked_excluding_appobliczoną dla wszystkich danych niezależnie od tego treatment. Test istotności w tabeli współczynników sprawdza, czy różni się znacznie od zera. To, czy jest to istotne, zależy od tego, czy masz jakiś a priori powód, aby oczekiwać, że będzie to zero, czy nie.

Wyobraź sobie na przykład, że testowałeś lek i placebo pod kątem ich wpływu na ciśnienie krwi. Dla każdego pacjenta rejestrujesz zmianę ciśnienia krwi, obliczając (ciśnienie po leczeniu - ciśnienie przed leczeniem) i traktujesz to jako zmienną zależną w swojej analizie. Okazuje się wtedy, że efekt leczenia (lek vs. placebo) jest nieistotny, ale że punkt przecięcia jest znacząco> 0 - to by powiedziało, że średnio ciśnienie krwi u badanych wzrosło między dwoma czasami pomiaru. To może być interesujące i wymagać dalszych badań.

Freya Harrison
źródło