Jaka jest różnica między „funkcją łącza” a „kanoniczną funkcją łącza” dla GLM

65

Jaka jest różnica między terminami „funkcja łącza” i „kanoniczna funkcja łącza”? Czy są też (teoretyczne) zalety używania jednego nad drugim?

Na przykład binarna zmienna odpowiedzi może być modelowana przy użyciu wielu funkcji łącza, takich jak logit , probit itp. Jednak logit tutaj jest uważany za „kanoniczną” funkcję łącza.

steadyfish
źródło
10
Obszernie omawiam tutaj funkcje linków: Różnica między modelami logit i probit , skupiając się na regresji dla binarnej zmiennej odpowiedzi. Chociaż tylko niewielka część tej dyskusji skupia się na znaczeniu funkcji „link” jako „kanonicznej”, to jednak może być pomocne w czytaniu. Zauważ, że aby zrozumieć różnicę b / ti zalety kanonicznej vs niekanonicznej funkcji łącza, należy zagłębić się głęboko w matematykę leżącą u podstaw GLiM.
gung - Przywróć Monikę

Odpowiedzi:

68

Powyższe odpowiedzi są bardziej intuicyjne, więc staram się bardziej rygorystycznie.

Co to jest GLM?

Niech oznacza zbiór odpowiedź Y i p -wymiarowego wektora współzmienna x = ( x 1 , ... , x p ) o wartość oczekiwana E ( Y ) = ľ . Dla i = 1 , ... , n niezależnych obserwacji rozkład każdego y I jest wykładniczy rodziny o gęstości F ( y I ;Y=(y,x)ypx=(x1,,xp)E(y)=μi=1,,nyi Tutaj interesującym parametrem (parametr naturalny lub kanoniczny) jest θ i , ϕ jest a parametr skali (znany lub postrzegany jako uciążliwy) oraz γ i τ są znanymi funkcjami. Gdy n -wymiarowych wektory stałych wartościach wejściowych na str

f(yi;θi,ϕ)=exp{[yiθiγ(θi)]/ϕ+τ(yi,ϕ)}
θiϕγτnpzmienne objaśniające oznaczone są przez . Zakładamy, że wektory wejściowe wpływają (1) tylko przez funkcję liniową, predyktor liniowy, η i = β 0 + β 1 x i 1 + + β p x i p, od których zależy θ i . Jak można wykazać, że θ = ( γ ) - 1 ( μ )x1,,xp
ηi=β0+β1xi1++βpxip
θiθ=(γ)1(μ), tę zależność ustala się, łącząc predyktor liniowy i θ za pomocą średniej. Mówiąc dokładniej, średnia μ jest postrzegana jako odwracalna i gładka funkcja predyktora liniowego, tj. G ( μ ) = η lub μ = g - 1 ( η ) Teraz, aby odpowiedzieć na twoje pytanie:ηθμ
g(μ)=η or μ=g1(η)

g()μηθηθg=(γ)1

Xyixijyij=1,,pμ

Dlatego zazwyczaj są używane. Zauważ jednak, że nie ma a priori powodu, dla którego efekty w modelu powinny być addytywne w skali podanej przez to lub inne łącze.

Momo
źródło
5
+1, to naprawdę fajna odpowiedź, @Momo. Niektóre równania były dla mnie trudniejsze do odczytania, gdy zostały zakopane w akapitach, więc „zablokowałem” je, stosując podwójne znaki dolara (tj. $ $). Mam nadzieję, że to w porządku (jeśli nie, możesz cofnąć, bez moich przeprosin).
gung - Przywróć Monikę
1
@Momo oryginalne pytanie tutaj zawiera jednak to, o co pytał Wei, dlatego warto podkreślić, że na to pytanie nie ma jeszcze wyraźnej odpowiedzi.
Glen_b
1
θη=θg(μ)=θθ=(γ)1(μ)θθμg(.)=(γ)1(.)
1
γ(θ)=π=exp(θ)1+exp(θ)(γ)1(.)=logit(.)η=θg(.)θ=logit(π)=ηθηistnieje tylko wtedy, gdy użyjemy kanonicznej funkcji łącza.
Druss2k
2
μθηθ
16

Gung przytoczył dobre wyjaśnienie: link kanoniczny ma specjalne teoretyczne właściwości minimalnej wystarczalności. Oznacza to, że możesz zdefiniować warunkowy model logit (który ekonomiści nazywają modelem o stałym efekcie), uzależniając go od liczby wyników, ale nie możesz zdefiniować warunkowego modelu probit, ponieważ nie ma wystarczających statystyk do użycia z łączem probit.

StasK
źródło
Czy możesz rozwinąć nieco minimalną wystarczalność? Na podstawie powyższego wyjaśnienia nadal możemy zdefiniować model probitowy, prawda? Na pewno nie będzie to kanoniczna funkcja łącza, ale jaka szkoda w korzystaniu z niekanonicznej funkcji łącza.
pikachuchameleon
9

Oto mały schemat zainspirowany klasą MIT 18.650, który uważam za bardzo przydatny, ponieważ pomaga zwizualizować relacje między tymi funkcjami. Użyłem tego samego zapisu, co w poście @ momo:

wprowadź opis zdjęcia tutaj

  • γ(θ)
  • g(μ)

g

Schemat pozwala łatwo przejść z jednego kierunku do drugiego, na przykład:

η=g(γ(θ))
θ=γ1(g1(η))

Kanoniczna funkcja łącza

g

γ1g1=(gγ)1=I
θ=η
Xavier Bourret Sicotte
źródło
1

Powyższe odpowiedzi obejmują już to, co chcę powiedzieć. Aby wyjaśnić kilka kwestii jako badacza uczenia maszynowego:

  1. funkcja link jest niczym innym jak odwrotnością funkcji aktywacji. Na przykład logit jest odwrotnością sigmoidu, probit jest odwrotnością funkcji skumulowanego rozkładu Gaussa.

  2. wTxwx

Powyższa dyskusja nie ma nic wspólnego z wykładniczą rodziną, ale miłą dyskusję można znaleźć w książce PRML Christophera Bishopa Rozdział 4.3.6.

Guojun Zhang
źródło