Jaka jest różnica między terminami „funkcja łącza” i „kanoniczna funkcja łącza”? Czy są też (teoretyczne) zalety używania jednego nad drugim?
Na przykład binarna zmienna odpowiedzi może być modelowana przy użyciu wielu funkcji łącza, takich jak logit , probit itp. Jednak logit tutaj jest uważany za „kanoniczną” funkcję łącza.
logistic
generalized-linear-model
link-function
steadyfish
źródło
źródło
Odpowiedzi:
Powyższe odpowiedzi są bardziej intuicyjne, więc staram się bardziej rygorystycznie.
Co to jest GLM?
Niech oznacza zbiór odpowiedź Y i p -wymiarowego wektora współzmienna x = ( x 1 , ... , x p ) o wartość oczekiwana E ( Y ) = ľ . Dla i = 1 , ... , n niezależnych obserwacji rozkład każdego y I jest wykładniczy rodziny o gęstości F ( y I ;Y= ( y, x ) y p x =( x1, … , Xp) mi( y) = μ i = 1 , … , n yja
Tutaj interesującym parametrem (parametr naturalny lub kanoniczny) jest θ i , ϕ jest a parametr skali (znany lub postrzegany jako uciążliwy) oraz γ i τ są znanymi funkcjami. Gdy n -wymiarowych wektory stałych wartościach wejściowych na str
Dlatego zazwyczaj są używane. Zauważ jednak, że nie ma a priori powodu, dla którego efekty w modelu powinny być addytywne w skali podanej przez to lub inne łącze.
źródło
Gung przytoczył dobre wyjaśnienie: link kanoniczny ma specjalne teoretyczne właściwości minimalnej wystarczalności. Oznacza to, że możesz zdefiniować warunkowy model logit (który ekonomiści nazywają modelem o stałym efekcie), uzależniając go od liczby wyników, ale nie możesz zdefiniować warunkowego modelu probit, ponieważ nie ma wystarczających statystyk do użycia z łączem probit.
źródło
Oto mały schemat zainspirowany klasą MIT 18.650, który uważam za bardzo przydatny, ponieważ pomaga zwizualizować relacje między tymi funkcjami. Użyłem tego samego zapisu, co w poście @ momo:
Schemat pozwala łatwo przejść z jednego kierunku do drugiego, na przykład:
Kanoniczna funkcja łącza
źródło
Powyższe odpowiedzi obejmują już to, co chcę powiedzieć. Aby wyjaśnić kilka kwestii jako badacza uczenia maszynowego:
funkcja link jest niczym innym jak odwrotnością funkcji aktywacji. Na przykład logit jest odwrotnością sigmoidu, probit jest odwrotnością funkcji skumulowanego rozkładu Gaussa.
Powyższa dyskusja nie ma nic wspólnego z wykładniczą rodziną, ale miłą dyskusję można znaleźć w książce PRML Christophera Bishopa Rozdział 4.3.6.
źródło