Co to jest rozkład quasi-dwumianowy (w kontekście GLM)?

30

Mam nadzieję, że ktoś zapewni intuicyjny przegląd tego, czym jest dystrybucja quasibinomial i co robi. Szczególnie interesują mnie następujące punkty:

  1. Jak quasibinomial różni się od rozkładu dwumianowego.

  2. Gdy zmienna odpowiedzi jest proporcją (przykładowe wartości obejmują 0,23, 0,11, 0,78, 0,98), model quasibinomial będzie działał w R, ale model dwumianowy nie.

  3. Dlaczego modele quasibinomialne powinny być stosowane, gdy zmienna odpowiedzi PRAWDA / FAŁSZ jest nadmiernie rozproszona.

luciano
źródło

Odpowiedzi:

20
  1. Różnicę między rozkładem dwumianowym a quasi-dwumianowym można zobaczyć w ich funkcjach gęstości prawdopodobieństwa (pdf), które charakteryzują te rozkłady.

    Dwumianowy pdf:

    P(X=k)=(nk)pk(1p)nk

    Quasi-dwumianowy pdf:

    P(X=k)=(nk)p(p+kϕ)k1(1pkϕ)nk

    Rozkład quasi-dwumianowy, choć podobny do rozkładu dwumianowego, ma dodatkowy parametr ϕ (ograniczony do |ϕ|min{p/n,(1p)/n} ), który próbuje opisać dodatkowa wariancja danych, której nie można wyjaśnić jedynie rozkładem dwumianowym.

    (Zauważ, że średnia rozkładu quasi-dwumianowego to Zamiast samego .)pi=0nn!ϕi(nk)!p

  2. Nie jestem pewien, czy funkcja glm w R dodaje wagi w trybie quasibinomial, aby to uwzględnić?

  3. Celem dodatkowego parametru jest oszacowanie dodatkowej wariancji danych. Każdy uogólniony model liniowy (GLM) przyjmuje rozkład dystrybucyjny dla wyniku / odpowiedzi i maksymalizuje prawdopodobieństwo danych w oparciu o ten rozkład. Jest to wybór dokonywany przez analityka, a jeśli uważasz, że musisz wziąć pod uwagę większą wariancję danych, możesz wybrać quasi-dwumianowy rozkład, aby modelować odpowiedź na glm. Świetnym sposobem na sprawdzenie, czy musimy dopasować model quasi-dwumianowy zamiast dwumianu, jest dopasowanie modelu quasi-dwumianowego i przetestowanie, czy parametr ma wartość 0.ϕϕ

Alejandro Ochoa
źródło
2
Doskonałe Alejandro, jak mogę teraz sprawdzić, czy parametr ϕ wynosi 0?
Juanchi
2
Należy zauważyć, że w Rz glm.fit, binomiali quasibinomialsą dokładnie takie same, poza tym, że quasibinomial(1) usuwa sprawdzanie całkowitej, oraz (2) zwraca AIC Na. Zobacz tę odpowiedź, aby uzyskać więcej informacji.
miguelmorin
-1 Ten rodzaj „quasi-dwumianowy” wydaje się być całkowicie niezwiązany z quasi-dwumianowymi prawdopodobieństwami w kontekście glms, więc trudno jest zrozumieć, dlaczego otrzymał tak wiele pozytywnych opinii.
Jarle Tufto
14

Quasi-dwumian niekoniecznie jest szczególnym rozkładem; opisuje model zależności między wariancją a średnią w uogólnionych modelach liniowych, który jest razy wariancją dla dwumianu pod względem średniej dla dwumianu.ϕ

Istnieje rozkład, który pasuje do takiej specyfikacji (oczywisty - skalowany dwumianowy), ale niekoniecznie jest to cel, gdy dopasowany jest model quasi-dwumianowy; jeśli dopasowujesz do danych, które wciąż wynoszą 0-1, nie można skalować dwumianu.

Tak więc quasi-dwumianowy model wariancji, za pomocą parametru , może lepiej radzić sobie z danymi, dla których wariancja jest większa (lub być może mniejsza) niż w przypadku danych dwumianowych, niekoniecznie będąc faktycznym rozkładem .ϕ

Gdy zmienna odpowiedzi jest proporcją (przykładowe wartości obejmują 0,23, 0,11, 078, 0,98), model quasibinomial będzie działał w R, ale model dwumianowy nie będzie

Moim zdaniem model dwumianowy można uruchomić w proporcjach R *, ale trzeba go odpowiednio ustawić.

* Istnieją trzy oddzielne sposoby przekazywania danych dwumianowych do R, o których wiem. Jestem prawie pewien, że to jeden.

Glen_b - Przywróć Monikę
źródło
Jak to się ma do oszacowania quasilikelihood?
tim.farkas
2
+1 (ale chciałbym zobaczyć bardziej wyczerpującą odpowiedź!). Trzy sposoby konfiguracji dwumianowego GLM z proporcjami są prawdopodobnie następujące: stats.stackexchange.com/a/26779/28666 ? Link może być pomocny. W jaki sposób to, co powiedziałeś o „quasibinomial”, nie będącym tak naprawdę dystrybucją, odnosi się do drugiej odpowiedzi w tym wątku?
ameba mówi Przywróć Monikę
1
@amoeba możesz napisać dla niego rozkład, jak stwierdzono w mojej odpowiedzi (skalowany dwumianowy), ale to nie może być rozkład dla danych zliczania (quasibinomial nie jest na wszystkich liczbach całkowitych, chyba że parametr dyspersji wynosi 1) ani dla danych ciągłych ( to dyskretne!). Ludzie zwykle używają go do zliczania danych ze względu na jego strukturę wariancji (ale w takim przypadku nie ma takiego rozkładu w rodzinie wykładniczej)
Glen_b