Dobroć dopasowania i który model wybrać regresję liniową lub Poissona

19

Potrzebuję porady dotyczącej dwóch głównych dylematów w moich badaniach, które są studium przypadku 3 dużych farmaceutyków i innowacji. Liczba patentów rocznie jest zmienną zależną.

Moje pytania są

  • Jakie są najważniejsze kryteria dobrego modelu? Co jest ważniejsze / mniej ważne? Czy to, że większość lub wszystkie zmienne będą znaczące? Czy to jest „F STATISTIC”? Czy jest to wartość „Skorygowanego R podniesionego do kwadratu”?

  • Po drugie, jak mogę wybrać najbardziej odpowiedni model do badań? Oprócz patentów, które są zmienną liczącą (więc może liczba Poissona), mam zmienne objaśniające, takie jak zwrot z aktywów, budżet na badania i rozwój, powtarzający się partner (% nie jest zmienną binarną), wielkość firmy (pracownicy) i kilka innych. Czy powinienem wykonać regresję liniową czy Poissona?

Nitzan
źródło
5
Kjetil udzielił szczegółowej odpowiedzi. Szybsza i krótsza opinia zgodna z jego argumentem jest taka, że ​​to, co nazywacie „drugim”, jest naprawdę ważnym pytaniem. To, o czym wspominasz jako pierwsze, jest przypadkowe.
Nick Cox,

Odpowiedzi:

31

Najważniejsza jest logika modelu. Twoja zmienna „liczba patentów rocznie” jest zmienną zliczającą, więc wskazana jest regresja Poissona. Jest to GLM (uogólniony model liniowy) z (zwykle) funkcją logarytmiczną, podczas gdy zwykłą regresją liniową jest gaussowski GLM z łącznikiem tożsamości. W tym przypadku najważniejsza jest funkcja logarytmiczna, ważniejsza niż rozkład błędów (Poissona lub Gaussa).

Zmienna „Patenty” jest zmienną rozległą : patrz intensywne i rozległe właściwości . W przypadku zmiennych intensywnych , takich jak temperatura, często odpowiednie są modele liniowe (z łączem tożsamości). Ale z dużą zmienną jest inaczej. Pomyśl, że jedna z twoich firm farmaceutycznych podzieliła się na dwie różne firmy. Następnie patenty musiały zostać podzielone między dwie nowe firmy. Co dzieje się z zmiennymi zmiennymi, w twojej regresji? Zmienne, takie jak liczba pracowników i budżet RD, również musiałyby zostać podzielone.x

Zasadniczo w tym kontekście zmienna intensywna jest zmienną niezależną od wielkości firmy, natomiast zmienna ekstensywna zależy (zazwyczaj liniowo) od wielkości firmy. W pewnym sensie, jeśli w równaniu regresji mamy wiele różnych zmiennych ekstensywnych, wielokrotnie mierzymy efekty wielkości . Wydaje się to zbędne, dlatego powinniśmy starać się, w miarę możliwości, wyrażać zmienne w formie intensywnej , takie jak budżet RD na pracownika (lub jako procent całkowitego budżetu), podobnie przychody itp. Zmienna taka jak liczba pracowników będzie musiała pozostać jako rozległy. Zobacz odpowiedź @ onestop na Radzenie sobie ze skorelowanymi regresorami, aby uzyskać kolejną dyskusję na temat tego obszernego / intensywnego zagadnienia zmiennej.

Spójrzmy na to algebraicznie: są patentami, budżetem (na pracownika), pracownikami pierwotnej firmy, podczas gdy i są odpowiednimi zmiennymi po podziale. Załóżmy, jak wyżej, że jest jedyną rozległą zmienną zmienną (z , oczywiście również ekstensywną).P 1 , B 1 , E 1 P 2 , B 2 , E 2 E PP.,b,miP.1,b1,mi1P.2),b2),mi2)miP.

Następnie, przed podziałem, mamy model, link tożsamości, z losową częścią pominiętą: Niech ułamki podzielone będą więc dla firmy 1 po podziale otrzymujemy od ale . Podobnie w przypadku firmy drugiej. Tak więc model zależy w dość skomplikowany sposób od wielkości firmy, tylko współczynnik regresji naα , 1 - α α P

P.=μ+β1mi+β2)b
α,1-α
αP.=αμ+αβ1mi+αβ2)bP.1=αμ+β1mi1+αβ2)b1
P.1=αP.,mi1=αmib1=bminiezależny od wielkości firmy, wielkość wpływająca na wszystkie pozostałe parametry. To sprawia, że ​​interpretacja wyników jest trudna, szczególnie, jeśli w swoich danych masz firmy różnej wielkości, to jak zamierzasz interpretować te współczynniki? Porównanie z innymi badaniami opartymi na innych danych itp. Staje się niezwykle skomplikowane.

Zobaczmy teraz, czy użycie funkcji linku do dziennika może pomóc. Ponownie piszemy wyidealizowane modele bez zakłóceń. Zmienne są jak wyżej.

Najpierw model przed podziałem: Po podziale, dla firmy pierwszej, otrzymujemy: Wygląda to prawie poprawnie, z wyjątkiem jednego problemu, część zależności od nie całkiem działa. Widzimy więc, że liczba pracowników, ta zmienna zmienna w dużej formie, musi być wykorzystana w skali logarytmicznej. Następnie, próbując ponownie, otrzymujemy:

P.=exp(μ+β1mi+β2)b)
P.1=exp(logα)exp(μ+β1mi+β2)b)P.1=exp(logα+μ+β1mi+β2)b1)
mi

Model przed podziałem: Po podziale: gdzie jest nowym przechwyceniem. Teraz umieściliśmy model w formie, w której wszystkie parametry (z wyjątkiem przechwytywania) mają interpretację niezależną od wielkości firmy.

P.=exp(μ+β1logmi+β2)b)
P.1=exp(logα)exp(μ+β1logmi+β2)b)P.1=exp(logα+μ+β1logmi+β2)b1)P.1=exp((1-β)logα+μ+β1logmi1+β2)b1)P.1=exp(μ+β1logmi1+β2)b1)
μ

To znacznie ułatwia interpretację wyników, a także porównania z badaniami wykorzystującymi inne dane, trendy z czasem i tak dalej. Nie można uzyskać tego formularza za pomocą parametrów z interpretacjami niezależnymi od wielkości za pomocą łącza tożsamości.

Wniosek: użyj GLM z funkcją logarytmiczną, może regresją Poissona lub dwumianą ujemną, lub ... Funkcja link jest ważniejsza o rząd wielkości!

Podsumowując, konstruując model regresji dla zmiennej odpowiedzi, która jest obszerna , jak zmienna zliczająca.

  1. Spróbuj wyrazić zmienne zmienne w formie intensywnej.

  2. Zmienne zmienne, które należy pozostawić jako rozległe: zaloguj je (powyższa algebra zależy od tego, że istnieje co najwyżej jedna zmienna rozległa).

  3. Użyj funkcji linku do dziennika.

Następnie inne kryteria, takie jak oparte na dopasowaniu, mogą zostać wykorzystane do podjęcia wtórnych decyzji, takich jak rozkład terminu zakłócającego.

kjetil b halvorsen
źródło
3
Myślałem regresja Poisson była regresja GLS z funkcji łącza dziennika?
Sideshow Bob,
1
Zwykle tak, ale można również rozważyć regresję Poissona z łączem tożsamości (lub innym, takim jak pierwiastek kwadratowy). Ale mój argument tutaj pokazuje, że zwykle chcesz link do dziennika.
kjetil b halvorsen
(1-β)μ