Potrzebuję porady dotyczącej dwóch głównych dylematów w moich badaniach, które są studium przypadku 3 dużych farmaceutyków i innowacji. Liczba patentów rocznie jest zmienną zależną.
Moje pytania są
Jakie są najważniejsze kryteria dobrego modelu? Co jest ważniejsze / mniej ważne? Czy to, że większość lub wszystkie zmienne będą znaczące? Czy to jest „F STATISTIC”? Czy jest to wartość „Skorygowanego R podniesionego do kwadratu”?
Po drugie, jak mogę wybrać najbardziej odpowiedni model do badań? Oprócz patentów, które są zmienną liczącą (więc może liczba Poissona), mam zmienne objaśniające, takie jak zwrot z aktywów, budżet na badania i rozwój, powtarzający się partner (% nie jest zmienną binarną), wielkość firmy (pracownicy) i kilka innych. Czy powinienem wykonać regresję liniową czy Poissona?
Odpowiedzi:
Najważniejsza jest logika modelu. Twoja zmienna „liczba patentów rocznie” jest zmienną zliczającą, więc wskazana jest regresja Poissona. Jest to GLM (uogólniony model liniowy) z (zwykle) funkcją logarytmiczną, podczas gdy zwykłą regresją liniową jest gaussowski GLM z łącznikiem tożsamości. W tym przypadku najważniejsza jest funkcja logarytmiczna, ważniejsza niż rozkład błędów (Poissona lub Gaussa).
Zmienna „Patenty” jest zmienną rozległą : patrz intensywne i rozległe właściwości . W przypadku zmiennych intensywnych , takich jak temperatura, często odpowiednie są modele liniowe (z łączem tożsamości). Ale z dużą zmienną jest inaczej. Pomyśl, że jedna z twoich firm farmaceutycznych podzieliła się na dwie różne firmy. Następnie patenty musiały zostać podzielone między dwie nowe firmy. Co dzieje się z zmiennymi zmiennymi, w twojej regresji? Zmienne, takie jak liczba pracowników i budżet RD, również musiałyby zostać podzielone.x
Zasadniczo w tym kontekście zmienna intensywna jest zmienną niezależną od wielkości firmy, natomiast zmienna ekstensywna zależy (zazwyczaj liniowo) od wielkości firmy. W pewnym sensie, jeśli w równaniu regresji mamy wiele różnych zmiennych ekstensywnych, wielokrotnie mierzymy efekty wielkości . Wydaje się to zbędne, dlatego powinniśmy starać się, w miarę możliwości, wyrażać zmienne w formie intensywnej , takie jak budżet RD na pracownika (lub jako procent całkowitego budżetu), podobnie przychody itp. Zmienna taka jak liczba pracowników będzie musiała pozostać jako rozległy. Zobacz odpowiedź @ onestop na Radzenie sobie ze skorelowanymi regresorami, aby uzyskać kolejną dyskusję na temat tego obszernego / intensywnego zagadnienia zmiennej.
Spójrzmy na to algebraicznie: są patentami, budżetem (na pracownika), pracownikami pierwotnej firmy, podczas gdy i są odpowiednimi zmiennymi po podziale. Załóżmy, jak wyżej, że jest jedyną rozległą zmienną zmienną (z , oczywiście również ekstensywną).P 1 , B 1 , E 1 P 2 , B 2 , E 2 E PP., B , E P.1, B1, E1 P.2), B2), E2) mi P.
Następnie, przed podziałem, mamy model, link tożsamości, z losową częścią pominiętą: Niech ułamki podzielone będą więc dla firmy 1 po podziale otrzymujemy od ale . Podobnie w przypadku firmy drugiej. Tak więc model zależy w dość skomplikowany sposób od wielkości firmy, tylko współczynnik regresji naα , 1 - α α P
Zobaczmy teraz, czy użycie funkcji linku do dziennika może pomóc. Ponownie piszemy wyidealizowane modele bez zakłóceń. Zmienne są jak wyżej.
Najpierw model przed podziałem: Po podziale, dla firmy pierwszej, otrzymujemy: Wygląda to prawie poprawnie, z wyjątkiem jednego problemu, część zależności od nie całkiem działa. Widzimy więc, że liczba pracowników, ta zmienna zmienna w dużej formie, musi być wykorzystana w skali logarytmicznej. Następnie, próbując ponownie, otrzymujemy:
Model przed podziałem: Po podziale: gdzie jest nowym przechwyceniem. Teraz umieściliśmy model w formie, w której wszystkie parametry (z wyjątkiem przechwytywania) mają interpretację niezależną od wielkości firmy.
To znacznie ułatwia interpretację wyników, a także porównania z badaniami wykorzystującymi inne dane, trendy z czasem i tak dalej. Nie można uzyskać tego formularza za pomocą parametrów z interpretacjami niezależnymi od wielkości za pomocą łącza tożsamości.
Wniosek: użyj GLM z funkcją logarytmiczną, może regresją Poissona lub dwumianą ujemną, lub ... Funkcja link jest ważniejsza o rząd wielkości!
Podsumowując, konstruując model regresji dla zmiennej odpowiedzi, która jest obszerna , jak zmienna zliczająca.
Spróbuj wyrazić zmienne zmienne w formie intensywnej.
Zmienne zmienne, które należy pozostawić jako rozległe: zaloguj je (powyższa algebra zależy od tego, że istnieje co najwyżej jedna zmienna rozległa).
Użyj funkcji linku do dziennika.
Następnie inne kryteria, takie jak oparte na dopasowaniu, mogą zostać wykorzystane do podjęcia wtórnych decyzji, takich jak rozkład terminu zakłócającego.
źródło