Chcę zawrzeć termin i jego kwadrat (zmienne predykcyjne) w regresji, ponieważ zakładam, że niskie wartości mają pozytywny wpływ na zmienną zależną, a wysokie wartości mają negatywny wpływ. powinien obejmować działanie wyższych wartości. Oczekuję zatem, że współczynnik będzie dodatni, a współczynnik będzie ujemny. Oprócz uwzględniam także inne zmienne predykcyjne.
Czytałem w niektórych postach tutaj, że dobrym pomysłem jest wyśrodkowanie zmiennych w tym przypadku, aby uniknąć wielokoliniowości. Kiedy przeprowadzając regresję wielokrotną, należy wyśrodkować zmienne predykcyjne i kiedy je znormalizować?
Czy powinienem wyśrodkować obie zmienne osobno (na średniej), czy powinienem tylko wyśrodkować a następnie wziąć kwadrat, czy powinienem wyśrodkować tylko i dołączyć oryginalne ?
Czy to problem, jeśli jest zmienną zliczającą?
Aby nie był zmienną zliczającą, pomyślałem o podzieleniu go przez teoretycznie zdefiniowany obszar, na przykład 5 kilometrów kwadratowych. Powinno to być trochę podobne do obliczania gęstości punktów.
Obawiam się jednak, że w tej sytuacji moje początkowe założenie dotyczące znaku współczynników już się nie utrzyma, jak wtedy, gdy i x² = 4
=
ale byłoby wtedy mniejsze, ponieważ .
Odpowiedzi:
Twoje pytanie składa się w rzeczywistości z kilku pytań cząstkowych, które postaram się odpowiedzieć najlepiej, jak potrafię.
Rozważenie i jest na to sposobem, ale czy jesteś pewien, że Twój test jest rozstrzygający? Czy będziesz w stanie wyciągnąć wnioski przydatne dla wszystkich możliwych wyników regresji? Myślę, że postawienie pytania z góry może pomóc, a zadawanie podobnych i powiązanych pytań może również pomóc. Na przykład można rozważyć próg dla którego nachylenia regresji są różne. Można to zrobić za pomocą zmiennych moderatora . Jeśli różne zbocza (narzucając ten sam punkt przecięcia) są kompatybilne, nie ma żadnej różnicy, w przeciwnym razie podałeś wyraźny argument za ich różnicą.x x2 x
Myślę, że tego pytania nie należy mieszać z pierwszym pytaniem i testem, i obawiam się, że wcześniejsze skoncentrowanie się wokół lub może wpłynąć na wyniki. Radziłbym nie koncentrować się, przynajmniej na pierwszym etapie. Pamiętaj, że prawdopodobnie nie umrzesz z powodu wielokoliniowości, wielu autorów twierdzi, że jest to po prostu odpowiednik pracy z mniejszym rozmiarem próbki ( tu i tutaj ).x x2
Tak, ale będzie to zależeć w dużej mierze od pierwszych 2 punktów, więc sugerowałbym, abyś poruszył jedną rzecz na raz. Nie widzę powodu, dla którego regresja nie działałaby bez tej transformacji, dlatego radziłbym wam ją na razie zignorować. Zauważ też, że dzieląc przez wspólny element zmieniasz skalę, w której , ale istnieją zupełnie inne sposoby patrzenia na to, jak napisałem powyżej, w których ten próg jest rozpatrywany w bardziej wyraźny sposób.x2=x
źródło
Ogólnie rzecz biorąc, centrowanie może pomóc w zmniejszeniu wielokoliniowości, ale „prawdopodobnie nie umrzesz z powodu wielokoliniowości” (patrz odpowiedź predrofigueiry).
Co najważniejsze, centrowanie jest często potrzebne, aby przechwycenie miało sens. W prostym modelu punkt przecięcia jest zdefiniowany jako oczekiwany wynik dla . Jeśli wartość równa zero nie ma znaczenia, ani itercept nie ma znaczenia. Często przydatne jest wyśrodkowanie zmiennej wokół jej średniej; w tym przypadku predyktor ma postać a punkt przecięcia jest oczekiwanym wynikiem dla pacjenta, którego wartość na jest równa średniej .yi=α+βxi+ε x=0 x x (xi−x¯) α xi x¯
W takich przypadkach należy wyśrodkować a następnie kwadrat. Nie można wyśrodkować i osobno, ponieważ wynik na „nowej” zmiennej , więc musisz tę nową zmienną do kwadratu. Co może oznaczać centrowanie ?x x x2 (xi−x¯) x2
Możesz wyśrodkować zmienną zliczającą, jeśli jej średnia jest znacząca , ale możesz ją po prostu skalować . Na przykład, jeśli i „2” może być podstawową, możesz odjąć 2: . Punkt przecięcia staje się oczekiwanym wynikiem dla pacjenta, którego wartość na jest równa „2”, wartości odniesienia.x=1,2,3,4,5 (xi−2)=−1,0,1,2,3 xi
Jeśli chodzi o dzielenie, nie ma problemu: twoje szacunkowe współczynniki byłyby większe! Gelman i Hill , §4.1, podają przykład:
Jeden cal ma milimetra, więc to . Jeden cal to , więc to . Ale te trzy równania są całkowicie równoważne.25.4 51 1300/25.4 1.6e−5 81000000 1300/1.6e−5
źródło
Chociaż doceniam sposób, w jaki inni traktują centrowanie i interpretację współczynników, to, co tu opisałeś, jest po prostu efektem liniowym. Innymi słowy, to, co opisałeś, nie oznacza potrzeby testowania kwadratu x .
źródło