Jak dołączyć

9

Chcę zawrzeć termin i jego kwadrat (zmienne predykcyjne) w regresji, ponieważ zakładam, że niskie wartości mają pozytywny wpływ na zmienną zależną, a wysokie wartości mają negatywny wpływ. powinien obejmować działanie wyższych wartości. Oczekuję zatem, że współczynnik będzie dodatni, a współczynnik będzie ujemny. Oprócz uwzględniam także inne zmienne predykcyjne. $x$ $x^2$ $x$ $x^2$ $x$ $x^2$ $x$

Czytałem w niektórych postach tutaj, że dobrym pomysłem jest wyśrodkowanie zmiennych w tym przypadku, aby uniknąć wielokoliniowości. Kiedy przeprowadzając regresję wielokrotną, należy wyśrodkować zmienne predykcyjne i kiedy je znormalizować?

Czy powinienem wyśrodkować obie zmienne osobno (na średniej), czy powinienem tylko wyśrodkować a następnie wziąć kwadrat, czy powinienem wyśrodkować tylko i dołączyć oryginalne ? $x$ $x^2$ $x$
Czy to problem, jeśli jest zmienną zliczającą? $x$

Aby nie był zmienną zliczającą, pomyślałem o podzieleniu go przez teoretycznie zdefiniowany obszar, na przykład 5 kilometrów kwadratowych. Powinno to być trochę podobne do obliczania gęstości punktów. $x$

Obawiam się jednak, że w tej sytuacji moje początkowe założenie dotyczące znaku współczynników już się nie utrzyma, jak wtedy, gdy i $x=2$ $x²=4$

$x= 2 / 5 \text{ km}^2$ = $0.4 \text{ km}^2$

ale $x^2$ byłoby wtedy mniejsze, ponieważ $x^2= (2/5)^2= 0.16$ .

regression multiple-regression polynomial centering Piotr
źródło

1

Oprogramowanie do regresji automatycznie zajmie się problemami numerycznymi - w szczególności istnieje duże prawdopodobieństwo, że dane zostaną wyśrodkowane i ustandaryzowane wewnętrznie. To, jak odpowiedzieć na pytania dotyczące centrowania, sprowadza się do tego, jak chcesz interpretować współczynniki.

whuber

4

Twoje pytanie składa się w rzeczywistości z kilku pytań cząstkowych, które postaram się odpowiedzieć najlepiej, jak potrafię.

Jak rozróżnić zależność niskich i wysokich wartości od regresji?

Rozważenie i jest na to sposobem, ale czy jesteś pewien, że Twój test jest rozstrzygający? Czy będziesz w stanie wyciągnąć wnioski przydatne dla wszystkich możliwych wyników regresji? Myślę, że postawienie pytania z góry może pomóc, a zadawanie podobnych i powiązanych pytań może również pomóc. Na przykład można rozważyć próg dla którego nachylenia regresji są różne. Można to zrobić za pomocą zmiennych moderatora . Jeśli różne zbocza (narzucając ten sam punkt przecięcia) są kompatybilne, nie ma żadnej różnicy, w przeciwnym razie podałeś wyraźny argument za ich różnicą. $x$ $x^2$ $x$

Kiedy należy wyśrodkować i standaryzować?

Myślę, że tego pytania nie należy mieszać z pierwszym pytaniem i testem, i obawiam się, że wcześniejsze skoncentrowanie się wokół lub może wpłynąć na wyniki. Radziłbym nie koncentrować się, przynajmniej na pierwszym etapie. Pamiętaj, że prawdopodobnie nie umrzesz z powodu wielokoliniowości, wielu autorów twierdzi, że jest to po prostu odpowiednik pracy z mniejszym rozmiarem próbki ( tu i tutaj ). $x$ $x^2$

Czy przekształcenie zmiennej zliczania dyskretnego w zmienną zmiennoprzecinkową (ciągłą) zmienia interpretację wyników?

Tak, ale będzie to zależeć w dużej mierze od pierwszych 2 punktów, więc sugerowałbym, abyś poruszył jedną rzecz na raz. Nie widzę powodu, dla którego regresja nie działałaby bez tej transformacji, dlatego radziłbym wam ją na razie zignorować. Zauważ też, że dzieląc przez wspólny element zmieniasz skalę, w której , ale istnieją zupełnie inne sposoby patrzenia na to, jak napisałem powyżej, w których ten próg jest rozpatrywany w bardziej wyraźny sposób. $x^2 = x$

pedrofigueira
źródło

Dziękuję bardzo za odpowiedź, szczególnie za linki !!!

Peter

Z przyjemnością pomogłem. =)

pedrofigueira

4

Ogólnie rzecz biorąc, centrowanie może pomóc w zmniejszeniu wielokoliniowości, ale „prawdopodobnie nie umrzesz z powodu wielokoliniowości” (patrz odpowiedź predrofigueiry).

Co najważniejsze, centrowanie jest często potrzebne, aby przechwycenie miało sens. W prostym modelu punkt przecięcia jest zdefiniowany jako oczekiwany wynik dla . Jeśli wartość równa zero nie ma znaczenia, ani itercept nie ma znaczenia. Często przydatne jest wyśrodkowanie zmiennej wokół jej średniej; w tym przypadku predyktor ma postać a punkt przecięcia jest oczekiwanym wynikiem dla pacjenta, którego wartość na jest równa średniej . $y_i=\alpha+\beta x_i+\varepsilon$ $x=0$ $x$ $x$ $(x_i-\bar{x})$ $\alpha$ $x_i$ $\bar{x}$

W takich przypadkach należy wyśrodkować a następnie kwadrat. Nie można wyśrodkować i osobno, ponieważ wynik na „nowej” zmiennej , więc musisz tę nową zmienną do kwadratu. Co może oznaczać centrowanie ? $x$ $x$ $x^2$ $(x_i-\bar{x})$ $x^2$

Możesz wyśrodkować zmienną zliczającą, jeśli jej średnia jest znacząca , ale możesz ją po prostu skalować . Na przykład, jeśli i „2” może być podstawową, możesz odjąć 2: . Punkt przecięcia staje się oczekiwanym wynikiem dla pacjenta, którego wartość na jest równa „2”, wartości odniesienia. $x=1,2,3,4,5$ $(x_i-2)=-1,0,1,2,3$ $x_i$

Jeśli chodzi o dzielenie, nie ma problemu: twoje szacunkowe współczynniki byłyby większe! Gelman i Hill , §4.1, podają przykład:

\begin{aligned} earnings & = - 61000 + 1300 \cdot height (in inches) + error \\ earnings & = - 61000 + 51 \cdot height (in millimeters) + error \\ earnings & = - 61000 + 81000000 \cdot height (in miles) + error \end{aligned}

$\begin{align} \text{earnings}&=-61000+1300\cdot\text{height (in inches)}+\text{error} \\ \text{earnings}&=-61000+51\cdot\text{height (in millimeters)}+\text{error}\\ \text{earnings}&=-61000+81000000\cdot\text{height (in miles)}+\text{error} \end{align}$

Jeden cal ma milimetra, więc to . Jeden cal to , więc to . Ale te trzy równania są całkowicie równoważne. $25.4$ $51$ $1300/25.4$ $1.6e-5$ $81000000$ $1300/1.6e-5$

Sergio
źródło

powiązane .

Henrik

Dziękuję za odpowiedź Sergio. To naprawdę mi pomogło. Niestety mogę zaznaczyć tylko jedną odpowiedź jako moją zaakceptowaną.

Peter

Nie ma za co. I nie martw się ;-)

Sergio

1

Zakładam, że niskie wartości x mają pozytywny wpływ na zmienną zależną, a wysokie wartości negatywnie.

Chociaż doceniam sposób, w jaki inni traktują centrowanie i interpretację współczynników, to, co tu opisałeś, jest po prostu efektem liniowym. Innymi słowy, to, co opisałeś, nie oznacza potrzeby testowania kwadratu x .

rolando2
źródło

Moim zdaniem, jeśli , (częściowy) wpływ na (lub, lepiej, na ) jest . Takie efekty są stałe, nie zależą od poziomu . Jeśli modelem jest , to częściowy efekt wynosi i zależy od poziomu . Może się to zdarzyć również w innych modelach, np. W liniowych modelach splajnu, ale nie w prostym modelu liniowym (1. stopnia). Czy się mylę?

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + ε

$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\varepsilon$

x_{i}

$x_i$

y

$y$

E [y ∣ x]

$E[y\mid \mathbf{x}]$

\partial E [y ∣ x] / \partial x_{i} = β_{i}

$\partial E[y\mid \mathbf{x}]/\partial x_i=\beta_i$

x_{i}

$x_i$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{2}^{2} + ε

$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\beta_3x_2^2+\varepsilon$

x_{2}

$x_2$

β_{2} + 2 β_{3} x_{2}

$\beta_2+2\beta_3x_2$

x_{2}

$x_2$

Sergio

@ rolando2: Nie jestem pewien, czy mówimy o tym samte. Jeśli włączę tylko zmienną predyktora regularnego, uzyskam oszacowany współczynnik dla tego predyktora, który jest albo dodatni, albo ujemny. Na podstawie współczynnika mogę powiedzieć, że dodając jedną jednostkę do x, y zwiększy się lub zmniejszy o określoną wartość. Nie mogę jednak dowiedzieć się w ten sposób, czy małe wartości faktycznie prowadzą do wzrostu y, podczas gdy wyższe wartości (od pewnego nieznanego punktu) prowadzą do spadku y.

Peter

@Peter - Rozumiem i sugeruję edycję zdania „Zakładam”, aby przeczytać: „Zakładam, że w pewnym regionie x wyższe wartości x mają pozytywny wpływ na zmienną zależną, podczas gdy w innym regionie, wyższe wartości mają negatywny wpływ ”.

rolando2

Jak dołączyć

Odpowiedzi: