Jakie jest intuicyjne znaczenie liniowej zależności między logami dwóch zmiennych?

20

Mam dwie zmienne, które nie wykazują dużej korelacji, gdy są nanoszone względem siebie, ale bardzo wyraźna liniowa zależność, kiedy rysuję logi każdej zmiennej przeciw drugiej.

Skończyłem więc na modelu tego typu:

log(Y)=alog(X)+b
, co jest świetne matematycznie, ale wydaje się, że nie ma wartości objaśniającej zwykłego modelu liniowego.

Jak mogę zinterpretować taki model?

Dzieci Akaike
źródło
5
Nie mam nic istotnego do dodania do istniejących odpowiedzi, ale logarytm w wyniku i predyktorem jest elastyczność. Poszukiwania tego terminu powinny znaleźć dobre zasoby do interpretacji tego związku, co nie jest zbyt intuicyjne.
Upper_Case-Stop Harming Monica
Interpretacja modelu log-log, w którym zmienną zależną jest log (y), a zmienną niezależną jest log (x), to: %Δ=β1%Δx .
Bob
3
Uzupełniające połączenie log-log jest idealną specyfikacją GLM, gdy wynik jest binarny (model ryzyka), a ekspozycja jest kumulatywna, na przykład liczba partnerów seksualnych kontra zakażenie wirusem HIV. jstor.org/stable/2532454
AdamO
2
@Alexis możesz zobaczyć lepkie punkty, jeśli nałożysz krzywe. Spróbuj curve(exp(-exp(x)), from=-5, to=5)kontra curve(plogis(x), from=-5, to=5). Wklęsłość przyspiesza. Jeśli ryzyko zdarzenia z pojedynczego spotkania wynosi p , wówczas ryzyko po drugim zdarzeniu powinno wynosić 1(1p)2 itd., To logit kształtu probabilistycznego nie zostanie przechwycony. Wysokie naświetlenia znacznie bardziej przekrzywiłyby wyniki regresji logistycznej (fałszywie zgodnie z wcześniejszą regułą prawdopodobieństwa). Jakaś symulacja by to pokazała.
AdamO
1
@AdamO Prawdopodobnie zostanie napisany artykuł pedagogiczny zawierający taką symulację, która motywuje, jak wybrać konkretny dychotomiczny link wyników spośród trzech, w tym sytuacje, w których robi to i nie robi różnicy.
Alexis

Odpowiedzi:

27

Wystarczy wziąć wykładnik po obu stronach równania, aby uzyskać potencjalną relację, która może mieć sens w przypadku niektórych danych.

log(Y)=alog(X)+b

exp(log(Y))=exp(alog(X)+b)

Y=ebXa

A ponieważ jest tylko parametrem, który może przyjąć dowolną wartość dodatnią, ten model jest równoważny z:eb

Y=cXa

Należy zauważyć, że wyrażenie modelu powinno zawierać termin błędu, a ta zmiana zmiennych ma na to interesujący wpływ:

log(Y)=alog(X)+b+ϵ

Y=ebXaexp(ϵ)

Oznacza to, że Twój model z dodatkowymi błędami spełniającymi warunki OLS (błędy normalnie rozłożone ze stałą wariancją) jest równoważny potencjalnemu modelowi z błędami multiplikatywnymi, których logarytm ma rozkład normalny ze stałą wariancją.

Pere
źródło
3
OP może być zainteresowany tym, że ta dystrybucja ma nazwę log-normal: en.wikipedia.org/wiki/Log-normal_distribution
gardenhead
2
Co z efektem nierówności Jensena? Ogólnie dla wypukłych g,E[g(X)]g(E[X])
Statystyki
14

Możesz wziąć swój model i obliczyć całkowitą różnicę, otrzymasz coś w rodzaju: który daje log(Y)=alog(X)+b

1YdY=a1XdX
dYdXXY=a

W związku z tym jeden prosty interpretacja współczynnika będzie procentową zmianę na procent zmiany w . Oznacza to ponadto, że zmienne narośla na stałą frakcję ( ) szybkości wzrostu .aYXYa XaX

RScrlli
źródło
Więc jeśli wykres log-log jest liniowy, oznaczałoby to stałą stopę wzrostu?
Dimitriy V. Masterov
W rzeczywistości tempo wzrostu będzie stałe wtedy i tylko wtedy, gdy . a = 0Ya=0
RScrlli
Nie z biegiem czasu tempo wzrostu w stosunku do wzrostu x.
Dimitriy V. Masterov
zmiana kolejności nie pomaga,
usunę
1
@ DimitriyV.Masterov OK, a następnie od jest liniowa to znaczy, że wartość zmiennej rośnie w frakcji stałej szybkości wzrostu . Czy według ciebie jest coś nie tak z moją odpowiedzią? log ( X ) Y Xlog(Y)log(X)YX
RScrlli
7

Intuicyjnie podaje nam rząd wielkości zmiennej, dzięki czemu możemy zobaczyć relację, ponieważ rzędy wielkości dwóch zmiennych są liniowo powiązane. Na przykład zwiększenie predyktora o jeden rząd wielkości może być związane ze wzrostem o trzy rzędy wielkości odpowiedzi.log

Podczas rysowania za pomocą wykresu logarytmiczno-logicznego mamy nadzieję zaobserwować zależność liniową. Korzystając z przykładu z tego pytania , możemy sprawdzić założenia modelu liniowego:

log-log

qwr
źródło
3
+1 za intuicyjną odpowiedź na nieintuicyjną koncepcję. Jednak dołączony obraz wyraźnie narusza stałą wariancję błędu w predyktorze.
Frans Rodenburg
1
Odpowiedź jest prawidłowa, ale przypisanie autorstwa jest błędne. Obraz nie powinien być przypisany do Grafiki Google, ale przynajmniej do strony internetowej, na której można go znaleźć, którą można znaleźć, klikając na obrazy Google.
Pere
@Pere Niestety nie mogę znaleźć oryginalnego źródła obrazu (przynajmniej przy użyciu wyszukiwania wstecznego)
qwr
Wygląda na to, że pochodzi z diagramss.us, chociaż ta strona jest wyłączona, a większość jej stron nie znajduje się w archiwum internetowym oprócz strony głównej
Henry
4

Rozważ pogodzenie odpowiedzi @Rscrill z rzeczywistymi danymi dyskretnymi

log(Yt)=alog(Xt)+b,log(Yt1)=alog(Xt1)+b

log(Yt)log(Yt1)=a[log(Xt)log(Xt1)]

Ale

log(Yt)log(Yt1)=log(YtYt1)log(Yt1+ΔYtYt1)=log(1+ΔYtYt1)

ΔYtYt1 jest zmiana procentowa pomiędzy okresami i lub szybkości wzrostu , np . Gdy jest mniejsza niż , mamy akceptowalne przybliżenieYt1tYtgYt0.1

log(1+ΔYtYt1)ΔYtYt1=gYt

Dlatego otrzymujemy

gYtagXt

który potwierdza w badaniach empirycznych teoretyczne traktowanie @Rscrill.

Alecos Papadopoulos
źródło
1
Prawdopodobnie to matematyk nazwałby intuicyjnym :)
Richard Hardy
2

Liniowa zależność między logami jest równoważna zależności zależności od mocy : W fizyce takie zachowanie oznacza, że ​​system jest pozbawiony skali lub niezmiennik skali . Przykładowo, jeśli jest odległością lub czasem, oznacza to, że zależności od nie można scharakteryzować charakterystyczną skalą długości lub czasu (w przeciwieństwie do rozkładów wykładniczych). W efekcie, taki system wykazuje zależność dalekiego zasięgu na w .

YXα
X X Y XXXYX

Itamar
źródło