Ekonomiści (jak ja) uwielbiają transformację kłód. Szczególnie uwielbiam go w modelach regresji, tak:
lnYi=β1+β2lnXi+ϵi
Dlaczego tak bardzo to kochamy? Oto lista powodów, dla których podaję studentom wykład na ten temat:
- Przestrzega pozytywności . Wiele razy w rzeczywistych zastosowaniach w ekonomii i poza nią, Y z natury jest liczbą dodatnią. Może to być cena, stawka podatkowa, wyprodukowana ilość, koszt produkcji, wydatki na pewną kategorię towarów itp. Przewidywane wartości z nietransformowanej regresji liniowej mogą być ujemne. Prognozowane wartości z regresji transformowanej logarytmicznie nigdy nie mogą być ujemne. Są Y J = exp ( β 1 + β 2 ln X j ) ⋅ 1YY(Zobaczwcześniejszą odpowiedźdotyczącą pochodnych).Yˆj=exp(β1+β2lnXj)⋅1N∑exp(ei)
- Forma funkcjonalna log-log jest zaskakująco elastyczna. Wskazówka:
Co daje nam:
To jest wiele różnych kształtów. Linia (której nachylenie zostanie określone przezexp ( β 1 ) , a więc może mieć dowolne nachylenie dodatnie), hiperbola, parabola i kształt „pierwiastka kwadratowego”. Narysowałem to zβ1=0iϵ=0, ale w prawdziwym zastosowaniu żadne z nich nie byłoby prawdziwe, tak że nachylenie i wysokość krzywych wX=
lnYiYiYi=β1+β2lnXi+ϵi=exp(β1+β2lnXi)⋅exp(ϵi)=(Xi)β2exp(β1)⋅exp(ϵi)
exp(β1)β1=0ϵ=0 byłby kontrolowany przez tych, a nie ustawiony na 1.X=1
- Jak wspomniała TrynnaDoStat, forma dziennika „rysuje” duże wartości, co często ułatwia przeglądanie danych, a czasem normalizuje wariancję między obserwacjami.
- Współczynnik jest interpretowany jako elastyczność. Jest to procentowy wzrost Y z wzrost o jeden procent X .β2YX
- Jeśli jest zmienną fikcyjną, dołączasz ją bez logowania. W tym przypadku β 2 jest różnicą procentową w Y między kategorią X = 1 a kategorią X = 0 .Xβ2YX=1X=0
- Jeśli jest czasem, zwykle dołączasz go bez logowania, zwykle. W tym przypadku β 2 to tempo wzrostu w Y --- mierzone w dowolnych jednostkach czasu, w których X jest mierzone. Jeśli X oznacza lata, to współczynnik jest na przykład roczną stopą wzrostu w Y.Xβ2YXXY
- Współczynnik nachylenia staje się niezmienny w skali. Oznacza to, z jednej strony, że nie ma jednostek, az drugiej strony, że jeśli przeskalujesz (tj. Zmienisz jednostki) X lub Y , nie będzie to absolutnie żadnego wpływu na oszacowaną wartość β 2 . Cóż, przynajmniej z OLS i innymi powiązanymi estymatorami.β2XYβ2
- Jeśli dane są normalnie dystrybuowane w dzienniku, transformacja dziennika powoduje, że są one normalnie dystrybuowane. Normalnie dystrybuowane dane mają wiele dla nich.
Statystycy uważają, że ekonomiści są zbyt entuzjastycznie nastawieni do tej konkretnej transformacji danych. Myślę, że dzieje się tak, ponieważ oceniają mój punkt 8 i drugą połowę punktu 3 jako bardzo ważne. Zatem w przypadkach, gdy dane nie są normalnie rozmieszczone w logu lub gdy rejestrowanie danych nie powoduje, że transformowane dane mają jednakową wariancję między obserwacjami, statystycy nie będą bardzo lubili transformacji. Ekonomista prawdopodobnie i tak poczyni postępy, ponieważ to, co naprawdę lubimy w transformacji, to punkty 1,2 i 4-7.
Najpierw zobaczmy, co zwykle dzieje się, gdy bierzemy dzienniki czegoś, co jest właściwie przekrzywione.
Górny wiersz zawiera histogramy dla próbek z trzech różnych, coraz bardziej wypaczonych rozkładów.
Dolny rząd zawiera histogramy dla swoich dzienników.
Widać, że przypadek środkowy (y ) został przekształcony w symetrię, natomiast bardziej łagodny prawy przypadek pochylenia ( x ) jest teraz nieco lewy. Z drugiej strony najbardziej zmienną skośnością ( z ) jest nadal (lekko) prawy skos, nawet po pobraniu logów.
Jeśli chcieliśmy, aby nasze dystrybucje wyglądały bardziej normalnie, transformacja zdecydowanie poprawiła drugi i trzeci przypadek. Widzimy, że to może pomóc.
Dlaczego to działa?
Zauważ, że kiedy patrzymy na zdjęcie kształtu dystrybucyjnego, nie bierzemy pod uwagę średniej ani odchylenia standardowego - to tylko wpływa na etykiety na osi.
Możemy więc sobie wyobrazić spojrzenie na jakieś „znormalizowane” zmienne (powiedzmy, pozostając pozytywne, wszystkie mają podobną lokalizację i rozprzestrzenianie się, powiedzmy)
Biorąc logi „wciąga” bardziej ekstremalne wartości po prawej stronie (wysokie wartości) w stosunku do mediany, podczas gdy wartości skrajnie lewe (niskie wartości) mają tendencję do rozciągania się z powrotem, dalej od mediany.
Ale kiedy bierzemy kłody, zostaje ona cofnięta w kierunku środkowej; po pobraniu logów jest to tylko około 2 przedziały międzykwartylowe powyżej mediany.
Nieprzypadkowo stosunek 750/150 do 150/30 wynosi 5, gdy zarówno log (750), jak i log (30) znalazły się w tej samej odległości od mediany log (y). Tak działają logi - przekształcając stałe proporcje w stałe różnice.
Nie zawsze jest tak, że dziennik pomoże zauważalnie. Na przykład, jeśli weźmiesz na przykład lognormalną zmienną losową i przesuniesz ją zasadniczo w prawo (tj. Dodasz do niej dużą stałą), tak aby średnia stała się duża w stosunku do odchylenia standardowego, wówczas przyjęcie logarytmu z tego nie miałoby większego znaczenia dla kształt. Byłoby mniej przekrzywienie - ale ledwo.
Ale inne transformacje - powiedzmy pierwiastek kwadratowy - również przyciągną w ten sposób duże wartości. Dlaczego w szczególności dzienniki są bardziej popularne?
Wiele danych ekonomicznych i finansowych zachowuje się tak, na przykład (stały lub prawie stały wpływ na skalę procentową). Skala dziennika ma w tym przypadku sens. Ponadto w wyniku tego efektu skali procentowej. rozpiętość wartości wydaje się być większa wraz ze wzrostem średniej - a rejestrowanie dzienników ma tendencję do stabilizowania spreadu. To zazwyczaj bardziej istotne niż normalności. Rzeczywiście, wszystkie trzy rozkłady na oryginalnym diagramie pochodzą z rodzin, w których odchylenie standardowe wzrośnie wraz ze średnią, a przyjmowanie dzienników stabilizuje wariancję. [Nie dzieje się tak jednak w przypadku wszystkich wypaczonych danych. Jest to po prostu bardzo częste w przypadku danych, które pojawiają się w określonych obszarach aplikacji.]
Są też chwile, kiedy pierwiastek kwadratowy sprawi, że wszystko stanie się bardziej symetryczne, ale zwykle dzieje się tak przy mniej przekrzywionych rozkładach, niż używam w moich przykładach tutaj.
Moglibyśmy (dość łatwo) skonstruować kolejny zestaw trzech bardziej łagodnych skośnych przykładów, w których pierwiastek kwadratowy spowodował jedno pochylenie w lewo, jedno symetryczne, a trzeci nadal był w prawo (ale nieco mniej niż poprzednio).
Co z rozkładami ukośnymi w lewo?
Jeśli zastosujesz transformację logu do rozkładu symetrycznego, będzie on powodował, że będzie on przechylał w lewo z tego samego powodu, dla którego często powoduje, że pochylenie jest jeszcze bardziej symetryczne - patrz odpowiednia dyskusja tutaj .
Odpowiednio, jeśli zastosujesz transformację logów do czegoś, co już zostało pochylone, będzie miało tendencję do jeszcze większego pochylania w lewo, pociągając rzeczy powyżej mediany jeszcze mocniej i rozciągając rzeczy poniżej mediany w dół jeszcze mocniej.
Zatem transformacja dziennika nie byłaby wtedy pomocna.
Zobacz także transformacje mocy / drabina Tukeya. Rozkłady, które pozostały pochylone, można uczynić bardziej symetrycznymi, biorąc moc (większą niż 1 - powiedzmy do kwadratu) lub wykładniczo. Jeśli ma on oczywistą górną granicę, można odjąć obserwacje od górnej granicy (dając prawy wypaczony wynik), a następnie spróbować ją przekształcić.
źródło
Teraz w rozkładzie skośnym w prawo masz kilka bardzo dużych wartości. Transformacja logów zasadniczo przewraca te wartości do środka rozkładu, dzięki czemu wygląda bardziej jak rozkład normalny.
źródło
Wszystkie te odpowiedzi są punktami sprzedaży dla naturalnej transformacji kłód. Istnieją pewne zastrzeżenia dotyczące jego używania, zastrzeżenia, które można uogólnić na każdą transformację. Zasadniczo wszystkie przekształcenia matematyczne przekształcają PDF podstawowych zmiennych surowych, niezależnie od tego, czy działają w celu kompresji, rozwijania, odwracania, przeskalowywania, cokolwiek. Największym wyzwaniem, jakie stanowi to z czysto praktycznego punktu widzenia, jest to, że w przypadku modeli regresji, w których prognozy są kluczowym wynikiem modelu, przekształcenia zmiennej zależnej, Y-hat, podlegają potencjalnie istotnemu uprzedzeniu w zakresie ponownej transformacji. Zauważ, że naturalne transformacje logów nie są odporne na to uprzedzenie, po prostu nie mają na nie takiego wpływu, jak niektóre inne, działające transformacje. Istnieją artykuły oferujące rozwiązania tego błędu, ale tak naprawdę nie działają zbyt dobrze. Moim zdaniem, jesteś na znacznie bezpieczniejszym gruncie, nie wkurzasz się z próbą transformacji Y i znalezieniem solidnych form funkcjonalnych, które pozwolą ci zachować pierwotną metrykę. Na przykład, poza logarytmem naturalnym, istnieją inne transformacje, które ściskają ogon zmiennych skośnych i kurtotycznych, takich jak odwrotny sinus hiperboliczny lub Lambert's W. Oba te transformacje działają bardzo dobrze na generowanie plików PDF symetrycznych, a zatem Gaussa-like błędów, począwszy od informacji heavy-tailed, ale uważaj na ukos przy próbie przynieść przewidywania powrotem do oryginalnej skali dla DV, Y . To może być brzydkie.
źródło
Poczyniono wiele interesujących uwag. Trochę więcej?
1) Sugerowałbym, że innym problemem związanym z regresją liniową jest to, że „lewa strona” równania regresji to E (y): wartość oczekiwana. Jeśli rozkład błędów nie jest symetryczny, wówczas zalety badania wartości oczekiwanej są słabe. Oczekiwana wartość nie jest przedmiotem zainteresowania, gdy błędy są asymetryczne. Zamiast tego można zbadać regresję kwantową. Zatem badanie, powiedzmy, mediany lub innych punktów procentowych może być warte nawet, jeśli błędy są asymetryczne.
2) Jeśli zdecydujesz się przekształcić zmienną odpowiedzi, możesz chcieć przekształcić jedną lub więcej zmiennych objaśniających o tej samej funkcji. Na przykład, jeśli ktoś ma wynik „końcowy” jako odpowiedź, wówczas może mieć wynik „wyjściowy” jako zmienną objaśniającą. Do interpretacji ma sens transformacja „końcowa” i „bazowa” o tej samej funkcji.
3) Głównym argumentem przemawiającym za przekształceniem zmiennej objaśniającej jest często liniowość relacji odpowiedź - objaśnienie. Obecnie można rozważyć inne opcje, takie jak ograniczone splajny sześcienne lub ułamkowe wielomiany dla zmiennej objaśniającej. Z pewnością jednak często występuje pewna jasność, jeśli można znaleźć liniowość.
źródło