Kiedy (i dlaczego) należy wziąć dziennik rozkładu (liczb)?

173

Powiedzmy, że mam pewne dane historyczne, np. Poprzednie ceny akcji, wahania cen biletów lotniczych, przeszłe dane finansowe firmy ...

Teraz pojawia się ktoś (lub jakaś formuła) i mówi: „weźmy / wykorzystaj dziennik dystrybucji” i oto gdzie idę DLACZEGO ?

Pytania:

  1. DLACZEGO przede wszystkim należy wziąć dziennik dystrybucji?
  2. CO dziennik dystrybucji „daje / upraszcza”, czego pierwotna dystrybucja nie mogła / nie zrobiła?
  3. Czy transformacja dziennika jest „bezstratna”? Tzn. Czy podczas transformacji do przestrzeni logów i analizowania danych te same wnioski dotyczą pierwotnej dystrybucji? Dlaczego?
  4. I wreszcie KIEDY wziąć dziennik dystrybucji? Na jakich warunkach decyduje się to zrobić?

Naprawdę chciałem zrozumieć rozkłady oparte na logach (na przykład lognormal), ale nigdy nie rozumiałem aspektów kiedy / dlaczego - tj. Log rozkładu jest rozkładem normalnym, więc co? Co to w ogóle mi mówi i po co zawracać sobie głowę? Stąd pytanie!

AKTUALIZACJA : Zgodnie z komentarzem @ whubera przyjrzałem się postom iz jakiegoś powodu rozumiem zastosowanie transformacji logów i ich zastosowania w regresji liniowej, ponieważ można narysować zależność między zmienną niezależną a logem zmiennej zależnej. Moje pytanie jest jednak ogólne w sensie analizy samego rozkładu - nie ma per se relacji, którą mógłbym wyciągnąć, aby pomóc zrozumieć przyczynę podjęcia dzienników do analizy rozkładu. Mam nadzieję, że mam sens: - /

W analizie regresji masz ograniczenia dotyczące typu / dopasowania / dystrybucji danych i możesz je przekształcić i zdefiniować relację między zmienną zależną niezależną i (nieprzekształconą). Ale kiedy / dlaczego miałby to zrobić dla dystrybucji w oderwaniu, gdzie ograniczenia typu / dopasowania / dystrybucji niekoniecznie mają zastosowanie w ramach (takich jak regresja). Mam nadzieję, że wyjaśnienie uczyni sprawę bardziej zrozumiałą niż mylącą :)

To pytanie zasługuje na jasną odpowiedź na pytanie „DLACZEGO i KIEDY”

Doktorat
źródło
3
Ponieważ obejmuje to prawie ten sam grunt, co poprzednie pytania tutaj i tutaj , przeczytaj te wątki i zaktualizuj swoje pytanie, aby skupić się na wszelkich aspektach tego problemu, które nie zostały jeszcze rozwiązane. Zauważ też, że # 4 (i część # 3) to podstawowe pytania dotyczące logarytmów, których odpowiedzi można łatwo znaleźć w wielu miejscach.
whuber
1
Wyjaśnienie pomaga. Możesz jednak zastanowić się nad faktem, że regresja z tylko stałym terminem (i bez innych zmiennych niezależnych) sprowadza się do oceny zmienności danych wokół ich średniej. Dlatego, jeśli naprawdę rozumiesz skutki pobierania logów zmiennych zależnych w regresji, to już rozumiesz (prostszą) sytuację, o którą pytasz tutaj. Krótko mówiąc, po uzyskaniu odpowiedzi na wszystkie cztery pytania dotyczące regresji, nie trzeba ich ponownie pytać o „rozkład w izolacji”.
whuber
@whuber: Rozumiem ... więc rozumiem powody, dla których loguję się do regresji, ale tylko dlatego, że mnie tak nauczono - rozumiem to z potrzeby robienia tego z perspektywy, tj. upewnienia się, że dane mieszczą się w założeniach regresji liniowej. To moje jedyne zrozumienie. Może brakuje mi „prawdziwego zrozumienia” efektu pobierania dzienników, a co za tym idzie zamieszania… jakiejkolwiek pomocy? ;)
PhD
2
Ach, ale wiesz o wiele więcej, ponieważ po użyciu logów w regresji wiesz, że wyniki są interpretowane inaczej i wiesz, jak zachować ostrożność w przekształcaniu wstecznym dopasowanych wartości i przedziałów ufności. Sugeruję, abyś nie był zdezorientowany i prawdopodobnie znasz już wiele odpowiedzi na te cztery pytania, chociaż początkowo nie byłeś tego świadomy :-).
whuber
2
Czytelnicy tutaj mogą również chcieć spojrzeć na te blisko powiązane wątki: interpretacja-log-transformator-predyktor i jak interpretować logarytmicznie przekształcone współczynniki w regresji liniowej .
gung

Odpowiedzi:

98

Jeśli przyjmiesz formę modelową, która jest nieliniowa, ale może zostać przekształcona w model liniowy, taki jak logY=β0+β1t , uzasadnione byłoby przyjęcie logarytmów Y celu spełnienia określonej formy modelu. Zasadniczo, niezależnie od tego, czy masz szereg przyczynowy, jedynym uzasadnionym lub poprawnym rozwiązaniem przy przyjmowaniu Logu Y jest, gdy można udowodnić, że wariancja Y jest proporcjonalna do oczekiwanej wartości Y2. Nie pamiętam oryginalnego źródła poniższych, ale ładnie podsumowuje rolę transformacji mocy. Ważne jest, aby pamiętać, że założenia dystrybucyjne dotyczą zawsze procesu błędu, a nie obserwowanego Y, a zatem analizowanie oryginalnej serii pod kątem odpowiedniej transformacji jest zdecydowanie „nie-nie”, chyba że szereg jest określony przez zwykłą stałą.

Należy uważnie unikać nieuzasadnionych lub niepoprawnych przekształceń, w tym różnic, ponieważ często są one niemądrą / źle pomyślaną próbą radzenia sobie z niezidentyfikowanymi anomaliami / przesunięciami poziomu / trendami czasowymi lub zmianami parametrów lub zmianami wariancji błędów. Klasyczny przykład tego omówiono od slajdu 60 tutaj http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentation, w którym trzy anomalie tętna ( nieleczone) doprowadziło do nieuzasadnionej transformacji logów przez pierwszych badaczy. Niestety niektórzy z naszych obecnych badaczy wciąż popełniają ten sam błąd.

Transformacja optymalna moc zostanie znaleziony poprzez Test Box-Cox gdzie

  • -1. jest wzajemnością
  • -5 jest odwrotnym pierwiastkiem kwadratowym
  • 0.0 jest transformacją logów
  • .5 jest kwadratową transformacją toksa i
  • 1.0 to brak transformacji.

Yt=u+atYatatYtatYtYYYXYXlogYlogX. Podsumowując, transformacje są jak narkotyki, niektóre są dobre, a niektóre złe dla Ciebie! Powinny być używane tylko wtedy, gdy jest to konieczne, a następnie ostrożnie.

IrishStat
źródło
2
Zgadzam się, że ktokolwiek opuścił głosowanie (-a), powinien zostawić uwagę, dlaczego to głosowanie zostało odrzucone. Dla Irishstat o wiele łatwiej byłoby przeczytać swój post, gdybyś skorzystał z opcji formatowania pozostawiających odpowiedzi, szczególnie tych dostępnych do oznaczania równań w lateksie. Zobacz sekcję pomocy dotyczącą edycji przecen . Ten link jest dostępny za każdym razem, gdy wpiszesz odpowiedź w prawym górnym rogu pola wysyłania (w pomarańczowym kółku ze znakiem zapytania).
Andy W
4
Cytowana tabela znajduje się we wstępie do analizy regresji liniowej autorstwa Douglasa C. Montgomery'ego, Elizabeth A. Peck, G. Geoffrey Vining.
user1717828,
@ user1717828 tu .. Zawsze byłem fanem Montgomery'ego, ponieważ ma długą brodę związaną z seriami czasowymi
IrishStat
Czy nie zawsze jest prawdą, że drugi moment i wariancja są do siebie proporcjonalne? Mamy klasyczne równanie: wariancja jest równa drugiej chwili minus pierwszy moment podniesiony do kwadratu.
information_interchange
Jak mówisz, wariancja jest funkcją drugiego momentu. Gdzie sugerowałem inaczej? Dodatkowo wariancja może się zmieniać (deterministycznie) w różnych punktach czasu. ZOBACZ pdfs.semanticscholar.org/09c4/…, czemu nie zaradzi transformacja mocy.
IrishStat
107

Skala logu informuje o zmianach względnych (multiplikatywnych), natomiast skala liniowa informuje o zmianach bezwzględnych (addytywnych). Kiedy używasz każdego z nich? Kiedy zależy Ci na względnych zmianach, użyj skali logów; gdy zależy Ci na zmianach bezwzględnych, użyj skali liniowej. Dotyczy to rozkładów, ale także każdej ilości lub zmian ilości.

Uwaga: używam tutaj słowa „opieka” bardzo konkretnie i celowo. Bez modelu lub celu na twoje pytanie nie można odpowiedzieć; model lub cel określa, która skala jest ważna. Jeśli próbujesz coś wymodelować, a mechanizm działa poprzez zmianę względną, skala dziennika ma kluczowe znaczenie dla uchwycenia zachowania widocznego w twoich danych. Ale jeśli mechanizm modelu bazowego jest addytywny, będziesz chciał użyć skali liniowej.


$$$


$$$$


$

Jeśli przekonwertujemy na przestrzeń dziennika, zmiany względne pojawią się jako zmiany bezwzględne.

log10($1)log10($1.10)
log10($100)log10($110)

Teraz, biorąc pod uwagę absolutną różnicę w przestrzeni dziennika , okazało się, że oba zmieniły się o .0413.

Obie te miary zmiany są ważne, a która z nich jest ważna, zależy wyłącznie od twojego modelu inwestowania. Istnieją dwa modele. (1) Inwestowanie określonej kwoty kapitału lub (2) inwestowanie w określoną liczbę akcji.

Model 1: Inwestowanie ze stałą kwotą kapitału.

$$$$$$$$

Model 2: stała liczba akcji.

$

Załóżmy teraz, że myślimy o wartości zapasów jako o losowej zmiennej zmieniającej się w czasie i chcemy opracować model, który ogólnie odzwierciedla zachowanie się zapasów. Powiedzmy, że chcemy użyć tego modelu, aby zmaksymalizować zysk. Obliczamy rozkład prawdopodobieństwa, którego wartości x są wyrażone w jednostkach „ceny akcji”, a wartości y - prawdopodobieństwem zaobserwowania danej ceny akcji. Robimy to dla akcji A i akcji B. Jeśli zapiszesz się do pierwszego scenariusza, w którym masz ustaloną kwotę kapitału, którą chcesz zainwestować, zapisanie tych dystrybucji będzie miało charakter informacyjny. Dlaczego? Zależy Ci na kształcie rozkładu we względnej przestrzeni. Nieważne, czy czas wynosi od 1 do 10, czy 10 do 100, prawda? Oba przypadki są 10- krotniezysk względny. Pojawia się to naturalnie w rozkładzie w skali logarytmicznej, ponieważ zyski jednostkowe odpowiadają bezpośrednio zyskom krotnie. W przypadku dwóch stad, których średnia wartość jest różna, ale których względna zmiana jest identycznie rozłożona (mają taki sam rozkład dziennych zmian procentowych ), ich logarytmiczne rozkłady będą miały identyczny kształt właśnie przesunięty. I odwrotnie, ich rozkłady liniowe nie będą miały identycznego kształtu, a rozkład o wyższej wartości będzie miał większą wariancję.

Jeśli spojrzysz na te same rozkłady w przestrzeni liniowej lub absolutnej, możesz pomyśleć, że ceny akcji o wyższej wartości odpowiadają większym wahaniom. Jednak dla celów inwestycyjnych, gdzie znaczenie mają tylko względne zyski, niekoniecznie jest to prawdą.

Przykład 2. Reakcje chemiczne. Załóżmy, że mamy dwie cząsteczki A i B, które ulegają odwracalnej reakcji.

AB

który jest zdefiniowany przez poszczególne stałe szybkości

kabABkbaBA

Ich równowagę określa relacja:

K=kabkba=[A][B]

AB

K=kabkba=[A][B]

(0,inf)

EDYCJA . Interesującą paralelą, która pomogła mi zbudować intuicję, jest przykład średnich arytmetycznych vs. geometrycznych. Średnia arytmetyczna (waniliowa) oblicza średnią liczb przyjmując ukryty model, w którym liczą się absolutne różnice. Przykład. Średnia arytmetyczna 1 i 100 wynosi 50,5. Załóżmy, że mówimy o stężeniach, w których związek chemiczny między stężeniami jest zwielokrotniony. Następnie średnie stężenie powinno być naprawdę obliczone na skali logarytmicznej. Nazywa się to średnią geometryczną. Średnia geometryczna 1 i 100 wynosi 10! Pod względem różnic względnych ma to sens: 10/1 = 10, a 100/10 = 10, tzn. Względna zmiana między średnią a dwiema wartościami jest taka sama. Dodatkowo znajdujemy to samo; 50,5-1 = 49,5, a 100-50,5 = 49,5.

wektor07
źródło
2
To jest naprawdę pomocna odpowiedź i uwielbiam przykłady. Czy mógłbyś dodać więcej o „kiedy” konkretnie, aby użyć transformacji logów? Mówisz: „Jeśli zależy Ci na zmianach względnych, użyj skali logarytmicznej; jeśli zależy Ci na zmianach bezwzględnych, użyj skali liniowej”. Ale czy zdarzają się przypadki, gdy zależy Ci na względnych zmianach, ale nie powinieneś logować transformacji, a jeśli tak, to jak je wykrywasz? Na przykład w tym artykule przedstawiono przypadek, w którym dane, które nie są zgodne z normalną dystrybucją dziennika, nie powinny być przekształcane w dzienniku: ncbi.nlm.nih.gov/pmc/articles/PMC4120293
skeller88
@ skeller88 Zgadzam się z tym artykułem; jest to wąska odpowiedź na szersze (i filozoficzne!) pytanie „dlaczego przekształcamy rozkłady?” Myślę, że odpowiedź brzmi: mamy dobrze rozwinięty zestaw narzędzi statystycznych do kontrastowania między rozkładami normalnymi, ale mniej rozwinięty zestaw narzędzi dla innych, być może nawet nienazwanych rozkładów (większość). Podejście do oceny funky wyglądającej dystrybucji może polegać na zapisaniu logu, aby sprawdzić, czy wygląda bardziej normalnie; ale, jak technicznie opisuje IrishStat powyżej, ta ścieżka jest obarczona niebezpieczeństwem (kwadratowego kołka, odmiany okrągłych otworów).
vector07
1
Istnieje odpowiednie wyjaśnienie tego efektu i dlaczego ma on znaczenie dla drzew decyzyjnych w kierunkudatdatascience.com/...
Keith