Powiedzmy, że mam pewne dane historyczne, np. Poprzednie ceny akcji, wahania cen biletów lotniczych, przeszłe dane finansowe firmy ...
Teraz pojawia się ktoś (lub jakaś formuła) i mówi: „weźmy / wykorzystaj dziennik dystrybucji” i oto gdzie idę DLACZEGO ?
Pytania:
- DLACZEGO przede wszystkim należy wziąć dziennik dystrybucji?
- CO dziennik dystrybucji „daje / upraszcza”, czego pierwotna dystrybucja nie mogła / nie zrobiła?
- Czy transformacja dziennika jest „bezstratna”? Tzn. Czy podczas transformacji do przestrzeni logów i analizowania danych te same wnioski dotyczą pierwotnej dystrybucji? Dlaczego?
- I wreszcie KIEDY wziąć dziennik dystrybucji? Na jakich warunkach decyduje się to zrobić?
Naprawdę chciałem zrozumieć rozkłady oparte na logach (na przykład lognormal), ale nigdy nie rozumiałem aspektów kiedy / dlaczego - tj. Log rozkładu jest rozkładem normalnym, więc co? Co to w ogóle mi mówi i po co zawracać sobie głowę? Stąd pytanie!
AKTUALIZACJA : Zgodnie z komentarzem @ whubera przyjrzałem się postom iz jakiegoś powodu rozumiem zastosowanie transformacji logów i ich zastosowania w regresji liniowej, ponieważ można narysować zależność między zmienną niezależną a logem zmiennej zależnej. Moje pytanie jest jednak ogólne w sensie analizy samego rozkładu - nie ma per se relacji, którą mógłbym wyciągnąć, aby pomóc zrozumieć przyczynę podjęcia dzienników do analizy rozkładu. Mam nadzieję, że mam sens: - /
W analizie regresji masz ograniczenia dotyczące typu / dopasowania / dystrybucji danych i możesz je przekształcić i zdefiniować relację między zmienną zależną niezależną i (nieprzekształconą). Ale kiedy / dlaczego miałby to zrobić dla dystrybucji w oderwaniu, gdzie ograniczenia typu / dopasowania / dystrybucji niekoniecznie mają zastosowanie w ramach (takich jak regresja). Mam nadzieję, że wyjaśnienie uczyni sprawę bardziej zrozumiałą niż mylącą :)
To pytanie zasługuje na jasną odpowiedź na pytanie „DLACZEGO i KIEDY”
źródło
Odpowiedzi:
Jeśli przyjmiesz formę modelową, która jest nieliniowa, ale może zostać przekształcona w model liniowy, taki jaklogY= β0+ β1t , uzasadnione byłoby przyjęcie logarytmów Y celu spełnienia określonej formy modelu. Zasadniczo, niezależnie od tego, czy masz szereg przyczynowy, jedynym uzasadnionym lub poprawnym rozwiązaniem przy przyjmowaniu Logu Y jest, gdy można udowodnić, że wariancja Y jest proporcjonalna do oczekiwanej wartości Y2) . Nie pamiętam oryginalnego źródła poniższych, ale ładnie podsumowuje rolę transformacji mocy. Ważne jest, aby pamiętać, że założenia dystrybucyjne dotyczą zawsze procesu błędu, a nie obserwowanego Y, a zatem analizowanie oryginalnej serii pod kątem odpowiedniej transformacji jest zdecydowanie „nie-nie”, chyba że szereg jest określony przez zwykłą stałą.
Należy uważnie unikać nieuzasadnionych lub niepoprawnych przekształceń, w tym różnic, ponieważ często są one niemądrą / źle pomyślaną próbą radzenia sobie z niezidentyfikowanymi anomaliami / przesunięciami poziomu / trendami czasowymi lub zmianami parametrów lub zmianami wariancji błędów. Klasyczny przykład tego omówiono od slajdu 60 tutaj http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentation, w którym trzy anomalie tętna ( nieleczone) doprowadziło do nieuzasadnionej transformacji logów przez pierwszych badaczy. Niestety niektórzy z naszych obecnych badaczy wciąż popełniają ten sam błąd.
Transformacja optymalna moc zostanie znaleziony poprzez Test Box-Cox gdzie
źródło
Skala logu informuje o zmianach względnych (multiplikatywnych), natomiast skala liniowa informuje o zmianach bezwzględnych (addytywnych). Kiedy używasz każdego z nich? Kiedy zależy Ci na względnych zmianach, użyj skali logów; gdy zależy Ci na zmianach bezwzględnych, użyj skali liniowej. Dotyczy to rozkładów, ale także każdej ilości lub zmian ilości.
Uwaga: używam tutaj słowa „opieka” bardzo konkretnie i celowo. Bez modelu lub celu na twoje pytanie nie można odpowiedzieć; model lub cel określa, która skala jest ważna. Jeśli próbujesz coś wymodelować, a mechanizm działa poprzez zmianę względną, skala dziennika ma kluczowe znaczenie dla uchwycenia zachowania widocznego w twoich danych. Ale jeśli mechanizm modelu bazowego jest addytywny, będziesz chciał użyć skali liniowej.
Jeśli przekonwertujemy na przestrzeń dziennika, zmiany względne pojawią się jako zmiany bezwzględne.
Teraz, biorąc pod uwagę absolutną różnicę w przestrzeni dziennika , okazało się, że oba zmieniły się o .0413.
Obie te miary zmiany są ważne, a która z nich jest ważna, zależy wyłącznie od twojego modelu inwestowania. Istnieją dwa modele. (1) Inwestowanie określonej kwoty kapitału lub (2) inwestowanie w określoną liczbę akcji.
Model 1: Inwestowanie ze stałą kwotą kapitału.
Model 2: stała liczba akcji.
Załóżmy teraz, że myślimy o wartości zapasów jako o losowej zmiennej zmieniającej się w czasie i chcemy opracować model, który ogólnie odzwierciedla zachowanie się zapasów. Powiedzmy, że chcemy użyć tego modelu, aby zmaksymalizować zysk. Obliczamy rozkład prawdopodobieństwa, którego wartości x są wyrażone w jednostkach „ceny akcji”, a wartości y - prawdopodobieństwem zaobserwowania danej ceny akcji. Robimy to dla akcji A i akcji B. Jeśli zapiszesz się do pierwszego scenariusza, w którym masz ustaloną kwotę kapitału, którą chcesz zainwestować, zapisanie tych dystrybucji będzie miało charakter informacyjny. Dlaczego? Zależy Ci na kształcie rozkładu we względnej przestrzeni. Nieważne, czy czas wynosi od 1 do 10, czy 10 do 100, prawda? Oba przypadki są 10- krotniezysk względny. Pojawia się to naturalnie w rozkładzie w skali logarytmicznej, ponieważ zyski jednostkowe odpowiadają bezpośrednio zyskom krotnie. W przypadku dwóch stad, których średnia wartość jest różna, ale których względna zmiana jest identycznie rozłożona (mają taki sam rozkład dziennych zmian procentowych ), ich logarytmiczne rozkłady będą miały identyczny kształt właśnie przesunięty. I odwrotnie, ich rozkłady liniowe nie będą miały identycznego kształtu, a rozkład o wyższej wartości będzie miał większą wariancję.
Jeśli spojrzysz na te same rozkłady w przestrzeni liniowej lub absolutnej, możesz pomyśleć, że ceny akcji o wyższej wartości odpowiadają większym wahaniom. Jednak dla celów inwestycyjnych, gdzie znaczenie mają tylko względne zyski, niekoniecznie jest to prawdą.
Przykład 2. Reakcje chemiczne. Załóżmy, że mamy dwie cząsteczki A i B, które ulegają odwracalnej reakcji.
który jest zdefiniowany przez poszczególne stałe szybkości
Ich równowagę określa relacja:
EDYCJA . Interesującą paralelą, która pomogła mi zbudować intuicję, jest przykład średnich arytmetycznych vs. geometrycznych. Średnia arytmetyczna (waniliowa) oblicza średnią liczb przyjmując ukryty model, w którym liczą się absolutne różnice. Przykład. Średnia arytmetyczna 1 i 100 wynosi 50,5. Załóżmy, że mówimy o stężeniach, w których związek chemiczny między stężeniami jest zwielokrotniony. Następnie średnie stężenie powinno być naprawdę obliczone na skali logarytmicznej. Nazywa się to średnią geometryczną. Średnia geometryczna 1 i 100 wynosi 10! Pod względem różnic względnych ma to sens: 10/1 = 10, a 100/10 = 10, tzn. Względna zmiana między średnią a dwiema wartościami jest taka sama. Dodatkowo znajdujemy to samo; 50,5-1 = 49,5, a 100-50,5 = 49,5.
źródło