Dlaczego warto korzystać z rejestrowanych zmiennych?

12

Prawdopodobnie jest to bardzo podstawowe pytanie, ale wydaje mi się, że nie jestem w stanie znaleźć na to solidnej odpowiedzi. Mam nadzieję, że mogę.

Obecnie czytam artykuły jako przygotowanie do pracy magisterskiej. Obecnie czytam artykuł, który bada związek między tweetami a funkcjami giełdy.

W jednej ze swoich hipotez sugerują, że „zwiększony wolumen tweetów jest związany ze wzrostem wolumenu obrotu”.

Chciałbym ich spodziewać w korelacji par, koreluje tweetVolumez tradingVolume, ale zamiast tego raport przy użyciu zalogowany wersje: LN(tweetVolume)a LN(tradingVolume).

W mojej pracy dyplomowej powtórzyłem ten fragment ich pracy. Zebrałem tweety około 100 firm przez ponad 6 miesięcy ( tweetVolume) i wolumen obrotu giełdowego w tym samym czasie. Jeśli skoreluję zmienne bezwzględne, znajdę, r=.282, p.000ale gdy użyję zalogowanych wersji, znajdę r=.488, p=.000.

Nie rozumiem, dlaczego badacze czasami używają zarejestrowanych wersji swoich zmiennych i dlaczego korelacja wydaje się o wiele wyższa, jeśli to robisz. Jakie jest tutaj uzasadnienie i dlaczego można używać zarejestrowanych zmiennych?

Twoja pomoc jest bardzo ceniona :-)

Pr0no
źródło
1
Jeśli widzisz Powiązane wątki w prawym dolnym rogu strony, użycie logarytmów zostało omówione kilka razy wcześniej. W szczególności patrz: W regresji liniowej, kiedy właściwe jest użycie dziennika zmiennej niezależnej zamiast wartości rzeczywistych? .
Andy W

Odpowiedzi:

24

Powody używania rejestrowanych zmiennych dzielą się na dwie kategorie: statystyczną i merytoryczną.

Statystycznie, jeśli twoje zmienne mają odchylenie w prawo (to znaczy, że mają długi ogon w górnej części), to na taką korelację lub regresję może mieć duży wpływ jeden lub kilka przypadków z górnej granicy jednego lub obu zmienne (wartości odstające, punkty dźwigni, punkty wpływające). Biorąc dziennik, możesz to pomóc, zmniejszając lub eliminując przekrzywienie.

Zasadniczo niektóre pojęcia lepiej przemyśleć w kategoriach stosunków niż różnic. Podejmij dwa omawiane pomiary głośności. Porównajmy teraz dwie firmy: jedną małą firmę handlującą na NASDAQ, o której niewiele osób słyszało, a drugą wielką korporację. Ten pierwszy otrzyma bardzo niewiele tweetów dziennie. Ten ostatni dostanie wielu; podobnie w przypadku wolumenu obrotu. Załóżmy (tylko dla wybrania liczb), że firma A zazwyczaj dostaje 100 tweetów dziennie, a ta druga dostaje 100 000.

Jeśli tweety firmy A wzrosną ze 100 do 500 (różnica 400, stosunek 5), to ogromna wiadomość - coś musi się dziać. Ale jeśli firma B wzrośnie ze 100 000 do 100 400 (różnica 400, stosunek bardzo zbliżony do 1), nikogo to nie obchodzi. Z grubsza odpowiadałby, gdyby wzrósł ze 100 000 do 500 000.

Peter Flom - Przywróć Monikę
źródło
Dziękuję za szybką odpowiedź. Dwa kolejne pytania pochodzą z Twojej odpowiedzi. Po pierwsze, czy mam 3 właściwości obiektu (wielkość obrotu giełdowego, zwroty i zmienność) i wybieram zarejestrowaną wersję dla jednej z nich? To, co powiesz o tweetach firmy A i B, może również liczyć się z ich zwrotami: jeśli akcje spółki A wzrosną z 1 do 1,50, wówczas zwroty wynoszą (50%) 0,50. Firma B potrzebuje podwyższenia z 400 do 600 (200), aby uzyskać podobny procent zwrotu. Z tego wynika: jeśli zwroty są ujemne, LN (-0,50) oczywiście nie działa. Czy można wówczas przyjąć -LN (0,50)?
Pr0no,
Ponadto, jeśli dobrze rozumiem, pobranie zarejestrowanej zmiennej nie jest wolnym wyborem - musi być argumentowane za pomocą wykresów skweness (statystycznie)? A co do istoty jest po prostu logicznym uzasadnieniem przyjęcia zalogowanego, który faktycznie zapewnia proff do zrobienia tego? Innymi słowy, czy istnieją tutaj podstawowe zasady określające progi, powyżej których należy przyjąć zarejestrowaną wersję, czy jest to kwestia interpretacji?
Pr0no,
1
W tym przypadku nie chcesz pobierać dzienników wartości procentowych: Pobranie wartości procentowej robi to, co zrobiłby dziennik. Oznacza to, że proporcje rzeczy. Z pewnością możesz wziąć dziennik niektórych zmiennych, a nie innych. Zapisywanie dziennika nie wymaga wykresów skośności, ale zwykle zmienne, które powinny być rejestrowane, mają odchylenie w prawo. Ale najważniejsze jest substancja . Jeśli pobranie logu nie ma sensu, nie rób tego. Zamiast tego użyj metod statystycznych, które działają ze zmiennymi krzywymi. SUBSTANCJA jest najważniejsza.
Peter Flom - Przywróć Monikę