Prawdopodobnie jest to bardzo podstawowe pytanie, ale wydaje mi się, że nie jestem w stanie znaleźć na to solidnej odpowiedzi. Mam nadzieję, że mogę.
Obecnie czytam artykuły jako przygotowanie do pracy magisterskiej. Obecnie czytam artykuł, który bada związek między tweetami a funkcjami giełdy.
W jednej ze swoich hipotez sugerują, że „zwiększony wolumen tweetów jest związany ze wzrostem wolumenu obrotu”.
Chciałbym ich spodziewać w korelacji par, koreluje tweetVolume
z tradingVolume
, ale zamiast tego raport przy użyciu zalogowany wersje: LN(tweetVolume)
a LN(tradingVolume)
.
W mojej pracy dyplomowej powtórzyłem ten fragment ich pracy. Zebrałem tweety około 100 firm przez ponad 6 miesięcy ( tweetVolume
) i wolumen obrotu giełdowego w tym samym czasie. Jeśli skoreluję zmienne bezwzględne, znajdę, r=.282, p.000
ale gdy użyję zalogowanych wersji, znajdę r=.488, p=.000
.
Nie rozumiem, dlaczego badacze czasami używają zarejestrowanych wersji swoich zmiennych i dlaczego korelacja wydaje się o wiele wyższa, jeśli to robisz. Jakie jest tutaj uzasadnienie i dlaczego można używać zarejestrowanych zmiennych?
Twoja pomoc jest bardzo ceniona :-)
Odpowiedzi:
Powody używania rejestrowanych zmiennych dzielą się na dwie kategorie: statystyczną i merytoryczną.
Statystycznie, jeśli twoje zmienne mają odchylenie w prawo (to znaczy, że mają długi ogon w górnej części), to na taką korelację lub regresję może mieć duży wpływ jeden lub kilka przypadków z górnej granicy jednego lub obu zmienne (wartości odstające, punkty dźwigni, punkty wpływające). Biorąc dziennik, możesz to pomóc, zmniejszając lub eliminując przekrzywienie.
Zasadniczo niektóre pojęcia lepiej przemyśleć w kategoriach stosunków niż różnic. Podejmij dwa omawiane pomiary głośności. Porównajmy teraz dwie firmy: jedną małą firmę handlującą na NASDAQ, o której niewiele osób słyszało, a drugą wielką korporację. Ten pierwszy otrzyma bardzo niewiele tweetów dziennie. Ten ostatni dostanie wielu; podobnie w przypadku wolumenu obrotu. Załóżmy (tylko dla wybrania liczb), że firma A zazwyczaj dostaje 100 tweetów dziennie, a ta druga dostaje 100 000.
Jeśli tweety firmy A wzrosną ze 100 do 500 (różnica 400, stosunek 5), to ogromna wiadomość - coś musi się dziać. Ale jeśli firma B wzrośnie ze 100 000 do 100 400 (różnica 400, stosunek bardzo zbliżony do 1), nikogo to nie obchodzi. Z grubsza odpowiadałby, gdyby wzrósł ze 100 000 do 500 000.
źródło