Czy istnieje test hipotezy, czy normalnie dystrybuowana zmienna zależna jest powiązana ze zmienną o rozkładzie kierunkowym ?
Na przykład, jeśli zmienna objaśniająca to pora dnia (a założenie, że dzień tygodnia, miesiąc roku itp. Są nieistotne) - tak można wyjaśnić fakt, że godzina 23:00 jest 22 godziny przed 1 rano, a także 2 godziny w tyle 1 rano w teście skojarzenia? Czy mogę sprawdzić, czy ciągła pora dnia wyjaśnia zmienną zależną, nie zakładając, że północ po północy nie następuje po minucie po 23:59?
Czy ten test dotyczy również dyskretnych zmiennych objaśniających kierunkowych ( modułowych ?)? Czy to wymaga osobnego testu? Na przykład, jak sprawdzić, czy zmienna zależna jest wyjaśniona przez miesiąc roku (zakładanie dnia i pory roku oraz konkretnego roku lub dekady są nieistotne). Traktowanie miesiąca roku kategorycznie ignoruje zamawianie. Lecz traktowanie miesiąca roku jako standardowej zmiennej porządkowej (powiedzmy Jan = 1 ... Gru = 12) ignoruje to, że styczeń przychodzi dwa miesiące po listopadzie.
Odpowiedzi:
Ogólnie rzecz biorąc, myślę, że naukowo i statystycznie bardziej owocne jest rozpoczęcie od zadania szerszego i innego pytania, które brzmi, jak daleko można przewidzieć odpowiedź z okrągłego predyktora. Mówię tutaj kołowo , a nie kierunkowo , częściowo dlatego, że ta ostatnia zawiera sferyczne, a nawet bardziej bajeczne przestrzenie, których nie da się ująć w jednej odpowiedzi; a częściowo dlatego, że twoje przykłady, pora dnia i pora roku , są okrągłe. Kolejnym ważnym przykładem jest kierunek kompasu (istotny dla wiatrów, ruchów zwierząt lub ludzi, wyrównania itp.), Który występuje w wielu problemach kołowych: dla niektórych naukowców jest to bardziej oczywisty punkt wyjścia.
Ilekroć można tego uniknąć, użycie funkcji sinus i cosinus czasu w pewnym modelu regresji jest prostą i łatwą do wdrożenia metodą modelowania. Jest to pierwszy port dla wielu biologicznych i / lub środowiskowych przykładów. (Te dwa rodzaje często są ze sobą powiązane, ponieważ zjawiska biotyczne wykazujące sezonowość zwykle reagują bezpośrednio lub pośrednio na klimat lub na pogodę.)
Dla konkretności wyobraź sobie pomiary czasu w ciągu 24 godzin lub 12 miesięcy, aby np
każdy opisuje jeden cykl w ciągu całego dnia lub roku. Formalny test braku związku między zmierzoną lub zliczoną odpowiedzią a pewnym czasem kołowym byłby wówczas standardowym testem tego, czy współczynniki sinusa i cosinusa są łącznie zerowe w uogólnionym modelu liniowym z sinus i cosinus jako predyktorami, odpowiednim łącznikiem i rodziną wybierane zgodnie z charakterem odpowiedzi.
Kwestia krańcowego rozkładu odpowiedzi (normalnej lub innej) jest w tym podejściu drugorzędna i / lub powinna być rozpatrywana przez wybór rodziny.
Zaletą sinusów i cosinusów jest to, że są one okresowe i owijają się automatycznie, więc wartości na początku i na końcu każdego dnia lub roku są koniecznie takie same. Nie ma problemu z warunkami brzegowymi, ponieważ nie ma granicy.
Podejście to nazwano regresją kołową, okresową, trygonometryczną i regresją Fouriera. Aby zapoznać się z jednym wprowadzeniem do samouczka, zobacz tutaj
W praktyce,
Takie testy zwykle pokazują przytłaczające wyniki na konwencjonalnych poziomach, ilekroć spodziewamy się sezonowości. Bardziej interesującym pytaniem jest wówczas dokładna oszacowana krzywa sezonowa i to, czy potrzebujemy bardziej skomplikowanego modelu z innymi terminami sinusoidalnymi.
Nic nie wyklucza również innych predyktorów, w takim przypadku potrzebujemy po prostu bardziej kompleksowych modeli z innymi predyktorami, na przykład sinus i cosinus dla sezonowości i innych predyktorów dla wszystkiego innego.
W pewnym momencie, w zależności od danych, problemu, gustów i doświadczenia badacza, bardziej naturalne może być podkreślenie aspektu szeregów czasowych problemu i zbudowanie modelu z wyraźną zależnością czasową. Rzeczywiście, niektórzy statystycznie nastawieni ludzie zaprzeczaliby, że istnieje inny sposób na to.
To, co łatwo nazwać trendem (ale nie zawsze jest tak łatwe do zidentyfikowania), znajduje się w punkcie 2 lub 3, a nawet w obu.
Wielu ekonomistów i innych naukowców zajmujących się sezonowością na rynkach, gospodarkach krajowych i międzynarodowych lub innymi zjawiskami ludzkimi jest zwykle bardziej pod wrażeniem możliwości bardziej skomplikowanej zmienności w ciągu każdego dnia lub (częściej) roku. Często, choć nie zawsze, sezonowość jest uciążliwością, którą należy usunąć lub skorygować, w przeciwieństwie do naukowców zajmujących się biologią i środowiskiem, którzy często uważają sezonowość za interesującą i ważną, a nawet najważniejszą kwestię projektu. To powiedziawszy, ekonomiści i inni często również przyjmują podejście typu regresji, ale w przypadku amunicji pakiet zmiennych wskaźnikowych (najprostszych), po prostu0,1 zmiennych na każdy miesiąc lub kwartał roku. Może to być praktyczny sposób na uchwycenie skutków nazwanych świąt, okresów urlopowych, skutków ubocznych lat szkolnych itp., A także wpływów lub wstrząsów związanych z klimatem lub pogodą. Biorąc pod uwagę te różnice, większość powyższych uwag dotyczy także ekonomii i nauk społecznych.
Postawy i podejście epidemiologów i statystycznych lekarzy zainteresowanych zmianami zachorowalności, umieralności, przyjęć do szpitali, wizyt w klinice i tym podobnych, mieszczą się pomiędzy tymi dwoma skrajnościami.
Moim zdaniem dzielenie dni lub lat na połowy w celu porównania jest zwykle arbitralne, sztuczne, aw najlepszym razie niezręczne. Ignoruje również rodzaj gładkiej struktury zwykle występującej w danych.
EDYCJA Rachunek do tej pory nie zajmuje się różnicą między czasem dyskretnym a ciągłym, ale z mojego doświadczenia nie uważam tego za poważny problem w praktyce.
Jednak precyzyjne wybory zależą od tego, jak dane docierają i od schematu zmian.
Gdyby dane były kwartalne, a ludzkie, miałbym tendencję do używania zmiennych wskaźnikowych (np. Ćwiartki 3 i 4 są często różne). Jeśli jest to miesięczne i ludzkie, wybór nie jest jasny, ale musiałbyś ciężko pracować, aby sprzedać sinusy i cosinusy większości ekonomistów. Jeśli miesięcznie lub drobniej i biologicznie lub środowiskowo, zdecydowanie sinus i cosinus.
EDYCJA 2 Dalsze szczegóły dotyczące regresji trygonometrycznej
Charakterystycznym szczegółem regresji trygonometrycznej (nazwanej w inny sposób, jeśli wolisz) jest to, że prawie zawsze warunki sinus i cosinus najlepiej przedstawić modelowi parami. Najpierw skalujemy porę dnia, porę roku lub kierunek kompasu, aby był reprezentowany jako kąt na okręgu w radianach, a więc w przedziale [ 0 , 2 π ] . Następnie używamy tylu par sin k θ , cos k θ , k = 1 , 2 , 3 , …θ [0,2π] sinkθ,coskθ,k=1,2,3,… jakie są potrzebne w modelu. (W statystykach kołowych konwencje trygonometryczne przeważają nad konwencjami statystycznymi, dlatego greckie symbole, takie jak są używane zarówno dla zmiennych, jak i parametrów.)θ,ϕ,ψ
Jeśli oferujemy parę predyktorów, takich jak , modelowi przypominającemu regresję, wówczas mamy szacunki współczynników, powiedzmy b 1 , b 2 , dla terminów w modelu, mianowicie b 1 sin θ , b 2 cos θ . Jest to sposób dopasowania fazy, jak również amplitudy sygnału okresowego. Inaczej mówiąc, funkcję taką jak sin ( θ + ϕ ) można przepisać jakosinθ,cosθ b1,b2 b1sinθ,b2cosθ sin(θ+ϕ)
ale i sin φ reprezentujący fazę szacowane są w okucia modelu. W ten sposób unikamy problemu nieliniowej oceny.cosϕ sinϕ
Jeśli użyjemy do modelowania wariancji kołowej, wówczas automatycznie maksimum i minimum tej krzywej są w odległości półkola. Jest to często bardzo dobre przybliżenie dla wariantów biologicznych lub środowiskowych, ale odwrotnie, możemy potrzebować jeszcze kilku terminów, aby uchwycić w szczególności sezonowość gospodarczą. To może być bardzo dobry powód, aby zamiast tego używać zmiennych wskaźnikowych, które natychmiast prowadzą do prostych interpretacji współczynników.b1sinθ+b2cosθ
źródło
Oto opcja bez dystrybucji, ponieważ wydaje się, że i tak tego szukasz. Nie dotyczy to w szczególności statystyki o obiegu zamkniętym, której jestem dość ignorantem, ale ma ona zastosowanie tutaj i w wielu innych okolicznościach.
Niech zmienna kierunkowe być .X
Niech inne zmienne są , które mogą znajdować się w R D w każdym d ≥ 1 (albo, w rzeczywistości, każdy typ obiektu, na którym skutecznie jądro może być określona: wykresy, łańcuchy, obrazy, rozkład prawdopodobieństwa próbki z rozkładu prawdopodobieństwa ...)Y Rd d≥1
Teraz przeprowadź test, używając Kryterium Niepodległości Hilberta Schmidta (HSIC), jak w poniższym artykule:
To jest:
Kod Matlaba do przeprowadzania tego z jądrem RBF jest dostępny od pierwszego autora tutaj .
To podejście jest fajne, ponieważ jest ogólne i ma dobre wyniki. Główne wady to:
źródło
Można przeprowadzić test t pomiędzy średnią z przeciwnych „połówek” okresu, na przykład porównując średnią wartość od 12 rano do 12 po południu ze średnią wartością od 12 wieczorem do 12 rano. Następnie porównaj średnią wartość od 18:00 do 6:00 ze średnią wartością od 6:00 do 18:00.
Lub jeśli masz wystarczającą ilość danych, możesz podzielić ten okres na mniejsze (np. Godzinne) segmenty i wykonać test t między każdą parą segmentów, poprawiając jednocześnie wiele porównań.
Alternatywnie, dla bardziej „ciągłej” analizy (tj. Bez arbitralnej segmentacji), możesz uruchomić regresje liniowe względem funkcji sinus i cosinus swojej zmiennej kierunkowej (z prawidłowym okresem), co automatycznie „zaokrągli” twoje dane:
W każdym razie myślę, że musisz poczynić pewne założenia dotyczące okresu, a następnie odpowiednio przetestować.
źródło