Czy „godzina dnia”, w której wartość może wynosić 0, 1, 2, ..., 23, jest zmienną kategoryczną? Kusiłoby mnie, by powiedzieć „nie”, ponieważ na przykład 5 jest „bliżej” do 4 lub 6 niż do 3 lub 7.
Z drugiej strony występuje nieciągłość między 23 a 0.
Czy ogólnie jest to kategoryczne, czy nie? Zauważ, że „godzina” jest jedną ze zmiennych niezależnych, a nie zmienną, którą próbuję przewidzieć.
categorical-data
circular-statistics
Paul Reiners
źródło
źródło
Odpowiedzi:
W zależności od tego, co chcesz modelować, godziny (i wiele innych atrybutów, takich jak pory roku) są w rzeczywistości porządkowymi zmiennymi cyklicznymi. W przypadku pór roku możesz uznać je za mniej lub bardziej kategoryczne, a w przypadku godzin możesz również modelować je jako ciągłe.
Jednak korzystanie z godzin w swoim modelu w formie, która nie dba o cykliczność, nie będzie owocna. Zamiast tego spróbuj wymyślić jakąś transformację. Wykorzystując godziny, możesz zastosować podejście trygonometryczne do
Zatem zamiast tego użyłbyś
xhr
iyhr
do modelowania. Zobacz ten post na przykład: Zastosowanie predyktorów kołowych w regresji liniowej .źródło
xhr = sin(4*pi*hr/24)
,yhr = cos(4*pi*hr/24)
, i tak dalej mogą być dodawane, aż do punktu, w którym się tyle uwagi, możesz równie dobrze traktować godzin w ciągu dnia, jak kategoryczny.)Godzina dnia nie jest najlepiej reprezentowana jako zmienna kategorialna, ponieważ istnieje naturalne uporządkowanie wartości. Kolor włosów, na przykład, jest kategoryczny, ponieważ uporządkowanie kategorii nie ma znaczenia - {czerwony, brązowy, blond} jest tak samo ważny jak {blond, brązowy, czerwony}. Z drugiej strony godzina dnia ma naturalne uporządkowanie - 9 rano jest bliżej 10 rano lub 8 rano niż do 18:00. Najlepiej jest traktować go jako dyskretną zmienną porządkową. Ma dodatkową właściwość cykliczności, ponieważ 12 rano następuje po 23:00 i poprzedza 1:00 rano.
źródło
Teoretycznie zależy to od tego, jak sformatujesz zmienną, tzn. Może ona być „ciągła” (modelowana z pojedynczym współczynnikiem) lub kategoryczna (współczynnik na „godzinę” dnia). Możesz również wykonać połączenie obu funkcji, np. W trybie częściowym.
Praktycznie, ponieważ 0 i 23 to zasadniczo ta sama „godzina” dnia, rozważałbym grupowanie okresów dnia w większe, bardziej jednorodne i wiarygodne grupy. Na przykład w odstępach 8-godzinnych - od 8:00 do 16:00, 16:00 do 12:00 i 12 do 8:00.
źródło