Wydaje mi się, że aby wybrać odpowiednie narzędzia statystyczne, muszę najpierw ustalić, czy mój zestaw danych jest dyskretny czy ciągły.
Czy możesz mi nauczyć, jak mogę sprawdzić, czy dane są dyskretne czy ciągłe z R?
r
continuous-data
discrete-data
evdstat
źródło
źródło
Odpowiedzi:
Jedynym powodem, dla którego od razu mogę wymyślić wymaganie tej decyzji, jest decyzja o włączeniu zmiennej jako ciągłej lub kategorycznej do regresji.
Po pierwsze, czasami nie masz wyboru: zmienne postaci lub czynniki (w przypadku gdy osoba dostarczająca dane. Ramka podjęła za ciebie decyzję) są oczywiście kategoryczne.
x1
x
Powiedziałbym, że zmienną, która ma tylko 5% unikalnych wartości, można bezpiecznie nazwać dyskretną (ale jak wspomniano: jest to subiektywne). Jednak: to nie czyni go dobrym kandydatem do włączenia go jako zmiennej kategorialnej do twojego modelu: Jeśli masz 1000000 obserwacji i 5% unikalnych wartości, to nadal pozostawia 50000 „kategorii”: jeśli podasz tę kategorię, „ zamierzam spędzić piekło dużo stopni swobody.
Myślę, że to połączenie jest jeszcze bardziej subiektywne i zależy w dużej mierze od wielkości próby i wybranej metody. Bez większego kontekstu trudno tu podać wytyczne.
x
0
1
2
źródło