Jak sprawdzić, czy moje dane są dyskretne czy ciągłe?

11

Wydaje mi się, że aby wybrać odpowiednie narzędzia statystyczne, muszę najpierw ustalić, czy mój zestaw danych jest dyskretny czy ciągły.

Czy możesz mi nauczyć, jak mogę sprawdzić, czy dane są dyskretne czy ciągłe z R?

evdstat
źródło
Czy masz na myśli to, czy pewne zmienne muszą być dodane jako predyktory ciągłe czy kategoryczne (dyskretne) w modelu typu regresji?
Nick Sabbe
Jak gromadzono dane i jak rejestrowano zmienne, prawdopodobnie da ci pewne wskazówki na ten temat; ponadto może zależeć od tego, czy chcesz modelować swoje dane jako ciągłe czy dyskretne (patrz np. pytanie dotyczące elementów Likerta i analizy skal dyskretnych). Niepowiązany punkt: Dobrze byłoby, gdybyś mógł zarejestrować swoje konto raz na zawsze i być może rozważyć zaakceptowanie odpowiedzi lub zweryfikowanie wcześniejszych pytań.
chl
wykonaj qqnorm, a jeśli punkty znajdują się wzdłuż przekątnej, dane są ciągłe (jeśli są w liniach Horiontal, są dyskretne)
user222362

Odpowiedzi:

14

Jedynym powodem, dla którego od razu mogę wymyślić wymaganie tej decyzji, jest decyzja o włączeniu zmiennej jako ciągłej lub kategorycznej do regresji.

Po pierwsze, czasami nie masz wyboru: zmienne postaci lub czynniki (w przypadku gdy osoba dostarczająca dane. Ramka podjęła za ciebie decyzję) są oczywiście kategoryczne.

x1-1.52.5x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

Powiedziałbym, że zmienną, która ma tylko 5% unikalnych wartości, można bezpiecznie nazwać dyskretną (ale jak wspomniano: jest to subiektywne). Jednak: to nie czyni go dobrym kandydatem do włączenia go jako zmiennej kategorialnej do twojego modelu: Jeśli masz 1000000 obserwacji i 5% unikalnych wartości, to nadal pozostawia 50000 „kategorii”: jeśli podasz tę kategorię, „ zamierzam spędzić piekło dużo stopni swobody.

Myślę, że to połączenie jest jeszcze bardziej subiektywne i zależy w dużej mierze od wielkości próby i wybranej metody. Bez większego kontekstu trudno tu podać wytyczne.

x012

mi[y]=β0+β11x1+β12)x2)
xjax==ja
mi[y]=β0+β1x
mi[y]=β0+β1x1+2)β1x2)

χ2)

Nick Sabbe
źródło
3
+1 Dobry przykład, jak poprawić nieparzyste pytanie ze świetną odpowiedzią.
1
W rzeczywistości każda ciągłość może być dyskrecjonalna, dzięki czemu histogramy pokazują, jak to się robi w praktyce. Prawdopodobnie pomieszałem dane liczbowe (dane liczb całkowitych) z kategorialnym ... chociaż moje pierwsze przypuszczenie dotyczyło dyskretnych i ciągłych rozkładów, a nie tylko punktów danych (i szalonych badaczy, którzy przypisują prawdziwe wartości do kategorii), więc ... i tak usunąłem moje , ponieważ nie sądzę, że rozwiązuje problem (+1)
Dmitrij Celov
1
Wygląda na to, że @Dmitrij usunął swoją odpowiedź. Czy mógłbyś ponownie zredagować swoją odpowiedź, aby to odzwierciedlić? To świetna odpowiedź (+1), więc trochę odstaje odniesienie do nieistniejącej treści.
mpiktas