Dane podstawowe : mam ~ 1000 osób oznaczonych ocenami: „1”, „dobry”, „2”, „środkowy] lub„ 3 ”[zły] - to wartości, które staram się przewidzieć dla ludzi w przyszłości . Oprócz tego mam pewne informacje demograficzne: płeć (kategorycznie: M / K), wiek (liczbowo: 17-80) i rasę (kategorycznie: czarny / kaukaski / latino).
Mam głównie cztery pytania:
Początkowo próbowałem uruchomić opisany powyżej zestaw danych jako analizę regresji wielokrotnej. Ale ostatnio dowiedziałem się, że ponieważ moja zależna jest czynnikiem uporządkowanym, a nie zmienną ciągłą, powinienem użyć porządkowej regresji logistycznej do czegoś takiego. Początkowo używałem czegoś takiego
mod <- lm(assessment ~ age + gender + race, data = dataset)
, czy ktoś może skierować mnie we właściwym kierunku?Stamtąd, zakładając, że otrzymuję współczynniki, z którymi czuję się komfortowo, rozumiem, jak podłączyć wyłącznie wartości liczbowe dla x1, x2 itp. - ale jak poradziłbym sobie z rasą, na przykład, gdy istnieje wiele odpowiedzi: czarny / kaukaski / latino? Jeśli więc powie mi, że współczynnik rasy kaukaskiej wynosi 0,289, a ktoś, kogo staram się przewidzieć, jest osobą rasy kaukaskiej, jak mogę podłączyć to z powrotem, ponieważ wartość nie jest liczbą?
Mam też losowe wartości, których brakuje - niektóre dla rasy, niektóre dla płci itp. Czy muszę zrobić coś dodatkowego, aby upewnić się, że nic nie wypacza? (Zauważyłem, kiedy mój zestaw danych ładuje się do R-Studio, kiedy brakujące dane ładowane są jako
NA
, R mówi coś w stylu(162 observations deleted due to missingness)
- ale jeśli zostaną załadowane jako puste, to nic nie robi.)Zakładając, że wszystko się ułoży i mam nowe dane dotyczące płci, wieku i rasy, które chcę przewidzieć - czy w R istnieje łatwiejszy sposób na sprawdzenie tego, niezależnie od mojej formuły z nowymi współczynnikami, zamiast robić to ręcznie? (Jeśli to pytanie nie jest odpowiednie tutaj, mogę zabrać je z powrotem na forum R.)
latino
, i manekiny dla pozostałych dwóch. Wartość 1 dlacaucasian
manekina oznacza respondenta rasy białej, podobnie dlablack
zmiennej manekina. Wartość 0 dla obu wskazuje respondenta latynoskiego. Ma sens?