Odpowiadając na to pytanie dotyczące danych dyskretnych i ciągłych , uprzejmie stwierdziłem, że rzadko ma sens traktowanie danych kategorycznych jako ciągłych.
Na pierwszy rzut oka wydaje się to oczywiste, ale intuicja jest często kiepskim przewodnikiem statystycznym, a przynajmniej moim. Zastanawiam się teraz: czy to prawda? A może istnieją ustalone analizy, dla których transformacja z danych kategorycznych na pewne kontinuum jest rzeczywiście przydatna? Czy miałoby to znaczenie, gdyby dane były porządkowe?
categorical-data
data-transformation
ordinal-data
continuous-data
krótkofalówka
źródło
źródło
Odpowiedzi:
Zakładam, że zmienna „kategoryczna” faktycznie oznacza zmienną porządkową; w przeciwnym razie nie ma sensu traktować go jako ciągłego, chyba że jest to zmienna binarna (kodowana 0/1), jak wskazuje @Rob. Powiedziałbym wtedy, że problemem nie jest to, w jaki sposób traktujemy zmienną, chociaż do tej pory opracowano wiele modeli analizy danych kategorycznych - patrz np . Analiza uporządkowanych danych kategorycznych: przegląd i przegląd ostatnich zmiany z Liu i Agresti--, niż zakładamy podstawową skalę pomiaru. Moja odpowiedź skupi się na tym drugim punkcie, chociaż najpierw krótko omówię przypisanie wyników liczbowych do zmiennych kategorii lub poziomów.
Stosując proste numeryczne rekodowanie zmiennej porządkowej, zakładasz, że zmienna ma właściwości przedziałowe (w sensie klasyfikacji podanej przez Stevensa, 1946). Z punktu widzenia teorii pomiarów (w psychologii) może to być często zbyt mocne założenie, ale w przypadku badań podstawowych (tj. Gdy do wyrażenia opinii o codziennej czynności z wyraźnym sformułowaniem używany jest pojedynczy element) wszelkie wyniki monotoniczne powinny dawać porównywalne wyniki . Cochran (1954) już to zauważył
(Wielkie podziękowania dla @whuber za przypomnienie mi o tym w jednym z jego komentarzy, który doprowadził mnie do ponownego przeczytania książki Agresti, z której pochodzi ten cytat.)
W rzeczywistości kilka testów domyślnie traktuje takie zmienne jak skale interwałowe: na przykład statystyka do testowania trendu liniowego (jako alternatywa dla prostej niezależności) opiera się na podejściu korelacyjnym ( , Agresti, 2002, s. 87).M 2 = ( n - 1 ) r 2M.2) M.2)= ( n - 1 ) r2)
Cóż, możesz również zdecydować o przekodowaniu zmiennej w nieregularnym zakresie lub agregacji niektórych jej poziomów, ale w tym przypadku silna nierównowaga między zakodowanymi kategoriami może zniekształcać testy statystyczne, np. Wspomniany test trendu. Przyjemna alternatywa dla przypisywania odległości między kategoriami została już zaproponowana przez @Jeromy, a mianowicie optymalne skalowanie.
Omówmy teraz drugi punkt, który zrobiłem, dotyczący bazowego modelu pomiaru. Zawsze waham się przed dodaniem znacznika „psychometrii”, gdy widzę tego rodzaju pytanie, ponieważ konstrukcja i analiza skal pomiarowych są objęte teorią psychometryczną (schludny przegląd Nunnally i Bernstein, 1994). Nie będę się zastanawiał nad wszystkimi modelami, które faktycznie są kierowane w ramach teorii odpowiedzi na przedmiot , i uprzejmie odsyłam zainteresowanego czytelnika do samouczka I. Partcheva, Wizualnego przewodnika po teorii odpowiedzi na przedmiot, dla delikatnego wprowadzenia do IRT oraz do odniesień (5-8) wymienionych na końcu dla możliwych taksonomii IRT. Krótko mówiąc, chodzi o to, że zamiast przypisywać arbitralne odległości między zmiennymi kategoriami, zakładasz ukrytą skalę i szacujesz ich lokalizację na tym kontinuum, wraz z umiejętnościami i odpowiedzialnością poszczególnych osób. Prosty przykład jest wart notacji matematycznej, dlatego rozważmy następujący element (pochodzący z kwestionariusza jakości życia EORTC QLQ-C30 ):
który jest kodowany w czteropunktowej skali, od „wcale” do „bardzo”. Surowe wyniki są obliczane przez przypisanie wyniku od 1 do 4. Wyniki na przedmiotach należących do tej samej skali można następnie dodać razem, aby uzyskać tak zwany wynik skali, który oznacza pozycję danej osoby na podstawie konstruktu leżącego u podstaw (tutaj składnik zdrowia psychicznego ). Takie sumowane wyniki skali są bardzo praktyczne ze względu na łatwość punktacji (dla lekarza lub pielęgniarki), ale są niczym więcej jak dyskretną (uporządkowaną) skalą.
Możemy również uznać, że prawdopodobieństwo zatwierdzenia danej kategorii odpowiedzi jest zgodne z pewnym modelem logistycznym, jak opisano w samouczku I. Partcheva, o którym mowa powyżej. Zasadniczo chodzi o pewien rodzaj modelu progowego (który prowadzi do równoważnego sformułowania pod względem proporcjonalnych lub skumulowanych modeli szans) i modelujemy szanse na bycie w jednej kategorii odpowiedzi zamiast poprzedniej lub szanse na zdobycie wyniku powyżej pewna kategoria, zależna od położenia badanych na cechy ukrytej. Ponadto możemy narzucić, że kategorie odpowiedzi są równomiernie rozmieszczone w skali utajonej (jest to model Skali Oceny) - tak właśnie robimy, przypisując regularnie rozmieszczone wyniki liczbowe - lub nie (jest to model Częściowego Kredytu) .
Oczywiście nie dodajemy wiele do Klasycznej Teorii Testów, w której zmienne porządkowe są traktowane jak zmienne numeryczne. Wprowadzamy jednak model probabilistyczny, w którym zakładamy skalę ciągłą (z właściwościami przedziałów) i w którym można uwzględnić konkretne błędy pomiaru, i możemy wprowadzić te wyniki czynnikowe w dowolnym modelu regresji.
Bibliografia
źródło
Jeśli istnieją tylko dwie kategorie, sensowne jest ich przekształcenie w (0,1). W rzeczywistości jest to często wykonywane, gdy wynikowa zmienna fikcyjna jest używana w modelach regresji.
Jeśli są więcej niż dwie kategorie, to myślę, że ma to sens tylko wtedy, gdy dane są porządkowe, i tylko w bardzo szczególnych okolicznościach. Na przykład, jeśli wykonuję regresję i dopasowuję nieparametryczną funkcję nieliniową do zmiennej porządkowej-numerycznej, myślę, że jest to w porządku. Ale jeśli zastosuję regresję liniową, wówczas przyjmę bardzo silne założenia dotyczące względnej różnicy między kolejnymi wartościami zmiennej porządkowej i zwykle nie chcę tego robić.
źródło
Powszechną praktyką jest traktowanie uporządkowanych zmiennych kategorialnych z wieloma kategoriami jako ciągłe. Przykłady tego:
A przez „traktowanie jako ciągłe” mam na myśli włączenie zmiennej do modelu, który zakłada ciągłą zmienną losową (np. Jako zmienną zależną w regresji liniowej). Przypuszczam, że problemem jest to, ile punktów skali jest wymaganych, aby było to rozsądnym uproszczeniem.
Kilka innych myśli:
Bibliografia
źródło
Bardzo prosty przykład, często pomijany, który powinien znajdować się w doświadczeniu wielu czytelników, dotyczy ocen lub ocen przyznawanych pracy naukowej. Często oceny za poszczególne zadania są w istocie pomiarami porządkowymi opartymi na osądzie, nawet jeśli dla zwyczaju są one podawane jako (powiedzmy) oceny procentowe lub oceny w skali z maksimum 5 (być może również z kropkami dziesiętnymi). Oznacza to, że nauczyciel może przeczytać esej, rozprawę, pracę magisterską lub artykuł i zdecydować, że zasługuje na 42%, 4 lub cokolwiek innego. Nawet gdy oceny są oparte na szczegółowym schemacie oceny, skala jest u podstaw pewnej odległości od skali pomiaru przedziału lub współczynnika.
Ale potem wiele instytucji uważa, że jeśli masz wystarczająco dużo tych ocen lub ocen, całkowicie uzasadnione jest ich uśrednienie (średnia ocen itp.), A nawet ich bardziej szczegółowa analiza. W pewnym momencie pomiary porządkowe przekształcają się w skalę podsumowującą, która jest traktowana tak, jakby była ciągła.
Koneserzy ironii zauważą, że kursy statystyczne w wielu wydziałach lub szkołach często uczą, że jest to w najlepszym razie wątpliwe, aw najgorszym - złe, a jednocześnie realizowane jako procedura ogólnouczelniana.
źródło
W analizie rankingu według częstotliwości, podobnie jak w przypadku wykresu Pareto i powiązanych wartości (np. Ile kategorii stanowi 80% największych wad produktu)
źródło
Przedstawię argument, że traktowanie prawdziwie kategorycznej, nie porządkowej zmiennej jako ciągłej może czasem mieć sens.
Jeśli budujesz drzewa decyzyjne w oparciu o duże zbiory danych, przekształcenie zmiennych kategorialnych w zmienne pozorne może być kosztowne pod względem mocy obliczeniowej i pamięci. Ponadto niektóre modele (np.
randomForest
W R) nie mogą obsługiwać zmiennych kategorialnych na wielu poziomach.W takich przypadkach model oparty na drzewie powinien być w stanie zidentyfikować niezwykle ważne kategorie, NAWET JEŚLI są one kodowane jako zmienna ciągła. Przemyślany przykład:
y jest zmienną ciągłą, a jest zmienną ciągłą, a b jest zmienną kategorialną. Jednak
dat1
wb jest traktowane jako ciągłe.Dopasowując drzewo decyzyjne do tych 2 zestawów danych, okazuje się, że
dat1
jest nieco gorszy niżdat2
:Jeśli spojrzysz na 2 modele, zobaczysz, że są one bardzo podobne, ale model 1 pomija znaczenie b == 42:
Model1 działa jednak w około 1/10 czasu modelu2:
Możesz oczywiście dostosować parametry problemu, aby znaleźć sytuacje, w których
dat2
daleko przewyższadat1
lubdat1
nieznacznie przewyższadat2
.Ogólnie nie opowiadam się za traktowaniem zmiennych kategorialnych jako ciągłych, ale znalazłem sytuacje, w których spowodowało to znaczne skrócenie czasu potrzebnego na dopasowanie modeli, bez zmniejszania ich dokładności predykcyjnej.
źródło
Bardzo fajne streszczenie tego tematu można znaleźć tutaj:
mijkerhemtulla.socsci.uva.nl PDF
„Kiedy zmienne jakościowe można traktować jako ciągłe? Porównanie solidnych ciągłych i kategorycznych metod szacowania SEM w warunkach nieoptymalnych”.
Mijke Rhemtulla, Patricia É. Brosseau-Liard i Victoria Savalei
Badają metody na osiągnięcie tego celu na około 60 stron i zapewniają wgląd w to, kiedy warto to zrobić, jakie podejście wybrać oraz jakie są mocne i słabe strony każdego podejścia, aby dopasować się do konkretnej sytuacji. Nie obejmują wszystkich (jak się uczę, wydaje się, że jest ich nieograniczona ilość), ale te, które pokrywają, pokrywają dobrze.
źródło
Jest inny przypadek, gdy ma to sens: kiedy dane są próbkowane z ciągłych danych (na przykład przez przetwornik analogowo-cyfrowy). W przypadku starszych instrumentów ADC często byłyby 10-bitowe, co daje nominalnie dane porządkowe kategorii 1024, ale dla większości celów można je traktować jako rzeczywiste (chociaż będą pewne artefakty dla wartości w pobliżu dolnej części skali). Obecnie ADC są częściej 16 lub 24-bitowe. Kiedy mówisz o „kategoriach” 65536 lub 16777216, naprawdę nie masz problemów z traktowaniem danych jako ciągłych.
źródło