Czy kiedykolwiek ma sens traktowanie danych kategorycznych jako ciągłych?

57

Odpowiadając na to pytanie dotyczące danych dyskretnych i ciągłych , uprzejmie stwierdziłem, że rzadko ma sens traktowanie danych kategorycznych jako ciągłych.

Na pierwszy rzut oka wydaje się to oczywiste, ale intuicja jest często kiepskim przewodnikiem statystycznym, a przynajmniej moim. Zastanawiam się teraz: czy to prawda? A może istnieją ustalone analizy, dla których transformacja z danych kategorycznych na pewne kontinuum jest rzeczywiście przydatna? Czy miałoby to znaczenie, gdyby dane były porządkowe?

krótkofalówka
źródło
20
To pytanie i jego odpowiedzi przypominają nam, jak bardzo prymitywny i ograniczony jest tak naprawdę przestarzały podział zmiennych na przedział przedziałów kategorialno-porządkowych. Może kierować statystycznie naiwnym, ale dla rozważnego lub doświadczonego analityka stanowi przeszkodę, przeszkodę w wyrażaniu zmiennych w sposób odpowiedni dla danych i podejmowanych przy nich decyzji. Ktoś pracujący z tego ostatniego punktu widzenia będzie swobodnie przechodzić między kategorycznymi i „ciągłymi” reprezentacjami danych; dla nich to pytanie nawet nie może powstać! Zamiast tego powinniśmy zapytać: jak to pomaga?
whuber
@ whuber (+1) Przynajmniej wydaje się, że trudno jest jednocześnie zoptymalizować niezawodność pomiaru i dokładność diagnostyczną.
chl

Odpowiedzi:

34

Zakładam, że zmienna „kategoryczna” faktycznie oznacza zmienną porządkową; w przeciwnym razie nie ma sensu traktować go jako ciągłego, chyba że jest to zmienna binarna (kodowana 0/1), jak wskazuje @Rob. Powiedziałbym wtedy, że problemem nie jest to, w jaki sposób traktujemy zmienną, chociaż do tej pory opracowano wiele modeli analizy danych kategorycznych - patrz np . Analiza uporządkowanych danych kategorycznych: przegląd i przegląd ostatnich zmiany z Liu i Agresti--, niż zakładamy podstawową skalę pomiaru. Moja odpowiedź skupi się na tym drugim punkcie, chociaż najpierw krótko omówię przypisanie wyników liczbowych do zmiennych kategorii lub poziomów.

Stosując proste numeryczne rekodowanie zmiennej porządkowej, zakładasz, że zmienna ma właściwości przedziałowe (w sensie klasyfikacji podanej przez Stevensa, 1946). Z punktu widzenia teorii pomiarów (w psychologii) może to być często zbyt mocne założenie, ale w przypadku badań podstawowych (tj. Gdy do wyrażenia opinii o codziennej czynności z wyraźnym sformułowaniem używany jest pojedynczy element) wszelkie wyniki monotoniczne powinny dawać porównywalne wyniki . Cochran (1954) już to zauważył

dowolny zestaw wyników daje prawidłowy test, pod warunkiem że są one konstruowane bez konsultacji z wynikami eksperymentu. Jeśli zestaw wyników jest słaby, ponieważ źle zniekształca skalę numeryczną, która naprawdę leży u podstaw uporządkowanej klasyfikacji, test nie będzie wrażliwy. Wyniki powinny zatem zawierać najlepszy możliwy wgląd w sposób, w jaki skonstruowano i zastosowano klasyfikację. (str. 436)

(Wielkie podziękowania dla @whuber za przypomnienie mi o tym w jednym z jego komentarzy, który doprowadził mnie do ponownego przeczytania książki Agresti, z której pochodzi ten cytat.)

W rzeczywistości kilka testów domyślnie traktuje takie zmienne jak skale interwałowe: na przykład statystyka do testowania trendu liniowego (jako alternatywa dla prostej niezależności) opiera się na podejściu korelacyjnym ( , Agresti, 2002, s. 87).M 2 = ( n - 1 ) r 2M2M2=(n1)r2

Cóż, możesz również zdecydować o przekodowaniu zmiennej w nieregularnym zakresie lub agregacji niektórych jej poziomów, ale w tym przypadku silna nierównowaga między zakodowanymi kategoriami może zniekształcać testy statystyczne, np. Wspomniany test trendu. Przyjemna alternatywa dla przypisywania odległości między kategoriami została już zaproponowana przez @Jeromy, a mianowicie optymalne skalowanie.

Omówmy teraz drugi punkt, który zrobiłem, dotyczący bazowego modelu pomiaru. Zawsze waham się przed dodaniem znacznika „psychometrii”, gdy widzę tego rodzaju pytanie, ponieważ konstrukcja i analiza skal pomiarowych są objęte teorią psychometryczną (schludny przegląd Nunnally i Bernstein, 1994). Nie będę się zastanawiał nad wszystkimi modelami, które faktycznie są kierowane w ramach teorii odpowiedzi na przedmiot , i uprzejmie odsyłam zainteresowanego czytelnika do samouczka I. Partcheva, Wizualnego przewodnika po teorii odpowiedzi na przedmiot, dla delikatnego wprowadzenia do IRT oraz do odniesień (5-8) wymienionych na końcu dla możliwych taksonomii IRT. Krótko mówiąc, chodzi o to, że zamiast przypisywać arbitralne odległości między zmiennymi kategoriami, zakładasz ukrytą skalę i szacujesz ich lokalizację na tym kontinuum, wraz z umiejętnościami i odpowiedzialnością poszczególnych osób. Prosty przykład jest wart notacji matematycznej, dlatego rozważmy następujący element (pochodzący z kwestionariusza jakości życia EORTC QLQ-C30 ):

Martwiłeś się?

który jest kodowany w czteropunktowej skali, od „wcale” do „bardzo”. Surowe wyniki są obliczane przez przypisanie wyniku od 1 do 4. Wyniki na przedmiotach należących do tej samej skali można następnie dodać razem, aby uzyskać tak zwany wynik skali, który oznacza pozycję danej osoby na podstawie konstruktu leżącego u podstaw (tutaj składnik zdrowia psychicznego ). Takie sumowane wyniki skali są bardzo praktyczne ze względu na łatwość punktacji (dla lekarza lub pielęgniarki), ale są niczym więcej jak dyskretną (uporządkowaną) skalą.

Możemy również uznać, że prawdopodobieństwo zatwierdzenia danej kategorii odpowiedzi jest zgodne z pewnym modelem logistycznym, jak opisano w samouczku I. Partcheva, o którym mowa powyżej. Zasadniczo chodzi o pewien rodzaj modelu progowego (który prowadzi do równoważnego sformułowania pod względem proporcjonalnych lub skumulowanych modeli szans) i modelujemy szanse na bycie w jednej kategorii odpowiedzi zamiast poprzedniej lub szanse na zdobycie wyniku powyżej pewna kategoria, zależna od położenia badanych na cechy ukrytej. Ponadto możemy narzucić, że kategorie odpowiedzi są równomiernie rozmieszczone w skali utajonej (jest to model Skali Oceny) - tak właśnie robimy, przypisując regularnie rozmieszczone wyniki liczbowe - lub nie (jest to model Częściowego Kredytu) .

Oczywiście nie dodajemy wiele do Klasycznej Teorii Testów, w której zmienne porządkowe są traktowane jak zmienne numeryczne. Wprowadzamy jednak model probabilistyczny, w którym zakładamy skalę ciągłą (z właściwościami przedziałów) i w którym można uwzględnić konkretne błędy pomiaru, i możemy wprowadzić te wyniki czynnikowe w dowolnym modelu regresji.

Bibliografia

  1. SS Stevens. Na temat teorii skal pomiarowych. Science , 103 : 677-680, 1946.
  2. WG Cochran. Niektóre metody wzmacniania wspólnych testów . Biometrics , 10 : 417-451, 1954.χ2
  3. J Nunnally i I Bernstein. Teoria psychometryczna . McGraw-Hill, 1994
  4. Alan Agresti. Analiza danych kategorycznych . Wiley, 1990.
  5. CR Rao i S Sinharay, redaktorzy. Handbook of Statistics, Vol. 26: Psychometria . Elsevier Science BV, Holandia, 2007.
  6. A Boomsma, MAJ van Duijn i TAB Snijders. Eseje na temat teorii odpowiedzi na przedmiot . Springer, 2001.
  7. D Thissen i L. Steinberg. Taksonomia modeli reakcji na pozycje. Psychometrika , 51 (4) : 567–577, 1986.
  8. P Mair i R. Hatzinger. Rozszerzony Rasch Modelowanie: ERM Pakiet do stosowania w modelach IRT R . Journal of Statistics Software , 20 (9) , 2007.
chl
źródło
19

Jeśli istnieją tylko dwie kategorie, sensowne jest ich przekształcenie w (0,1). W rzeczywistości jest to często wykonywane, gdy wynikowa zmienna fikcyjna jest używana w modelach regresji.

Jeśli są więcej niż dwie kategorie, to myślę, że ma to sens tylko wtedy, gdy dane są porządkowe, i tylko w bardzo szczególnych okolicznościach. Na przykład, jeśli wykonuję regresję i dopasowuję nieparametryczną funkcję nieliniową do zmiennej porządkowej-numerycznej, myślę, że jest to w porządku. Ale jeśli zastosuję regresję liniową, wówczas przyjmę bardzo silne założenia dotyczące względnej różnicy między kolejnymi wartościami zmiennej porządkowej i zwykle nie chcę tego robić.

Rob Hyndman
źródło
1
„[T] kura Robię bardzo mocne założenia na temat względnej różnicy między kolejnymi wartościami zmiennej porządkowej.” Myślę, że to naprawdę kluczowy punkt. tj. jak mocno możesz argumentować, że różnica między grupami 1 i 2 jest porównywalna z różnicą między grupami 2 i 3?
Freya Harrison
Myślę, że powinieneś przyjąć pewne założenie dotyczące sposobu dystrybucji zmiennej ciągłej, a następnie spróbować dopasować ten „psudohistogram” każdej częstotliwości zmiennej jakościowej (mam na myśli znalezienie szerokości przedziałów, które przekształcą ją w dopasowany histogram). Mimo to nie jestem ekspertem w tej dziedzinie, to szybki i brudny pomysł.
Przekształcanie kategorii binarnych na {0,1} ma sens, ale przekształcenie ich w ciągły przedział [0,1] wydaje się być pewnym skokiem. W szerszej perspektywie jestem całkowicie z twoją niechęcią do równań masy, jednak chyba że istnieją mocne argumenty z modelu.
walkytalky
18

Powszechną praktyką jest traktowanie uporządkowanych zmiennych kategorialnych z wieloma kategoriami jako ciągłe. Przykłady tego:

  • Liczba elementów poprawnych w teście na 100 przedmiotów
  • Zsumowana skala psychologiczna (np. Średnia 10 pozycji w pięciostopniowej skali)

A przez „traktowanie jako ciągłe” mam na myśli włączenie zmiennej do modelu, który zakłada ciągłą zmienną losową (np. Jako zmienną zależną w regresji liniowej). Przypuszczam, że problemem jest to, ile punktów skali jest wymaganych, aby było to rozsądnym uproszczeniem.

Kilka innych myśli:

  • Korelacje polichoryczne próbują modelować związek między dwiema zmiennymi porządkowymi w kategoriach zakładanych ukrytych zmiennych ciągłych.
  • Optymalne skalowanie pozwala opracowywać modele, w których skalowanie zmiennej kategorialnej jest opracowywane w sposób sterowany danymi, przy jednoczesnym przestrzeganiu wszelkich ograniczeń skali, które narzucasz (np. Porządek). Dobre wprowadzenie można znaleźć w De Leeuw i Mair (2009)

Bibliografia

  • De Leeuw, J., i Mair, P. (2009). Metody Gifi dla optymalnego skalowania w R: Homals pakietu. Journal of Statistics Software, w przygotowaniu, 1-30. PDF
Jeromy Anglim
źródło
7

Bardzo prosty przykład, często pomijany, który powinien znajdować się w doświadczeniu wielu czytelników, dotyczy ocen lub ocen przyznawanych pracy naukowej. Często oceny za poszczególne zadania są w istocie pomiarami porządkowymi opartymi na osądzie, nawet jeśli dla zwyczaju są one podawane jako (powiedzmy) oceny procentowe lub oceny w skali z maksimum 5 (być może również z kropkami dziesiętnymi). Oznacza to, że nauczyciel może przeczytać esej, rozprawę, pracę magisterską lub artykuł i zdecydować, że zasługuje na 42%, 4 lub cokolwiek innego. Nawet gdy oceny są oparte na szczegółowym schemacie oceny, skala jest u podstaw pewnej odległości od skali pomiaru przedziału lub współczynnika.

Ale potem wiele instytucji uważa, że ​​jeśli masz wystarczająco dużo tych ocen lub ocen, całkowicie uzasadnione jest ich uśrednienie (średnia ocen itp.), A nawet ich bardziej szczegółowa analiza. W pewnym momencie pomiary porządkowe przekształcają się w skalę podsumowującą, która jest traktowana tak, jakby była ciągła.

Koneserzy ironii zauważą, że kursy statystyczne w wielu wydziałach lub szkołach często uczą, że jest to w najlepszym razie wątpliwe, aw najgorszym - złe, a jednocześnie realizowane jako procedura ogólnouczelniana.

Nick Cox
źródło
5

W analizie rankingu według częstotliwości, podobnie jak w przypadku wykresu Pareto i powiązanych wartości (np. Ile kategorii stanowi 80% największych wad produktu)

AdamV
źródło
5
Ważna uwaga, którą można rozszerzyć: wiele modeli danych porządkowych opiera się na założeniu, że nie są to dane porządkowe, ale ich skumulowane prawdopodobieństwa, które można modelować.
Nick Cox,
4

Przedstawię argument, że traktowanie prawdziwie kategorycznej, nie porządkowej zmiennej jako ciągłej może czasem mieć sens.

Jeśli budujesz drzewa decyzyjne w oparciu o duże zbiory danych, przekształcenie zmiennych kategorialnych w zmienne pozorne może być kosztowne pod względem mocy obliczeniowej i pamięci. Ponadto niektóre modele (np. randomForestW R) nie mogą obsługiwać zmiennych kategorialnych na wielu poziomach.

W takich przypadkach model oparty na drzewie powinien być w stanie zidentyfikować niezwykle ważne kategorie, NAWET JEŚLI są one kodowane jako zmienna ciągła. Przemyślany przykład:

set.seed(42)
library(caret)
n <- 10000
a <- sample(1:100, n, replace=TRUE)
b <- sample(1:100, n, replace=TRUE)
e <- runif(n)
y <- 2*a + 1000*(b==7) + 500*(b==42) + 1000*e
dat1 <- data.frame(y, a, b)
dat2 <- data.frame(y, a, b=factor(b))

y jest zmienną ciągłą, a jest zmienną ciągłą, a b jest zmienną kategorialną. Jednak dat1wb jest traktowane jako ciągłe.

Dopasowując drzewo decyzyjne do tych 2 zestawów danych, okazuje się, że dat1jest nieco gorszy niż dat2:

model1 <- train(y~., dat1, method='rpart')
model2 <- train(y~., dat2, method='rpart')
> min(model1$results$RMSE)
[1] 302.0428
> min(model2$results$RMSE)
[1] 294.1411

Jeśli spojrzysz na 2 modele, zobaczysz, że są one bardzo podobne, ale model 1 pomija znaczenie b == 42:

> model1$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) a< 42.5 4206 407731400  553.5374 *
   3) a>=42.5 5794 554105700  657.9563  
     6) b>=7.5 5376 468539000  649.2613 *
     7) b< 7.5 418  79932820  769.7852  
      14) b< 6.5 365  29980450  644.6897 *
      15) b>=6.5 53   4904253 1631.2920 *
> model2$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) b7< 0.5 9906 889387900  604.7904  
     4) a< 42.5 4165 364209500  543.8927 *
     5) a>=42.5 5741 498526600  648.9707  
      10) b42< 0.5 5679 478456300  643.7210 *
      11) b42>=0.5 62   5578230 1129.8230 *
   3) b7>=0.5 94   8903490 1588.5500 *

Model1 działa jednak w około 1/10 czasu modelu2:

> model1$times$everything
   user  system elapsed 
  4.881   0.169   5.058 
> model2$times$everything
   user  system elapsed 
 45.060   3.016  48.066 

Możesz oczywiście dostosować parametry problemu, aby znaleźć sytuacje, w których dat2daleko przewyższa dat1lub dat1nieznacznie przewyższa dat2.

Ogólnie nie opowiadam się za traktowaniem zmiennych kategorialnych jako ciągłych, ale znalazłem sytuacje, w których spowodowało to znaczne skrócenie czasu potrzebnego na dopasowanie modeli, bez zmniejszania ich dokładności predykcyjnej.

Zach
źródło
3

Bardzo fajne streszczenie tego tematu można znaleźć tutaj:

mijkerhemtulla.socsci.uva.nl PDF

„Kiedy zmienne jakościowe można traktować jako ciągłe? Porównanie solidnych ciągłych i kategorycznych metod szacowania SEM w warunkach nieoptymalnych”.

Mijke Rhemtulla, Patricia É. Brosseau-Liard i Victoria Savalei

Badają metody na osiągnięcie tego celu na około 60 stron i zapewniają wgląd w to, kiedy warto to zrobić, jakie podejście wybrać oraz jakie są mocne i słabe strony każdego podejścia, aby dopasować się do konkretnej sytuacji. Nie obejmują wszystkich (jak się uczę, wydaje się, że jest ich nieograniczona ilość), ale te, które pokrywają, pokrywają dobrze.

Taal
źródło
2

Jest inny przypadek, gdy ma to sens: kiedy dane są próbkowane z ciągłych danych (na przykład przez przetwornik analogowo-cyfrowy). W przypadku starszych instrumentów ADC często byłyby 10-bitowe, co daje nominalnie dane porządkowe kategorii 1024, ale dla większości celów można je traktować jako rzeczywiste (chociaż będą pewne artefakty dla wartości w pobliżu dolnej części skali). Obecnie ADC są częściej 16 lub 24-bitowe. Kiedy mówisz o „kategoriach” 65536 lub 16777216, naprawdę nie masz problemów z traktowaniem danych jako ciągłych.

Kieran O'Neill
źródło
Zdecydowanie zgadzam się z pańskimi wynikami, ale zapewne takie dane nigdy nie były normalne, po prostu dyskretne. Winne są tu kiepskie metody obliczania proporcji między nominalnymi i porządkowymi przedziałami, ponieważ często nie wskazują, że liczba porządkowa implikuje dyskretność, ale nie odwrotnie. Liczba jest porządkowa, ale jest to również interwał i stosunek.
Nick Cox,
@Nick Ordinal oznacza dyskretne? Niekoniecznie. Ciągłe środki mogą być porządkowe. Na przykład zmienne fizjologiczne, takie jak GSP lub częstość akcji serca, są ciągłe, ale jako miary zmiennych psychologicznych, takich jak lęk lub pobudzenie, są jedynie porządkowe. Pojęcie porządkowego vs przedziału naprawdę odnosi się do liniowości funkcji, która odnosi miarę do tego, co ma być mierzona.
Ray Koopman,
To ciekawa uwaga, ale kiedy wejdziesz na to terytorium, nie widzę, jak możesz w ogóle sklasyfikować tętno bez niezależnych dowodów na to, czym tak naprawdę jest lęk, i ostatecznie większość zmiennych uważanych za proksymalne jest zatem nie do zaklasyfikowania. Czy zdecydowałbyś się na odmowę użycia metod dla danych przedziałów lub współczynników, ilekroć przejdziesz do traktowania skali pomiarowej jako tylko porządkowej? Nie sądzę, że dane zachowują się inaczej z powodu tego, co zamierzasz z nimi zrobić; to dla mnie sedno problemu.
Nick Cox,
1
@Nick Pytanie brzmi, czy funkcja, która wiąże mierzoną wartość z „prawdziwą” wartością, jest wystarczająco zbliżona do liniowej, tak że traktowanie jej jako takiej nie doprowadzi do błędnych wniosków merytorycznych, czy też należy ją traktować jako monotoniczną. Zwykle jest niewiele lub brak twardych danych, na których można oprzeć decyzję; prawie zawsze będzie to apel sądowy, w sprawie którego inteligentni ludzie świadomi mogą zgodzić się z tym nie zgodzić.
Ray Koopman
1
Myślę, że w dyskusjach na temat skal pomiarowych w statystyce zwykle kładzie się nacisk na matematyczne właściwości zmiennych i jakie są uzasadnione operacje matematyczne dla każdej z nich. To dość sporne. Naukowe obawy dotyczące tego, czy coś mierzy to, co powinno, chętnie zgadzam się na to, aby być niezwykle ważnym, ale widzę to jako raczej inny obszar debaty.
Nick Cox