Jakich metod statystycznych mogę użyć do znalezienia popularnych lub powszechnych kombinacji zmiennych kategorialnych?

10

Robię badania nad używaniem wielu narkotyków. Mam zestawy danych o 400 narkomanach, którzy stwierdzili, że używają narkotyków. Istnieje ponad 10 leków, a więc istnieją duże możliwe kombinacje. Przekodowałem większość spożywanych przez siebie narkotyków na zmienne binarne (tj. Heroina wynosi 1, jeśli narkoman nadużywał heroiny w innym przypadku 0). Chciałbym znaleźć popularne lub popularne kombinacje 2 lub 3 leków. Czy są dostępne metody statystyczne?

hypothesis-testing clustering combinatorics association-measure association-rules tatami
źródło

6

Istnieje tylko 1024 możliwe kombinacje leków, które można stosować razem (jeśli było tylko 10 leków) przy założeniu, że każdy użytkownik użył co najmniej 1 lek. Możesz po prostu przekonwertować zmienne 0/1 na łańcuch i połączyć je i przeprowadzić analizy częstotliwości na łańcuchu, aby zobaczyć, które kombinacje pojawiają się najczęściej. Biorąc przykład zabawki, powiedz, że tylko 3 leki, A, B i C były w twoim badaniu. Jeśli uczestnik alldrugsużyłby leku A i C, zmienna mogłaby być kodowana 101. Uczestnik, który używa tylko leku B, byłby kodowany 010. Przeprowadź na nich częstotliwości, aby znaleźć tę wybraną najczęściej. Większość oprogramowania powinna być w stanie przetworzyć to w kilka sekund.

StatsStudent
źródło

1

Zgoda. Jest tylko 400 uzależnionych, więc 1024 nie mogą wystąpić.

Nick Cox,

Tak. To powinno być bułka z masłem.

StatsStudent,

5

Ukryte modelowanie klas byłoby jednym, nadzorowanym podejściem do uczenia się w celu znalezienia ukrytych partycji lub grup narkotyków i użytkowników narkotyków. LC jest bardzo elastyczną metodą z dwoma szerokimi podejściami: replikacje oparte na powtarzanych pomiarach dla jednego pacjenta vs. replikacje oparte na krzyżowej klasyfikacji zestawu zmiennych kategorialnych. Twoje dane pasowałyby do drugiego typu.

Elastyczność LC jest funkcją jego zdolności do absorbowania „mieszanin” zmiennych o różnych skalowaniach (np. Jakościowych lub ciągłych). Ponieważ podejście znajduje ukryte partycje, segmenty lub klastry w danych, można je również uznać za technikę zmniejszania wymiarów.

Wszystkie modele LC mają 2 etapy: w etapie 1 identyfikowana jest zmienna zależna lub docelowa i budowany jest model regresji. Na etapie 2 analizowany jest pozostały (pojedynczy wektor „utajony”) z modelu etapu 1 i tworzone są partycje przechwytujące zmienność (lub niejednorodność) - „klasy utajone” - w tym wektorze.

Dostępne jest bezpłatne oprogramowanie do pobrania, które prawdopodobnie działałoby dla Ciebie całkiem dobrze. Jednym z nich jest moduł R o nazwie polCA dostępny tutaj:

http://www.jstatsoft.org/article/view/v042i10

Jeśli masz około 1000 USD na produkt komercyjny, Latent Gold jest dostępny na stronie www.statisticinnovations.com. Od lat korzystam z Latent Gold , jestem wielkim fanem tego produktu ze względu na jego moc analityczną i zakres rozwiązań. Na przykład, polCA jest użyteczne tylko w przypadku modeli LC z kategorycznymi informacjami, podczas gdy LG działa na wszystkich platformach ... a ponadto ich programiści zawsze dodają nowe moduły. Najnowszy dodatek buduje modele LC przy użyciu ukrytych łańcuchów Markowa. Należy jednak pamiętać, że LG nie jest platformą danych typu „end-to-end”, tzn. Nie nadaje się do ciężkich manipulacji danymi lub podnoszenia danych.

W przeciwnym razie istnieje mnóstwo innych podejść do analizy informacji kategorycznych, które są szeroko obsługiwane przez oprogramowanie statystyczne, takie jak R, SPSS, SAS, Python itp. Obejmują one analizę tabeli kontyngencji, modele log-liniowe, modele mieszanki skończonej, regresję tensora Bayesa, i tak dalej. Literatura w tej dziedzinie jest obszerna i rozpoczęła się wraz z Bishopem i wsp., Discrete Multivariate Analysis w 1975 r., Obejmuje modele RC Leo Goodmana oparte na jego pracy wykonanej od lat 80., Kategoryczną analizę danych Agresti , książki Stephena Fienberga i obejmuje Thomasa Wickensa „doskonała książka Multiway Contingency Tables Analysis for the Social Sciences opublikowana w 1989 r. Bayesowska regresja tensorowa jest tytułem artykułu Davida Dunsona z Duke i jest swego rodzaju „najnowocześniejszym”, ponieważ jest najnowszą metodą modelowania masowo wielostronnych tabel awaryjnych.

Mike Hunter
źródło

uwielbiam listę referencji!

Chris

3

Co przychodzi Ci do głowy intuicyjnie? Chcesz policzyć kombinacje, dlaczego nie po prostu znaleźć wszystkie możliwe kombinacje i po prostu policzyć? Proponuję zajrzeć do częstego wyszukiwania zestawów przedmiotów.

Wikipedia - Apriori

Oto kilka implementacji tego samego:

Wyszukiwanie wzorów częstotliwości

Surowy Nisar
źródło

Jakich metod statystycznych mogę użyć do znalezienia popularnych lub powszechnych kombinacji zmiennych kategorialnych?

Odpowiedzi: