Próbuję znaleźć sposób na zmniejszenie liczby kategorii w danych nominalnych lub porządkowych.
Powiedzmy na przykład, że chcę zbudować model regresji na zbiorze danych, który ma wiele czynników nominalnych i porządkowych. Chociaż nie mam problemów z tym krokiem, często spotykam się z sytuacjami, w których nominalna cecha jest bez obserwacji w zestawie szkoleniowym, ale później występuje w zbiorze danych sprawdzania poprawności. To naturalnie prowadzi do błędu, gdy model jest prezentowany z (jak dotąd) niewidocznymi przypadkami. Inną sytuacją, w której chciałbym łączyć kategorie, jest po prostu zbyt duża liczba kategorii z niewielką liczbą obserwacji.
Więc moje pytania to:
- Chociaż zdaję sobie sprawę, że najlepiej byłoby połączyć wiele nominalnych (i porządkowych) kategorii w oparciu o wcześniejsze informacje rzeczywiste, które reprezentują, czy są dostępne systematyczne metody (
R
najlepiej pakiety)? - Jakie masz wskazówki i sugestie dotyczące progów progowych i tak dalej?
- Jakie są najpopularniejsze rozwiązania w literaturze?
- Czy istnieją inne strategie niż łączenie małych kategorii nominalnych z nową kategorią „INNE”?
Jeśli masz inne sugestie, zachęcamy do dzwonienia.
Odpowiedzi:
To jest odpowiedź na twoje drugie pytanie.
Podejrzewam, że właściwe podejście do tego rodzaju decyzji będzie determinowane w dużej mierze przez normy dyscyplinarne i oczekiwania odbiorców, którzy zamierzają dotrzeć do Twojej pracy. Jako naukowiec społeczny często pracuję z danymi ankietowymi (lub podobnymi do ankiet) i zawsze próbuję zrównoważyć logikę merytoryczną i opartą na danych, kiedy zawalam skale porządkowe lub zmienne kategorialne. Innymi słowy, dołożę wszelkich starań, aby zastanowić się, jakie kombinacje elementów „wiszą razem” pod względem ich zawartości, a także dystrybucji odpowiedzi przed złożeniem elementów.
Oto ostatni przykład konkretnego (porządkowego) pytania ankiety, które dotyczyło pięciopunktowej skali częstotliwości:
Obecnie nie mam dostępnych danych, ale wyniki były mocno przekrzywione w kierunku „nigdy” końca skali. W rezultacie mój współautor i ja postanowiliśmy połączyć odpowiedzi w dwie grupy: „Raz w miesiącu lub dłużej” i „Mniej niż raz w miesiącu”. Wynikowa (binarna) zmienna została bardziej równomiernie rozłożona i odzwierciedlała znaczące rozróżnienie w kategoriach praktycznych: ponieważ wiele klubów i organizacji nie spotyka się częściej niż raz w miesiącu, istnieją dobre powody, by sądzić, że ludzie, którzy uczęszczają na spotkania przynajmniej tak często, „aktywni” członkowie takich grup, podczas gdy ci, którzy uczęszczają rzadziej (lub nigdy), są „nieaktywni”.
Tak więc z mojego doświadczenia wynika, że decyzje te są co najmniej tyle samo sztuki co nauki. To powiedziawszy, zwykle próbuję to zrobić przed dopasowaniem jakichkolwiek modeli, ponieważ pracuję w dyscyplinie, w której wszystko inne jest postrzegane (negatywnie) jako eksploracja danych i wysoce nienaukowe (zabawne czasy!).
Mając to na uwadze, pomocne może być powiedzenie nieco więcej o tym, jakiego rodzaju odbiorców masz na myśli. W twoim najlepszym interesie byłoby również przejrzenie kilku znanych podręczników metodycznych w swojej dziedzinie, ponieważ często mogą wyjaśnić, co uchodzi za „normalne” zachowanie w danej społeczności badawczej.
źródło
Rodzaje podejść omawianych przez Ashaw mogą prowadzić do stosunkowo bardziej systematycznej metodologii. Ale myślę też, że przez systematyczne rozumiesz algorytm. W tym przypadku narzędzia do eksploracji danych mogą wypełnić lukę. Po pierwsze, istnieje procedura automatycznego wykrywania interakcji chi-kwadrat (CHAID) wbudowana w moduł drzewa decyzyjnego SPSS; może, zgodnie z regułami określonymi przez użytkownika, zwijać porządkowe lub nominalne kategorie zmiennych predykcyjnych, gdy pokazują one podobne wartości zmiennej wynikowej (ciągłej lub nominalnej). Reguły te mogą zależeć od wielkości grup, które są zwijane lub tworzone przez zwijanie, lub od p-wartości powiązanych testów statystycznych. Wierzę, że niektóre programy drzewa klasyfikacji i regresji (CART) mogą robić to samo. Inni respondenci powinni móc mówić o podobnych funkcjach wykonywanych przez sieć neuronową lub inne aplikacje dostarczane za pośrednictwem różnych pakietów eksploracji danych.
źródło