Mam problem z następującym problemem, który, mam nadzieję, jest łatwy dla statystyk (jestem programistą z pewnym doświadczeniem w statystyce).
Muszę streścić odpowiedzi na ankietę (dla kierownictwa). Ankieta zawiera ponad 100 pytań, pogrupowanych w różne obszary (z około 5 do 10 pytań na obszar). Wszystkie odpowiedzi są kategoryczne (w skali porządkowej przypominają „wcale”, „rzadko”… „codziennie lub częściej”).
Kierownictwo chciałoby uzyskać podsumowanie dla każdego obszaru i to jest mój problem: jak agregować odpowiedzi kategoryczne w ramach powiązanego pytania? . Jest zbyt wiele pytań, aby stworzyć wykres, a nawet wykres kratowy dla każdego obszaru. Jeśli to możliwe, preferuję podejście wizualne w porównaniu, powiedzmy, z tabelami z liczbami (niestety, nie będą ich czytać).
Jedyne, co mogę wymyślić, to policzyć liczbę odpowiedzi w każdym obszarze, a następnie wykreślić histogram.
Czy jest coś jeszcze dostępnego dla danych kategorycznych?
Używam R, ale nie jestem pewien, czy ma to znaczenie, myślę, że jest to bardziej ogólne pytanie statystyczne.
źródło
Odpowiedzi:
Naprawdę musisz dowiedzieć się, jakie jest pytanie, na które próbujesz odpowiedzieć, lub jakie pytanie najbardziej interesuje kierownictwo. Następnie możesz wybrać pytania ankiety, które najbardziej odpowiadają Twojemu problemowi.
Nie wiedząc nic o swoim problemie lub zestawie danych, oto kilka ogólnych rozwiązań:
źródło
Jest fajny artykuł na temat technik wizualizacji, z którego może skorzystać Michael Friendly:
(W rzeczywistości jest całość książka poświęcona temu samemu autorowi.) Pakiet vcd w R implementuje wiele z tych technik.
źródło
Standardowe opcje obejmują:
Biorąc pod uwagę, że agregujesz według elementów i dużych próbek osób w organizacji, obie powyższe opcje (tj. Średnia od 1 do 5 lub średnia procentowa powyżej punktu) będą wiarygodne na poziomie organizacji ( patrz tutaj dla dalsza dyskusja ). Tak więc, każda z powyższych opcji zasadniczo przekazuje tę samą informację.
Ogólnie nie martwiłbym się tym, że przedmioty są kategoryczne. Do czasu utworzenia skal przez agregację elementów, a następnie agregację na próbie respondentów, skala będzie zbliżona do skali ciągłej.
Kierownictwo może uznać jedną metrykę za łatwiejszą do interpretacji. Kiedy otrzymuję wyniki w zakresie jakości nauczania (tj. Średni wynik zadowolenia uczniów, powiedzmy 100 uczniów), jest to średnia w skali od 1 do 5 i to jest w porządku. Przez lata po zapoznaniu się z własnymi wynikami z roku na rok, a także po zapoznaniu się z pewnymi normami dla uniwersytetu, opracowałem ramy odniesienia dla różnych wartości. Jednak kierownictwo czasami woli myśleć o odsetku popierającym stwierdzenie lub odsetku pozytywnych odpowiedzi, nawet jeśli w pewnym sensie jest to średni procent.
Głównym wyzwaniem jest podanie konkretnych punktów odniesienia dla wyników. Kierownictwo będzie chciało wiedzieć, co faktycznie oznaczają liczby . Na przykład, jeśli średnia odpowiedź dla skali wynosi 4,2, co to oznacza? Czy to jest dobre? To jest złe? Czy to w porządku?
Jeśli korzystasz z ankiety przez wiele lat lub w różnych organizacjach, możesz zacząć opracowywać normy. Dostęp do norm jest jednym z powodów, dla których organizacje często wybierają zewnętrznego dostawcę ankiety lub korzystają ze standardowej ankiety.
Możesz także przeprowadzić analizę czynnikową, aby sprawdzić, czy przypisanie przedmiotów do wag jest empirycznie uzasadnione.
Jeśli chodzi o podejście wizualne, możesz mieć prosty wykres liniowy lub słupkowy z typem skali na osi x i wynikiem na osi y. Jeśli masz dane normatywne, możesz je również dodać.
źródło
Tak. Uważam, że klastrowanie jest bardzo skutecznym podejściem do redukcji danych w celu zmniejszenia danych z ankiet zarówno w celu zrozumienia, jak i prezentacji zarządzania.
Analiza klas ukrytych (traktująca skale odpowiedzi jako porządkowe) lub k-średnie (traktując je jako ciągłe) może być postrzegana jako forma kompresji informacji . Klasyfikacja respondentów do ich najbardziej prawdopodobnego segmentu generalnie daje zmienną kategoryczną, która ma intuicyjne wyjaśnienia podczas profilowania pod względem odpowiedzi.
Następnie możesz nazwać segmenty i użyć tych zmiennych do analizy i prezentacji na poziomie podsumowania.
Dopasuj klaster do grup powiązanych elementów (np. Poniżej) lub ewentualnie wszystkich razem.
Często używam LatentGold, ale uważam, że FASTCLUS w SAS jest dobrym rozwiązaniem.
Zanim to zrobisz, zastanów się nad dostosowaniem odpowiedzi każdej osoby do jej skali (kontrowersyjnej, ale pragmatycznej). Niektórzy ludzie opierają się tylko na jednym końcu skali, unikając negatywnych lub pozytywnych. Grupowanie surowych odpowiedzi zazwyczaj dzieli ludzi przez takie zachowanie.
Standaryzacja odpowiedzi każdego respondenta na jego własną średnią i grupowanie, które często ujawnia zmienne, które poruszają się razem w bardzo interesujący sposób.
źródło