Aby wyjaśnić, kiedy mam na myśli statystyki podsumowujące, mam na myśli średnią, zakresy mediany kwartylowej, wariancję, odchylenie standardowe.
Czy podsumowując jednoznaczny , jakościowy lub jakościowy , biorąc pod uwagę zarówno przypadki nominalne, jak i porządkowe , sensowne jest znalezienie jego średniej, mediany, zakresów kwartylowych, wariancji i odchylenia standardowego?
Jeśli tak, czy jest inaczej niż w przypadku podsumowania zmiennej ciągłej i jak?
Odpowiedzi:
Ogólnie odpowiedź brzmi „nie”. Można jednak argumentować, że możesz przyjąć medianę danych porządkowych, ale oczywiście będziesz mieć kategorię jako medianę, a nie liczbę. Mediana dzieli dane równo: połowa powyżej, połowa poniżej. Dane porządkowe zależą tylko od kolejności.
Ponadto, w niektórych przypadkach, porządek można przekształcić w dane poziomu przybliżonego przedziału. Dzieje się tak, gdy dane porządkowe są grupowane (np. Pytania o dochód są często zadawane w ten sposób). W takim przypadku możesz znaleźć dokładną medianę i możesz być w stanie zbliżyć inne wartości, szczególnie jeśli określone są dolne i górne granice: Możesz założyć pewien rozkład (np. Jednolity) w każdej kategorii. Innym przypadkiem danych porządkowych, które można wprowadzić w interwale, jest podanie poziomom równoważników liczbowych. Na przykład: Nigdy (0%), czasami (10-30%), około połowa czasu (50%) i tak dalej.
Aby (jeszcze raz) zacytować Davida Coxa:
źródło
Jak już wspomniano, środki, SD i punkty zawiasów nie mają znaczenia dla danych kategorycznych. Punkty zawiasów (np. Mediana i kwartyle) mogą mieć znaczenie dla danych porządkowych. W tytule pytasz także, jakie statystyki podsumowujące należy zastosować do opisu danych kategorycznych. Standardowo charakteryzowane są dane kategoryczne według liczby i wartości procentowych. (Możesz również podać 95% przedział ufności wokół wartości procentowych.) Na przykład, jeśli twoje dane to:
Możesz je streścić w następujący sposób:
źródło
Jeśli masz zmienne nominalne, nie ma funkcji porządkowania ani odległości. Jak więc zdefiniować którąkolwiek ze wspomnianych statystyk podsumowujących? Nie sądzę, że możesz. Kwartyle i zakres wymagają co najmniej zamówienia, a środki i wariancja wymagają danych liczbowych. Myślę, że wykresy słupkowe i wykres kołowy są typowymi przykładami właściwych sposobów podsumowywania zmiennych jakościowych, które nie są porządkowe.
źródło
Tryb nadal działa! Czy to nie jest ważna statystyka podsumowująca? (Jaka jest najczęstsza kategoria?) Myślę, że mediana sugestii ma niewielką lub żadną wartość statystyczną, ale tryb ma.
Wartościowe będą również liczyć odrębne. (Ile masz kategorii?)
Możesz tworzyć współczynniki, takie jak (najczęstsza kategoria) / (najmniej powszechna kategoria) lub (nr 1 najczęstsza kategoria) / (nr 2 najczęstsza kategoria). Również (najczęstsza kategoria) / (wszystkie pozostałe kategorie), jak reguła 80/20.
Możesz także przypisywać liczby do swoich kategorii i szaleć ze wszystkimi zwykłymi statystykami. AA = 1, Hisp = 2 itd. Teraz możesz obliczyć średnią, medianę, tryb, SD itp.
źródło
Doceniam inne odpowiedzi, ale wydaje mi się, że pewne tło topologiczne dałoby bardzo potrzebną strukturę odpowiedzi.
Definicje
Zacznijmy od ustalenia definicji domen:
zmienna kategorialna to taka, której domena zawiera elementy, ale nie ma między nimi znanej relacji (dlatego mamy tylko kategorie). Przykłady zależą od kontekstu, ale powiedziałbym, że w ogólnym przypadku trudno porównywać dni tygodnia: czy jest poniedziałek przed niedzielą, jeśli tak, to co z następnym poniedziałkiem? Być może łatwiejszym, ale rzadziej używanym przykładem są ubrania: bez podania kontekstu, który nadawałby się do porządku, trudno powiedzieć, czy spodnie pojawiają się przed swetrami, czy odwrotnie.
zmienna porządkowa to taka, która ma zdefiniowaną całkowitą kolejność w domenie, tzn. dla każdego z dwóch elementów domeny możemy stwierdzić, że albo są one identyczne, albo jeden jest większy od drugiego. Likerta skalę jest przykład dobra definicji zmiennej porządkowej. „nieco zgadzam się” jest zdecydowanie bliższe „zdecydowanie zgadzam się” niż „nie zgadzam się”.
zmienna interwałowa to taka, której domena określa odległości między elementami ( metrykę ), co pozwala nam definiować interwały.
Przykłady domen
Jako najczęstszy zestaw, którego używamy, liczby naturalne i rzeczywiste mają standardowe całkowite zamówienie i dane. Dlatego musimy zachować ostrożność, przypisując liczby do naszych kategorii. Jeśli nie staramy się ignorować kolejności i odległości, praktycznie przekształcamy nasze dane kategoryczne w dane przedziałowe. Kiedy używa się algorytmu uczenia maszynowego, nie wiedząc, jak on działa, ryzykuje się niechętnymi przyjmowaniem takich założeń, potencjalnie unieważniając własne wyniki. Na przykład najpopularniejsze algorytmy głębokiego uczenia działają na liczbach rzeczywistych, wykorzystując ich interwał i ciągłe właściwości. Kolejny przykład, pomyśl o 5-punktowych skalach Likerta i o tym, w jaki sposób przeprowadzamy na nich analizę, że odległość między zdecydowanie się zgadza i zgadza sięjest tym samym co nie zgadzam się i ani się nie zgadzam, ani nie zgadzam . Trudno uzasadnić taki związek.
Innym zestawem, z którym często pracujemy, są łańcuchy . Istnieje wiele wskaźników podobieństwa ciągów, które przydają się podczas pracy z ciągami. Nie zawsze są one jednak przydatne. Na przykład w przypadku adresów John Smith Street i John Smith Road są dość bliskie pod względem podobieństwa ciągów, ale oczywiście reprezentują dwa różne byty, które mogą być daleko od siebie.
Statystyki podsumowujące
Ok, zobaczmy teraz, jak pasują do tego niektóre statystyki podsumowujące. Ponieważ statystyki działają z liczbami, ich funkcje są dobrze zdefiniowane w przedziałach czasowych. Zobaczmy jednak przykłady, czy / jak możemy uogólnić je na dane kategoryczne lub porządkowe:
Przykład kontekstowości danych
Na koniec chciałbym jeszcze raz podkreślić, że kolejność i dane, które definiujesz w swoich danych, są bardzo kontekstowe. Powinno to być do tej pory oczywiste, ale dam wam ostatni przykład: pracując z lokalizacjami geograficznymi, mamy wiele różnych sposobów podejścia do nich:
źródło