Jakich statystyk podsumowujących używać ze zmiennymi jakościowymi lub jakościowymi?

18

Aby wyjaśnić, kiedy mam na myśli statystyki podsumowujące, mam na myśli średnią, zakresy mediany kwartylowej, wariancję, odchylenie standardowe.

Czy podsumowując jednoznaczny , jakościowy lub jakościowy , biorąc pod uwagę zarówno przypadki nominalne, jak i porządkowe , sensowne jest znalezienie jego średniej, mediany, zakresów kwartylowych, wariancji i odchylenia standardowego?

Jeśli tak, czy jest inaczej niż w przypadku podsumowania zmiennej ciągłej i jak?

chutsu
źródło
2
Prawie nie widzę żadnej różnicy między zmienną jakościową a jakościową, z wyjątkiem jednej terminologii. W każdym razie bardzo trudno byłoby obliczyć coś takiego jak średnia lub SD dla zmiennej nominalnej (np. Koloru włosów). Może myślisz o zmiennych kategorialnych o uporządkowanych poziomach?
chl
Nie, jeśli dane kategorialne mają porządek lub poziomy rankingowe, to według tej strony internetowej mówi się, że są one porządkowe: [ stats.gla.ac.uk/steps/glossary/presenting_data.html#orddat] i mówi „Możesz liczyć i porządkuj, ale nie mierz, dane porządkowe ”
chutsu,
Ale czy się mylę?
chutsu

Odpowiedzi:

8

Ogólnie odpowiedź brzmi „nie”. Można jednak argumentować, że możesz przyjąć medianę danych porządkowych, ale oczywiście będziesz mieć kategorię jako medianę, a nie liczbę. Mediana dzieli dane równo: połowa powyżej, połowa poniżej. Dane porządkowe zależą tylko od kolejności.

Ponadto, w niektórych przypadkach, porządek można przekształcić w dane poziomu przybliżonego przedziału. Dzieje się tak, gdy dane porządkowe są grupowane (np. Pytania o dochód są często zadawane w ten sposób). W takim przypadku możesz znaleźć dokładną medianę i możesz być w stanie zbliżyć inne wartości, szczególnie jeśli określone są dolne i górne granice: Możesz założyć pewien rozkład (np. Jednolity) w każdej kategorii. Innym przypadkiem danych porządkowych, które można wprowadzić w interwale, jest podanie poziomom równoważników liczbowych. Na przykład: Nigdy (0%), czasami (10-30%), około połowa czasu (50%) i tak dalej.

Aby (jeszcze raz) zacytować Davida Coxa:

Nie ma rutynowych pytań statystycznych, tylko wątpliwe rutyny statystyczne

Peter Flom - Przywróć Monikę
źródło
1
Dostarczasz dobrych powiązanych informacji, ale myślę, że w odpowiedzi na pytanie chl, PO wyjaśnił, że mówi o kategorycznych danych, które nie są porządkowe. Więc twoja odpowiedź tak naprawdę nie jest odpowiedzią, ale nie jestem osobą, która udzieliłaby głosu negatywnego. Ale myślę, że powinieneś zmienić to na komentarz.
Michael R. Chernick
1
Nie, nie będę głosować za odpowiedzią, ponieważ uważam, że dodało to pewnej wartości mojemu ograniczonemu zrozumieniu. Powinienem wyjaśnić w swoim opisie, że rozważam zarówno statystyki porządkowe, jak i nominalne, więc wina jest moja.
chutsu
5

Jak już wspomniano, środki, SD i punkty zawiasów nie mają znaczenia dla danych kategorycznych. Punkty zawiasów (np. Mediana i kwartyle) mogą mieć znaczenie dla danych porządkowych. W tytule pytasz także, jakie statystyki podsumowujące należy zastosować do opisu danych kategorycznych. Standardowo charakteryzowane są dane kategoryczne według liczby i wartości procentowych. (Możesz również podać 95% przedział ufności wokół wartości procentowych.) Na przykład, jeśli twoje dane to:

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

Możesz je streścić w następujący sposób:

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)
gung - Przywróć Monikę
źródło
3

Jeśli masz zmienne nominalne, nie ma funkcji porządkowania ani odległości. Jak więc zdefiniować którąkolwiek ze wspomnianych statystyk podsumowujących? Nie sądzę, że możesz. Kwartyle i zakres wymagają co najmniej zamówienia, a środki i wariancja wymagają danych liczbowych. Myślę, że wykresy słupkowe i wykres kołowy są typowymi przykładami właściwych sposobów podsumowywania zmiennych jakościowych, które nie są porządkowe.

Michael R. Chernick
źródło
3
@PeterFlom Moim celem nie było wyliczenie wszystkich możliwych graficznych procedur podsumowywania danych jakościowych. Naprawdę chcę podkreślić, że naprawdę można porównać proporcje i sposób, w jaki proporcje są rozdzielone między kategorie. Aby wizualnie rozpoznać różnice w proporcjach, wykresy słupkowe są łatwiejsze do wizualizacji niż wykresy kołowe, ale są to tylko dwa popularne sposoby podsumowywania danych kategorycznych. Nie chcę powiedzieć, że są najlepsze, ponieważ nie znam wszystkich dostępnych metod.
Michael R. Chernick
7
Z pewnością są popularne! Ale myślę, że ponoszenie przez nas odpowiedzialności, jako ekspertów w tej dziedzinie, jest zmniejszanie popularności wykresów kołowych .
Peter Flom - Przywróć Monikę
3
Cleveland pokazał po pierwsze, że ludzie gorzej postrzegają pomiar kątowy niż odległość liniowa. Po drugie, zmiana kolorów na wykresie kołowym zmieniła postrzeganie wielkości plasterków przez ludzi. Po trzecie, obracanie wykresu kołowego zmieniło postrzeganie przez ludzi wielkości plasterków. Po czwarte, ludzie mieli problemy z sortowaniem plasterków od największego do najmniejszego, chyba że mieli bardzo różną wielkość. Wykresy punktowe w Cleveland omijają to wszystko.
Peter Flom - Przywróć Monikę
6
@Michael „Tabela jest prawie zawsze lepsza niż głupi wykres kołowy; jedynym gorszym projektem niż wykres kołowy jest kilka z nich… wykresów kołowych nigdy nie należy używać.” - Tufte. „Dane, które można przedstawić za pomocą wykresów kołowych, zawsze można wyświetlić za pomocą wykresu punktowego. ... w latach dwudziestych na stronach JASA toczyła się bitwa o względne zalety wykresów kołowych i podzielonych wykresów słupkowych ... oba obozy przegrywają, ponieważ inne wykresy działają znacznie lepiej niż podzielone wykresy słupkowe lub kołowe. ”- Cleveland. Jak wiecie, Cleveland nie ma nakazu: jest tak silny, jak tylko się da.
whuber
6
BTW, @Michael, zgadzam się z tobą i argumentami, które wysuwasz w tym wątku (które uważam za przekonujące i dobrze przedstawione), ale jako moderator muszę wyrazić silne sprzeciwy członków społeczności dotyczące „tonu głosu” adoptujesz. Postępuj zgodnie z etykietą witryny: trzymaj się tematu i nie atakuj innych. Nie pisz nawet rzeczy, które mogą zabrzmieć jak atak, nawet żartem. Oczywiście to samo upomnienie dotyczy wszystkich.
whuber
2

Tryb nadal działa! Czy to nie jest ważna statystyka podsumowująca? (Jaka jest najczęstsza kategoria?) Myślę, że mediana sugestii ma niewielką lub żadną wartość statystyczną, ale tryb ma.

Wartościowe będą również liczyć odrębne. (Ile masz kategorii?)

Możesz tworzyć współczynniki, takie jak (najczęstsza kategoria) / (najmniej powszechna kategoria) lub (nr 1 najczęstsza kategoria) / (nr 2 najczęstsza kategoria). Również (najczęstsza kategoria) / (wszystkie pozostałe kategorie), jak reguła 80/20.

Możesz także przypisywać liczby do swoich kategorii i szaleć ze wszystkimi zwykłymi statystykami. AA = 1, Hisp = 2 itd. Teraz możesz obliczyć średnią, medianę, tryb, SD itp.

Maddenker
źródło
0

Doceniam inne odpowiedzi, ale wydaje mi się, że pewne tło topologiczne dałoby bardzo potrzebną strukturę odpowiedzi.

Definicje

Zacznijmy od ustalenia definicji domen:

  • zmienna kategorialna to taka, której domena zawiera elementy, ale nie ma między nimi znanej relacji (dlatego mamy tylko kategorie). Przykłady zależą od kontekstu, ale powiedziałbym, że w ogólnym przypadku trudno porównywać dni tygodnia: czy jest poniedziałek przed niedzielą, jeśli tak, to co z następnym poniedziałkiem? Być może łatwiejszym, ale rzadziej używanym przykładem są ubrania: bez podania kontekstu, który nadawałby się do porządku, trudno powiedzieć, czy spodnie pojawiają się przed swetrami, czy odwrotnie.

  • zmienna porządkowa to taka, która ma zdefiniowaną całkowitą kolejność w domenie, tzn. dla każdego z dwóch elementów domeny możemy stwierdzić, że albo są one identyczne, albo jeden jest większy od drugiego. Likerta skalę jest przykład dobra definicji zmiennej porządkowej. „nieco zgadzam się” jest zdecydowanie bliższe „zdecydowanie zgadzam się” niż „nie zgadzam się”.

  • zmienna interwałowa to taka, której domena określa odległości między elementami ( metrykę ), co pozwala nam definiować interwały.

Przykłady domen

Jako najczęstszy zestaw, którego używamy, liczby naturalne i rzeczywiste mają standardowe całkowite zamówienie i dane. Dlatego musimy zachować ostrożność, przypisując liczby do naszych kategorii. Jeśli nie staramy się ignorować kolejności i odległości, praktycznie przekształcamy nasze dane kategoryczne w dane przedziałowe. Kiedy używa się algorytmu uczenia maszynowego, nie wiedząc, jak on działa, ryzykuje się niechętnymi przyjmowaniem takich założeń, potencjalnie unieważniając własne wyniki. Na przykład najpopularniejsze algorytmy głębokiego uczenia działają na liczbach rzeczywistych, wykorzystując ich interwał i ciągłe właściwości. Kolejny przykład, pomyśl o 5-punktowych skalach Likerta i o tym, w jaki sposób przeprowadzamy na nich analizę, że odległość między zdecydowanie się zgadza i zgadza sięjest tym samym co nie zgadzam się i ani się nie zgadzam, ani nie zgadzam . Trudno uzasadnić taki związek.

Innym zestawem, z którym często pracujemy, są łańcuchy . Istnieje wiele wskaźników podobieństwa ciągów, które przydają się podczas pracy z ciągami. Nie zawsze są one jednak przydatne. Na przykład w przypadku adresów John Smith Street i John Smith Road są dość bliskie pod względem podobieństwa ciągów, ale oczywiście reprezentują dwa różne byty, które mogą być daleko od siebie.

Statystyki podsumowujące

Ok, zobaczmy teraz, jak pasują do tego niektóre statystyki podsumowujące. Ponieważ statystyki działają z liczbami, ich funkcje są dobrze zdefiniowane w przedziałach czasowych. Zobaczmy jednak przykłady, czy / jak możemy uogólnić je na dane kategoryczne lub porządkowe:

  • tryb - zarówno podczas pracy z danymi kategorialnymi, jak i porządkowymi możemy stwierdzić, który element jest najczęściej używany. Mamy to. Następnie możemy wyprowadzić wszystkie inne miary wymienione przez @Maddenker w ich odpowiedzi. Przydatny może być również przedział ufności @ gung.
  • mediana - jak mówi @ peter-flom, dopóki masz zamówienie, możesz uzyskać swoją medianę.
  • średnia , ale także odchylenie standardowe, percentyle itp. - otrzymujesz je tylko z danymi przedziałowymi, ze względu na potrzebę pomiaru odległości.

Przykład kontekstowości danych

Na koniec chciałbym jeszcze raz podkreślić, że kolejność i dane, które definiujesz w swoich danych, są bardzo kontekstowe. Powinno to być do tej pory oczywiste, ale dam wam ostatni przykład: pracując z lokalizacjami geograficznymi, mamy wiele różnych sposobów podejścia do nich:

  • jeśli interesuje nas odległość między nimi, możemy pracować z ich geolokalizacją, co w zasadzie daje nam dwuwymiarową przestrzeń numeryczną, a zatem przedział.
  • jeśli interesuje nas ich część relacji, możemy zdefiniować całkowity porządek (np. ulica jest częścią miasta, dwa miasta są równe, kontynent zawiera kraj)
  • jeśli jesteśmy zainteresowani tym, czy dwa ciągi reprezentują ten sam adres, moglibyśmy pracować z pewnym odstępem ciągów, który tolerowałby błędy ortograficzne i zamianę pozycji słów, ale upewnij się, aby rozróżnić różne terminy i nazwy. To nie jest łatwa rzecz, ale tylko po to, aby ją przedstawić.
  • Istnieje wiele innych przypadków użycia, z którymi wszyscy spotykamy się codziennie, gdzie nic z tego nie ma sensu. W niektórych z nich nie pozostaje nic innego, jak traktować adresy jako po prostu różne kategorie, w innych sprowadza się to do bardzo inteligentnego modelowania i wstępnego przetwarzania danych.
Mapa do
źródło