Który wykres jest najlepszy z statystycznego punktu widzenia, aby pokazać tabelę zdarzeń awaryjnych , która jest zazwyczaj analizowana za pomocą testu chi-kwadrat? Czy jest to unikalny wykres słupkowy, ułożony wykres słupkowy, mapa termiczna, wykres konturowy, jitterred scatterplot, wykres z wieloma liniami czy coś innego? Czy należy pokazywać wartości bezwzględne lub wartości procentowe?
Edycja: Lub, jak sugeruje @forecaster w komentarzach, sama tabela liczb jest prostą fabułą i powinna wystarczyć.
Odpowiedzi:
Nie będzie tutaj jednego uniwersalnego rozwiązania. Jeśli masz bardzo prosty stół (np. ), po prostu przedstawienie stołu jest prawdopodobnie najlepsze. Jeśli chcesz prawdziwej figury, mozaiki (jak sugeruje @xan) są prawdopodobnie dobrym miejscem na rozpoczęcie. Istnieje kilka innych opcji, które są analogiczne do wykresów mozaikowych, w tym wykresy sitowe, wykresy asocjacyjne i wykresy ciśnienia dynamicznego (patrz moje pytanie tutaj: Alternatywa dla wykresów sitowych / mozaikowych dla tabel awaryjnych ); Książka Michaela Friendlya, Visualizing Categorical Data , byłaby dobrym zasobem (opartym na SAS) na ten temat, a pakiet vcd jest dobrym zasobem do wdrożenia tych pomysłów w R.2 × 2
Ponieważ tabele mają większą liczbę wierszy i kolumn, moim zdaniem stają się one trudniejsze w użyciu. Innym rodzajem opcji wizualizacji jest wykonanie / wykreślenie analizy korespondencji . Analiza korespondencji jest analogiczna do przeprowadzania analizy głównych składników zarówno w wierszach, jak i kolumnach tabeli awaryjnej. Następnie oba są wykreślane razem z dwupłatem. Oto przykład oparty na R, wykorzystujący dane z odpowiedzi @ xan:
Aby zinterpretować ten wykres, im bliżej znajdują się dwa punkty tego samego typu, tym bardziej podobne są te dwa profile wierszy / kolumn. Im bliżej znajdują się dwa punkty różnych typów, tym większa ich masa prawdopodobieństwa znajduje się w komórce reprezentującej ich przecięcie.
W R znajduje się pakiet ca ; ta winieta ( pdf ) również może być pomocna.
źródło
factor(vs)
) Ma tylko dwa poziomy; potrzebujesz co najmniej trzech. Spróbowaćttt = with(mtcars, table(factor(gear), factor(cyl))); plot(ca(ttt))
.ca
obiektu, więc kodowałem go od zera. O ile nie popełniłem błędu, zmieniasz kolejność wierszyc(1,3,2)
i kolumnc(4,1,3,2)
. Po tym nie jestem pewien, co powinienem tutaj zobaczyć. Co masz na myśli?Różne elementy wizualne lepiej podkreślą różne funkcje, ale wykresy mozaikowe dobrze sprawdzają się w widoku ogólnym (sprawdzanie, czy coś się wyróżnia). Może właśnie to miałeś na myśli przez uchylony wykres słupkowy. Jak większość opcji, nie są one symetryczne, ponieważ reprezentują częstotliwości względne lepiej w jednym wymiarze niż w drugim. Fajną cechą jest to, że reprezentowane są również częstotliwości krańcowe.
źródło
Zgadzam się, że „najlepsza” fabuła nie istnieje niezależnie od zbioru danych, czytelnictwa i celu. W przypadku dwóch mierzonych zmiennych wykresy rozrzutu są prawdopodobnie konstrukcją, która pozostawia po sobie wszystkie inne, z wyjątkiem określonych celów, ale żaden taki lider rynku nie jest widoczny w przypadku danych kategorycznych.
Moim celem jest tutaj tylko wspomnienie prostej metody, często odkrywanej lub wymyślanej na nowo, ale jednak często pomijanej nawet w monografiach lub podręcznikach obejmujących grafikę statystyczną.
Przykład pierwszy, obejmujący te same dane, które opublikował xan:
Jeśli pożądane jest imię, jak to często bywa, jest to dwuwymiarowy wykres słupkowy (w tym przypadku). Nie będę tutaj katalogować innych terminów, z wyjątkiem tego, że wiele wykresów słupkowych jest jedną z popularnych alternatyw o podobnym smaku. (Mój mały sprzeciw wobec „wielokrotnego wykresu słupkowego” jest taki, że „wielokrotność” nie wyklucza bardzo powszechnych wykresów słupkowych ułożonych w stos lub obok siebie, podczas gdy „twoway” dla mnie wyraźniej implikuje układ wierszy i kolumn, chociaż z kolei może podać przykłady, aby to wyjaśnić).
Plusy i minusy dla tego rodzaju fabuły są również proste, ale przeliteruję trochę. Ponieważ lubię ten projekt (który sięga przynajmniej lat 30. XX wieku), inni mogą chcieć dodać ostrzejszą krytykę.
+1. Pomysł jest łatwy do zrozumienia , nawet przez grupy nietechniczne. Wysokości prętów lub długości prętów kodują częstotliwości w tym przykładzie. W innych przykładach mogą kodować procenty obliczone w dowolny sposób, reszty itp.
+2 Struktura wierszy i kolumn jest zgodna ze strukturą tabeli . Możesz także dodać wartości liczbowe. Bardzo małe ilości, a nawet domniemane zera są wyraźnie widoczne, co nie zawsze ma miejsce w przypadku innych wzorów (np. Skumulowane wykresy słupkowe, wykresy mozaikowe). Etykietowanie wierszy i kolumn jest zwykle bardziej wydajne niż dodawanie klucza lub legendy, co wymaga mentalnego „w przód i w tył”. W ten sposób ten projekt hybrydyzuje pomysły na wykresy i tabele, co najwyraźniej niepokoi niektórych czytelników; przeciwnie, argumentowałbym, że wyraźne rozróżnienie między figurami a tabelami to tylko historyczne kaciki, przestarzałe, ponieważ badacze mogą przygotowywać własne dokumenty i nie muszą polegać na projektantach, kompozytorach i drukarkach.
+3. Rozszerzenia konstrukcji trójdrożnych i wyższych są w zasadzie łatwe . Umieść dwie lub więcej zmiennych jako zmienne złożone na jednej lub obu osiach lub podaj tablicę takich wykresów. Oczywiście im bardziej skomplikowany projekt, tym bardziej skomplikowana interpretacja.
+4. Projekt wyraźnie dopuszcza zmienne porządkowe na każdej osi. Porządek można wyrazić (np.) Poprzez odpowiednie zacienienie, a także porządek kategorii na tej osi. Porządek kategorii na osiach można ustalić na podstawie ich znaczenia lub lepiej na podstawie częstotliwości; kolejność alfabetyczna według etykiet tekstowych może być domyślna, ale nigdy nie powinna być jedynym rozważanym wyborem.
-1. Działając ogólnie w projekcie, fabuła może być mniej skuteczna w pokazywaniu pewnych rodzajów relacji . W szczególności mozaikowa fabuła może bardzo wyraźnie wyjaśnić odstępstwa od niepodległości. I odwrotnie, gdy relacje między zmiennymi kategorialnymi są skomplikowane lub niejasne, wówczas zazwyczaj żaden wykres nie jest dobry w ukazaniu więcej niż tego słabego faktu.
-2. Pod pewnymi względami projekt nieefektywnie wykorzystuje przestrzeń , pozostawiając miejsce dla każdej kombinacji krzyżowej, niezależnie od tego, czy i jak często. Jest to wadą tej samej zasady uważanej za cnotę. Konkretny projekt nad kategoriami przestrzeni jednakowo niezależnie od ich częstotliwości; poświęcenie, które często poświęca czytelne marginalne etykiety, które bardzo cenię. W tym przykładzie etykiety tekstowe są bardzo krótkie, ale nie jest to typowe.
Uwaga: dane Xana wyglądają na wymyślone, więc nie będę próbował interpretacji bardziej niż w przypadku innych odpowiedzi. Ale pewna mądrość domowa zasługuje na ostatnie słowo: najlepszy projekt dla ciebie to taki, który najlepiej przekazuje tobie i twoim czytelnikom strukturę niektórych prawdziwych danych, na których ci zależy.
Inne przykłady obejmują
Jak możesz wyobrazić sobie związek między 3 zmiennymi kategorycznymi?
Wykres zależności między dwiema zmiennymi porządkowymi
źródło
tabplot
z SSC. Wysokość prętów stanowi koniecznie ułamek wysokości najwyższego lub najdłuższego pręta; ilość dostępnego miejsca zależy od liczby wyświetlanych wierszy. Użytkownik może zastąpić domyślny rozmiar luki, ale ryzykuje, że paski się zetkną lub zasłoną. Jeśli słupki mogą być zarówno ujemne, jak i dodatnie, rzeczy nie są łatwiejsze. Wyobrażam sobie, że to samo ograniczenie gryzie z każdym innym programem. Krótko mówiąc, nie dotykające się paski oznaczają białe pola!Aby uzupełnić odpowiedzi @ gung i @ xan, oto przykład wykresów mozaikowych i asocjacyjnych używanych
vcd
w R.Aby uzyskać działki:
Obie intuicyjnie przedstawiają odstępstwa od oczekiwanych częstotliwości ... Domyślnie jest to model wzajemnej niezależności , ale można go zmienić (np. Na wspólną niezależność, jeśli istnieje wyraźna zmienna odpowiedzi) za pomocą
expected
argumentu.Zobacz też:
źródło