Alternatywa dla sit / wykresów mozaikowych do tabel awaryjnych

Kiedyś natknąłem się na pewien rodzaj wykresu dla danych kategorycznych (tj. Tabel awaryjnych) w Internecie, który bardzo mi się podobał, ale nigdy więcej go nie znalazłem i nawet nie wiem, jak się nazywa. Zasadniczo było to jak wykres sitowy, ponieważ wysokości rzędów i szerokości kolumn były skalowane względem marginalnych prawdopodobieństw. Zatem każde pole zostało skalowane do względnej częstotliwości oczekiwanej w ramach niezależności. Jednak różniła się od wykresu sitowego tym, że zamiast wykreślania kreskowania w każdym polu, wykreśliła punkt (jak na wykresie rozrzutu) w miejscu losowo wybranym z dwuwymiarowego munduru dla każdej obserwacji. W ten sposób gęstość punktów odzwierciedla, jak dobrze obserwowane liczby odpowiadają oczekiwanym. To znaczy, jeśli gęstość była podobna w każdym pudełku, model zerowy jest rozsądny, $i,j$ ) może nie być bardzo prawdopodobne w modelu zerowym. Ponieważ punkty są wykreślane zamiast kreskowania, istnieje prosta i intuicyjna zgodność między wykreślonym elementem a obserwowaną liczbą, co niekoniecznie jest prawdziwe w przypadku wykresów sitowych (patrz poniżej). Ponadto losowe rozmieszczenie punktów nadaje fabule wrażenie „organicznej”. Ponadto kolor można wykorzystać do wyróżnienia pól / komórek, które silnie odbiegają od modelu zerowego, a matrycę wykresu można wykorzystać do zbadania parowania zależności między wieloma różnymi zmiennymi, aby można było uwzględnić zalety podobnych wykresów.

Czy ktoś wie, jak nazywa się ten spisek?
Czy istnieje pakiet / funkcja, która łatwo to zrobi w R lub innym oprogramowaniu (np. Mondrian)? Nie mogę znaleźć czegoś takiego w vcd . Oczywiście może być zakodowane na sztywno od zera, ale byłby to ból.

Oto prosty przykład wykresu sitowego, zauważ, że łatwo jest zobaczyć, w jaki sposób oczekiwane liczby dla różnych kategorii powinny się rozegrać w modelu zerowym, ale trudno pogodzić kreskowanie z rzeczywistymi liczbami, uzyskując wykres, który nie jest zupełnie jak łatwe do odczytania i estetycznie ohydne:

    B ~B
 A 38  4
~A  3 19

wprowadź opis zdjęcia tutaj
Jeśli chodzi o wartość, wykres mozaiki ma coś przeciwnego: chociaż łatwiej jest zobaczyć, które komórki mają „za dużo” lub „za mało” liczb (w stosunku do modelu zerowego), trudniej jest rozpoznać, jakie są relacje między oczekiwane liczby byłyby. W szczególności szerokości kolumn są skalowane w stosunku do krańcowego prawdopodobieństwa, ale wysokości wierszy nie są, co czyni tę informację prawie niemożliwą do wyodrębnienia.
wprowadź opis zdjęcia tutaj
A teraz coś z zupełnie innej beczki...

Czy ktoś wie, skąd pochodzi konwencja używania niebieskiego dla „zbyt wielu” i czerwonego dla „zbyt niewielu”? To zawsze było dla mnie sprzeczne z intuicją. Wydaje mi się, że wyjątkowo wysoka gęstość (lub zbyt wiele obserwacji) idzie w parze z gorącym , a niska gęstość z zimnym , i że (przynajmniej w oświetleniu scenicznym) czerwienie są ciepłe, a niebieskie chłodniejsze .

Aktualizacja: Jeśli dobrze pamiętam, fabuła, którą widziałem, znajdowała się w pdf rozdziału (wprowadzenia lub ch1) z książki, która została bezpłatnie udostępniona online jako zwiastun marketingowy. Oto zgrubna wersja pomysłu, który kodowałem od zera:
wprowadź opis zdjęcia tutaj
nawet przy tej surowej wersji myślę, że jest łatwiejsza do odczytania niż fabuła sitowa i pod pewnymi względami łatwiejsza niż fabuła mozaikowa (np. Łatwiej rozpoznać jakie relacje między częstotliwościami komórkowymi byłyby niezależne). Byłoby miło mieć funkcję, która: a. zrobiłby to automatycznie z dowolną tabelą zdarzeń awaryjnych, b. może być użyty jako element konstrukcyjny matrycy wykresu, oraz c. miałby fajne funkcje, które pochodzą z powyższych wykresów (jak znormalizowana legenda reszt na wykresie mozaiki).

r data-visualization categorical-data gung - Przywróć Monikę
źródło

Więc zasadniczo chcesz mozaiki z innym wypełnieniem? Czy Rfunkcja assocplotjest zbliżona do tego, co masz na myśli? Jeśli nie, założę się, że Rprogramista może zmodyfikować to albo mosaicplotzrobić to, co chcesz.

Peter Flom - Przywróć Monikę

Powiązane referencje, Shadings oparte na szczątkach do wizualizacji (warunkowej) niezależności ( Zeileis i in. 2007 ), PDF tutaj i kolejny wątek na temat wizualizacji tabel kontyngencji z kilkoma odnośnikami. Uważam, że artykuł Zeileis zawiera miłą dyskusję na temat koloru, która może odpowiedzieć na twoje ostatnie pytanie (warto zapoznać się z odnośnikami, aby sprawdzić, czy przytaczają również wykres, o którym mówisz).

Andy W

Wręcz przeciwnie, @PeterFlom, chcę w zasadzie sito z innym rodzajem wypełnienia. Alternatywnie, możesz powiedzieć, że chcę wykres mozaiki, w którym wyświetlane pola są skalowane względem oczekiwanych częstotliwości w ramach niezależności (i ewentualnie innego rodzaju wypełnienia).

gung - Przywróć Monikę

„Czy ktoś wie, skąd bierze się konwencja używania niebieskiego dla„ zbyt wielu ”i czerwonego dla„ zbyt niewielu ”? To zawsze było dla mnie sprzeczne z intuicją.” Słuszna uwaga. Jest to rzeczywiście sprzeczne z intuicją. Widmo światła idzie grubsza od niebieskiego po lewej stronie (związane z mniejszych długościach fali) na czerwony po prawej stronie (związane z większych długościach fal). Wyświetlacze mozaikowe wydają się odwracać to na głowie ...

landroni

Idea schematu sitowego polega na tym, że liczba pól w każdej komórce jest proporcjonalna do obserwowanej częstotliwości, więc gęstość względna pokazuje większą lub mniejszą niż przewidywana częstotliwość. Jeśli nie lubisz kolorów, możesz łatwo zmienić je z domyślnych. Jeśli nie podoba ci się domyślna funkcja cieniowania sita, możesz łatwo napisać własną, np. shading.points()Zrobić to, co chcesz, w ramach struktury strucplot, która była cytowana powyżej i jest dostępna jako winieta w vcdpakiecie.

user101089,

Książka, którą opisałeś, brzmi jak: „Wizualizacja danych kategorialnych”, „Michael Friendly”. Fabuła opisana w pierwszym rozdziale, która wydaje się pasować do twojego żądania, została opisana jako rodzaj modelu konceptualnego do wizualizacji danych tabeli awaryjnej (luźno opisany przez autora jako dynamiczny model ciśnienia z gęstością obserwacyjną) i można go zobaczyć w podglądzie Google dla Ch 1. Książka jest skierowana do użytkowników SAS.

Artykuł na ten temat znajduje się tutaj: www.datavis.ca/papers/koln/kolnpapr.pdf

„Modele koncepcyjne do wizualizacji danych tabeli awaryjnej”, Michael Friendly.

wprowadź opis zdjęcia tutaj

* nawiasem mówiąc, autor jest również wymieniony jako jeden z autorów pakietu vcd (ponieważ został specjalnie zainspirowany wspomnianą wyżej książką) - być może możesz zapytać go bezpośrednio, czy istnieje prosta modyfikacja jednej z wbudowanych funkcji, która nie łatwo widoczne.

** Schemat barwienia wydaje się odnosić kolor niebieski z dodatnimi odchyleniami od niezależności, a czerwony - z odchyleniami ujemnymi. Chociaż czerwony schemat ma w tym kontekście sens, być może lepiej byłoby użyć zielonego do przedstawienia pozytywnych odchyleń.

http://www.datavis.ca/papers/asa92.html

poklepać
źródło

Dobra robota, zagadka została rozwiązana! Muszę kupić książkę zamiast przeglądać ją w różnych drobiazgach, a moja biblioteka co jakiś czas wysyła mi rozdziały. IMO ta forma wizualizacji bardzo przypomina mi, co kartografowie nazywają „mapami kropkowymi”, a stamtąd można wykorzystać literaturę, aby uzasadnić, w jaki sposób kropki są lepszym narzędziem do wizualizacji niż linie i kreskowania. Jest to również dobra literatura pod względem preferencyjnego rozmieszczenia kropek.

Andy W

To daje mi dobry początek. Dzięki za pomoc.

gung - Przywróć Monikę

Alternatywa dla sit / wykresów mozaikowych do tabel awaryjnych

Odpowiedzi: