Alternatywa dla sit / wykresów mozaikowych do tabel awaryjnych

17

Kiedyś natknąłem się na pewien rodzaj wykresu dla danych kategorycznych (tj. Tabel awaryjnych) w Internecie, który bardzo mi się podobał, ale nigdy więcej go nie znalazłem i nawet nie wiem, jak się nazywa. Zasadniczo było to jak wykres sitowy, ponieważ wysokości rzędów i szerokości kolumn były skalowane względem marginalnych prawdopodobieństw. Zatem każde pole zostało skalowane do względnej częstotliwości oczekiwanej w ramach niezależności. Jednak różniła się od wykresu sitowego tym, że zamiast wykreślania kreskowania w każdym polu, wykreśliła punkt (jak na wykresie rozrzutu) w miejscu losowo wybranym z dwuwymiarowego munduru dla każdej obserwacji. W ten sposób gęstość punktów odzwierciedla, jak dobrze obserwowane liczby odpowiadają oczekiwanym. To znaczy, jeśli gęstość była podobna w każdym pudełku, model zerowy jest rozsądny,ja,jot ) może nie być bardzo prawdopodobne w modelu zerowym. Ponieważ punkty są wykreślane zamiast kreskowania, istnieje prosta i intuicyjna zgodność między wykreślonym elementem a obserwowaną liczbą, co niekoniecznie jest prawdziwe w przypadku wykresów sitowych (patrz poniżej). Ponadto losowe rozmieszczenie punktów nadaje fabule wrażenie „organicznej”. Ponadto kolor można wykorzystać do wyróżnienia pól / komórek, które silnie odbiegają od modelu zerowego, a matrycę wykresu można wykorzystać do zbadania parowania zależności między wieloma różnymi zmiennymi, aby można było uwzględnić zalety podobnych wykresów.

  • Czy ktoś wie, jak nazywa się ten spisek?
  • Czy istnieje pakiet / funkcja, która łatwo to zrobi w R lub innym oprogramowaniu (np. Mondrian)? Nie mogę znaleźć czegoś takiego w vcd . Oczywiście może być zakodowane na sztywno od zera, ale byłby to ból.

Oto prosty przykład wykresu sitowego, zauważ, że łatwo jest zobaczyć, w jaki sposób oczekiwane liczby dla różnych kategorii powinny się rozegrać w modelu zerowym, ale trudno pogodzić kreskowanie z rzeczywistymi liczbami, uzyskując wykres, który nie jest zupełnie jak łatwe do odczytania i estetycznie ohydne:

    B ~B
 A 38  4
~A  3 19

wprowadź opis zdjęcia tutaj
Jeśli chodzi o wartość, wykres mozaiki ma coś przeciwnego: chociaż łatwiej jest zobaczyć, które komórki mają „za dużo” lub „za mało” liczb (w stosunku do modelu zerowego), trudniej jest rozpoznać, jakie są relacje między oczekiwane liczby byłyby. W szczególności szerokości kolumn są skalowane w stosunku do krańcowego prawdopodobieństwa, ale wysokości wierszy nie są, co czyni tę informację prawie niemożliwą do wyodrębnienia.
wprowadź opis zdjęcia tutaj
A teraz coś z zupełnie innej beczki...

  • Czy ktoś wie, skąd pochodzi konwencja używania niebieskiego dla „zbyt wielu” i czerwonego dla „zbyt niewielu”? To zawsze było dla mnie sprzeczne z intuicją. Wydaje mi się, że wyjątkowo wysoka gęstość (lub zbyt wiele obserwacji) idzie w parze z gorącym , a niska gęstość z zimnym , i że (przynajmniej w oświetleniu scenicznym) czerwienie są ciepłe, a niebieskie chłodniejsze .

Aktualizacja: Jeśli dobrze pamiętam, fabuła, którą widziałem, znajdowała się w pdf rozdziału (wprowadzenia lub ch1) z książki, która została bezpłatnie udostępniona online jako zwiastun marketingowy. Oto zgrubna wersja pomysłu, który kodowałem od zera:
wprowadź opis zdjęcia tutaj
nawet przy tej surowej wersji myślę, że jest łatwiejsza do odczytania niż fabuła sitowa i pod pewnymi względami łatwiejsza niż fabuła mozaikowa (np. Łatwiej rozpoznać jakie relacje między częstotliwościami komórkowymi byłyby niezależne). Byłoby miło mieć funkcję, która: a. zrobiłby to automatycznie z dowolną tabelą zdarzeń awaryjnych, b. może być użyty jako element konstrukcyjny matrycy wykresu, oraz c. miałby fajne funkcje, które pochodzą z powyższych wykresów (jak znormalizowana legenda reszt na wykresie mozaiki).

gung - Przywróć Monikę
źródło
Więc zasadniczo chcesz mozaiki z innym wypełnieniem? Czy Rfunkcja assocplotjest zbliżona do tego, co masz na myśli? Jeśli nie, założę się, że Rprogramista może zmodyfikować to albo mosaicplotzrobić to, co chcesz.
Peter Flom - Przywróć Monikę
1
Powiązane referencje, Shadings oparte na szczątkach do wizualizacji (warunkowej) niezależności ( Zeileis i in. 2007 ), PDF tutaj i kolejny wątek na temat wizualizacji tabel kontyngencji z kilkoma odnośnikami. Uważam, że artykuł Zeileis zawiera miłą dyskusję na temat koloru, która może odpowiedzieć na twoje ostatnie pytanie (warto zapoznać się z odnośnikami, aby sprawdzić, czy przytaczają również wykres, o którym mówisz).
Andy W
Wręcz przeciwnie, @PeterFlom, chcę w zasadzie sito z innym rodzajem wypełnienia. Alternatywnie, możesz powiedzieć, że chcę wykres mozaiki, w którym wyświetlane pola są skalowane względem oczekiwanych częstotliwości w ramach niezależności (i ewentualnie innego rodzaju wypełnienia).
gung - Przywróć Monikę
„Czy ktoś wie, skąd bierze się konwencja używania niebieskiego dla„ zbyt wielu ”i czerwonego dla„ zbyt niewielu ”? To zawsze było dla mnie sprzeczne z intuicją.” Słuszna uwaga. Jest to rzeczywiście sprzeczne z intuicją. Widmo światła idzie grubsza od niebieskiego po lewej stronie (związane z mniejszych długościach fali) na czerwony po prawej stronie (związane z większych długościach fal). Wyświetlacze mozaikowe wydają się odwracać to na głowie ...
landroni
Idea schematu sitowego polega na tym, że liczba pól w każdej komórce jest proporcjonalna do obserwowanej częstotliwości, więc gęstość względna pokazuje większą lub mniejszą niż przewidywana częstotliwość. Jeśli nie lubisz kolorów, możesz łatwo zmienić je z domyślnych. Jeśli nie podoba ci się domyślna funkcja cieniowania sita, możesz łatwo napisać własną, np. shading.points()Zrobić to, co chcesz, w ramach struktury strucplot, która była cytowana powyżej i jest dostępna jako winieta w vcdpakiecie.
user101089,

Odpowiedzi:

15

Książka, którą opisałeś, brzmi jak: „Wizualizacja danych kategorialnych”, „Michael Friendly”. Fabuła opisana w pierwszym rozdziale, która wydaje się pasować do twojego żądania, została opisana jako rodzaj modelu konceptualnego do wizualizacji danych tabeli awaryjnej (luźno opisany przez autora jako dynamiczny model ciśnienia z gęstością obserwacyjną) i można go zobaczyć w podglądzie Google dla Ch 1. Książka jest skierowana do użytkowników SAS.

Artykuł na ten temat znajduje się tutaj: www.datavis.ca/papers/koln/kolnpapr.pdf

„Modele koncepcyjne do wizualizacji danych tabeli awaryjnej”, Michael Friendly.

http://i47.tinypic.com/148n5n7.jpg

wprowadź opis zdjęcia tutaj

* nawiasem mówiąc, autor jest również wymieniony jako jeden z autorów pakietu vcd (ponieważ został specjalnie zainspirowany wspomnianą wyżej książką) - być może możesz zapytać go bezpośrednio, czy istnieje prosta modyfikacja jednej z wbudowanych funkcji, która nie łatwo widoczne.

** Schemat barwienia wydaje się odnosić kolor niebieski z dodatnimi odchyleniami od niezależności, a czerwony - z odchyleniami ujemnymi. Chociaż czerwony schemat ma w tym kontekście sens, być może lepiej byłoby użyć zielonego do przedstawienia pozytywnych odchyleń.

http://www.datavis.ca/papers/asa92.html

poklepać
źródło
2
Dobra robota, zagadka została rozwiązana! Muszę kupić książkę zamiast przeglądać ją w różnych drobiazgach, a moja biblioteka co jakiś czas wysyła mi rozdziały. IMO ta forma wizualizacji bardzo przypomina mi, co kartografowie nazywają „mapami kropkowymi”, a stamtąd można wykorzystać literaturę, aby uzasadnić, w jaki sposób kropki są lepszym narzędziem do wizualizacji niż linie i kreskowania. Jest to również dobra literatura pod względem preferencyjnego rozmieszczenia kropek.
Andy W
To daje mi dobry początek. Dzięki za pomoc.
gung - Przywróć Monikę
1

Może nie to, co widziałeś, ale do wizualizacji odlotów oczekiwanych w ramach niezależności działki korespondencyjne są dobrze zmotywowane.

http://www.jstatsoft.org/v20/i03/

(Na marginesie, książka SAS i M Friendly pomyliła się co do zalecanej korekty, a wiele fabuł zawierało artefakty, co mogło odwrócić uwagę od ich postrzeganej wartości).

phaneron
źródło
Dziękuję za pomoc, lubię wątki korespondencyjne. Czy możesz powiedzieć coś więcej o tym zalecanym dostosowaniu, który został pomylony? Jaka była korekta? Jak to było niedokładne? A co było nie tak z fabułami?
gung - Przywróć Monikę