Co to jest „bagplot” lub „dwuwymiarowy wykres pudełkowy”?

11

Mam znaleźć referat wprowadzający wielowymiarowego (dwuwymiarowym tutaj) wersję boxplot - a bagplot. Czym dokładnie jest ten bagplot? Widzę serię zagnieżdżonych wielokątów opartych na wierzchołkach, a jeden z tych wielokątów jest zadeklarowany jako bagplot. Jaki jest pomysł budowy zagnieżdżonego wielokąta? Który z wielokątów jest wykreślnikiem (centralnym lub posiadającym średnią liczbę punktów)? Czy krawędzie bagplotu mają jakieś przydatne właściwości (np. Dzielenie zbioru punktów)?

mbaitoff
źródło
3
Jest artykuł Rousseeuw, Pits i Tukey w American Statistician, który to wyjaśnia. Z jakiegoś powodu mam problem z wklejeniem linku, ale Googling „bagplot” i „Tukey” go znajdą
Peter Flom - Przywróć Monikę
1
Znalazłem to tylko za oburzającą cenę. Ciągle szukam.
mbaitoff
1
Jeśli masz dostęp do jakiejkolwiek porządnej biblioteki, powinni ją mieć. American Statistician jest dość powszechnie subskrybowany. Było też coś na quora, ale nie patrzyłem na to.
Peter Flom - Przywróć Monikę
2
Rousseeuw i Ruts mają za darmo inny artykuł online poza American Statistician w formacie postscriptowym .
Andy W
@AndyW, Pytanie do ciebie jako członka SPSS: jak myślisz, jak można to zrobić za pomocą GPL? Czy wymyślisz kod dla nas SPSSers?
ttnphns

Odpowiedzi:

13

Oto przykład z notatkami:

Oto artykuł The Bagplot: A Bivariate BoxplotPeter J. Rousseeuw, Ida Ruts i John W. Tukey z The American Statistician: http://venus.unive.it/romanaz/ada2/bagplot.pdf

Z streszczenia tego artykułu:

„Mediana głębokości” jest najgłębszym miejscem i jest otoczona „torbą” zawierającą obserwacje n / 2 o największej głębokości. Powiększenie torby trzykrotnie daje „ogrodzenie” (które nie jest narysowane). Obserwacje między torbą a płotem są oznaczone jasnoszarą pętlą, podczas gdy obserwacje poza płotem są oznaczone jako wartości odstające. Bagplot wizualizuje lokalizację, rozprzestrzenianie się, korelację, skośność i ogony danych.

Oto ilustracja kluczowych części:

wprowadź opis zdjęcia tutaj

Dodatkową dyskusję można znaleźć w:

Z dokumentacji pomocyaplpack pakietu (dla Rużytkowników):

Bagplot jest dwuwymiarowym uogólnieniem dobrze znanego boxplotu. Zostało to zaproponowane przez Rousseeuw, Ruts i Tukey. W przypadku dwuwymiarowym pudełko na wykresie zmienia się w wypukły kadłub, worek z wykresu. W torbie jest 50 procent wszystkich punktów. Ogrodzenie oddziela punkty w ogrodzeniu od punktów na zewnątrz. Oblicza się go poprzez zwiększenie worka. Pętla jest zdefiniowana jako wypukły wielokąt zawierający wszystkie punkty wewnątrz ogrodzenia. Jeśli wszystkie punkty są na linii prostej, otrzymujesz klasyczny wykres pudełkowy. bagplot () kreśli wykresy bagplotów, które są bardzo podobne do opisanych w Rousseeuw i in. Uwagi: Dwuwymiarowa mediana jest przybliżona. Znane są trudności z małymi zestawami danych (ale myślę, że nie jest mądrze (graficznie) podsumowywać np. 10 punktów.)

W przypadku, gdy ludzie chcą wykreślić wiele (nakładających się) bagplotów, wygodnie jest, jeśli są one półprzezroczyste. Z tego powodu do polecenia bagplot dodano flagę przezroczystości. Jeśli przezroczystość == PRAWDA, warstwa alfa jest ustawiona na „99” (szesnastkowa). Powoduje to, że bagploty wydają się półprzezroczyste, ale TYLKO jeśli urządzenie wyjściowe jest w formacie PDF i otwarte przy użyciu: pdf (plik = „nazwa_pliku.pdf”, wersja = „1.4”). Z tego powodu wartością domyślną jest przezroczystość == FAŁSZ. Ta funkcja oraz argumenty określające różne kolory zostały zaproponowane przez Woutera Meulemana.

I przykład:

library(aplpack)
attach(mtcars)
bagplot(wt, mpg, xlab="Car Weight", 
        ylab="Miles Per Gallon",
        main="Bagplot Example", 
        transparency = TRUE, 
        show.whiskers = FALSE, 
        # note that data a 'fence' separates inliers from outliers, 
        # and a 'loop' indicates the points outside the bag but 
        # inside the fence. In the 'bag' are 50 percent of all 
        # points
        show.loophull = TRUE, # draw 'loop'?
        show.baghull = TRUE)  # draw 'bag'?

wprowadź opis zdjęcia tutaj

Powiązane pytania:

Ben
źródło
4
Aktualizacja: ktoś stworzył geom ggplot2 w tym celu: gist.github.com/benmarwick/00772ccea2dd0b0f1745 . może przedsiębiorczy użytkownik mógłby zmienić to w pakiet?
shadowtalker,