Jak skalować wykresy skrzypiec do porównań?

14

Próbuję rysować wykresy skrzypcowe i zastanawiam się, czy istnieje sprawdzona najlepsza praktyka skalowania ich między grupami. Oto trzy opcje, które wypróbowałem przy użyciu mtcarszestawu danych R (Motor Trend Cars z 1973 roku, tutaj ).

Równe szerokości

Wygląda na to, co robi oryginalny papier * i co vioplotrobi R ( przykład ). Dobry do porównywania kształtu.

Działki skrzypcowe o równej powierzchni

Równe obszary

Wydaje się słuszne, ponieważ każdy wykres jest wykresem prawdopodobieństwa, a zatem obszar każdego wykresu powinien wynosić 1,0 w pewnej przestrzeni współrzędnych. Dobry do porównywania gęstości w każdej grupie, ale wydaje się bardziej odpowiedni, jeśli wykresy są nałożone.

Działki skrzypcowe o równej szerokości

Obszary ważone

Podobnie jak równy obszar, ale ważony liczbą obserwacji. 6-cylindrowy staje się stosunkowo cieńszy, ponieważ takich samochodów jest mniej. Dobry do porównywania gęstości między grupami.

Wykresy skrzypcowe ważone

* Wykresy skrzypcowe: wykres skrzynkowy-gęstość śledzenia synergii (DOI: 10.2307 / 2685478)

Xan
źródło
1
Cel działek w dużej mierze określi, które rozwiązania są odpowiednie. Co zatem próbujesz pokazać im?
whuber
@whuber Dobre pytanie, choć nie mam bezpośredniej odpowiedzi. Próbuję dostarczyć grafikę dla EDA i szukam dobrego ogólnego ustawienia domyślnego (i tego, czy inne opcje są wystarczająco przydatne, aby się ujawnić).
xan
Chciałbym zasugerować, abyś kontrolował działki odpowiednio do swoich celów, zamiast akceptować pewne domyślne.
whuber
Sugerowałbym, aby twoja wersja „obszarów ważonych” była „Dobra do porównywania podgrup populacji”, ponieważ dodanie szerokości w celu uzyskania kształtu całej populacji może mieć sens.
Henry,
Wolę równe obszary, aby zachować wizualny wpływ kształtu dystrybucji. Następnie uzupełnij wykres termometrami pokazującymi rozmiary próbek lub po prostu użyj reprezentacji tekstowych rozmiarów próbek obok skrzypiec.
Frank Harrell

Odpowiedzi:

4

Wykresy ramkowe są używane do schematycznych podsumowań rozkładu. Wykresy skrzypcowe to tylko wykresy skrzynkowe, w których pola Q1, Q2 i Q3 są zastąpione szerokim zakresem kwantyli. Z tego powodu uważam, że przyjętą praktyką jest stosowanie jednolitej szerokości między grupami.

Podnosisz jednak dobry punkt: jak należy porównywać gęstość między grupami? Odpowiedź zależy od tego, czy patrzysz na każdą grupę jako na własną populację, czy na subpopulacje.

ΣjaP.ja=1

Stóg
źródło
Wykresy skrzypcowe zostały pierwotnie wprowadzone i zdefiniowane jako hybrydowy wykres skrzynkowy i ślad gęstości. Szybki Google pokazuje, że w praktyce wiele wątków upublicznionych, ponieważ wątki skrzypcowe pomijają to pole, a wiele nie pokazuje jako takich kwantyli. Definicje są tutaj szeroko otwarte.
Nick Cox,
5

Szczerze mówiąc, myślę, że podchodzisz do niego ze złego kierunku. Wszystkie trzy wykresy wyraźnie przekazują informacje o wartości - w przeciwnym razie nie zastanawiałbyś się, którego wykresu użyć. Analiza danych eksploracyjnych polega na zrozumieniu danych. Gdzie jest zgodny z oczekiwaniami. Gdzie nie ma. Jak jest kształtowany na wielu zmiennych.

Cały sens przeprowadzania EDA polega na ocenie, czy nasze wartości domyślne, czy to założenia dotyczące rozkładu, czy kolinearności, model statystyczny, który miał być zastosowany itp., Są dobrze uzasadnione. W związku z tym koncepcja „domyślnej” EDA jest nieco błędna.

Spójrz na wszystkie - lub przynajmniej na wszystkie wątki, które dotyczą pytania, które zamierzasz zadać. Nie ma powodu, aby skupiać się na „Co ciekawe” i „Co mam zamiar zignorować” na etapie EDA. A jeśli tylko przesyłamy dane domyślnie, to tak naprawdę nie jest to EDA.

Fomite
źródło
+1 za pouczające uwagi na temat EDA, chociaż nadal nie jest jasne (dla mnie), czy PO jest po EDA, czy nie ...
chl
@chl Niektóre komentarze OP sugerują, że właśnie o to mu chodzi. Jeśli tylko „który z nich jest bardziej przydatny”, obawiam się, że odpowiedź staje się jeszcze bardziej niejednoznaczna „cóż, co chcesz pokazać?”
Fomite,
Ach, przegapiłem ten komentarz ... Więc twoja odpowiedź jest ponownie warta +1, ale nie mogę :(
chl
4

A co z przepustowością? Myślałeś o tym?

Jeśli korzystasz z domyślnych ustawień swojego oprogramowania, aby uzyskać plik pdf, najprawdopodobniej używasz ogólnej zasady dla optymalnej przepustowości jądra gaussowskiego. Ta „optymalna przepustowość” może się wtedy różnić dla każdego podzbioru. Teraz zadaj sobie pytanie, czy kształty są nadal porównywalne? Może się zdarzyć, że zmierzy się ta sama zmienna (oszacowanie gęstości jądra) z podwójnymi standardami.

W celu oszacowania gęstości jądra opracowano jasne reguły w celu uzyskania właściwej przepustowości (pewnego rodzaju walidacja krzyżowa), ale w przypadku wykresów skrzypcowych są one w większości ignorowane. Może to być ważne, gdy rozmiary próbek bardzo się różnią.

Mam teraz ten problem. Co o tym myślisz? Jak to rozwiązujesz? Wszelkie uwagi są mile widziane.

Holger Hoffmann
źródło