Próbuję rysować wykresy skrzypcowe i zastanawiam się, czy istnieje sprawdzona najlepsza praktyka skalowania ich między grupami. Oto trzy opcje, które wypróbowałem przy użyciu mtcars
zestawu danych R (Motor Trend Cars z 1973 roku, tutaj ).
Równe szerokości
Wygląda na to, co robi oryginalny papier * i co vioplot
robi R ( przykład ). Dobry do porównywania kształtu.
Równe obszary
Wydaje się słuszne, ponieważ każdy wykres jest wykresem prawdopodobieństwa, a zatem obszar każdego wykresu powinien wynosić 1,0 w pewnej przestrzeni współrzędnych. Dobry do porównywania gęstości w każdej grupie, ale wydaje się bardziej odpowiedni, jeśli wykresy są nałożone.
Obszary ważone
Podobnie jak równy obszar, ale ważony liczbą obserwacji. 6-cylindrowy staje się stosunkowo cieńszy, ponieważ takich samochodów jest mniej. Dobry do porównywania gęstości między grupami.
* Wykresy skrzypcowe: wykres skrzynkowy-gęstość śledzenia synergii (DOI: 10.2307 / 2685478)
Odpowiedzi:
Wykresy ramkowe są używane do schematycznych podsumowań rozkładu. Wykresy skrzypcowe to tylko wykresy skrzynkowe, w których pola Q1, Q2 i Q3 są zastąpione szerokim zakresem kwantyli. Z tego powodu uważam, że przyjętą praktyką jest stosowanie jednolitej szerokości między grupami.
Podnosisz jednak dobry punkt: jak należy porównywać gęstość między grupami? Odpowiedź zależy od tego, czy patrzysz na każdą grupę jako na własną populację, czy na subpopulacje.
źródło
Szczerze mówiąc, myślę, że podchodzisz do niego ze złego kierunku. Wszystkie trzy wykresy wyraźnie przekazują informacje o wartości - w przeciwnym razie nie zastanawiałbyś się, którego wykresu użyć. Analiza danych eksploracyjnych polega na zrozumieniu danych. Gdzie jest zgodny z oczekiwaniami. Gdzie nie ma. Jak jest kształtowany na wielu zmiennych.
Cały sens przeprowadzania EDA polega na ocenie, czy nasze wartości domyślne, czy to założenia dotyczące rozkładu, czy kolinearności, model statystyczny, który miał być zastosowany itp., Są dobrze uzasadnione. W związku z tym koncepcja „domyślnej” EDA jest nieco błędna.
Spójrz na wszystkie - lub przynajmniej na wszystkie wątki, które dotyczą pytania, które zamierzasz zadać. Nie ma powodu, aby skupiać się na „Co ciekawe” i „Co mam zamiar zignorować” na etapie EDA. A jeśli tylko przesyłamy dane domyślnie, to tak naprawdę nie jest to EDA.
źródło
A co z przepustowością? Myślałeś o tym?
Jeśli korzystasz z domyślnych ustawień swojego oprogramowania, aby uzyskać plik pdf, najprawdopodobniej używasz ogólnej zasady dla optymalnej przepustowości jądra gaussowskiego. Ta „optymalna przepustowość” może się wtedy różnić dla każdego podzbioru. Teraz zadaj sobie pytanie, czy kształty są nadal porównywalne? Może się zdarzyć, że zmierzy się ta sama zmienna (oszacowanie gęstości jądra) z podwójnymi standardami.
W celu oszacowania gęstości jądra opracowano jasne reguły w celu uzyskania właściwej przepustowości (pewnego rodzaju walidacja krzyżowa), ale w przypadku wykresów skrzypcowych są one w większości ignorowane. Może to być ważne, gdy rozmiary próbek bardzo się różnią.
Mam teraz ten problem. Co o tym myślisz? Jak to rozwiązujesz? Wszelkie uwagi są mile widziane.
źródło