Jakie są najbardziej akceptowane sposoby wizualizacji wyników niezależnego testu t dla dwóch próbek? Czy częściej używana jest tablica numeryczna czy jakiś wykres? Celem jest, aby przypadkowy obserwator spojrzał na postać i od razu zobaczył, że prawdopodobnie pochodzą z dwóch różnych populacji.
data-visualization
t-test
cbake
źródło
źródło
Odpowiedzi:
Warto jasno określić cel swojej działki. Zasadniczo istnieją dwa różne rodzaje celów: możesz sam stworzyć wykresy, aby ocenić przyjęte założenia i pokierować procesem analizy danych, lub możesz stworzyć wykresy, aby przekazać wyniki innym osobom. To nie to samo; na przykład wielu przeglądających / czytających twoją fabułę / analizę może być statystycznie niewyszukanych i może nie być zaznajomionych z ideą, powiedzmy, równej wariancji i jej roli w teście t. Chcesz, aby Twój dział przekazywał ważne informacje o twoich danych nawet takim konsumentom jak oni. Ufają domyślnie, że zrobiłeś wszystko poprawnie. Z twojego zestawu pytań wynika, że masz na myśli ten drugi typ.
Realistycznie najczęstszym i akceptowanym wykresem do przekazywania wyników testu t 1 innym osobom (odłożonym na bok, czy jest to najbardziej odpowiednie) jest wykres słupkowy średnich ze standardowymi słupkami błędów. To bardzo dobrze pasuje do testu t, ponieważ test t porównuje dwa sposoby przy użyciu ich standardowych błędów. Gdy masz dwie niezależne grupy, uzyskasz intuicyjny obraz, nawet dla statystycznie nieskomplikowanych, a (chętni do danych) ludzie „natychmiast zobaczą, że prawdopodobnie pochodzą z dwóch różnych populacji”. Oto prosty przykład z wykorzystaniem danych @ Tima:
To powiedziawszy, specjaliści od wizualizacji danych zwykle nie znoszą tych wykresów. Często są wyśmiewani jako „wykresy dynamitu” (por. Dlaczego wykresy dynamitu są złe ). W szczególności, jeśli masz tylko kilka danych, często zaleca się po prostu ich pokazanie . Jeśli punkty nachodzą na siebie, możesz je drżeć w poziomie (dodać niewielką ilość losowego hałasu), aby nie zachodziły już na siebie. Ponieważ test t zasadniczo dotyczy średnich i błędów standardowych, najlepiej nałożyć wykres średnich i błędów standardowych na taki wykres. Oto inna wersja:
Jeśli masz dużo danych, wykresy pudełkowe mogą być lepszym wyborem, aby uzyskać szybki przegląd dystrybucji, i możesz tam również nałożyć środki i SE.
Proste wykresy danych i wykresy pudełkowe są wystarczająco proste, aby większość ludzi mogła je zrozumieć, nawet jeśli nie są zbyt bystre statystycznie. Pamiętaj jednak, że żaden z nich nie ułatwia oceny ważności testu t do porównania twoich grup. Celom tym najlepiej służą różne rodzaje fabuł.
1. Należy zauważyć, że ta dyskusja zakłada niezależny test t dla próbek. Te wykresy mogą być stosowane z testem t próbek zależnych, ale mogą być również mylące w tym kontekście (por. Czy stosowanie słupków błędów dla średnich w badaniu wewnątrz badanych jest nieprawidłowe? ).
źródło
Najpowszechniej stosowanym sposobem na wizualizację -test-jak porównanie jest użycie boxplots . Poniżej podaję przykład z wykorzystaniem zestawu danych opisującego „związek między paleniem marihuany a deficytem wydajności w zadaniu pomiaru pamięci krótkoterminowej” z tej strony .t
W rzeczywistości wykresy pudełkowe są powszechnie używane do „nieformalnego” testowania hipotez, na przykład jak opisał Yoav Benjamini w artykule z 1988 r. Otwieranie pudełka z wykresu pudełkowego :
Zobacz także: Test T wykorzystujący tylko dane podsumowujące na wykresie pudełkowym
Ten wykres nie pokazuje ilości bezpośrednio zaangażowanych w test , jak zauważył @NickCox . Jeśli chcesz bezpośredniego porównania średnich z przedziałami ufności, możesz użyć wykresu słupkowego z zaznaczonymi przedziałami ufności. Korzystanie ze środków i przedziałów ufności umożliwia także przeprowadzenie testu hipotez (patrz tutaj lub tutaj ).t
Jak widać z innych postów i komentarzy w tym wątku, zarówno wykresy pudełkowe, jak i dynamitowe są nieco kontrowersyjnym wyborem, więc dam wam jeszcze jedną alternatywę, o której jeszcze nie wspomniano. Najpierw przypomnij sobie, że test i regresja są powiązane . Można wykreślić -test podobnego porównania jako dwa punkty z errorbars (przedziały ufności), które są połączone z linią. Nachylenie linii jest proporcjonalne do nachylenia regresji, jeśli zastosowano regresję liniową zamiastt t t -test w tej sytuacji. Główną zaletą takiego wykresu jest to, że pozwala łatwo ocenić wielkość różnicy środków, patrząc na nachylenie linii. Wadą może być to, że może sugerować, że istnieje pewna „ciągłość” między środkami (tj. Że masz sparowane próbki).
Wykresy pudełkowe wydają się być częściej stosowane, ponieważ dostarczają więcej informacji o rozkładzie wizualizowanych zmiennych (w porównaniu do średniej tylko z przedziałem ufności). Uzupełniają one raczej niż duplikują informacje z testu, a takie użycie fabuły jest popierane przez większość przewodników po stylu, np. W Podręczniku publikacji Amerykańskiego Towarzystwa Psychologicznego :t
źródło
Jest to głównie odmiana pomocnych odpowiedzi @Tim i @gung, ale wykresów nie można dopasować do komentarza.
Małe, ale potencjalnie przydatne punkty:
Wykres paskowy lub punktowy, jak pokazano na @gung, wymaga modyfikacji, jeśli istnieją powiązania, jak w przykładowych danych. Punkty można układać w stosy lub drżeć, lub jak w poniższym przykładzie, można użyć hybrydowego wykresu kwantylu-pudełka, jak sugeruje Emanuel Parzen (najbardziej dostępne odniesienie to prawdopodobnie 1979 r. Modelowanie danych nieparametrycznych. Journal, American Statistics Association74: 105-121). Ma to również inne zalety, podkreślając, że jeśli połowa danych znajduje się w pudełku, to połowa też jest na zewnątrz, i pokazuje zasadniczo wszystkie szczegóły dystrybucji. Tam, gdzie są tylko dwie grupy, jak ma to miejsce w tym kontekście, każdy bardziej konwencjonalny rodzaj wykresu pudełkowego może być minimalnym, rzeczywiście szkieletowym obrazem. Niektórzy uznają to za zaletę, ale istnieje możliwość pokazania większej ilości szczegółów. Odwrotny argument jest taki, że wykres pola zaznaczający poszczególne punkty, zwłaszcza te o wartości większej niż 1,5 IQR z bliższego kwartylu, jest wyraźnym ostrzeżeniem dla użytkownika: uważaj za pomocą testu t, ponieważ w ogonach mogą znajdować się punkty, które powinieneś martwić się o.
Możesz oczywiście dodać oznaczenie środków do wykresu pudełkowego, co jest dość często wykonywane. Często dodaje się inny znacznik lub symbol punktu. Tutaj wybieramy linie odniesienia.
Wykresy kwantowe dla palaczy i niepalących. Pola pokazują mediany i kwartyle. Poziome niebieskie linie oznaczają.
Uwaga. Wykres został utworzony w Stata. Oto kod dla zainteresowanych.
stripplot
musi być wcześniej zainstalowany za pomocąssc inst stripplot
.EDYTOWAĆ. Ten dalszy pomysł w odpowiedzi na odpowiedź @Frank Harrell nakłada dwa normalne wykresy prawdopodobieństwa (naprawdę wykresy kwantylowo-kwantylowe). Poziome linie pokazują środki. Niektórzy chcieliby dodać linie dla każdej grupy wskazujące na idealne dopasowanie, np. Przez ( , jego średnia) i ( , jego średnia jej SD) lub solidnie odporne alternatywy.0 1 +
źródło
Oprócz ładnego celu, jakim jest przedstawienie wyników, należy zastanowić się nad tym, która grafika sprawdza założenia testu równej wariancji dla dwóch próbek , aby uzyskać doskonałą wydajność. To byłyby normalne funkcje odwrotne dwóch empirycznych funkcji rozkładu skumulowanego. Aby spełnić założenia testu, te dwie krzywe muszą być równoległymi liniami prostymi.t
źródło