Zmniejsz wariancję z wykresu pudełkowego

12

Zastanawiałem się, jak wywnioskować wariancję zmiennej za pomocą wykresu pudełkowego. Czy można przynajmniej wywnioskować, czy dwie zmienne mają tę samą wariancję, obserwując ich wykres pudełkowy?

Donbeo
źródło
1
Niedawno natknąłem się na ten artykuł na podobny temat. Mam nadzieję, że da ci to trochę wglądu.
Penguin_Knight

Odpowiedzi:

16

Nie bez wielu ścisłych założeń, nie. Jeśli miałbyś założyć, że odpowiedź brzmi „tak” (zamiast pytać, za co cię klaszczę), założę się, że mógłbym cię oszukać w tym (kontratakującym) przykładzie:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))

Wygląda całkiem podobnie, prawda? Jednak σ12=1,σ22=1.96 !

W przypadku, gdy nie wynika z kodu, populacja 2wynosi:

-3.000 -2.650 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348  2.650  3.000

I nie, nie można wywnioskować, że ta populacja jest normalna tylko dlatego, że jest dokładnie symetryczna. Oto wykres populacji QQ 2:

Na pewno nie wygląda dla mnie normalnie.

Edytuj - odpowiedź na Twój komentarz:

Wariancja jest statystyką numeryczną. Jeśli wariancje dwóch dystrybucji są dosłownie równe, to prawie wszystko, co musisz o tym powiedzieć. Jeśli dwie dystrybucje są dokładnie normalne , znowu, istnieje matematyczna definicja , obie pasują. Jeśli dwa rozkłady nie są dokładnie normalne lub równe w wariancji, nie powinieneś mówić inaczej. Jeśli chcesz powiedzieć, że są w przybliżeniu równe lub normalne, prawdopodobnie powinieneś zdefiniować „wystarczająco przybliżony” w sposób dostosowany do twoich celów, których tu nie określiłeś. Wrażliwość na różnice dystrybucyjne różni się znacznie w zależności od analizy, która zwykle motywuje pytania takie jak twoje. Na przykład,tjest dość odporny na naruszenia tego ostatniego przy równych rozmiarach próby ), więc nie zalecałbym tego testu do porównania mojej populacji 2do populacji 1(rozkład normalny).

Nick Stauner
źródło
3
Dobry przykład. Nick używa R. (Dopóki wszyscy nie używają R, warto o tym wspomnieć.)
Nick Cox
Nic nie może poradzić na to, że byłby to dobry dzień dla nauki :)
Nick Stauner
Mam na ten temat długi esej, ale jakoś nie zmieści się w dostępnej przestrzeni.
Nick Cox
Dobra odpowiedź. Czy możesz napisać, jakie informacje powinniśmy zgłosić, aby powiedzieć: „Są normalne, a wariancja jest taka sama”
Donbeo
Edytowane, aby odpowiedzieć.
Nick Stauner
10

Na to dobrze odpowiedziano. Te dodatkowe komentarze są trochę za długie (AKTUALIZACJA: teraz o wiele za długo), aby można je było dodać jako komentarze.

Ściśle mówiąc, wszystko, co można odczytać z wykresu pudełkowego na temat zmienności rozkładu, to jego zakres międzykwartylowy (długość lub wysokość pudełka) i zasięg (długość lub wysokość między skrajnościami wyświetlacza).

Dla przybliżenia, wykresy pudełkowe, które wydają się identyczne, mogą mieć bardzo podobne wariancje, ale uważaj. Wykresy pudełkowe z bardzo różnymi pozycjami pudeł lub ogonami (lub obydwoma) najprawdopodobniej nie będą miały podobnych wariantów, ale nie jest to niemożliwe. Ale nawet jeśli wykresy pudełkowe wyglądają identycznie, na zwykłym lub waniliowym wykresie pudełkowym nie ma informacji o zmienności w pudełku lub w rzeczywistości zmienności w wąsach (linie często pokazane między pudełkiem a punktami danych w granicach 1,5 IQR bliższego kwartylu) . Uwaga: istnieje kilka wariantów wykresów pudełkowych; autorzy często słabo dokumentują dokładne zasady stosowane przez ich oprogramowanie.

Popularność działki pudełkowej ma swoją cenę. Wykresy ramkowe mogą być bardzo przydatne do wyświetlania cech brutto wielu grup lub zmiennych (powiedzmy 20 lub 30, a czasem nawet więcej). Jak powszechnie używane do porównywania powiedzmy 2 lub 3 grup, są one wyprzedane, moim zdaniem, ponieważ inne wykresy mogą pokazać znacznie więcej szczegółów w sposób inteligentny w tej samej przestrzeni. Oczywiście jest to powszechnie, jeśli nie powszechnie doceniane, a różne udoskonalenia wykresu pudełkowego pokazują więcej szczegółów.

Poważna praca z odchyleniami wymaga dostępu do oryginalnych danych.

Jest to szeroki pędzel i można dodać więcej szczegółów. Na przykład pozycja mediany w ramce czasami daje trochę więcej informacji.

AKTUALIZACJA

Wydaje mi się, że o wiele więcej osób interesuje się wykorzystaniem (i ograniczeniami) wykresów pudełkowych w ogóle niż konkretnym pytaniem o wnioskowanie o wariancji z wykresu pudełkowego (na które krótka odpowiedź brzmi: „Nie można, z wyjątkiem pośrednich, w przybliżeniu, a czasem "), więc dodam jeszcze dalsze komentarze na temat alternatyw, zgodnie z sugestią @Christian Sauer.

  • Histogramy używane rozsądnie często są nadal konkurencyjne. Nowoczesny klasyczny tekst wprowadzający Freedmana, Pisaniego i Purvesa używa ich w całym tekście.

  • Różne, znane jako wykresy punktowe lub paski (wykresy) (i pod wieloma innymi nazwami) są łatwe do zrozumienia. Identyczne punkty można układać w stosy, po binowaniu w razie potrzeby. Możesz dodać medianę i kwartyle lub średnie i przedziały ufności do treści swojego serca.

  • Wydaje się, że wykresy kwantowe są nabytym smakiem, ale pod wieloma względami najbardziej wszechstronnym ze wszystkich. Uwzględniam tutaj wykresy uporządkowanych wartości ponownie skumulowane prawdopodobieństwo (pozycja wykresu), a także wykresy kwantylowe, które byłyby proste, gdyby dane stanowiły dowolny rozkład „markowy” (normalny, wykładniczy, gamma, cokolwiek innego). (Podziękowania dla @Scortchi za odniesienie do „marki” stosowanej przez CJ Geyera.)

Ale wyczerpująca lista nie jest możliwa. (Dodam na przykład, że bardzo rzadko reprezentacja łodygi i liścia jest dokładnie w porządku, aby zobaczyć ważne szczegóły w danych, tak jak w przypadku powszechnej preferencji cyfr.) Kluczową zasadą jest to, że najlepsze rodzaje wykresu dystrybucji pozwalają pozornie niemożliwa, percepcja drobnej struktury w danych, która może być interesująca lub ważna (modalność, ziarnistość, wartości odstające itp.), a także gruboziarnista struktura (poziom, rozpiętość, skośność itp.).

Wykresy pudełkowe nie są równie dobre w pokazywaniu wszystkich rodzajów struktur. Nie mogą być i nie były przeznaczone. Warto zaznaczyć, że JW Tukey w Analiza danych eksploracyjnych Reading, MA: Addison-Wesley (1977) podał przykład danych bimodalnych z Rayleigha, których wykres skrzynkowy całkowicie przesłania główną strukturę. Jako świetny statystyk dobrze wiedział, że wykresy pudełkowe nie zawsze były odpowiedzią.

Dziwna praktyka, szeroko rozpowszechniona w tekstach wprowadzających, omawia ANOVA, zapraszając czytelników do spojrzenia na wykresy pudełkowe, które pokazują mediany i kwartyle, a nie środki i wariancje (raczej SD). Oczywiście patrzenie na dane jest znacznie lepsze niż nie patrzenie, ale mimo to bardziej odpowiednia reprezentacja graficzna jest prawdopodobnie pewnym wykresem surowych danych z dopasowanymi środkami +/- pewną odpowiednią wielokrotnością SE.

Nick Cox
źródło
Nick, czy mógłbyś opisać alternatywy dla wykresów pudełkowych dla niewielkiej liczby zmiennych?
Christian Sauer
@ChristianSauer Dzięki za monit: zobacz aktualizację.
Nick Cox
Dziękuję za bardzo miłą aktualizację. Szczególnie podoba mi się twój ostatni akapit, uważam, że wykresy pudełkowe w połączeniu z ANOVA i / lub regresją są dość mylące - to jak porównywanie jabłek i pomarańczy.
Christian Sauer
2
Statystyka, podobnie jak każda inna nauka, jest pełna dziwacznej terminologii, notacji i nawyków analitycznych skopiowanych przed innymi.
Nick Cox
1
Całkowicie się zgadzam - w pracy magisterskiej sprawdziłem niezależne zmienne pod kątem ich normalnego rozkładu ... to najlepsza forma statystyki kultu ładunku :(
Christian Sauer
6

Naiwne podejście:

W rozkładzie normalnym kwantyle 25% i 75% znajdują się w odległości od centrum. To daje, że gęstość wyśrodkowana w 50% pokrywa dwukrotnie tę odległość ( ). Na wykresie pudełkowym zakres międzykwartylowy (IQR, odległość od dołu ramki do góry) obejmuje 50% wyśrodkowaną ilość próbki.1,35 σ0.67σ1.35σ

Jeśli przyjmiesz założenie, że twoja populacja ma rozkład normalny (co czasami jest WIELKIM założeniem, a nie tak trywialnym), to standardowe odchylenie twojej populacji można z grubsza oszacować na podstawie równania , że to .σ = 0,74 I Q RIQR=1.35σσ=0.74IQR

I o porównywaniu wariancji według wykresów pudełkowych: szersze pudełka oznaczają większe wariancje, ale daje to zrozumienie eksploracyjne i należy wziąć pod uwagę także wąsy i wartości odstające. W celu potwierdzenia należy zastosować kontrast hipotez.

Rufo
źródło
Aby porównać wariancję, musimy przypuszczać, że oba rozkłady są normalne? Czy możemy wywnioskować, że zmienna jest normalna, jeśli pole jest symetryczne względem środka?
Donbeo
1
Subskrybuję wszystko, co mówi @Nick_Stauner. Odkryłem, że twoje populacje są normalne, co wymaga między innymi, ale nie tylko, symetrii i kurtozy = 0. To założenie jest często naruszane.
Rufo
2
Kurtosis jest definiowany na różne sposoby. W innej (prostszej) definicji normalna (gaussowska) ma kurtozę 3. Musisz sprawdzić, jakiej definicji używa twoje oprogramowanie, jeśli obliczasz ją w praktyce.
Nick Cox
1
Dla rozkładu normalnego byłoby to kurtoza 3, nadmiar kurtozy 0 , jeśli się nie mylę. Jestem ciekawy, czy jakieś popularne pakiety oprogramowania domyślnie wytwarzają kurtozę bez nadmiaru. To prawdopodobnie spowodowałoby wiele zamieszania (aby nie zaprzeczyć, że ludzie są nieco zdezorientowani pominięciem „nadmiaru” w przeciwnej praktyce) ...
Nick Stauner
1
Stata domyślnie produkuje kurtozę. „Nadmiar kurtozy” jest moim zdaniem okropnym terminem, ale nie do wyeliminowania. Kurtoza, najprościej zdefiniowana w znaczeniu drugiego i czwartego momentu, ma znacznie lepsze właściwości niż (kurtoza 3); użycie ostatniej definicji można przypisać nadmiernemu czczeniu rozkładu normalnego jako „normalnej” (wszystkie kalambury zamierzone), od której odchodzą inne rozkłady. Powinniśmy mieć szerszy wgląd w to, jakie rozkłady są możliwe i naturalne.
Nick Cox