Mógłbym skorzystać z pewnych wskazówek dotyczących prezentacji niektórych danych.
Ten pierwszy wykres stanowi porównanie kontroli przypadku dla cytokiny IL-10. Ręcznie ustawiłem oś y, aby zawierała 99% danych.
Ustawiłem to ręcznie, ponieważ grupa przypadków ma skrajnie odstające wartości.
Moi współpracownicy wahają się przed usunięciem wartości odstających z naszego zestawu danych. Nie przeszkadza mi to, ale woleliby nie. To byłoby oczywiste rozwiązanie. Ale jeśli mam zachować wszystkie dane i nie usunąć tej wartości odstającej, jak mogę optymalnie przedstawić ten wykres pudełkowy? Podzielona oś? Czy dopuszczalne jest użycie tylko pierwszego wykresu i zauważenie, że został on skonstruowany tak, aby zawierał wszystkie dane? (Ta opcja jest dla mnie nieuczciwa). Każda rada byłaby świetna.
źródło
Odpowiedzi:
Powiedziałbym, że przy takich danych naprawdę trzeba pokazywać wyniki w przekształconej skali. To pierwsza konieczność i ważniejsza kwestia niż precyzyjne narysowanie fabuły pudełkowej.
Ale powtarzam Frankowi Harrella w nawoływaniu do czegoś bardziej pouczającego niż minimalna fabuła pudełkowa, nawet z pewnymi ekstremalnymi punktami. Masz wystarczająco dużo miejsca, aby wyświetlić znacznie więcej informacji. Oto jeden z wielu przykładów, pudełko hybrydowe i wykres kwantylowy. Podobnie jak w twoich danych, porównywane są dwie grupy.
Zajmę się tymi dwoma punktami jeden po drugim i powiem więcej.
Przekształcona skala
W najprostszym przypadku wszystkie twoje wartości mogą być dodatnie i powinieneś najpierw spróbować użyć skali logarytmicznej.
Jeśli masz dokładne zera, pierwiastek kwadratowy lub skala pierwiastka sześciennego poprawi skrajne pochylenie. Niektórzy ludzie są zadowoleni z log (wartość + stała), gdzie stała to najczęściej 1, jako sposób radzenia sobie z zerami.
Implikacje dla wykresów pudełkowych stosowania skali transformowanej są subtelne.
Jeśli zastosujesz wspólną konwencję Tukeya, polegającą na pokazywaniu indywidualnie wszystkich punktów poza górnym kwartylem + 1,5 IQR lub dolnym kwartylem - 1,5 IQR, to prawdopodobnie te granice należy obliczyć na przekształconej skali. To nie to samo, co obliczanie tych limitów na oryginalnej skali, a następnie przekształcanie.
Zamiast tego poparłbym konwencję, która wydaje się być jeszcze mniejszością, polegającą na wyborze kwantyli na końcach wąsów. Jedną z kilku jego zalet jest transformacja kwantyla = kwantyla transformacji, przynajmniej w większości przypadków wystarczająca do celów graficznych. (Drobny druk występuje za każdym razem, gdy kwantyle są obliczane przez interpolację liniową między statystykami sąsiedniego rzędu).
Tę konwencję kwantylową zasugerował dość wyraźnie Cleveland (1985). Dla przypomnienia, ulepszone wykresy pudełkowe z pudełkami na kwartyle, cieńsze pudełka na oktyle zewnętrzne (12,5 i 87,5% punktów) oraz wykresy pasków danych zostały wykorzystane w geografii i klimatologii przez (np.) Matthewsa (1936) i Grove (1956), pod nazwa „diagramy dyspersji”.
Więcej niż działki pudełkowe
Rysunki pudełkowe zostały wynalezione przez Tukeya około 1970 roku i najbardziej widoczne w jego książce z 1977 roku. Wiele z jego celów polegało na promowaniu wykresów, które można szybko narysować za pomocą pióra (cil) i papieru w nieformalnej eksploracji. Sugerował także sposoby identyfikacji możliwych wartości odstających. To było w porządku, ale teraz wszyscy mamy dostęp do komputerów, rysowanie wykresów pokazujących, jeśli nie wszystkie dane, to co najmniej znacznie więcej szczegółów, nie jest problemem. Podsumowująca rola wykresów pudełkowych jest cenna, ale wykres może również pokazać drobną strukturę, na wypadek, gdyby była interesująca lub ważna. (A to, co naukowcy uważają za nieciekawe lub nieważne, może być bardziej uderzające dla ich czytelników).
Jest dużo miejsca na uprzejme spory co do tego, co działa najlepiej, ale moim zdaniem dość nagie wykresy pudełkowe były dość wyprzedane.
Użytkownicy Stata mogą znaleźć więcej informacji na temat programu, który narysował postać w tym poście Statalist . Użytkownicy innego oprogramowania nie powinni mieć trudności z narysowaniem czegoś tak dobrego lub lepszego (inaczej po co korzystać z tego oprogramowania?).
Cleveland, WS 1985. Elementy wykresów danych. Monterey, Kalifornia: Wadsworth.
Grove, AT 1956. Erozja gleby w Nigerii. W esejach geograficznych Steel, RW i Fisher, CA (Eds) o brytyjskich tropikalnych krainach. Londyn: George Philip, 79-111.
Matthews, HA 1936. Nowe spojrzenie na niektóre znane indyjskie opady deszczu. Scottish Geographical Magazine 52: 84-97.
Tukey, JW 1977. Analiza danych eksploracyjnych. Reading, MA: Addison-Wesley.
źródło
Nie odejmując niczego od doskonałej odpowiedzi Nicka, co moim zdaniem jest warte zaznaczenia i uznania - ale chciałem zbadać kilka możliwości.
Przy tak mocno wypaczonych danych w kilku rzędach wielkości, kreślenie w skali logarytmicznej jest często dość odkrywcze; pamiętaj, że nadal możesz mieć znaczniki i etykiety znaczników w oryginalnych wartościach. (Zgadzam się z punktami Nicka dotyczącymi transformacji, więc nie będę dalej o tym rozszerzać.)
Inną opcją oprócz transformacji jest zrobienie czegoś podobnego do drugiego wykresu, ale zawiera wskazanie wszystkich wartości, które nie są drukowane:
W ten sposób nie usuwasz wartości odstających, tylko wyświetlasz je inaczej.
Chciałbym jednak przyłączyć się do Franka i Nicka, sugerując użycie bardziej pouczającego wyświetlacza niż zwykły wykres pudełkowy - połączenie wykresu pudełkowego z wykresem kwantowym w poście Nicka wydaje się być szczególnie dobrym pojęciem, chociaż można nakreślić wykres kwantylu lekko nad (lub pod) , jak tutaj) odpowiednie pole zamiast niego:
Jeśli nie robisz czegoś takiego (powiedzmy, że używasz zwykłego wykresu pudełkowego), sugerowałbym znacznie węższe pudełka.
źródło
points
celu wyświetlenia wartości kwantyli (wygląda to jak coś po liniixs=sort(x); points(ppoints(xs),xs)
wykresu, ale po dokładnym zbadaniu punkty znajdują się poniżej wykresu pola, więc może to być wykres, a następnie wykres pola z dodaniem = PRAWDA lub to być może była fabuła, potem wskazuje, a potem fabuła nad górą ... możeWolę fabułę skrzynkową lub skrzypcową, ponieważ zawierają o wiele więcej informacji. Skaluję rozszerzone wykresy pudełkowe do kwantyli 0,01 i 0,99 połączonych próbek. Szczegółowe informacje można znaleźć na stronie http://biostat.mc.vanderbilt.edu/wiki/pub/Main/StatGraphCourse/graphscourse.pdf .
źródło