Mam mały zestaw danych 14 osobnych razy, aby wykonać zadanie. Mam jednak trudności ze znalezieniem odpowiedniego wykresu, którego można by użyć do wykreślenia danych. Gdyby próbka była większa, użyłbym wykresu pudełkowego lub histogramu, ale nie jestem pewien, czy stosowne byłoby użycie w tym przypadku, gdy próbka jest tak mała.
Aktualizacja: Czasy to 5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2
Odpowiedzi:
Myślę, że podstawową zasadą tutaj jest to, że możesz i powinieneś pokazywać wszystkie indywidualne wartości. Nawet jeśli szczegół nie jest w sposób oczywisty interesujący ani użyteczny, nie ma powodu, aby go nie pokazywać lub zobowiązać czytelnika do odkodowania (powiedzmy) histogramu, w którym słupki mogą reprezentować tylko jedną lub dwie wartości.
Oferuję tutaj mały kompozyt. Lewy górny róg to wykres punktowy lub pasek (co najmniej dwadzieścia innych nazw użyto dla tego samego pomysłu) przedstawiony poziomo, a prawy górny róg ten sam pomysł przedstawiony pionowo. Wystąpienia o tej samej wartości są dopasowywane przez układanie w stos.
Na dole znajduje się wykres kwantylu w sensie Parzen, w którym milcząca skala pozioma jest skumulowanym prawdopodobieństwem (pozycja wykresu we wspólnym żargonie), a konwencjonalne pole mediany i kwartyli można narysować w taki sposób, że (w zasadzie) połowa wartości są w polu, jak zawsze reklamowane, a połowa wartości na zewnątrz. Dodatkowa pozioma linia tutaj oznacza średnią. Niektóre osoby dodają środki do wykresów pudełkowych jako dodatkowy symbol punktu lub znacznika; Uważam, że może to kolidować z wyświetlaniem samych danych i wolę dodatkową linię. Jeśli linia mediany i linia średniej wydają się zbieżne, musisz pomyśleć, co zrobić. Prawie zawsze średnia i mediana są wyraźnie różne.
Prawdopodobnie standardem jest wyraźne określanie jednostek miary na wykresie, ale nie widzę, jakie są.
(Celowo przesunąłem tutaj dodatkowy punkt, a mianowicie, że wykresy mogą być bardzo małe, ale wciąż pouczające. W praktyce nie uczyniłbym ich tak małymi.)
EDYTOWAĆ:
Odsyłacze dodane do wykresów skrzynek kwantylowych szeroko w sensie Parzen (dalsze odniesienia w drugiej części poniżej; istnieją inne zastosowania „wykresów skrzynek kwantylowych”)
Jak zmierzyć różnicę między danymi nieparametrycznymi z wieloma zerami?
Jak korzystać z wykresów pudełkowych, aby znaleźć punkt, w którym wartości mogą pochodzić z różnych warunków?
Jak wizualizować niezależny test t dwóch próbek?
Jak sprawdzić, który eksperyment działa lepiej przy użyciu testu U Manna-Whitneya?
Shera, DM 1991. Niektóre zastosowania wykresów kwantowych do poprawy prezentacji danych. Informatyka i statystyki 23: 50–53.
Militký, J. i M. Meloun. 1993. Niektóre pomoce graficzne do jednoznacznej analizy danych eksploracyjnych. Analytica Chimica Acta 277: 215-221.
Meloun, M. i J. Militký. 1994. Wspomagane komputerowo przetwarzanie danych w chemometrii analitycznej. I. Analiza eksploracyjna danych jednoczynnikowych. Chemical Papers 48: 151-157.
EDYCJA 2:
Głównym celem tych wątków jest nie tylko udzielenie odpowiedzi na bezpośrednie pytanie, ale także poruszenie bardzo podobnych pytań, które mogą zainteresować innych.
Niektóre inne projekty wykresów w innych odpowiedziach tutaj pokazują identyfikatory oznaczone agnostycznie 1 ... 14 przy braku innych szczegółów. Zakładając, że te i inne identyfikatory były przydatne w interpretacji, prosty projekt, aby je pokazać, to wykres punktowy (Cleveland). Oto dwie spośród kilku możliwości, w których porządek identyfikatora jest przestrzegany dosłownie (po lewej) i w których wartości są sortowane (po prawej). W razie potrzeby jest dużo miejsca na dłuższe etykiety.
Zaletą tego projektu w porównaniu z wykresami słupkowymi jest to, że oś odpowiedzi lub wyniku może zaczynać się od wartości innej niż zero, jeśli wydaje się to lepszym wyborem.
Łatwo można sobie również wyobrazić obracanie wykresów tak, aby oś odpowiedzi była pionowa.
źródło
@Nick Cox podał już kilka dobrych przykładów, dwie inne opcje, z których często korzystam, to wykres pudełkowy z punktami nałożonymi lub lekko roztrzęsionymi,
Z kodem R.
EDYCJA: Możesz również użyć fabuły skrzypiec, jeśli chcesz
źródło
Twoje pytanie przypomniało mi technikę opisaną w tym poście na blogu . Chodzi o wizualizację dyskretnych zdarzeń.
Podstawową sztuczką jest wykreślenie
the time before an event
xthe time after an event
.Może to być przypadek, ale do górnego środkowego obszaru nie ma danych. Widać więc pewną strukturę.
Szybki i brudny
R
kod.źródło
text
przyjmuje argumenty wektorowe -text(x, y, 1:12)
powinno działać.Kolejny pomysł, ponieważ wykorzystujesz czas.
Wykres toru wyścigowego - wykres słupkowy o współrzędnych biegunowych - daje taki sam efekt jak stoper:
Idealnie etykiety obserwacyjne byłyby nałożone na słupki lub przynajmniej na drugim końcu. W tej chwili widz ma dodatkowy wysiłek, aby śledzić, która obserwacja jest (w górę / w dół) podczas dokonywania jakichkolwiek porównań.
źródło