Kłócę się z moim doradcą o wizualizację danych. Twierdzi, że reprezentując wyniki eksperymentalne, wartości należy narysować wyłącznie „ markerami ”, jak pokazano na poniższym obrazie. Podczas gdy krzywe powinny reprezentować tylko „ model ”
Z drugiej strony uważam, że krzywa jest w wielu przypadkach niepotrzebna w celu ułatwienia czytelności, jak pokazano na drugim obrazku poniżej:
Czy się mylę czy mój profesor? Jeśli tak jest w późniejszym przypadku, w jaki sposób mogę mu to wyjaśnić.
data-visualization
communication
Ivan P.
źródło
źródło
Odpowiedzi:
Podoba mi się ta zasada:
Ludzie są bardzo dobrzy w rozpoznawaniu wzorców (raczej jesteśmy po stronie dostrzegania trendów, które nie istnieją, niż przegapienia istniejącego trendu). Jeśli nie jesteśmy w stanie uzyskać trendu bez linii, możemy być całkiem pewni, że żaden zestaw trendów nie zostanie ostatecznie pokazany w zbiorze danych.
Mówiąc o drugim wykresie, jedynym wskaźnikiem niepewności punktów pomiarowych są dwa czerwone kwadraty C: O 1,2 przy 700 ° C. Rozprzestrzenienie się tych dwóch oznacza, że nie zaakceptowałbym np
bez podania bardzo dobrych powodów. Byłby to jednak znowu model.
edycja: odpowiedz na komentarz Ivana:
Jestem chemikiem i powiedziałbym, że nie ma pomiaru bez błędu - to, co jest dopuszczalne, zależy od eksperymentu i przyrządu.
Ta odpowiedź nie jest sprzeczna z pokazywaniem błędu eksperymentalnego, ale wszystkim do pokazywania i uwzględniania go.
Moje rozumowanie polega na tym, że wykres pokazuje dokładnie jeden powtarzany pomiar, więc gdy dyskusja dotyczy stopnia złożoności modelu (tj. Linii poziomej, linii prostej, kwadratu ...), może to dać nam wyobrażenie o pomiarze błąd. W twoim przypadku oznacza to, że nie byłbyś w stanie dopasować znaczącego kwadratu (splajnu), nawet gdybyś miał twardy model (np. Równanie termodynamiczne lub kinetyczne) sugerujący, że powinien być kwadratowy - po prostu nie masz wystarczającej ilości danych .
Aby to zilustrować:
Oto dopasowanie liniowe wraz z 95% przedziałem ufności dla każdego ze współczynników C: O:
Należy zauważyć, że dla wyższych współczynników C: O przedział ufności wynosi znacznie poniżej 0. Oznacza to, że domniemane założenia modelu liniowego są błędne. Można jednak stwierdzić, że modele liniowe dla wyższej zawartości C: O już się pokrywają.
Cofając się i dopasowując tylko stałą wartość (tj. Brak zależności T):
Uzupełnieniem jest modelowanie braku zależności od C: O:
Mimo to przedział ufności obejmowałby linie poziome, a nawet lekko wznoszące się.
Możesz spróbować i spróbować np. Zezwolić na różne przesunięcia dla trzech stosunków C: O, ale stosując równe nachylenia.
Jednak już kilka innych pomiarów drastycznie poprawiłoby sytuację - zwróć uwagę, o ile węższe są przedziały ufności dla C: O = 1: 1, gdzie masz 4 pomiary zamiast tylko 3.
Wniosek: jeśli porównasz moje punkty, do których wniosków jestem sceptyczny, zbytnio czytają w kilku dostępnych punktach!
źródło
Jak mówi JeffE: punkty to dane . Ogólnie rzecz biorąc, dobrze jest unikać dodawania krzywych w jak największym stopniu. Jednym z powodów dodania krzywej jest to, że wykres jest ładniejszy dla oka, dzięki czemu punkty i trend między punktami są bardziej czytelne. Jest to szczególnie prawdziwe, jeśli masz niewiele punktów danych.
Istnieją jednak inne sposoby wyświetlania rzadkich danych , które mogą być lepsze niż wykres rozproszenia. Jedną z możliwości jest wykres słupkowy, w którym różne słupki są znacznie bardziej widoczne niż pojedyncze punkty. Kolorowy kod (podobny do tego, który masz już na rysunku) pomoże zobaczyć trendy w każdej serii danych (lub serie danych mogą zostać podzielone i przedstawione obok siebie na mniejszych pojedynczych wykresach słupkowych).
Wreszcie, jeśli naprawdę chcesz dodać jakąś linię między symbolami, istnieją dwa przypadki:
Jeśli oczekujesz, że określony model będzie poprawny dla twoich danych (liniowy, harmoniczny, cokolwiek), powinieneś dopasować swoje dane do modelu, wyjaśnić model w tekście i skomentować zgodność między danymi a modelem.
Jeśli nie masz żadnego rozsądnego modelu danych, nie powinieneś uwzględniać dodatkowych założeń na swoim wykresie. W szczególności oznacza to, że nie należy umieszczać żadnego rodzaju linii między punktami z wyjątkiem linii prostych. Ładne interpolacje „dopasowania do splajnu”, które Excel (i inne oprogramowanie) mogą rysować, są kłamstwem . Nie ma żadnego uzasadnionego powodu, aby Twoje dane były zgodne z tym konkretnym modelem matematycznym, dlatego powinieneś trzymać się odcinków linii prostych.
Co więcej, w takim przypadku może być fajnie dodać zastrzeżenie gdzieś w podpisie do figury, np. „Linie to tylko wskazówki dla oka”.
źródło
1-Twój profesor ma rację.
2-Twoja fabuła zdecydowanie nie zwiększa czytelności IMHO.
3-Z mojego zrozumienia nie jest to właściwe forum, aby naprawdę zadawać tego rodzaju pytania i należy je zadawać podczas weryfikacji krzyżowej.
źródło
Czasami łączenie punktów ma sens, szczególnie jeśli są bardzo gęste.
A wtedy sensowna może być interpolacja (np. Za pomocą splajnu ). Jeśli jednak jest to coś bardziej zaawansowanego niż splajn rzędu pierwszego (dla którego wyraźnie widać, że to tylko łączenie punktów), musisz o tym wspomnieć.
Jednak w przypadku kilku punktów lub tuzina punktów tak nie jest. Po prostu zostaw punkty takimi, jakie są, ze znacznikami. Jeśli chcesz dopasować linię (lub inną krzywą), jest to model. Możesz to dodać, ale bądź wyraźny - np. „Linia reprezentuje dopasowanie regresji liniowej”.
źródło
Myślę, że zdarzają się przypadki, w których nie proponuje się wyraźnego modelu, a mimo to potrzebuje jakiegoś przewodnika dla oka. Moją zasadą jest zatem unikanie krzywych takich jak plaga i trzymanie się prostych odcinków między kolejnymi punktami serii.
Po pierwsze, założenie to jest bardziej oczywiste dla czytelników. Spiczasty jest również dobry w powstrzymywaniu czytelników przed zakładaniem trendów nieobsługiwanych przez dane. Jeśli w ogóle, to tylko podkreśla hałas i wartości odstające.
Obawiam się, że pobieżne (nie rygorystyczne, nieprecyzyjne) jest użycie splajnów, kwadratów, regresji itp. Bardzo często sprawia to wrażenie, że istnieją trendy, których nie ma. Dobrym przykładem nadużyć są krzywe narysowane przez @Ivan. W przypadku 3 punktów danych nie sądzę, aby jakiekolwiek maksima lub minima w modelu bazowym były oczywiste.
źródło