Czy niewłaściwe jest używanie wykresów liniowych do dyskretnych danych?

12

Często widziałem dyskretne zestawy danych wykreślane jako wykresy liniowe, ale przychodzi mi do głowy, że linia wyznacza wartość w punkcie między przedziałami pomiarowymi, co nie ma znaczenia dla dyskretnych zestawów danych. Czy w takim przypadku użycie wykresów liniowych dla danych dyskretnych jest nieprawidłowe?

Jako przykład weźmy dwa zestawy danych szeregów czasowych, jeden ciągły (moja waga mierzona codziennie rano) i jeden dyskretny (liczba pączków, które jem dziennie). Pierwszy zestaw danych ma sens jako wykres liniowy, ponieważ uzasadnione jest wnioskowanie, że moja waga w danym popołudniu będzie powiązana z moją wagą w poprzedzający i następny poranek. Jeśli jednak liczba pączków jest reprezentowana jako wykres liniowy, linie między kropkami nie mogą wynikać z tej linii.

EDYTOWAĆ

Oto inny przykład: federalna godzinna płaca minimalna od momentu jej powstania na stronie http://mste.illinois.edu/courses/ci330ms/youtsey/lineinfo.html

O ile się nie mylę, zmiany płacy minimalnej są dyskretne, a zatem nie jest możliwe wyszukiwanie dowolnego arbitralnie wybranego czasu i ustalenie płacy minimalnej w punkcie przy użyciu linii łączącej kropki.

użytkownik1379351
źródło
3
(+1) Przykład minimalnej płacy godzinowej jest doskonały. Już sformułowanie twojego pytania sugeruje dobrą odpowiedź: mianowicie, że punkty połączenia na wykresie nie są ważne, gdy spowodowałoby to, że czytelnik dokonałby niedokładnych (lub całkowicie nieprawidłowych) interpolacji. Rozróżnienie między dyskrecją a nieciągłością pomogłoby w dalszej analizie: konsumpcja pączków jest dyskretna, a płaca minimalna nieciągła. Każda z nich zasługuje na inną formę fabuły.
whuber
Istnieją wykresy, w których wykres rozproszenia z dyskretnymi danymi wprowadza w błąd na wykresie liniowym. W wielu przypadkach, w których konieczna jest sekwencja zdarzeń (histereza) lub występują oscylacje między dwoma poziomami i trzeba śledzić zmiany stanu i ich lokalizację. Zatem: nie używaj wykresów liniowych do sugerowania interpolacji, ale używaj ich jako wskazówek, jeśli jest to właściwe. Stworzenie prostej reguły wyboru nie jest wystarczająco proste, ale wymaga rozważenia dostępnych danych i modelu.
wirrbel,
1
Interesujące pytanie! Dziękuję za to. Mam do czynienia z wieloma danymi związanymi z czasem, które częściowo wynikają z modeli dyskretnych i danych częściowo zmierzonych. Co z opcją użycia wykresów ze schodkową linią dla danych dyskretnych (które mogą być ciągłe w pewien sposób, ale wciąż nie mamy żadnej funkcji między pojedynczymi punktami i nie możemy założyć, że je mamy) i regularnych dla ciągłych danych? Tak sobie z tym
radzę
@CordKaldemeyer dziękuję za komentowanie - nie byłem świadomy typu wykresu „wykres ze schodkami”, ale zdecydowanie tego szukam. Znalazłem również ten pomocny samouczek na temat robienia wykresów ze schodkiem
user1379351
@ user1379351: Cieszę się, że mogłem pomóc!
Cord Kaldemeyer

Odpowiedzi:

9

Połączone wykresy liniowe okazały się zbyt przydatne, aby ograniczyć się do jednej interpretacji. Kilka znaczących zastosowań:

  • Wartości interpolowane . Przypadek, o którym wspominasz, gdy obie zmienne są ciągłe, a każdy interpolowany punkt wzdłuż linii jako sensowną interpretację.
  • Tempo zmian . Nawet gdy wartości pośrednie nie są znaczące, nachylenie każdego segmentu linii stanowi dobrą reprezentację tempa zmian. Zwróć uwagę, że dla tej interpretacji wartości X i Y muszą być odpowiednio rozmieszczone, co nie ma miejsca w cytowanej przez ciebie wykresie płac.
  • Porównanie profili . Porównując małe wielokrotności lub nałożone miary, linie mogą być przydatne nawet w przypadku czynników kategorialnych. W tym przypadku linie służą do łączenia grup odpowiedzi w celu ograniczonego rozpoznawania wzorców. Oto przykład z peltiertech.com ze współczynnikiem na osi Y (zamiast X) dla czytelności etykiety:

wprowadź opis zdjęcia tutaj

Xan
źródło
1
To prawda, ale wykresy drugi i trzeci są zdecydowanie mniej wydajne niż pierwszy, ponieważ w ogóle nie można używać rachunku różniczkowego.
Milind R
5

Cóż, pączki mogą być powiązane z wagą :-)

Chociaż widzę twój punkt, myślę, że ten przykład nie jest taki zły, ponieważ czas (na osi poziomej, do której odnoszą się linie) jest ciągły. Dla mnie znaczenie linii nie jest tak duże, że o każdej porze dnia zjadasz określoną liczbę pączków, ale że liczba pączków dziennie zmienia się w pewien regularny sposób. W związku z tym możemy dodać do linii coś w rodzaju wygładzacza lessu i miałoby to sens. Przynajmniej rozsądne jest myślenie o pączkach spożywanych o każdej godzinie, a nawet o każdej minucie (chociaż byłoby to bardziej sensowne ze zmienną, w której liczba dzienna była wyższa)

Bardziej niepokojące jest to, gdy oś pozioma jest dyskretna (a zwłaszcza gdy jest nominalna), ale rysuje się linie. To naprawdę nie ma sensu. Np. Jeśli patrzysz (powiedzmy) na% głosowania na Obamę wśród (powiedzmy) mieszkańców różnych regionów USA, nie ma sensu wyznaczać linii między Północnym Wschodem a Środkowym Zachodem; zwłaszcza, że ​​kolejność regionów jest dowolna, ale zmiana kolejności zmieniłaby linie. Jednak widziałem takie wykresy.

Peter Flom - Przywróć Monikę
źródło
1
Absolutnie zgadzam się, że istnieją znacznie gorsze nadużycia wykresów liniowych. Lubię płynniejsze podejście, ponieważ nie łączy kropek, a zatem nie sugeruje danych, których nie ma. Ale służy to podkreśleniu niepokojącego trendu w konsumpcji pączków. Dzięki!
user1379351
3
Wydaje się, że proponujesz zastąpienie jednej zmiennej - konsumpcji pączków - inną; mianowicie gęstość zużycia pączków (pączki na jednostkę czasu). Chociaż jest to często wykonywane - szczególnie w analizach dwuwymiarowych (takich jak mapy gęstości populacji) - i może być bardzo skuteczne, dobrze byłoby, gdyby czytelnicy zdawali sobie sprawę z istnienia takiego rozróżnienia i zastanowili się, w jaki sposób to rozróżnienie mogłoby być ujawnione graficznie.
whuber
2
@whuber To słuszna uwaga; wydaje się, że ta linia zastępuje. Wykres, który nie powoduje, że ta zamiana może być po prostu kropkami, niepołączonymi, ale wydaje się, że stanowi to przynajmniej wskazówkę dotyczącą konsumpcji pączków zlokalizowanych w danym punkcie. Możemy więc renderować czas jako ciągły i umieszczać kropkę w momencie, w którym pączek został spożyty.
Peter Flom - Przywróć Monikę