Jaki jest najlepszy sposób na wizualizację zależności między zmiennymi dyskretnymi i ciągłymi?

19

Jaki jest najlepszy sposób na pokazanie związku między:

  • zmienna ciągła i dyskretna,
  • dwie zmienne dyskretne?

Do tej pory korzystałem z wykresów rozrzutu, aby spojrzeć na związek między zmiennymi ciągłymi. Jednak w przypadku zmiennych dyskretnych punkty danych są kumulowane w określonych odstępach czasu. Zatem linia najlepszego dopasowania może być stronnicza.

początkujący
źródło
4
W przypadku dyskretno-dyskretnym pomocna może być tutaj odpowiedź na nieco pokrewne pytanie dotyczące kreślenia uporządkowanych danych kategorycznych (choć być może bez pól w twoim przypadku). Naprawdę nie jestem pewien, jak według ciebie powstaje ta „stronniczość”; wpłynęłoby to na wrażenie wizualne punktów danych (prowadzące do użycia, oczekując, że linia pójdzie gdzie indziej niż tam, gdzie powinno), ale nie na samych danych. Czy możesz tutaj wyjaśnić swoje rozumowanie?
Glen_b

Odpowiedzi:

26

Poniżej: oryginalny wykres może wprowadzać w błąd, ponieważ dyskretny charakter zmiennych powoduje, że punkty nakładają się na siebie:

wprowadź opis zdjęcia tutaj

Jednym ze sposobów obejścia tego jest wprowadzenie przejrzystości symbolu danych:

wprowadź opis zdjęcia tutaj

Innym sposobem jest łagodne przesunięcie położenia symbolu, aby utworzyć rozmaz. Ta technika nazywa się „drżeniem:”

wprowadź opis zdjęcia tutaj

Oba rozwiązania nadal pozwalają dopasować linię prostą do oceny liniowości.

Kod R w celach informacyjnych:

x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)
Penguin_Knight
źródło
1
Niezła odpowiedź. A co z wykresami rozpraszania bąbelków ze zmiennymi wystąpieniami? Próbowałem użyć tych technik na ogromnym zbiorze danych, a renderowanie alf trwało zbyt długo.
josh
14

Użyłbym wykresów pudełkowych do wyświetlenia zależności między zmienną dyskretną i ciągłą. Możesz ustawić swoje wykresy pudełkowe w pionie lub w poziomie za pomocą standardowego oprogramowania statystycznego, dzięki czemu można łatwo wizualizować je jako IV lub DV. Możliwe jest użycie wykresu rozrzutu ze zmienną dyskretną i ciągłą, wystarczy przypisać liczbę do zmiennej dyskretnej (np. 1 i 2) i zniekształcić te wartości (zwróć uwagę na górny wykres tutaj ).

Jeśli chodzi o twój komentarz, że linia najlepszego dopasowania może być stronnicza, zależy to od tego, co masz. Na przykład, jeśli masz zmienną dyskretną z dwoma poziomami jako IV i zmienną ciągłą jako DV, możesz narysować linię za pomocą tych dwóch środków, a to nie będzie stronnicze. (Zwykle uważalibyśmy tę sytuację za odpowiednią do testu t, ale w rzeczywistości jest to forma - tj. Prosty przypadek - regresji, zobacz moją odpowiedź tutaj .) Z drugiej strony, jeśli masz dyskretny zmienna z dwoma poziomami jako DV, regresja standardowa (OLS) byłaby nieodpowiednia (wymagana byłaby regresja logistyczna), a linia najlepszego dopasowania byłaby stronnicza, ale można dopasować (i wykreślić) linię lowess jako część początkowej eksploracja danych.

Do wizualizacji zależności między dwiema zmiennymi dyskretnymi użyłbym wykresu mozaiki . Można również użyć sita działkę , to działka o stowarzyszeniu , lub dynamiczny wykres ciśnienia z niektórych programów.

gung - Przywróć Monikę
źródło
8

Rozważając relację między binarnym outcome zmiennej i ciągłym prognostyk, chciałbym użyć gładsza lessowej (z poboczna wykrywanie wyłączone, na przykład w dziedzinie badań lowess(x, y, iter=0).

W następnej wersji Hmiscpakietu R możesz łatwo utworzyć pojedynczą latticegrafikę, która umieszcza takie krzywe w wyświetlaczu wielopanelowym dla wielu predyktorów, np.

summaryRc(heart.attack ~ age + blood.pressure + weight, data=mydata)
Frank Harrell
źródło
1

Jeśli nie jesteś zadowolony z prostych wykresów rozrzutu, możesz dodać częstotliwości punktów danych dla każdej wartości zmiennej dyskretnej. Jak to zrobić, zależy to tylko od używanego programu statystycznego. Oto przykład dla Staty. Można to również zastosować do wykresu rozrzutu dwóch zmiennych kategorialnych. W przeciwnym razie wykres ramkowy lub nałożone wykresy słupkowe mogą być w porządku, ale tak naprawdę zależy to od sposobu prezentacji tych zmiennych.

Andy
źródło
1

Na stronie http://www.boekboek.com/xb130929113026 znalazłem artykuł dotyczący asocjacji między dwoma zmiennymi binarnymi - tutaj, w tym artykule, pokazano i udowodniono, że siłę powiązania między dwiema zmiennymi binarnymi można wyrazić jako ułamek idealne skojarzenie. Staje się więc możliwe i preferowane jest stwierdzenie: związek między zmienną A i zmienną B wynosi na przykład 50% zamiast współczesnego stwierdzenia: OR = 9 (niełatwo zinterpretować) lub ryzyko rzeczywiste = 2 (jednocześnie rozważane jest ryzyko względne również, aby być miarą powiązania, chociaż w rzeczywistości jest to funkcja skojarzenia, rozpowszechnienia lub występowania i pozytywności).

Erik
źródło