Jaki jest najlepszy sposób na pokazanie związku między:
- zmienna ciągła i dyskretna,
- dwie zmienne dyskretne?
Do tej pory korzystałem z wykresów rozrzutu, aby spojrzeć na związek między zmiennymi ciągłymi. Jednak w przypadku zmiennych dyskretnych punkty danych są kumulowane w określonych odstępach czasu. Zatem linia najlepszego dopasowania może być stronnicza.
data-visualization
categorical-data
random-variable
początkujący
źródło
źródło
Odpowiedzi:
Poniżej: oryginalny wykres może wprowadzać w błąd, ponieważ dyskretny charakter zmiennych powoduje, że punkty nakładają się na siebie:
Jednym ze sposobów obejścia tego jest wprowadzenie przejrzystości symbolu danych:
Innym sposobem jest łagodne przesunięcie położenia symbolu, aby utworzyć rozmaz. Ta technika nazywa się „drżeniem:”
Oba rozwiązania nadal pozwalają dopasować linię prostą do oceny liniowości.
Kod R w celach informacyjnych:
źródło
Użyłbym wykresów pudełkowych do wyświetlenia zależności między zmienną dyskretną i ciągłą. Możesz ustawić swoje wykresy pudełkowe w pionie lub w poziomie za pomocą standardowego oprogramowania statystycznego, dzięki czemu można łatwo wizualizować je jako IV lub DV. Możliwe jest użycie wykresu rozrzutu ze zmienną dyskretną i ciągłą, wystarczy przypisać liczbę do zmiennej dyskretnej (np. 1 i 2) i zniekształcić te wartości (zwróć uwagę na górny wykres tutaj ).
Jeśli chodzi o twój komentarz, że linia najlepszego dopasowania może być stronnicza, zależy to od tego, co masz. Na przykład, jeśli masz zmienną dyskretną z dwoma poziomami jako IV i zmienną ciągłą jako DV, możesz narysować linię za pomocą tych dwóch środków, a to nie będzie stronnicze. (Zwykle uważalibyśmy tę sytuację za odpowiednią do testu t, ale w rzeczywistości jest to forma - tj. Prosty przypadek - regresji, zobacz moją odpowiedź tutaj .) Z drugiej strony, jeśli masz dyskretny zmienna z dwoma poziomami jako DV, regresja standardowa (OLS) byłaby nieodpowiednia (wymagana byłaby regresja logistyczna), a linia najlepszego dopasowania byłaby stronnicza, ale można dopasować (i wykreślić) linię lowess jako część początkowej eksploracja danych.
Do wizualizacji zależności między dwiema zmiennymi dyskretnymi użyłbym wykresu mozaiki . Można również użyć sita działkę , to działka o stowarzyszeniu , lub dynamiczny wykres ciśnienia z niektórych programów.
źródło
Rozważając relację między binarnym outcome zmiennej i ciągłym prognostyk, chciałbym użyć gładsza lessowej (z poboczna wykrywanie wyłączone, na przykład w dziedzinie badań
lowess(x, y, iter=0)
.W następnej wersji
Hmisc
pakietu R możesz łatwo utworzyć pojedyncząlattice
grafikę, która umieszcza takie krzywe w wyświetlaczu wielopanelowym dla wielu predyktorów, np.źródło
Jeśli nie jesteś zadowolony z prostych wykresów rozrzutu, możesz dodać częstotliwości punktów danych dla każdej wartości zmiennej dyskretnej. Jak to zrobić, zależy to tylko od używanego programu statystycznego. Oto przykład dla Staty. Można to również zastosować do wykresu rozrzutu dwóch zmiennych kategorialnych. W przeciwnym razie wykres ramkowy lub nałożone wykresy słupkowe mogą być w porządku, ale tak naprawdę zależy to od sposobu prezentacji tych zmiennych.
źródło
Na stronie http://www.boekboek.com/xb130929113026 znalazłem artykuł dotyczący asocjacji między dwoma zmiennymi binarnymi - tutaj, w tym artykule, pokazano i udowodniono, że siłę powiązania między dwiema zmiennymi binarnymi można wyrazić jako ułamek idealne skojarzenie. Staje się więc możliwe i preferowane jest stwierdzenie: związek między zmienną A i zmienną B wynosi na przykład 50% zamiast współczesnego stwierdzenia: OR = 9 (niełatwo zinterpretować) lub ryzyko rzeczywiste = 2 (jednocześnie rozważane jest ryzyko względne również, aby być miarą powiązania, chociaż w rzeczywistości jest to funkcja skojarzenia, rozpowszechnienia lub występowania i pozytywności).
źródło