Jaki jest najlepszy sposób na wizualizację efektów kategorii i ich rozpowszechnienia w regresji logistycznej?

11

Muszę przedstawić informacje o głównych predyktorach głosów kandydata na podstawie danych z badania opinii publicznej. Przeprowadziłem regresję logistyczną, używając wszystkich zmiennych, na których mi zależy, ale nie mogę znaleźć dobrego sposobu na przedstawienie tych informacji.

Mój klient nie dba tylko o wielkość efektu, ale o interakcję między wielkością efektu a wielkością populacji z takim atrybutem.

Jak sobie z tym poradzić na wykresie? Jakieś sugestie?

Oto przykład:

zmiennej płeć (mężczyzna = 1), gdy zmienna zależna jest oryginalne / nie w kandydata wynosi 2,3, co jest duża liczba po ustaniu potęgowania i traktowane jako iloraz szans lub prawdopodobieństwa. Jednak społeczeństwo, w którym przeprowadzono tę ankietę, miało tylko 30% mężczyzn. Dlatego chociaż człowiek dość mocno popierał tego kandydata, ich liczba jest nieznaczna dla kandydata próbującego wygrać wybory parlamentarne.β

użytkownik1172558
źródło
FWIW, użycie terminu „interakcja” jest nieprawidłowe (patrz np. Tutaj lub tutaj ). Powiedziałbym coś w stylu „… ale o identyfikowaniu sytuacji, w których wielkość efektu jest duża, a populacja z takim atrybutem jest również duża”.
gung - Przywróć Monikę

Odpowiedzi:

10

Zgadzam się z @PeterFlom, że przykład jest nieparzysty, ale odkładając na bok, zauważam, że zmienna objaśniająca jest kategoryczna. Jeśli jest to niezmiennie prawda, znacznie to upraszcza. Użyłbym mozaikowych wykresów, aby przedstawić te efekty. Wykres mozaikowy wyświetla proporcje warunkowe w pionie, ale szerokość każdej kategorii jest skalowana względem jej marginalnej (tj. Bezwarunkowej) proporcji w próbce.

Oto przykład z danymi z katastrofy Titanic, utworzonymi za pomocą R:

data(Titanic)

sex.table   = margin.table(Titanic, margin=c(2,4))
class.table = margin.table(Titanic, margin=c(1,4))
round(prop.table(t(sex.table), margin=2), digits=3)
#          Sex
# Survived  Male Female
#      No  0.788  0.268
#      Yes 0.212  0.732
round(prop.table(t(class.table), margin=2), digits=3)
#           Class
# Survived   1st   2nd   3rd  Crew
#      No  0.375 0.586 0.748 0.760
#      Yes 0.625 0.414 0.252 0.240

windows(height=3, width=6)
  par(mai=c(.5,.4,.1,0), mfrow=c(1,2))
  mosaicplot(sex.table,   main="")
  mosaicplot(class.table, main="")

wprowadź opis zdjęcia tutaj

Po lewej stronie widzimy, że kobiety były znacznie bardziej narażone na przeżycie, ale mężczyźni stanowili około 80% ludzi na pokładzie. Tak więc zwiększenie odsetka ocalałych mężczyzn oznaczałoby uratowanie życia o wiele więcej niż nawet większy wzrost odsetka ocalałych kobiet. Jest to nieco analogiczne do twojego przykładu. Istnieje inny przykład po prawej stronie, w którym załoga i kierownictwo stanowiły największy odsetek ludzi, ale miały najniższe prawdopodobieństwo przeżycia. (Dla tego, co jest warte, nie jest to pełna analiza tych danych, ponieważ klasa i seks również nie były niezależne od Titanica, ale wystarczy zilustrować pomysły na to pytanie).

gung - Przywróć Monikę
źródło
5

Jestem trochę ciekawy, jakie społeczeństwo ma tylko 10% mężczyzn ... ale ...

Jedną rzeczą, którą możesz zrobić, to wykreślić iloraz szans i oznaczyć każdą wielkością próbki.

Jeśli chcesz, aby obie zmienne były reprezentowane graficznie, możesz utworzyć wykres bąbelkowy, w którym położenie każdego bąbelka na osi y odpowiada rozmiarowi ilorazu szans, a obszar bąbelka jest proporcjonalny do wielkości próbki.

Peter Flom - Przywróć Monikę
źródło
7
Może ten .
Andre Silva,