Jak opisać lub wizualizować model wielokrotnej regresji liniowej

21

Próbuję dopasować model wielokrotnej regresji liniowej do moich danych za pomocą kilku parametrów wejściowych, powiedzmy 3.

(i)F(x)=Ax1+Bx2+Cx3+dor(ii)F(x)=(A B C)T(x1 x2 x3)+d

Jak wyjaśnić i zwizualizować ten model? Mógłbym wymyślić następujące opcje:

  1. Wymień równanie regresji opisane w (współczynniki, stała) wraz ze standardowym odchyleniem, a następnie wykres błędu resztkowego, aby pokazać dokładność tego modelu. (i)

  2. Wykresy par niezależnych i zależnych zmiennych, takie jak to:

    wprowadź opis zdjęcia tutaj

  3. Po poznaniu współczynników punkty danych wykorzystane do otrzymania równania można skondensować do ich wartości rzeczywistych. Oznacza to, że dane treningowe mają nowe wartości, w postaci zamiast , , , gdzie każda z niezależnych zmiennych jest mnożona przez odpowiedni współczynnik. Następnie tę uproszczoną wersję można wizualnie przedstawić jako prostą regresję, jak to:(i)xx1x2x3

    wprowadź opis zdjęcia tutaj

Jestem zmieszany tym, pomimo przejrzenia odpowiednich materiałów na ten temat. Czy ktoś może mi wyjaśnić, jak „wyjaśnić” model wielokrotnej regresji liniowej i jak go wizualnie pokazać.

kris
źródło
2
Jaki jest cel twojego dokumentu i kim są odbiorcy? Zaczynam od uzyskiwania podobnych artykułów i szukam przykładów na ich temat. Bardziej zaznajomiłem się z literaturą biomedyczną i przez większość czasu korzystamy tylko ze stołu. Ilustracje są częściej widoczne, gdy autorzy próbują wyjaśnić interakcję.
Penguin_Knight
@Penguin_Knight, jest to dziedzina informatyki, jednak myślę, że jest to ogólna, a nie ograniczona do konkretnej domeny. Proszę popraw mnie jeżeli się mylę.
Kris,
Hmm ... choć pytanie. Powiedziałbym, że jedyną częścią ogólną jest dla mnie, aby nie pokazywać więcej, niż powinieneś, i upewnij się, że elementy, które mają być podkreślone, naprawdę zostaną podkreślone. Nawet w mojej dziedzinie widziałem wszystkie trzy opcje. 1) najczęstsze jest zestawienie wyników, następnie 3), ale głównie forma wykreślenia przewidywanego wyniku, a następnie 2). Ale dla 2) użyłbym sugestii @gregory_britten: użyj skorygowanego X zamiast każdego X.
Penguin_Knight
użyj wykresu dystrybucji ... spójrz na rozkład dopasowanych wartości, które wynikają z modelu i porównaj go z rozkładem wartości rzeczywistych.
owais qureshi
Wiem, że to jest sprzed lat, ale jeśli wrócisz tutaj, czy możesz opublikować dane? Wtedy ludzie mieliby coś do roboty, aby pokazać różne możliwości.
gung - Przywróć Monikę

Odpowiedzi:

21

Moim ulubionym sposobem pokazania wyników podstawowej wielokrotnej regresji liniowej jest najpierw dopasowanie modelu do znormalizowanych (ciągłych) zmiennych. Oznacza to, że transformacja z s przez odjęcie średniej i podzielenie przez odchylenie standardowe, a następnie dopasować model i estymacji parametrów. Gdy zmienne są przekształcane w ten sposób, szacowane współczynniki są „standaryzowane”, aby uzyskać jednostkę . W ten sposób odległość współczynników od zera szereguje ich względną „ważność”, a ich CI daje precyzję. Myślę, że dość dobrze podsumowuje relacje i oferuje znacznie więcej informacji niż współczynniki i wartości p. W ich naturalnych i często odmiennych skalach liczbowych. Przykład jest poniżej:XΔY/Δsre(X)

wprowadź opis zdjęcia tutaj

EDYCJA: Inną możliwością jest użycie „dodanego wykresu zmiennej” (tj. Wykres częściowych regresji). Daje to inną perspektywę, ponieważ pokazuje zależności dwuwymiarowe między i PO UZNAWANIU INNYCH ZMIENNYCH. Na przykład częściowe regresje dałyby dwuwymiarowe relacje między stosunku do reszt po regresji względem pozostałych dwóch warunków. Zrobiłbyś to dla każdej zmiennej. Funkcja z biblioteki daje te wykresy z dopasowanego obiektu. Przykład jest poniżej: YXjaYX1+X2)+X3)XjaYavPlots()carlm

wprowadź opis zdjęcia tutaj

gregory_britten
źródło
Dzięki @gregory_britten za tę informację. Problem, który mam pod ręką, ma 8 niezależnych zmiennych. Czy uważasz, że „dodane wykresy zmiennych” byłyby uzasadnione dla dużej liczby zmiennych wejściowych?
Kris,
Zgodnie z ideą pierwszego wątku, jeśli pracuję w R, sugeruję przyjrzenie się pakietowi RMS, który ułatwia to wszystko. Zaletą jest to, że można poprosić o znaczące zmiany w kowariancji, unikając w ten sposób potrzeby standaryzacji.
Thomas Speidel,
@suzanne Tak zdecydowanie. Dodany wykres zmiennych daje dwie perspektywy wymiarowe dla dowolnej liczby zmiennych. Może to być szczególnie odkrywcze w wyższych wymiarach. Często można znaleźć odkrywcze wzory w
resztkach,
Nie do końca rozumiem notację X1 | X2 i X3 w tym kontekście. Wiem, jak się ją stosuje w odniesieniu do prawdopodobieństw, ale nie do końca rozumiem, co tu mówi
Casebash,
1
@Casebash Jest to częściowa regresja na X1, biorąc pod uwagę, że X2 i X3 są w modelu
gregory_britten
1

Ponieważ wszystkie one mają związek z wyjaśnieniem przyczyn marskości wątroby, czy próbowałeś zrobić wykres bąbelkowy / kołowy i użyć koloru, aby wskazać różne regresory i promień koła, aby wskazać względny wpływ na marskość wątroby?

Mam na myśli typ wykresu Google, który wygląda następująco:wprowadź opis zdjęcia tutaj

I na niepowiązany temat, chyba że źle czytam twoje fabuły, myślę, że masz tam trochę zbędnych regresorów. Wino jest już alkoholem, więc jeśli te dwa są osobnymi regresorami, nie ma sensu trzymać ich obu, jeśli Twoim celem jest wyjaśnienie występowania marskości wątroby.

Rocinante
źródło