Właśnie przejrzałem tę cudowną książkę: Zastosowana wielowymiarowa analiza statystyczna autorstwa Johnsona i Wichern . Ironią jest to, że wciąż nie jestem w stanie zrozumieć motywacji do korzystania z modeli wielowymiarowych (regresyjnych) zamiast osobnych modeli jednowymiarowych (regresyjnych). Przeszedłem przez stats.statexchange posty 1 i 2, które wyjaśniają (a) różnicę między regresją wielowymiarową i wielowymiarową oraz (b) interpretację wyników regresji wielowymiarowej, ale nie jestem w stanie podnieść wykorzystania wielowymiarowych modeli statystycznych ze wszystkich informacji, które I uzyskać o nich informacje online.
Moje pytania to:
- Dlaczego potrzebujemy regresji wielowymiarowej? Jaka jest zaleta rozważania wyników jednocześnie, a nie indywidualnie, w celu wyciągnięcia wniosków.
- Kiedy stosować modele wielowymiarowe i kiedy stosować wiele modeli jednowymiarowych (dla wielu wyników).
- Weź przykład podany na stronie UCLA z trzema wynikami: umiejscowienie kontroli, samoocena i motywacja. Czy w odniesieniu do 1. i 2. możemy porównać analizę, gdy wykonujemy trzy regresję wielokrotną z jedną zmienną wielokrotną względem jednej regresji wielokrotnej z wieloma zmianami? Jak usprawiedliwić się nawzajem?
- Nie spotkałem wielu prac naukowych, które wykorzystują wielowymiarowe modele statystyczne. Czy wynika to z założenia wielowymiarowej normalności, złożoności dopasowania / interpretacji modelu czy z innego konkretnego powodu?
Odpowiedzi:
Czy przeczytałeś pełny przykład na stronie UCLA, do której linkujesz?
Odnośnie 1:
Korzystanie z modelu wielowymiarowego pomaga (formalnie, wnioskowo) porównywać współczynniki między wynikami.
W tym połączonym przykładzie używają modelu wielowymiarowego do testowania, czy
write
współczynnik różni się znacznie dlalocus_of_control
wyniku w porównaniu doself_concept
wyniku. Nie jestem psychologiem, ale przypuszczalnie interesujące jest pytanie, czy twoje umiejętności pisania wpływają / przewidują dwie różne zmienne psychiczne w ten sam sposób. (Lub, jeśli nie wierzymy w zero, nadal warto zapytać, czy zebrałeś wystarczającą ilość danych, aby przekonująco wykazać, że efekty naprawdę się różnią.)Jeśli przeprowadziłeś osobne analizy jednoczynnikowe, trudniej byłoby porównać
write
współczynnik we wszystkich dwóch modelach. Oba szacunki pochodzą z tego samego zestawu danych, więc byłyby skorelowane. Model wielowymiarowy uwzględnia tę korelację.Ponadto, w odniesieniu 4:
Tam są niektóre bardzo powszechnie wykorzystywane modele wielowymiarowe, takie jak ANOVA z powtarzanymi pomiarami . Przy odpowiednim projekcie badania wyobraź sobie, że podajesz każdy z kilku leków każdemu pacjentowi i mierzysz zdrowie każdego pacjenta po każdym leku. Albo wyobraź sobie, że mierzysz ten sam wynik w czasie, jak w przypadku danych podłużnych, na przykład wzrostów dzieci w czasie. Następnie masz wiele wyników dla każdej jednostki (nawet jeśli są to tylko powtórzenia „tego samego” rodzaju pomiaru). Prawdopodobnie będziesz chciał zrobić co najmniej kilka prostych kontrastów: porównując działanie leku A z lekiem B lub średnie działanie leków A i B w porównaniu z placebo. W tym celu ANOVA z Powtarzanymi Miarami jest odpowiednim wielowymiarowym modelem / analizą statystyczną.
źródło
write
na przykład dla współczynnika) byłby skorelowany, a model wielowymiarowy odpowiada za to samo. Tutaj chciałbym uzyskać więcej zrozumienia. locus_c_ontrol i self_concept można łączyć w jedną miarę za pomocą analizy czynnikowej lub innych technik, a uzyskaną miarę można modelować, jeśli istnieje odpowiednia motywacja. Jeśli oba zmierzą dwa różne psyc. zjawiska, co zyskujemy, modelując je jednocześnie?Pomyśl o wszystkich fałszywych i czasem niebezpiecznych wnioskach, które wynikają z pomnożenia prawdopodobieństwa, a zdarzenia myślenia są niezależne. Ze względu na wszystkie wbudowane zbędne zabezpieczenia, umieściliśmy w naszych elektrowniach jądrowych ekspertów, korzystając z założenia niezależności, powiedzieli nam, że szansa na poważną awarię jądrową była nieskończenie mała . Ale jak widzieliśmy na Three Mile Island, ludzie popełniają skorelowane błędy, szczególnie gdy wpadają w panikę z powodu jednego błędu początkowego, który szybko może się spotęgować. Stworzenie realistycznego modelu wielowymiarowego, który charakteryzuje ludzkie zachowanie, może być trudne, ale zrozumienie efektu okropnego modelu (błędów niezależnych) jest jasne.
Istnieje wiele innych możliwych przykładów. Wezmę katastrofę Challengera transfer jak innym możliwym przykładzie. Pytanie brzmiało, czy wystartować w warunkach niskiej temperatury. Istnieją dane sugerujące, że o-ringi mogą ulec awarii w niskich temperaturach. Ale nie było zbyt wielu danych z przekazanych misji, aby wyjaśnić, jak wysokie jest ryzyko. NASA zawsze troszczyła się o bezpieczeństwo astronautów, a wiele zwolnień zostało zaprojektowanych do statku kosmicznego i pojazdów nośnych, aby misje były bezpieczne.
Jednak przed 1986 r. Wystąpiły pewne awarie systemu i bliskie awarie prawdopodobnie z powodu nie zidentyfikowania wszystkich możliwych trybów awarii (trudne zadanie). Modelowanie niezawodności to trudny biznes. Ale to inna historia. W przypadku promu producent o-ringów (Morton Thiokol) przeprowadził pewne testy o-ringów, które wskazały na możliwość uszkodzenia w niskiej temperaturze.
Ale dane dotyczące ograniczonej liczby misji wykazały pewien związek między temperaturą a awarią, ale ponieważ nadmiarowość skłoniła niektórych administratorów do myślenia, że wiele awarii o-ringu nie nastąpi, wywarli presję na NASA do uruchomienia.
Oczywiście było wiele innych czynników, które doprowadziły do tej decyzji. Pamiętajcie, jak Prezydent Reagan tak bardzo chciał umieścić nauczyciela w kosmosie , aby pokazać, że teraz jest wystarczająco bezpieczny, aby zwykli ludzie, którzy nie byli astronautami, mogli bezpiecznie podróżować promem. Tak więc presja polityczna była kolejnym ważnym czynnikiem wpływającym na decyzję. W tym przypadku przy wystarczającej ilości danych i modelu wielowymiarowym ryzyko można lepiej wykazać. NASA próbuje popełnić błąd po stronie ostrożności. W takim przypadku odkładanie premiery na kilka dni, aż pogoda się rozgrzeje na Florydzie, byłoby rozsądne.
Komisje po katastrofie, inżynierowie, naukowcy i statystycy przeprowadzili wiele analiz i opublikowano artykuły. Ich poglądy mogą różnić się od moich. Edward Tufte pokazał w jednej z serii książek o grafice, że dobra grafika może być bardziej przekonująca. Ale ostatecznie, mimo że wszystkie te analizy mają swoje zalety, myślę, że polityka nadal by wygrała.
Morał tych opowieści nie polega na tym, że te katastrofy motywowały stosowanie metod wielowymiarowych, ale raczej na tym, że słabe analizy ignorujące zależność czasami prowadzą do rażącego niedoszacowania ryzyka. Może to prowadzić do nadmiernej pewności siebie, która może być niebezpieczna. Jak zauważył jwimberley w pierwszym komentarzu do tego wątku: „Oddzielne modele jednowymiarowe ignorują korelacje”.
źródło
Rozważ ten cytat z p. 36 książki Darcy'ego Olsena The Right to Try [1]:
Matka Maxa, Jenn, buduje spójny obraz swojej poprawy, gromadząc dowody z wielu wyników, które indywidualnie można by odrzucić jako „hałas”, ale które razem są dość przekonujące. (Ta zasada syntezy dowodów jest jedną z przyczyn, dla których pediatrzy z reguły nigdy nie odrzucają instynktownego wniosku rodziców, że „coś jest nie tak z moim dzieckiem”. Rodzice mają dostęp do „wielowymiarowej analizy podłużnej” swoich dzieci znacznie bogatszej niż „oligowariant” analiza przekrojowa dostępna dla klinicysty podczas jednego krótkiego spotkania klinicznego).
Abstrahując od konkretnego przypadku eteplirsena, rozważmy hipotetyczną sytuację, w której tylko niewielka część badanych korzystała z terapii eksperymentalnej, powiedzmy, z powodu jakiegoś wspólnego czynnika genetycznego, który nie jest jeszcze znany nauce. Jest całkiem możliwe, że dla tych kilku podmiotów argument statystyczny odpowiadający wielowymiarowej historii Jenn mógłby wyraźnie zidentyfikować ich jako „osoby reagujące”, podczas gdy wiele osobnych analiz słabych sygnałów zawartych w poszczególnych wynikach dałoby , powodując „zero” podsumowujący wniosek.p>0.05
Osiągnięcie takiej syntezy dowodów jest podstawowym uzasadnieniem analizy wyników na wielu odmianach w badaniach klinicznych. Metody statystyczne w badaniach medycznych miały specjalne wydanie kilka lat temu [2] poświęcone „wspólnemu modelowaniu” wyników na wielu odmianach.
źródło
Zróbmy prostą analogię, ponieważ to wszystko, co naprawdę mogę spróbować wnieść. Zamiast regresji jednowymiarowej a regresji wielowymiarowej, rozważmy rozkłady jednowymiarowe (marginalne) versus wielowymiarowe (wspólne). Powiedz, że mam następujące dane i chcę znaleźć „wartości odstające”. Jako pierwsze podejście mogę użyć dwóch rozkładów krańcowych („jednowymiarowych”) i narysować linie na dolnej 2,5% i górnej 2,5% każdej z nich niezależnie. Punkty wypadające poza wynikowymi liniami są uważane za wartości odstające.
Ale dwie rzeczy: 1) co sądzimy o punktach, które znajdują się poza liniami dla jednej osi, ale wewnątrz linii dla drugiej osi? Czy są to „częściowe wartości odstające” czy coś takiego? I 2) wynikowe pudełko nie wygląda tak, jakby naprawdę robiło to, co chcemy. Powodem jest oczywiście to, że te dwie zmienne są skorelowane, a intuicyjnie chcemy znaleźć wartości odstające, które są niezwykłe, biorąc pod uwagę zmienne w kombinacji.
W tym przypadku patrzymy na rozkład połączeń i kodowałem kolorami punkty, czy ich odległość Mahalanobisa od centrum mieści się w górnym 5%, czy nie. Czarne punkty wyglądają bardziej jak wartości odstające, chociaż niektóre wartości odstające leżą w obrębie obu zestawów zielonych linii, a niektóre nie-odstające (czerwone) leżą poza oboma zestawami zielonych linii.
W obu przypadkach ograniczamy 95% w porównaniu do 5%, ale druga technika stanowi rozkład wspólny. Uważam, że regresja wielowymiarowa jest taka, w której „regresja” zastępuje się „dystrybucją”. Nie rozumiem tego całkowicie i nie potrzebowałem (jak rozumiem) samemu regresji wielowymiarowej, ale tak o tym myślę.
[Analogia ma pewne problemy: odległość Mahalanobisa redukuje dwie zmienne do jednej liczby - coś w rodzaju sposobu, w jaki regresja jednowymiarowa przyjmuje zestaw zmiennych niezależnych i może przy odpowiednich technikach uwzględnić kowariancje między zmiennymi niezależnymi i wyniki w jednej zmiennej zależnej - podczas gdy regresja wielowymiarowa prowadzi do wielu zmiennych zależnych. Jest to więc coś w rodzaju wstecz, ale miejmy nadzieję, że wystarczy na tyle, by dać trochę intuicji.]
źródło
1) Natura nie zawsze jest prosta. W rzeczywistości większość badanych zjawisk (wyników) zależy od wielu zmiennych i jest złożona. Model wnioskowania oparty na jednej zmiennej na raz najprawdopodobniej będzie miał wysoką tendencję.
2) Modele jednowymiarowe są najprostszym modelem, jaki można zbudować z definicji. W porządku, jeśli badasz problem po raz pierwszy i chcesz uchwycić jego jedną, najważniejszą cechę. Ale jeśli chcesz głębiej to zrozumieć, rozumienie, które możesz wykorzystać, ponieważ ufasz temu, co robisz, użyłbyś analiz wielowymiarowych. A spośród wielowymiarowych powinieneś preferować te, które rozumieją wzorce korelacji, jeśli zależy Ci na dokładności modelu.
3) Niestety nie ma czasu na przeczytanie tego.
4) Dokumenty wykorzystujące techniki wielowymiarowe są obecnie bardzo powszechne - nawet bardzo popularne w niektórych dziedzinach. Podczas eksperymentów CERN z wykorzystaniem danych dużego zderzacza hadronów (na przykład z fizyki cząstek) ponad połowa setek artykułów publikowanych każdego roku używa technik wielowymiarowych w taki czy inny sposób
https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0
źródło
Moja odpowiedź zależy od tego, co chcesz zrobić z regresją. Jeśli próbujesz porównać efekt różnych współczynników, regresja może nie być dla Ciebie odpowiednim narzędziem. Jeśli próbujesz przewidywać przy użyciu różnych współczynników, które udowodniłeś, że są niezależne, być może powinieneś zastosować regresję wielokrotną.
Czy czynniki są skorelowane? Jeśli tak, regresja wielowymiarowa może dać zły model i powinieneś użyć metody takiej jak VIF lub regresja kalenicowa, aby przyciąć korelacje krzyżowe. Nie należy porównywać współczynników, dopóki współczynniki skorelowane nie zostaną wyeliminowane. Może to doprowadzić do katastrofy. Jeśli nie są one skorelowane krzyżowo, wówczas współczynniki wielowymiarowe powinny być porównywalne jak współczynniki jednowymiarowe, i nie powinno to być zaskakujące.
Wynik może również zależeć od używanego pakietu oprogramowania. Nie żartuję. Różne pakiety oprogramowania mają różne metody obliczania regresji wielowymiarowej. (Nie wierzysz mi? Sprawdź, jak standardowe oblicza pakiet regresji R R 2 i bez wymuszania pochodzenie jako przecięcia. Twoja szczęka powinna upaść na podłogę.) Musisz zrozumieć, w jaki sposób pakiet oprogramowania wykonuje regresji. Jak to kompensuje korelacje krzyżowe? Czy wykonuje rozwiązanie sekwencyjne lub macierzowe? W przeszłości miałem z tym frustrację. Sugeruję wykonanie wielokrotnej regresji dla różnych pakietów oprogramowania i zobaczenie, co otrzymujesz.
Kolejny dobry przykład tutaj:
Jest tak wiele pułapek przy użyciu regresji wielokrotnej, że staram się jej unikać. Jeśli miałbyś go użyć, bądź bardzo ostrożny z wynikami i dokładnie je sprawdź. Zawsze należy rysować dane wizualnie, aby zweryfikować korelację. (Tylko dlatego, że twój program powiedział, że nie ma korelacji, nie znaczy, że nie ma żadnej. Ciekawe korelacje ) Zawsze sprawdzaj swoje wyniki pod kątem zdrowego rozsądku. Jeśli jeden czynnik wykazuje silną korelację w regresji jednowymiarowej, ale żaden w wielowymiarowej, musisz zrozumieć, dlaczego przed udostępnieniem wyników (powyższy współczynnik płci jest dobrym przykładem).
źródło