Czy regresja wielokrotna i wielowymiarowa jest naprawdę inna? Co to jest i tak wariant?
źródło
Czy regresja wielokrotna i wielowymiarowa jest naprawdę inna? Co to jest i tak wariant?
Bardzo szybko powiedziałbym: „wielokrotność” odnosi się do liczby predyktorów, które wchodzą do modelu (lub równoważnie macierzy projektowej) z jednym wynikiem (odpowiedź Y), podczas gdy „wielowymiarowa” odnosi się do macierzy wektorów odpowiedzi. Nie pamiętam autora, który zaczyna od tego rozważania na temat modelowania wielowymiarowego, ale myślę, że to Brian Everitt w swoim podręczniku An R and S-Plus Companion to Multivariate Analysis . W celu dokładnej dyskusji na ten temat proponuję zajrzeć do jego najnowszej książki, Multivariable Modeling and Multivariate Analysis for the Behavioural Sciences .
Dla „variate”, powiedziałbym, że jest to powszechny sposób odnosić się do każdej zmiennej losowej, która następuje znaną lub hipotezę, dystrybucji, na przykład mówimy o Gaussa zmiennymi jako seria obserwacji zaczerpniętych z rozkładem normalnym (z parametrami ľ i σ 2 ). W kategoriach probabilistycznych powiedzieliśmy, że są to niektóre losowe realizacje X, z oczekiwaniami matematycznymi μ , a około 95% z nich leży w przedziale [ μ - 2 σ ; μ + 2 σ ] .
Oto dwa ściśle powiązane przykłady ilustrujące pomysły. Przykłady są nieco skoncentrowane na USA, ale pomysły można ekstrapolować na inne kraje.
Przykład 1
Załóżmy, że uniwersytet chce doprecyzować kryteria przyjęć, aby przyjęły „lepszych” studentów. Załóżmy również, że ocena studenta Średnia punktowa (GPA) jest tym, co uniwersytet chce wykorzystać jako wskaźnik wydajności dla studentów. Mają na uwadze kilka kryteriów, takich jak GPA (HSGPA), wyniki SAT (SAT), płeć itp. I chcieliby wiedzieć, które z tych kryteriów mają znaczenie dla GPA.
Rozwiązanie: regresja wielokrotna
W powyższym kontekście istnieje jedna zmienna zależna (GPA) i masz wiele zmiennych niezależnych (HSGPA, SAT, Płeć itp.). Chcesz dowiedzieć się, która z zmiennych niezależnych jest dobrym predyktorem dla zmiennej zależnej. Aby dokonać tej oceny, użyłbyś regresji wielokrotnej.
Przykład 2
Zamiast powyższej sytuacji, załóżmy, że biuro rekrutacyjne chce śledzić wyniki uczniów w czasie i chce ustalić, które z ich kryteriów wpływają na wyniki uczniów w czasie. Innymi słowy, mają wyniki GPA za cztery lata, które uczeń pozostaje w szkole (powiedzmy, GPA1, GPA2, GPA3, GPA4) i chcą wiedzieć, która z niezależnych zmiennych przewiduje lepsze wyniki GPA z roku na rok podstawa roku. Biuro przyjęć ma nadzieję stwierdzić, że te same niezależne zmienne przewidują wyniki na wszystkie cztery lata, więc ich wybór kryteriów przyjęć gwarantuje, że wyniki uczniów będą niezmiennie wysokie przez wszystkie cztery lata.
Rozwiązanie: regresja wielowymiarowa
W przykładzie 2 mamy wiele zmiennych zależnych (tj. GPA1, GPA2, GPA3, GPA4) i wiele zmiennych niezależnych. W takiej sytuacji użyłbyś regresji wielowymiarowej.
źródło
Dalsza lektura:
źródło
Myślę, że kluczowym spostrzeżeniem (i wyróżnikiem) tutaj oprócz liczby zmiennych po obu stronach równania jest to, że w przypadku regresji wielowymiarowej celem jest wykorzystanie faktu, że istnieje (ogólnie) korelacja między zmiennymi odpowiedzi (lub wyniki). Na przykład w badaniu medycznym predyktorami mogą być waga, wiek i rasa, a zmiennymi wynikowymi są ciśnienie krwi i cholesterol. Teoretycznie moglibyśmy stworzyć dwa modele „regresji wielokrotnej”, jeden regresujący ciśnienie krwi na wagę, wiek i rasę, a drugi model regresujący cholesterol na tych samych czynnikach. Alternatywnie moglibyśmy stworzyć jeden model regresji wielowymiarowej, który przewiduje obaciśnienie krwi i cholesterol jednocześnie w oparciu o trzy zmienne predykcyjne. Chodzi o to, że model regresji wielowymiarowej może być lepszy (bardziej przewidywalny) w zakresie, w jakim może dowiedzieć się więcej na temat korelacji między ciśnieniem krwi a cholesterolem u pacjentów.
źródło
W regresji wielowymiarowej istnieje więcej niż jedna zmienna zależna o różnych wariancjach (lub rozkładach). Zmienne predykcyjne mogą być więcej niż jedną lub wielokrotnością. Może to być regresja wielokrotna z macierzą zmiennych zależnych, tj. Wiele wariancji. Ale kiedy mówimy o regresji wielokrotnej, mamy na myśli tylko jedną zmienną zależną z jednym rozkładem lub wariancją. Zmienne predykcyjne są więcej niż jedną. Podsumowując wielokrotność odnosi się do więcej niż jednej zmiennej predykcyjnej, ale wielowymiarowa odnosi się do więcej niż jednej zmiennej zależnej.
źródło