Uczę się regresji liniowej za pomocą Wstępu do analizy regresji liniowej autorstwa Montgomery'ego, Pecka i Vininga . Chciałbym wybrać projekt analizy danych.
Naiwnie uważam, że regresja liniowa jest odpowiednia tylko wtedy, gdy podejrzewa się, że istnieją liniowe zależności funkcjonalne między zmiennymi objaśniającymi a zmiennymi odpowiedzi. Ale niewiele rzeczywistych aplikacji wydaje się spełniać to kryterium. Jednak regresja liniowa jest tak powszechna.
O jakich aspektach projektu pomyślałby doświadczony statystyk, gdyby znalazł się w moich butach, szukając pytania + danych, które dobrze pasowałyby do regresji liniowej.
Odpowiedzi:
To nie jest poprawne zrozumienie tego, co jest „liniowe” w „regresji liniowej”.
Zakłada się, że nie ma związku między a , ponieważ ma on postać liniową (chociaż wszystkie elementarne przykłady mogą cię wprowadzić w błąd).y x
„Liniowy” odnosi się do modelu liniowego w parametrach, a nieliniowe relacje między a niektórymi można z pewnością modelować w ten sposób.y x
Jest przykładem z pojedynczym predyktorem tutaj , ale modele krzywoliniowych są coraz częściej wyposażone w regresji wielokrotnej, w których może wystąpić kilka funkcje prognostyk (x zmiennej, zmienna niezależna) w regresji, a to pozwala na dużą elastyczność. Obejmuje to na przykład regresję wielomianową. Zobacz kilka dyskusji i przykładów tutaj .
Jeśli jednak uwzględnimy fakt, że predyktory można transformować w celu dopasowania zakrzywionych relacji, liniowość parametrów odpowiada również liniowości w tych transformowanych predyktorach.
Ponadto wiele problemów jest zbliżonych do liniowych (przynajmniej w zakresie rozważanych wartości) lub są tak głośne, że nie można dostrzec żadnej łagodnej krzywizny, a różne proste modele zwiększającej się lub malejącej zależności mogą - w takim przypadku wybór liniowy może być zarówno odpowiedni, jak i najprostszy do dopasowania i zrozumienia.
Jedyny raz, kiedy mogę znaleźć problem z regresją, to kiedy próbuję znaleźć dobry przykład do nauczania. Kiedy faktycznie jestem w stanie wykonywać prace statystyczne (zamiast wyjaśniać je lub uczyć), wybieram metodologię odpowiadającą interesującemu zagadnieniu (i charakterystyce danych), zamiast wybierać dane pasujące do metody.
Wyobraź sobie na przykład stolarza. Stolarz nie odbiera goleni i nie mówi „na czym mogę tego używać ?”. Stolarz ma raczej problem do rozwiązania, a biorąc pod uwagę jego charakterystykę („co próbuję zrobić?” I „jakiego rodzaju drewna używam?” Itd.), Mogą być określone narzędzia bardziej odpowiednie niż inne. Czasami dostępne narzędzia mogą ograniczać lub kierować wyborami (jeśli nie masz golarki, możesz zrobić coś innego ... lub możesz po prostu kupić golarkę).
Załóżmy jednak, że masz kiepskiego statystykę, który ci pomaga i próbujesz znaleźć problem odpowiedni do regresji liniowej. Następnie mogą zasugerować rozważenie różnych założeń regresji i ich znaczenia. Wspomnę o kilku rzeczach.
Jeśli jesteś w stanie zastosować wielokrotną regresję, nawet nie jest to szczególnie poważny problem, ponieważ można użyć (na przykład) splajnów regresji sześciennej, aby dopasować dość ogólne relacje.
Sugerowałbym omijanie danych z czasem, chyba że rozumiesz problemy z fałszywą regresją; trzymać się problemów z przekrojem.
Jeśli jesteś zainteresowany testowaniem hipotez, przedziałami ufności lub przedziałami prognoz, może mieć znaczenie więcej typowych założeń regresji (ale istnieją alternatywy, które nie uwzględniają tych założeń, aw niektórych przypadkach przynajmniej niektóre założenia mogą nie mieć znaczenia być szczególnie ważne).
Tak więc jedną rzeczą, o której należy przynajmniej wiedzieć, jest to, jakie są założenia przyjęte podczas uzyskiwania procedur wnioskowania, z których korzystasz i jak ważne mogą one być w twoim konkretnym problemie (na przykład podczas wykonywania zwykłych testów hipotez, normalność jest założeniem, ale w dużych próbach założenie to może nie być ważne; z drugiej strony założenie o stałej wariancji może być większym problemem).
Istnieje wiele postów, które omawiają założenia regresji, i niektóre posty, które dyskutują, kiedy trzeba je w ogóle zrobić, i ile mogą mieć znaczenie, a nawet w jakiej kolejności je wziąć pod uwagę.
źródło
źródło
@Glen_b udzielił bardzo dobrej odpowiedzi, ale, jak wspomniano, nie udało się dokończyć.
Tak więc, jeśli chodzi o twoje ostatnie pytanie:
Doświadczony statystyk, jak sądzę, nie zadałby tego pytania. Jak zauważa Glen, problem decyduje o użyciu narzędzi, a nie na odwrót.
Gdybym próbował nauczyć się techniki takiej jak regresja liniowa, użyłbym już sprawdzonych przykładów - ale takich, które miały prawdziwe dane, a nie dane, które miały ułatwić. Książka taka jak modelowanie regresji według przykładów może dostarczyć wskazówek.
Jednak jednym z pierwszych kroków w analizie problemu regresji jest decyzja, czy regresja liniowa jest w rzeczywistości odpowiednia.
źródło
Wiele odpowiedzi dotyczyło założeń, które należy spełnić: liniowości reszt, jednorodności wariancji w zakresie predyktora, żadnych ekstremalnych wartości, które mogłyby wpłynąć na linię regresji oraz niezależnych obserwacji. Pozostałe wykresy są dość łatwe do wytworzenia w większości programów regresji, a niektóre pakiety zapewniają niektóre automatycznie (SAS).
Jedna osoba mówiła o przekształceniu y. Jest to powszechna praktyka w niektórych obszarach, ale jest to praktyka, która prowadzi do stronniczych i prawdopodobnie niemożliwych do interpretacji wyników. Odchylenie pojawia się, gdy próbujesz z powrotem przekształcić wyniki w oryginalne dane. Lepiej przejść na inny typ regresji, który ma wzór resztkowy, który odpowiada założeniom dystrybucyjnym wartości resztkowej. Zobacz rozdział 3 wstępu Agresti do analizy danych kategorialnych, gdzie wprowadza pojęcie linków. Wiele podręczników regresji wprowadza również uogólniony model liniowy.
źródło