Wskazówki, że problem jest odpowiedni dla regresji liniowej

12

Uczę się regresji liniowej za pomocą Wstępu do analizy regresji liniowej autorstwa Montgomery'ego, Pecka i Vininga . Chciałbym wybrać projekt analizy danych.

Naiwnie uważam, że regresja liniowa jest odpowiednia tylko wtedy, gdy podejrzewa się, że istnieją liniowe zależności funkcjonalne między zmiennymi objaśniającymi a zmiennymi odpowiedzi. Ale niewiele rzeczywistych aplikacji wydaje się spełniać to kryterium. Jednak regresja liniowa jest tak powszechna.

O jakich aspektach projektu pomyślałby doświadczony statystyk, gdyby znalazł się w moich butach, szukając pytania + danych, które dobrze pasowałyby do regresji liniowej.

regression data-transformation model linear regression-strategies cwackers
źródło

3

Doceniam to, że uczysz się techniki i chcesz wiedzieć, gdzie ona będzie działać. Ale w przypadku doświadczonych statystyk (i naukowców o statystycznych poglądach) sytuacja wygląda zupełnie odwrotnie: istnieje problem i dane, a następnie pojawia się pytanie, jakie modele i metody są najlepszym wyborem. Zobaczysz, że regresja liniowa po raz pierwszy napotyka tylko jeden smak; z doświadczeniem ludzie chętnie skaczą do regresji Poissona, regresji logit itp., a nawet liniowość parametrów można łatwo połączyć z bardziej ogólnymi strukturami.

Nick Cox,

i oczywiście szeregi czasowe, gdy obserwacje są potencjalnie autokorelowane

IrishStat

3

W rzeczywistości modele liniowe są używane w lewo i w prawo, nawet jeśli wiemy, że związek jest nieliniowy. Pomyśl o modelu liniowym jako przybliżeniu pierwszego rzędu, rodzaju wielowymiarowym rozszerzeniu Taylora.

Aksakal

12

Naiwnie uważam, że regresja liniowa jest odpowiednia tylko wtedy, gdy podejrzewa się, że istnieją liniowe zależności funkcjonalne między zmiennymi objaśniającymi a zmiennymi odpowiedzi. Ale niewiele rzeczywistych aplikacji wydaje się spełniać to kryterium.

To nie jest poprawne zrozumienie tego, co jest „liniowe” w „regresji liniowej”.

Zakłada się, że nie ma związku między a , ponieważ ma on postać liniową (chociaż wszystkie elementarne przykłady mogą cię wprowadzić w błąd). $y$ $x$

„Liniowy” odnosi się do modelu liniowego w parametrach, a nieliniowe relacje między a niektórymi można z pewnością modelować w ten sposób. $y$ $x$

Jest przykładem z pojedynczym predyktorem tutaj , ale modele krzywoliniowych są coraz częściej wyposażone w regresji wielokrotnej, w których może wystąpić kilka funkcje prognostyk (x zmiennej, zmienna niezależna) w regresji, a to pozwala na dużą elastyczność. Obejmuje to na przykład regresję wielomianową. Zobacz kilka dyskusji i przykładów tutaj .

Jeśli jednak uwzględnimy fakt, że predyktory można transformować w celu dopasowania zakrzywionych relacji, liniowość parametrów odpowiada również liniowości w tych transformowanych predyktorach.

Ponadto wiele problemów jest zbliżonych do liniowych (przynajmniej w zakresie rozważanych wartości) lub są tak głośne, że nie można dostrzec żadnej łagodnej krzywizny, a różne proste modele zwiększającej się lub malejącej zależności mogą - w takim przypadku wybór liniowy może być zarówno odpowiedni, jak i najprostszy do dopasowania i zrozumienia.

O jakich aspektach projektu pomyślałby doświadczony statystyk, gdyby znalazł się w moich butach, szukając pytania + danych, które dobrze pasowałyby do regresji liniowej.

Jedyny raz, kiedy mogę znaleźć problem z regresją, to kiedy próbuję znaleźć dobry przykład do nauczania. Kiedy faktycznie jestem w stanie wykonywać prace statystyczne (zamiast wyjaśniać je lub uczyć), wybieram metodologię odpowiadającą interesującemu zagadnieniu (i charakterystyce danych), zamiast wybierać dane pasujące do metody.

Wyobraź sobie na przykład stolarza. Stolarz nie odbiera goleni i nie mówi „na czym mogę tego używać ?”. Stolarz ma raczej problem do rozwiązania, a biorąc pod uwagę jego charakterystykę („co próbuję zrobić?” I „jakiego rodzaju drewna używam?” Itd.), Mogą być określone narzędzia bardziej odpowiednie niż inne. Czasami dostępne narzędzia mogą ograniczać lub kierować wyborami (jeśli nie masz golarki, możesz zrobić coś innego ... lub możesz po prostu kupić golarkę).

Załóżmy jednak, że masz kiepskiego statystykę, który ci pomaga i próbujesz znaleźć problem odpowiedni do regresji liniowej. Następnie mogą zasugerować rozważenie różnych założeń regresji i ich znaczenia. Wspomnę o kilku rzeczach.

$E(y|g(x))$ $g(x)$ $g$ $x^*=x$ $E(y|x^*)=a+bx*$

Jeśli jesteś w stanie zastosować wielokrotną regresję, nawet nie jest to szczególnie poważny problem, ponieważ można użyć (na przykład) splajnów regresji sześciennej, aby dopasować dość ogólne relacje.

Sugerowałbym omijanie danych z czasem, chyba że rozumiesz problemy z fałszywą regresją; trzymać się problemów z przekrojem.

$x$ $x$

$x$

Jeśli jesteś zainteresowany testowaniem hipotez, przedziałami ufności lub przedziałami prognoz, może mieć znaczenie więcej typowych założeń regresji (ale istnieją alternatywy, które nie uwzględniają tych założeń, aw niektórych przypadkach przynajmniej niektóre założenia mogą nie mieć znaczenia być szczególnie ważne).

Tak więc jedną rzeczą, o której należy przynajmniej wiedzieć, jest to, jakie są założenia przyjęte podczas uzyskiwania procedur wnioskowania, z których korzystasz i jak ważne mogą one być w twoim konkretnym problemie (na przykład podczas wykonywania zwykłych testów hipotez, normalność jest założeniem, ale w dużych próbach założenie to może nie być ważne; z drugiej strony założenie o stałej wariancji może być większym problemem).

Istnieje wiele postów, które omawiają założenia regresji, i niektóre posty, które dyskutują, kiedy trzeba je w ogóle zrobić, i ile mogą mieć znaczenie, a nawet w jakiej kolejności je wziąć pod uwagę.

Glen_b - Przywróć Monikę
źródło

Fajna odpowiedź, ale myślę, że nie odpowiada to całkowicie na pytanie. O jakich aspektach projektu pomyślałby doświadczony statystyk, gdyby znalazł się w moich butach, szukając pytania + danych, które dobrze pasowałyby do regresji liniowej. pozostaje bez odpowiedzi.

Dawny33

@ Dawny33 Zdecydowanie zamierzam dodać więcej do tego później - pojawiły się pewne rzeczy podczas pisania tego, co uniemożliwiło mi napisanie pełnej odpowiedzi, którą pierwotnie zamierzałem; Miałem czas tylko na dokończenie zdania, na którym byłem, i teraz mogę nie wrócić do niego przez dzień lub dwa. Rzeczywiście nie miałem nawet czasu na poprawienie wszystkich literówek. (Tymczasem nie wahaj się opublikować odpowiedzi.) Z drugiej strony, wskazanie, że przesłanka pytania jest wadliwa, może prowadzić do tego, że OP chce zadać inne rzeczy, niż pierwotnie zamierzali (często dzieje się tak, gdy centralna przesłanka zawodzi)

Glen_b

Na przykład przewiduję, że jedno nowe pytanie, które mogłoby się pojawić, brzmiałoby „czy masz przykład?”.

Glen_b

@Glen_b dzięki. „Liniowy” odnosi się do modelu liniowego w parametrach . Przepraszam, jeśli źle napisałem, nie chciałem sugerować inaczej. Słowo kluczowe było funkcjonalne .

cwackers

@Glen_b mogą sugerować rozważenie różnych założeń dotyczących regresji . Zgoda ponownie. Nie mówiłem o tym wyraźnie, ale moje Q bardziej dotyczy wiedzy o domenach. Zastanawiam się, czego szukałby doświadczony statystyk w analizowanym systemie do analizy LR, stąd moja naiwna propozycja istnienia regresorów, które są liniowo i funkcjonalnie powiązane z odpowiedzią i których jednoczesny związek z odpowiedzią jest addytywny.

cwackers

4

$Y$ $Y$ $Y$ $Y$ $Y$ $X$ ) dobrze. Dzięki wieloletniemu doświadczeniu zobaczysz, że niektóre zmienne, takie jak ciśnienie krwi, zachowują się dobrze w modelu liniowym, a inne (np. Pomiary chemii krwi) nie.

$Y$ $Y$

Frank Harrell
źródło

Dziękujemy za wskazanie aspektu dobrego zachowania. Myślałem o przekształceniach regresorów, ale nie o zmiennej odpowiedzi. Widzę jednak teraz, jak później można wykorzystać do przekształcenia rozkładu reszt. Dziękujemy za wypełnienie części zdjęcia. Bardzo pomocny post.

cwackers

3

@Glen_b udzielił bardzo dobrej odpowiedzi, ale, jak wspomniano, nie udało się dokończyć.

Tak więc, jeśli chodzi o twoje ostatnie pytanie:

Doświadczony statystyk, jak sądzę, nie zadałby tego pytania. Jak zauważa Glen, problem decyduje o użyciu narzędzi, a nie na odwrót.

Gdybym próbował nauczyć się techniki takiej jak regresja liniowa, użyłbym już sprawdzonych przykładów - ale takich, które miały prawdziwe dane, a nie dane, które miały ułatwić. Książka taka jak modelowanie regresji według przykładów może dostarczyć wskazówek.

Jednak jednym z pierwszych kroków w analizie problemu regresji jest decyzja, czy regresja liniowa jest w rzeczywistości odpowiednia.

Peter Flom - Przywróć Monikę
źródło

Doświadczony statystyk, jak sądzę, nie zadałby tego pytania. tak, dlatego zakwalifikowałem swoje Q do „in my shoes”. Dziękuję bardzo za rekomendację książki. Wyśledzę kopię. Mnóstwo przykładów pomogłoby przynajmniej w połowie historii, a kontrprzykłady to druga połowa.

cwackers

Ahhh, cytat! od strony 2 czwartego wydania: Zachęcamy czytelników do zastanowienia się nad pytaniami (w swoich obszarach pracy, badań lub zainteresowań), które można rozwiązać za pomocą analizy regresji.

cwackers

0

Wiele odpowiedzi dotyczyło założeń, które należy spełnić: liniowości reszt, jednorodności wariancji w zakresie predyktora, żadnych ekstremalnych wartości, które mogłyby wpłynąć na linię regresji oraz niezależnych obserwacji. Pozostałe wykresy są dość łatwe do wytworzenia w większości programów regresji, a niektóre pakiety zapewniają niektóre automatycznie (SAS).

Jedna osoba mówiła o przekształceniu y. Jest to powszechna praktyka w niektórych obszarach, ale jest to praktyka, która prowadzi do stronniczych i prawdopodobnie niemożliwych do interpretacji wyników. Odchylenie pojawia się, gdy próbujesz z powrotem przekształcić wyniki w oryginalne dane. Lepiej przejść na inny typ regresji, który ma wzór resztkowy, który odpowiada założeniom dystrybucyjnym wartości resztkowej. Zobacz rozdział 3 wstępu Agresti do analizy danych kategorialnych, gdzie wprowadza pojęcie linków. Wiele podręczników regresji wprowadza również uogólniony model liniowy.

Leslie
źródło

Nie podzielam pesymizmu na temat transformacji. Przecież pierwotna transformacja jest dość arbitralna. Jeśli transformujesz i otrzymujesz wartości resztkowe z rozkładem symetrycznym, transformacja wsteczna przewidywanych wartości jest przewidywaną medianą w oryginalnej skali. Przewidywane mediany są bardzo przydatne. Jeśli chcesz uzyskać przewidywane środki w oryginalnej skali, możesz użyć estymatora rozmazania.

Frank Harrell,

Wskazówki, że problem jest odpowiedni dla regresji liniowej

Odpowiedzi: