Ciekawe, dla tych z was, którzy mają duże doświadczenie we współpracy z innymi badaczami, jakie są najczęstsze nieporozumienia na temat regresji liniowej, które napotykasz?
Myślę, że może to być przydatne ćwiczenie, aby pomyśleć o typowych nieporozumieniach przed czasem, aby to zrobić
Przewiduj błędy ludzi i potrafisz wyartykułować, dlaczego niektóre nieporozumienia są niepoprawne
Uświadom sobie, że sam mam jakieś nieporozumienia!
Kilka podstawowych, o których mogę myśleć:
Zmienne niezależne / zależne muszą być normalnie rozmieszczone
Zmienne muszą być znormalizowane dla dokładnej interpretacji
Ktoś jeszcze?
Wszystkie odpowiedzi są mile widziane.
Odpowiedzi:
Fałszywa przesłanka: A oznacza, że nie ma silnego związku między DV i IV.β^≈0
Istnieje wiele nieliniowych zależności funkcjonalnych, a jednak dane generowane przez wiele takich zależności często powodują prawie zerowe nachylenia, jeśli założymy, że związek musi być liniowy, a nawet w przybliżeniu liniowy.
Podobnie, w innym fałszywym założeniu badacze często zakładają - być może dlatego, że wiele podręczników dotyczących regresji wprowadzającej uczy - że „testuje się nieliniowość”, budując serię regresji DV na wielomianowych rozszerzeniach IV (np. , następnie , a następnie autor:Y∼β0+βXX+ε Y∼β0+βXX+βX2X2+ε Y∼β0+βXX+βX2X2+βX3X3+ε itp.). Tak jak linia prosta nie może dobrze reprezentować nieliniowej zależności funkcjonalnej między DV i IV, tak parabola nie może reprezentować dosłownie nieskończonej liczby relacji nieliniowych (np. Sinusoidy, cykloidy, funkcje skokowe, efekty nasycenia, krzywe s, itp. Ad infinitum ). Zamiast tego można zastosować podejście regresyjne, które nie przyjmuje żadnej szczególnej formy funkcjonalnej (np. Płynne wygładzanie linii, GAM itp.).
Trzecia przesłanka jest fałszywa, że zwiększenie liczby szacowanych parametrów niekoniecznie skutkuje utratą mocy statystycznej. Może to być fałsz, gdy prawdziwa relacja jest nieliniowa i wymaga wielu parametrów do oszacowania (np. Funkcja „złamanego drążka” wymaga nie tylko warunków przecięcia i nachylenia linii prostej, ale wymaga punktu, w którym zmienia się nachylenie i ile nachylenie zmienia się o szacunki również): reszty źle sprecyzowanego modelu (np. linia prosta) mogą rosnąć dość duże (w stosunku do odpowiednio określonej zależności funkcjonalnej), co skutkuje niższym prawdopodobieństwem odrzucenia oraz szerszymi przedziałami ufności i przedziałami prognoz (oprócz uprzedzeń szacunkowych) .
źródło
Bardzo często przyjmuje się, że tylko dane są obarczone błędem pomiaru (a przynajmniej, że jest to jedyny błąd, który będziemy brać pod uwagę). Ale ignoruje to możliwość i konsekwencje błędu w pomiarach . Może to być szczególnie dotkliwe w badaniach obserwacyjnych, w których zmienne nie podlegają kontroli eksperymentalnej.y x x
Rozrzedzenie regresji lub tłumienie regresji to zjawisko rozpoznane przez Spearmana (1904), w którym szacowane nachylenie regresji w prostej regresji liniowej jest tendencyjne do zera przez obecność błędu pomiaru w zmiennej niezależnej. Załóżmy, że prawdziwe nachylenie jest dodatnie - efektem drżeniawspółrzędnychpunktów(być może najłatwiej jest to wyobrazić jako „rozmazywanie” punktów w poziomie) jest to, że linia regresji jest mniej stroma. Intuicyjnie punkty z dużymsą teraz bardziej prawdopodobne ze względu na dodatni błąd pomiaru, podczas gdywartośćjest bardziej prawdopodobne, aby odzwierciedlać prawdziwą (wolną od błędów) wartość, a zatem jest niższa niż rzeczywista linia dla obserwowanychx x y x x .
W bardziej złożonych modelach błąd pomiaru w zmiennych może powodować bardziej skomplikowane skutki dla oszacowań parametrów. W modelach zmiennych występują błędy, które uwzględniają taki błąd. Spearman zasugerował współczynnik korygujący w celu zmniejszenia współczynników korelacji dwuwymiarowej, a dla bardziej wyrafinowanych sytuacji opracowano inne współczynniki korekcyjne. Jednak takie korekty mogą być trudne - szczególnie w przypadku wielowymiarowym i przy pomieszaniu - i może być kontrowersyjne, czy korekta jest prawdziwą poprawą, patrz np. Smith i Phillips (1996).x
Sądzę więc, że są to dwa nieporozumienia dotyczące ceny jednego - z jednej strony błędem jest myśleć, że sposób, w jaki piszemy oznacza „cały błąd jest w ” i ignoruje bardzo fizycznie realna możliwość błędów pomiaru w zmiennych niezależnych. Z drugiej strony, niewskazane może być ślepe stosowanie „korekt” dla błędu pomiaru we wszystkich takich sytuacjach, jak reakcja szarpnięcia kolana (choć może być dobrym pomysłem podjęcie kroków w celu zmniejszenia błędu pomiaru) .y=Xβ+ε y
(Mam prawdopodobnie również odwołują się do innych modeli typowych błędów w-zmiennych, w coraz większym stopniu ogólnym kolejności: prostopadły regresji , regresji Deminga i całkowite najmniejszych kwadratów ).
Bibliografia
Smith, GD i Phillips, AN (1996). „ Inflacja w epidemiologii:„ ponownie sprawdzono dowody i pomiary związku dwóch rzeczy ”. British Medical Journal , 312 (7047), 1659–1661.
Spearman, C. (1904). „Dowód i pomiar związku między dwiema rzeczami”. American Journal of Psychology 15 : 72–101.
źródło
Istnieją pewne standardowe nieporozumienia, które mają zastosowanie w tym kontekście, a także w innych kontekstach statystycznych: np. Znaczenie wartości , niepoprawne wnioskowanie o przyczynowości itp.p
Kilka nieporozumień, które moim zdaniem są charakterystyczne dla regresji wielokrotnej, to:
źródło
Powiedziałbym, że pierwszy, który wymieniasz, jest prawdopodobnie najczęstszym - i być może najszerzej nauczanym w ten sposób - spośród rzeczy, które są wyraźnie postrzegane jako błędne, ale oto niektóre inne, które w niektórych sytuacjach są mniej jasne ( czy naprawdę mają zastosowanie), ale mogą mieć wpływ na jeszcze więcej analiz, a być może poważniej. Często nie wspomina się o nich, gdy wprowadza się temat regresji.
Traktowanie jako losowe próbki z interesującej populacji obserwacji, które nie mogą być zbliżone do reprezentatywnych (nie mówiąc już o losowej próbie). [Niektóre badania można zamiast tego postrzegać jako coś bliższego próbkom wygody]
W przypadku danych obserwacyjnych po prostu ignoruje się konsekwencje pominięcia ważnych czynników napędzających proces, które z pewnością wpłynęłyby na szacunki współczynników uwzględnionych zmiennych (w wielu przypadkach nawet do prawdopodobnej zmiany ich znaku), bez próby rozważenia sposobów postępowania z nimi (czy to z powodu niewiedzy o problemie, czy po prostu nieświadomości, że można coś zrobić). [Niektóre obszary badawcze mają ten problem bardziej niż inne, czy to z powodu rodzaju gromadzonych danych, czy też dlatego, że ludzie w niektórych obszarach zastosowań są bardziej prawdopodobnie nauczeni o tym problemie.]
Regresja fałszywa (głównie z danymi gromadzonymi w czasie). [Nawet gdy ludzie są świadomi, że tak się dzieje, istnieje inne powszechne nieporozumienie, że wystarczy różnicowanie się z przypuszczalnym stacjonarnym, aby całkowicie uniknąć problemu.]
Jest oczywiście wiele innych, o których można by wspomnieć (na przykład traktowanie niezależnych danych, które prawie na pewno będą skorelowane szeregowo lub nawet zintegrowane).
Można zauważyć, że badania obserwacyjne danych gromadzonych w czasie mogą zostać dotknięte przez wszystkie z nich jednocześnie ... jednak tego rodzaju badania są bardzo powszechne w wielu obszarach badań, w których regresja jest standardowym narzędziem. Jak mogą dostać się do publikacji bez jednego recenzenta lub redaktora, który wie o co najmniej jednym z nich i co najmniej wymaga pewnego poziomu zrzeczenia się odpowiedzialności we wnioskach, nadal mnie martwi.
Statystyki są obarczone problemami z niemożliwymi do odtworzenia wynikami, gdy mamy do czynienia z dość dokładnie kontrolowanymi eksperymentami (w połączeniu z być może nie tak dokładnie kontrolowanymi analizami), więc jak tylko jeden krok wykracza poza te granice, o ile gorsza musi być sytuacja odtwarzalności?
źródło
Prawdopodobnie nie nazwałbym tych nieporozumień, ale być może wspólne punkty zamieszania / rozłączeń, aw niektórych przypadkach problemy, o których naukowcy mogą nie wiedzieć.
Po stronie nieporozumień:
źródło
Z mojego doświadczenia wynika, że studenci często przyjmują pogląd, że błędy kwadratu (lub regresja OLS) są z natury właściwe, dokładne i ogólnie dobre w użyciu, a nawet nie mają alternatywy. Często widziałem reklamowane OLS wraz z uwagami, że „przypisuje ono większą wagę bardziej ekstremalnym / dewiacyjnym obserwacjom” i przez większość czasu przynajmniej sugeruje, że jest to pożądana właściwość. Pojęcie to może zostać zmodyfikowane później, gdy zostanie wprowadzone leczenie wartości odstających i solidnych podejść, ale w tym momencie następuje uszkodzenie. Zapewne powszechne stosowanie błędów kwadratowych ma historycznie więcej wspólnego z ich matematyczną wygodą niż z pewnymi naturalnymi prawami rzeczywistych kosztów błędów.
Ogólnie rzecz biorąc, większy nacisk można położyć na zrozumienie, że wybór funkcji błędu jest nieco arbitralny. Idealnie, każdy wybór kary w ramach algorytmu powinien opierać się na odpowiedniej funkcji kosztów rzeczywistych związanej z potencjalnym błędem (tj. Przy użyciu ram decyzyjnych). Dlaczego najpierw nie ustanowić tej zasady, a potem przekonać się, jak możemy sobie poradzić?
źródło
Innym powszechnym nieporozumieniem jest to, że termin błędu (lub zaburzenie w języku ekonometrycznym) i reszty są tym samym.
Błąd jest zmienną losową w prawdziwym modelu lub procesie generowania danych i często przyjmuje się, że podąża za pewnym rozkładem, podczas gdy reszty są odchyleniami obserwowanych danych od dopasowanego modelu. Jako takie, wartości rezydualne można uznać za oszacowania błędów.
źródło
Najczęstszym nieporozumieniem, jakie napotykam, jest to, że regresja liniowa zakłada normalność błędów. Tak nie jest. Normalność jest przydatna w połączeniu z niektórymi aspektami regresji liniowej, np. Właściwościami małej próbki, takimi jak granice ufności współczynników. Nawet dla tych rzeczy dostępne są wartości asymptotyczne dla rozkładów niestandardowych.
Drugim najczęściej spotykanym jest skupisko nieporozumień w odniesieniu do endogeniczności, np. Brak ostrożności w przypadku pętli sprzężenia zwrotnego. Jeśli występuje pętla sprzężenia zwrotnego od Y z powrotem do X, to problem.
źródło
Błąd, który popełniłem, polega na założeniu symetrii X i Y w OLS. Na przykład, jeśli założę zależność liniową aib podaną przez moje oprogramowanie używające OLS, to uważam, że przyjęcie X jako funkcji Y da za pomocą OLS współczynniki: to źle.
Być może jest to również związane z różnicą między OLS a całkowitym najmniejszym kwadratem lub pierwszym głównym składnikiem.
źródło
To, co często widziałem, to błędne przekonanie o stosowaniu regresji liniowej w niektórych przypadkach użycia, w praktyce.
Powiedzmy na przykład, że zmienna, która nas interesuje, to liczba czegoś (przykład: odwiedzający witrynę) lub stosunek czegoś (przykład: współczynnik konwersji). W takich przypadkach zmienną można lepiej modelować za pomocą funkcji łącza, takich jak Poisson (liczby), Beta (wskaźniki) itp. Tak więc bardziej odpowiednie jest zastosowanie modelu uogólnionego z bardziej odpowiednią funkcją łącza. Ale tylko dlatego, że zmienna nie jest kategoryczna, widziałem ludzi zaczynających się od prostej regresji liniowej (funkcja łącza = tożsamość). Nawet jeśli pominiemy implikacje dotyczące dokładności, założenia modelowania stanowią tutaj problem.
źródło
Oto, jak sądzę, naukowcy często pomijają:
źródło
Innym powszechnym nieporozumieniem jest to, że szacunki (dopasowane wartości) nie są niezmienne dla przekształceń, np
r i = → x T i p
Jeśli tego właśnie potrzebujesz dla funkcji monotonicznych niekoniecznie liniowych, to chcesz regresji kwantylowej.f(⋅)
Powyższa równość obowiązuje w regresji liniowej dla funkcji liniowych, ale funkcje nieliniowe (np. ) nie zostaną zachowane. Będzie to jednak dotyczyć dowolnej funkcji monotonicznej w regresji kwantowej.log(⋅)
Pojawia się to przez cały czas, gdy przeprowadzasz transformację logiczną danych, dopasowujesz regresję liniową, a następnie wykładnik dopasowanej wartości i ludzie czytają to jako regresję. To nie jest średnia, to jest mediana (jeśli rzeczy są naprawdę log-normalnie rozłożone).
źródło