Korzystam z modeli regresji liniowej i zastanawiam się, jakie są warunki do usunięcia terminu przechwycenia.
Porównując wyniki z dwóch różnych regresji, w których jedna ma przecięcie, a druga nie, zauważam, że funkcji bez przecięcia jest znacznie wyższa. Czy są pewne warunki lub założenia, których powinienem przestrzegać, aby upewnić się, że usunięcie terminu przechwytywania jest prawidłowe?
regression
linear-model
r-squared
intercept
analyticsPierce
źródło
źródło
Odpowiedzi:
Najkrótsza odpowiedź: nigdy , chyba że jesteś pewien , że liniowe przybliżenie procesu generowania danych (model regresji liniowej) albo przez jakiś teoretyczny lub jakichkolwiek innych powodów jest zmuszony przejść przez początek układu współrzędnych . Jeśli nie, inne parametry regresji będą tendencyjne, nawet jeśli przechwytywanie jest statystycznie nieistotne (dziwne, ale tak jest, skonsultuj na przykład Brooks Introductory Econometrics ). Wreszcie, jak często tłumaczę moim uczniom, pozostawiając termin przechwytujący, masz pewność, że rezydualny termin jest zerowy.
W przypadku dwóch modeli potrzebujemy więcej kontekstu. Może się zdarzyć, że model liniowy nie jest tutaj odpowiedni. Na przykład najpierw musisz zalogować transformację, jeśli model jest multiplikatywny. Mając wykładniczo rosnące procesy, czasami może się zdarzyć, że dla modelu bez przecięcia jest „znacznie” wyższy.R2)
Wyświetl dane, przetestuj model za pomocą testu RESET lub innego testu specyfikacji liniowej, może to pomóc sprawdzić, czy moje przypuszczenie jest prawdziwe. I budowanie modeli o najwyższym jest jedną z ostatnich właściwości statystycznych, o które naprawdę się martwię, ale miło jest przedstawić ludziom, którzy nie są tak dobrze zaznajomieni z ekonometrią (istnieje wiele brudnych sztuczek, aby ustalić determinację w pobliżu 1 :)).R2)
źródło
Usunięcie przechwytywania jest innym modelem, ale istnieje wiele przykładów uzasadnionych. Dotychczasowe odpowiedzi szczegółowo omawiały przykład, w którym prawdziwym punktem przecięcia jest 0. Skoncentruję się na kilku przykładach, w których możemy być zainteresowani nietypową parametryzacją modelu.
Przykład 1: Model w stylu ANOVA. Dla zmiennych jakościowych zwykle tworzymy wektory binarne kodujące członkostwo w grupie. Standardowy model regresji jest sparametryzowany jako przechwycenie + wektory-atrapa k - 1. Punkt przecięcia koduje oczekiwaną wartość dla grupy „odniesienia” lub wektora pominiętego, a pozostałe wektory testują różnicę między każdą grupą a odniesieniem. Ale w niektórych przypadkach przydatne może być posiadanie oczekiwanej wartości każdej grupy.
Przykład 2: Przypadek znormalizowanych danych. W niektórych przypadkach można pracować ze znormalizowanymi danymi. W tym przypadku punkt przecięcia ma z założenia wartość 0. Myślę, że klasycznym przykładem tego były modele lub czynniki równań strukturalnych w starym stylu, które działały tylko na macierzach kowariancji danych. W poniższym przypadku prawdopodobnie dobrym pomysłem jest i tak oszacowanie przechwytywania, aby po prostu zrezygnować z dodatkowego stopnia swobody (który tak naprawdę powinieneś był stracić, ponieważ oszacowano średnią), ale istnieje kilka sytuacji, w których konstrukcja oznacza, że średnia może wynosić 0 (np. niektóre eksperymenty, w których uczestnicy przypisują oceny, ale są zmuszeni do wydawania równych pozytywów i negatywów).
Przykład 3: Modele wielowymiarowe i ukryte przechwyty. Ten przykład jest podobny do pierwszego na wiele sposobów. W takim przypadku dane zostały ułożone w stos, dzięki czemu dwie różne zmienne znajdują się teraz w jednym długim wektorze. Druga zmienna koduje informacje o tym, czy wektor odpowiedzi
y
, należy dompg
czydisp
. W takim przypadku, aby uzyskać osobne przechwytywanie dla każdego wyniku, pomijasz ogólny przechwytywanie i dołączasz oba atrapy do pomiaru. Jest to rodzaj analizy wielowymiarowej. Zwykle nie jest to wykonywane przy użyciulm()
ponieważ powtórzyliście kroki i prawdopodobnie powinniście pozwolić na nonindepence. Istnieją jednak interesujące przypadki, w których jest to konieczne. Na przykład, gdy próbujesz przeprowadzić analizę mediacji z efektami losowymi, aby uzyskać pełną macierz kowariancji wariancji, potrzebujesz obu modeli oszacowanych jednocześnie, co można zrobić, łącząc dane i sprytnie wykorzystując wektory pozorne.Nie twierdzę, że przechwytywanie powinno być ogólnie usuwane, ale dobrze jest być elastycznym.
źródło
Tutaj są dobre odpowiedzi. Dwie małe rzeczy:
źródło
Nie powinieneś upuszczać przecięcia, bez względu na to, czy prawdopodobnie zobaczysz wszystkie zmienne objaśniające o wartości zero.
Jest to dobra odpowiedź na bardzo podobnym pytanie tutaj .
Jeśli usuniesz punkt przecięcia, wszystkie inne oszacowania staną się stronnicze. Nawet jeśli prawdziwa wartość przechwytywania wynosi w przybliżeniu zero (to wszystko, co można wyciągnąć z danych), to masz problemy z nachyleniami, jeśli wymusisz, aby było dokładnie zero.
UNLESS - mierzysz coś z bardzo wyraźnym i oczywistym modelem fizycznym, który wymaga, aby punkt przecięcia wynosił zero (np. Masz wysokość, szerokość i długość prostokątnego pryzmatu jako zmienne objaśniające, a zmienną odpowiedzi jest objętość z pewnym błędem pomiaru). Jeśli twoja zmienna odpowiedzi jest wartością domu, zdecydowanie musisz zostawić przecięcie w.
źródło
OK, więc DUŻO zmieniłeś pytanie
Możesz pominąć przechwytywanie, gdy wiesz, że to 0. To wszystko. I nie, nie możesz tego zrobić, ponieważ nie różni się znacząco od 0, musisz wiedzieć, że to 0 lub twoje reszty są stronnicze. I w tym przypadku jest to 0, więc nie zrobi to żadnej różnicy, jeśli pominiesz ... dlatego nigdy nie pomijaj.
Odkrycie, które masz przy sugeruje, że dane nie są liniowe. A biorąc pod uwagę, że miałeś obszar jako predyktor, ten konkretny prawdopodobnie nie jest liniowy. Możesz zmienić predyktor, aby to naprawić.R2
źródło
Większość modeli regresji wielokrotnej zawiera stały składnik (tj. Punkt przecięcia), ponieważ zapewnia to, że model będzie bezstronny - tj. Średnia reszt będzie dokładnie równa zero. (Współczynniki w modelu regresji są szacowane przez najmniej kwadratów - tj. Minimalizując średni błąd kwadratu. Teraz średni błąd kwadratu jest równy wariancji błędów powiększonej o kwadrat ich średniej: jest to tożsamość matematyczna. Zmiana wartość stałej w modelu zmienia średnią błędów, ale nie wpływa na wariancję, dlatego też, aby suma błędów podniesionych do kwadratu miała zostać zminimalizowana, stała musi być tak dobrana, aby średnia błędów wynosiła zero. )
W prostym modelu regresji stała reprezentuje punkt przecięcia Y linii regresji w niestandaryzowanej formie. W modelu regresji wielokrotnej stała reprezentuje wartość, która byłaby przewidywana dla zmiennej zależnej, gdyby wszystkie zmienne niezależne były jednocześnie równe zeru - sytuacja, która może nie mieć znaczenia fizycznego ani ekonomicznego. Jeśli nie jesteś szczególnie zainteresowany tym, co by się stało, gdyby wszystkie zmienne niezależne były jednocześnie równe zeru, zwykle pozostawiasz stałą w modelu niezależnie od jej istotności statystycznej. Oprócz zapewnienia, że błędy w próbie są obiektywne, obecność stałej pozwala linii regresji „szukać własnego poziomu” i zapewniać najlepsze dopasowanie do danych, które mogą być tylko lokalnie liniowe.
Jednak w rzadkich przypadkach możesz chcieć wykluczyć stałą z modelu. Jest to opcja dopasowywania modelu w procedurze regresji w dowolnym pakiecie oprogramowania, i czasami jest nazywana regresją poprzez źródło lub w skrócie RTO. Zwykle dzieje się tak tylko wtedy, gdy:
Przykładem przypadku (1) byłby model, w którym wszystkie zmienne - zależne i niezależne - reprezentowały pierwsze różnice innych szeregów czasowych. Jeśli regresujesz pierwszą różnicę Y względem pierwszej różnicy X, bezpośrednio prognozujesz zmiany w Y jako liniową funkcję zmian w X, bez odniesienia do bieżących poziomów zmiennych. W takim przypadku uzasadnione może być (choć nie jest to wymagane) założenie, że Y powinien pozostać niezmieniony średnio za każdym razem, gdy X pozostaje niezmieniony - tj. Że Y nie powinien wykazywać tendencji wzrostowej lub spadkowej przy braku jakiejkolwiek zmiany poziom X.
Przykładem przypadku (2) może być sytuacja, w której chcesz użyć pełnego zestawu zmiennych wskaźnika sezonowego - np. Używasz danych kwartalnych i chcesz uwzględnić zmienne Q1, Q2, Q3 i Q4 reprezentujące dodatek efekty sezonowe. Zatem Q1 może wyglądać jak 1 0 0 0 1 0 0 0 ..., Q2 może wyglądać jak 0 1 0 0 0 1 0 0 ... i tak dalej. Nie można użyć wszystkich czterech i stałej w tym samym modelu, ponieważ Q1 + Q2 + Q3 + Q4 = 1 1 1 1 1 1 1 1. . . . , co jest tym samym co termin stały. Tzn. Pięć zmiennych Q1, Q2, Q3, Q4 i CONSTANT nie jest liniowo niezależnych: dowolną z nich można wyrazić jako kombinację liniową pozostałych czterech. Technicznym warunkiem wstępnym dopasowania modelu regresji liniowej jest to, że zmienne niezależne muszą być liniowo niezależne; w przeciwnym razie nie można jednoznacznie ustalić współczynników najmniejszych kwadratów,
Słowo ostrzeżenia: R-kwadrat i statystyki F nie mają tego samego znaczenia w modelu RTO jak w zwykłym modelu regresji i nie są obliczane w ten sam sposób przez wszystkie programy. Zobacz ten artykuł, aby zapoznać się z pewnymi zastrzeżeniami. Nie powinieneś próbować porównywać R-kwadrat między modelami, które zawierają i nie zawierają stałego terminu, chociaż porównanie błędu standardowego regresji jest w porządku.
Zauważ, że termin „niezależny” jest używany (co najmniej) na trzy różne sposoby w żargonie regresji: dowolną pojedynczą zmienną można nazwać zmienną niezależną, jeśli jest używana jako predyktor, a nie jako predyktor. Grupa zmiennych jest liniowo niezależna, jeśli żadnej z nich nie można wyrazić dokładnie jako liniowej kombinacji pozostałych. Mówi się, że para zmiennych jest statystycznie niezależna, jeśli są one nie tylko liniowo niezależne, ale również całkowicie nieinformacyjne względem siebie. W modelu regresji chcesz, aby zmienna zależna była statystycznie zależna od zmiennych niezależnych, które muszą być między sobą liniowo (ale niekoniecznie statystycznie) niezależne.
źródło
Pełna rewizja moich myśli. Rzeczywiście porzucenie przechwytywania spowoduje problem z uprzedzeniem.
Czy zastanawiałeś się nad wyśrodkowaniem danych, aby przechwytywanie miało jakieś znaczenie i unikało wyjaśniania, w jaki sposób niektóre (nieuzasadnione) wartości mogą dawać wartości ujemne? Jeśli skorygujesz wszystkie trzy zmienne objaśniające, odejmując średnią sqrft, średnią wielkość i średnią wannę, wówczas punkt przecięcia będzie teraz wskazywał wartość (domu?) Ze średnią wartością sdrft, wielkości i kąpieli.
To centrowanie nie zmieni względnego związku zmiennych niezależnych. Zatem dopasowanie modelu do wyśrodkowanych danych nadal będzie uznawać kąpiele za nieistotne. Zamontuj model bez dołączonej wanny. Nadal możesz uzyskać dużą wartość p dla przechwytywania, ale należy ją uwzględnić i będziesz mieć model w postaci y = a + b (sqrft) + c (lotize).
źródło
Spędziłem trochę czasu, odpowiadając na podobne pytanie zadane przez kogoś innego, ale zostało zamknięte. Jest tu kilka świetnych odpowiedzi, ale odpowiedź, którą udzielam, jest nieco prostsza. Może być bardziej odpowiedni dla osób słabo rozumiejących regresję.
P1: Jak interpretować przechwytywanie w moim modelu?
W modelach regresji celem jest zminimalizowanie ilości niewyjaśnionej wariancji w zmiennej wynikowej:
y = b0 + b1⋅x + ϵ
gdzie y jest przewidywaną wartością miary wyniku (np. log_blood_hg), b0 jest przecięciem, b1 jest nachyleniem, x jest zmienną predykcyjną, a ϵ jest błędem resztkowym.
Przecięcie (b0) to przewidywana średnia wartość y, gdy wszystkie x = 0. Innymi słowy, jest to wartość wyjściowa y, zanim użyjesz zmiennych (np. Gatunków) w celu dalszego zminimalizowania lub wyjaśnienia wariancji w log_blood_hg .
Dodając nachylenie (które szacuje, jak zmienia się wzrost / spadek o jeden log_blood_hg o jeden wzrost o x, np. Gatunki), dodajemy do tego, co już wiemy o zmiennej wynikowej, która jest jej wartością bazową (tj. przechwytywanie), na podstawie zmiany innej zmiennej.
P2: Kiedy właściwe jest włączenie lub nie uwzględnienie przechwytywania, szczególnie w odniesieniu do faktu, że modele dają bardzo różne wyniki?
W przypadku prostych modeli takich jak ten naprawdę nigdy nie jest właściwe upuszczanie przechwytywania.
Modele dają różne wyniki po upuszczeniu przecięcia, ponieważ zamiast uziemiać nachylenie w wartości wyjściowej Y, jest zmuszony przejść przez początek y, który wynosi 0. Dlatego nachylenie staje się bardziej strome (tj. Mocniejsze i znaczące ), ponieważ wymusiłeś linię przez początek, a nie dlatego, że lepiej jest zminimalizować wariancję y. Innymi słowy, sztucznie stworzyłeś model, który minimalizuje wariancję y poprzez usunięcie przecięcia lub początkowego punktu uziemienia dla twojego modelu.
Są przypadki, w których właściwe jest usunięcie przecięcia - na przykład przy opisywaniu zjawiska z przecięciem 0. Możesz przeczytać o tym tutaj , a także o innych powodach, dla których usunięcie przechwycenia nie jest dobrym pomysłem.
źródło
Wniosek: NIE POZOSTAWIAJ PRZESZŁOŚCI POZA MODELEM (chyba że naprawdę naprawdę wiesz, co robisz).
Istnieją również specjalne modele, które pomijają przechwytywanie. Jednym z przykładów są sparowane dane, bliźniacze badania .
źródło