Kiedy należy uwzględnić zmienną w regresji, mimo że nie jest ona statystycznie istotna?

37

Jestem studentem ekonomii z pewnym doświadczeniem w ekonometrii i R. Chciałbym wiedzieć, czy kiedykolwiek zdarzy się sytuacja, w której powinniśmy uwzględnić zmienną w regresji, mimo że nie jest ona statystycznie istotna?

EconJohn
źródło
1
W badaniach medycznych uwzględniałbyś go, gdyby obejmował interakcje jakościowe. Zobacz pracę Lacey Gunter, o której wspominałem tutaj wcześniej. Również książka Chakraborty i Moodie opublikowana przez Springera w 2013 r. Tytuł to Metody statystyczne dla dynamicznych reżimów leczenia: uczenie się przez wzmocnienie, wnioskowanie przyczynowe i medycyna spersonalizowana.
Michael R. Chernick
11
Weź również pod uwagę, że znaczenie statystyczne jest całkowicie arbitralne. Co jest znaczące? 0,05? 0,1? 0,001? Jeśli podstawa teoretyczna zawiera predyktor, to wystarczający powód, aby go zachować.
Ashe
2
Kiedy mówisz „nieistotne statystycznie”, zdajesz sobie sprawę, że poziom zaufania wynosi 5%, co jest arbitralnym wyborem? (Im więcej jest zmiennych, pojawia się problem wielokrotnego testowania).
smci,
1
@smci 0,05 = 5% poziom istotności odpowiada 95% poziomowi ufności, wystarczający powód, aby uniknąć pomieszania terminów w tym samym zdaniu. Ponieważ istnieją procedury istotności bez widocznego przedziału ufności, zwykle najłatwiej jest zastosować którykolwiek termin, który jest bardziej odpowiedni. Wyjątek stanowią wyjaśnienia łącza na poziomie wprowadzającym.
Nick Cox

Odpowiedzi:

30

Tak!

To, że współczynnik jest statystycznie nie do odróżnienia od zera, nie oznacza, że ​​współczynnik faktycznie wynosi zero, że współczynnik ten jest nieistotny. To, że efekt nie przejdzie jakiegoś arbitralnego odcięcia dla znaczenia statystycznego, nie oznacza, że ​​nie należy próbować go kontrolować.

Mówiąc ogólnie, obecny problem i projekt badania powinny wskazać, co należy uwzględnić jako regresory.

Kilka szybkich przykładów:

I nie traktuj tego jako wyczerpującej listy. Nie jest trudno wymyślić więcej ton ...

1. Naprawiono efekty

Sytuacja, w której często się to zdarza, to regresja z ustalonymi efektami .

Załóżmy, że masz dane panelu i chcesz oszacować modelu:b

yit=bxit+ui+ϵit

Oszacowanie tego modelu zwykłymi najmniejszymi kwadratami, gdzie są traktowane jako efekty stałe, jest równoważne z uruchomieniem zwykłych najmniejszych kwadratów ze zmienną wskaźnikową dla każdego indywidualnego .uii

W każdym razie chodzi o to, że zmienne (tj. Współczynniki zmiennych wskaźnikowych) są często źle oszacowane. Każdy pojedynczy ustalony efekt jest często statystycznie nieistotny. Ale nadal uwzględniasz wszystkie zmienne wskaźnikowe w regresji, jeśli bierzesz pod uwagę ustalone efekty.uiui

(Zauważ też, że większość pakietów statystyk nawet nie podaje standardowych błędów dla poszczególnych ustalonych efektów, gdy używasz wbudowanych metod. Nie obchodzi Cię tak naprawdę znaczenie poszczególnych ustalonych efektów. Prawdopodobnie zależy Ci na ich zbiorowym znaczeniu .)

2. Funkcje, które pasują do siebie ...

(a) Dopasowanie krzywej wielomianowej (czapka kapelusza @NickCox w komentarzach)

Jeśli dopasowujesz wielomian tego stopnia do jakiejś krzywej, prawie zawsze dołączasz warunki wielomianu niższego rzędu.k

Np. Jeśli pasowałbyś do wielomianu drugiego rzędu, uruchomiłbyś:

yi=b0+b1xi+b2xi2+ϵi

Zwykle byłoby dość dziwnie wymusić i zamiast tego uruchomić b1=0

yi=b0+b2xi2+ϵi

ale studenci mechaniki newtonowskiej będą mogli wyobrazić sobie wyjątki.

(b) Modele AR (p):

Powiedzmy, że szacujesz model AR (p), to również uwzględnisz warunki niższego rzędu. Na przykład dla AR (2) uruchomiłbyś:

yt=b0+b1yt1+b2yt2+ϵt

I byłoby dziwnie uruchomić:

yt=b0+b2yt2+ϵt

(c) Funkcje trygonometryczne

Jak wspomniała @NickCox, terminy i podobnie do siebie pasują . Więcej informacji na ten temat można znaleźć np. W tym dokumencie .cossin

Mówiąc szerzej ...

Chcesz uwzględnić zmienne po prawej stronie, jeśli istnieją ku temu dobre teoretyczne powody.

I jak omawiają inne odpowiedzi tutaj i na całym StackExchange, stopniowy wybór zmiennych może powodować liczne problemy statystyczne.

Ważne jest również rozróżnienie między:

  • współczynnik statystycznie nie do odróżnienia od zera z małym błędem standardowym.
  • współczynnik statystycznie nie do odróżnienia od zera z dużym błędem standardowym.

W tym drugim przypadku problematyczne jest argumentowanie, że współczynnik nie ma znaczenia. Może to być po prostu źle zmierzone.

Matthew Gunn
źródło
Jeśli chodzi o twój pierwszy przykład, powodem, dla którego trzymamy w modelu, wydaje się być to, że interpretacja zmienia się niezależnie od tego, czy jest w modelu, czy nie. (Patrz np en.wikipedia.org/wiki/Partial_regression_plot --we użycie coś jak wyrażenie „sterowanie dla liniowych efektów ”). W tej sytuacji nie mamy w modelu ze względu na jego znaczenie, mamy go do interpretacji, jaką nam daje. uibuiuiui
user795305
5
Niektóre bardzo dobre odpowiedzi, które już jednak trochę się pokrywają, dlatego ograniczę moje przykłady do komentarza tutaj. Dopasowanie wielomianowe : najczęściej kwadratowy prawie zawsze powinien być dopasowany przez podwójny akt wyrażeń liniowych i kwadratowych. Nawet jeśli tylko jeden termin jest znaczący na konwencjonalnych poziomach, ich wspólny efekt jest kluczowy. Predyktory trygonometryczne Podobnie, sinus i cosinus zwykle należą do siebie, nawet jeśli nie kwalifikuje się na konwencjonalnych poziomach. Jako takie należy zastosować podwójne akty.
Nick Cox,
2
@NickCox Ponieważ jest to wiki społeczności, a twój punkt widzenia jest bezpośrednio związany z poruszonym tutaj tematem, myślę, że twój komentarz zasługuje na edytowanie w odpowiedzi w odpowiednim momencie. Moim zdaniem jest zbyt ważne, aby pozostać zwykłym komentarzem, choć myślę, że masz rację, że nie byłaby najlepsza jako samodzielna odpowiedź
Silverfish
@Silverfish Matthew może go skopiować. Wydaje mi się jednak, że zredagowanie go jest trochę zarozumiałe.
Nick Cox,
1
@NickCox Haha, nie obchodzi mnie to. :) Dodałem twoje sugestie i możesz je edytować !.
Matthew Gunn
14

Tak, są. Każda zmienna, która może w znaczący sposób korelować ze zmienną odpowiedzi, nawet na statystycznie nieistotnym poziomie, może wprowadzić w błąd regresję, jeśli nie zostanie uwzględniona. Jest to określane jako niepełna specyfikacja i prowadzi do oszacowań parametrów, które nie są tak dokładne, jak mogłyby być.

https://onlinecourses.science.psu.edu/stat501/node/328

Z góry:

Model regresji jest nieokreślony (wynik 2), jeśli w równaniu regresji brakuje jednej lub więcej ważnych zmiennych predykcyjnych. Ta sytuacja jest być może najgorszym scenariuszem, ponieważ nieokreślony model daje tendencyjne współczynniki regresji i tendencyjne prognozy odpowiedzi. Oznacza to, że korzystając z modelu konsekwentnie niedoceniamy lub przeceniamy nachylenie populacji i średnie liczebności populacji. Aby pogorszyć i tak już złe sprawy, średni błąd kwadratowy MSE ma tendencję do przeszacowywania σ², dając w ten sposób szersze przedziały ufności niż powinien.

podwójne kłopoty
źródło
4
To nie do końca prawda. Aby być zmienną mylącą, musi ona powodować objaśnienie zmiennej i interesujących zmiennych objaśniających. Jeśli zmienne objaśniające będące przedmiotem zainteresowania powodują zmienną i wpływają na wynik, to jest to zmienna pośrednicząca i nie powinieneś jej kontrolować (chyba że chcesz rozłożyć całkowity efekt).
Maarten Buis,
1
Jest to bardzo nieodpowiednia dyskusja na temat kontroli mylenia. Korelacja z wynikiem nie jest wystarczającym warunkiem do zakłopotania i może prowadzić do błędnej specyfikacji modeli przyczynowych poprzez kontrolowanie mediatorów: Prowadzi to do błędów, takich jak „zaprzestanie palenia nie zmniejsza ryzyka chorób sercowo-naczyniowych po kontrolowaniu tętniczego wieńcowego wapnia (CAC)”. CAC to główny sposób, w jaki palenie powoduje choroby serca. Patrz Causality by Pearl, 2nd ed, rozdział 3 sekcja 3.
AdamO
Możesz edytować. Nie sądziłem, że w odpowiedzi szuka takiej głębi, przepraszam, jeśli moja zwięzłość doprowadziła do rażącej niedokładności.
doubleletrouble,
11

Zwykle nie uwzględniasz ani nie wykluczasz zmiennych dla regresji liniowej ze względu na ich znaczenie. Uwzględniasz je, ponieważ zakładasz, że wybrane zmienne są (dobrymi) predyktorami kryteriów regresji. Innymi słowy, wybór predyktora oparty jest na teorii.

Nieistotność statystyczna w regresji liniowej może oznaczać dwie rzeczy (o których wiem):

  1. Nieistotne predyktory nie są powiązane z kryteriami. Wyklucz je, ale pamiętaj, że nieistotność nie dowodzi, że są ze sobą niezwiązani. Sprawdź swoją teorię.
  2. Predyktory są nieistotne, ponieważ można je wyrazić jako funkcję innych predyktorów. Zestaw predyktorów jest następnie nazywany wielokoliniowym. Nie czyni to predyktorów „złymi” w żadnym sensie, ale jest zbędne.

Prawidłowym powodem wykluczenia nieistotnych predyktorów jest to, że szukasz najmniejszego podzbioru predyktorów, który wyjaśnia wariancję kryteriów lub większość z nich. Jeśli go znalazłeś, sprawdź swoją teorię.

Wolfgang
źródło
[P] reduktory kryteriów regresji ? Możesz to przeformułować.
Richard Hardy,
8

W ekonometrii dzieje się to w lewo iw prawo. Na przykład, jeśli używasz kwartalnych manekinów sezonowych Q2, Q3 i Q4, często zdarza się, że jako grupa są znaczące, ale niektóre z nich nie są znaczące indywidualnie. W takim przypadku zwykle trzymasz je wszystkie.

Innym typowym przypadkiem są interakcje. Rozważ model , w którym główny efekt nie jest znaczący, ale interakcja jest. W takim przypadku zwykle utrzymuje się główny efekt. Istnieje wiele powodów, dla których nie należy go upuszczać, a niektóre z nich zostały omówione na forum.yxzzxz

AKTUALIZACJA: Innym częstym przykładem jest prognozowanie. Ekonometria jest zwykle nauczana z punktu widzenia wnioskowania na wydziałach ekonomii. W perspektywie wnioskowania wiele uwagi poświęca się wartościom p i znaczeniu, ponieważ próbujesz zrozumieć, co powoduje co i tak dalej. W prognozowaniu nie ma większego nacisku na te rzeczy, ponieważ zależy Ci tylko na tym, jak dobrze model może prognozować zmienną zainteresowania.

Jest to podobne do aplikacji uczenia maszynowego, btw, które ostatnio wkraczają w ekonomię. Możesz mieć model ze wszystkimi znaczącymi zmiennymi, które nie przewidują dobrze. W ML często wiąże się to z tak zwanym „nadmiernym dopasowaniem”. Oczywiście takie modelowanie jest bardzo mało wykorzystywane w prognozowaniu.

Aksakal
źródło
1
W niektórych momentach wydaje się to nieco przesadzone. Na przykład nawet dla mnie, jako nie-ekonomisty, z samych podręczników oczywiste jest, że ekonomiści są szeroko nauczani ekonomistów przez co najmniej kilka dekad. To, czy nastąpił „niedawny” (dokładnie dokładnie?) Wzrost, jest bardziej subtelną kwestią, którą pozostawiam osobom z zewnątrz.
Nick Cox,
@NickCox, zgodził się, brzmiało to tak, jakby w programach nauczania nie było w ogóle prognozowania, co nie jest prawdą.
Aksakal
7

Zadajesz dwa różne pytania:

  1. Kiedy znaczenie statystyczne nie ma znaczenia?
  2. Kiedy powinniśmy włączyć zmienną do regresji, mimo że nie jest ona statystycznie istotna?

Edycja: dotyczyło to oryginalnego postu, ale może już nie być prawdziwe po edycji.


Jeśli chodzi o Q1, myślę, że jest to zbyt szerokie. Istnieje wiele możliwych odpowiedzi, niektóre już podane. Kolejny przykład to budowanie modeli do prognozowania (wyjaśnienie znajduje się w cytowanym poniżej źródle).


W odniesieniu do drugiego kwartału istotność statystyczna nie jest rozsądnym kryterium przy tworzeniu modelu. Rob J. Hyndman pisze w swoim blogu „Testy statystyczne dla selekcji zmiennych” :

Istotność statystyczna zwykle nie stanowi dobrej podstawy do ustalenia, czy zmienna powinna zostać uwzględniona w modelu, pomimo faktu, że wiele osób, które powinny ją lepiej znać, używa ich właśnie do tego celu. <...> Testy statystyczne zostały zaprojektowane w celu przetestowania hipotez, a nie wyboru zmiennych.

Zauważ również, że często można znaleźć niektóre zmienne, które są statystycznie znaczące wyłącznie przez przypadek (szansa jest kontrolowana przez wybór poziomu istotności). Obserwacja, że ​​zmienna jest statystycznie istotna, nie wystarczy, aby stwierdzić, że zmienna należy do modelu.

Richard Hardy
źródło
4

Dodam kolejne „tak”. Zawsze uczono mnie - i starałem się to przekazywać - że głównym czynnikiem przy wyborze współzmiennych jest znajomość domeny, a nie statystyki. Na przykład w biostatystyce, jeśli modeluję pewne wyniki zdrowotne na osobnikach, to bez względu na to , co mówi regresja, będziesz potrzebować naprawdę dobrych argumentów, aby nie uwzględniać wieku, rasy i płci w modelu.

To zależy również od celu twojego modelu. Jeśli celem jest lepsze zrozumienie, jakie czynniki są najbardziej związane z twoim wynikiem, to zbudowanie oszczędnego modelu ma pewne zalety. Jeśli zależy ci na przewidywaniu, a nie na zrozumieniu, wyeliminowanie zmiennych towarzyszących może być mniejszym problemem.

(Na koniec, jeśli planujesz użyć statystyk do wyboru zmiennych, sprawdź, co Frank Harrell ma do powiedzenia na ten temat - http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ i jego książce Strategie modelowania regresji . Krótko mówiąc, zanim użyjesz stopniowych lub podobnych statystycznych strategii do wybierania najlepszych predyktorów, to wszelkie testy „czy te dobre predyktory?” są strasznie tendencyjne - oczywiście, że ” są dobrymi predyktorami, wybrałeś je na tej podstawie, więc wartości p dla tych predyktorów są fałszywie niskie).

eac2222
źródło
1
@EconJohn I statystyki modelu F , s, i oszacowania efektu fałszywie wysokie ... i krokowo wybrane modele o równie prawdopodobnym zachowaniu prawdziwych predyktorów i fałszywych predyktorów oraz o równie prawdopodobnym usunięciu prawdziwych predyktorów i fałszywych predyktorów. R2
Alexis,
4

Jedyną rzeczą, którą naprawdę mówi wynik „nieistotności statystycznej”, jest to, że na wybranym poziomie błędu typu I nie jesteśmy nawet w stanie stwierdzić, czy wpływ regresora na zmienną zależną jest dodatni czy ujemny (patrz ten post).

Zatem jeśli utrzymamy ten regresor, jakakolwiek dyskusja na temat jego własnego wpływu na zmienną zależną nie ma dowodów statystycznych na poparcie tego.

Ale to niepowodzenie oszacowania nie oznacza, że ​​regresor nie należy do relacji strukturalnej, a jedynie mówi, że przy konkretnym zbiorze danych nie byliśmy w stanie z całą pewnością określić znaku jego współczynnika.

Tak więc w zasadzie, jeśli istnieją teoretyczne argumenty przemawiające za jego obecnością, regresor powinien zostać zachowany.

Inne odpowiedzi tutaj podały konkretne modele / sytuacje, dla których takie regresory są przechowywane w specyfikacji, na przykład odpowiedź wspominająca model danych panelu z efektami stałymi.

Alecos Papadopoulos
źródło
Po co przeciągać „poziom zaufania” do dyskusji o znaczeniu? Często czytam potworności w słabych tekstach i artykułach, takich jak „znaczące na 99% poziomie ufności”. Z pewnością istnieje związek między pomysłami, ale nie potrzebujesz tego sformułowania (które na poziomie elementarnym myli tyle, ile wyjaśnia).
Nick Cox,
@Nick Cox Masz rację. Zmieniłem go na „Błąd typu I”.
Alecos Papadopoulos,
1

Możesz dołączyć zmienną o szczególnym znaczeniu, jeśli jest ona przedmiotem badań, nawet jeśli nie jest statystycznie istotna. Również w biostatystyce znaczenie kliniczne często różni się od znaczenia statystycznego.

Scott Jackson
źródło