Jakie jest znaczenie błędu standardowego współczynnika w regresji, gdy uwzględni się całą populację?
To pytanie mnie tak zdziwiło. Ponieważ wydaje mi się, standardowe błędy nie mają sensu, gdy uwzględni się całą populację - nie ma potrzeby wnioskowania statystycznego, ponieważ masz już całą populację.
Ale jest tak szeroko stosowany nawet w wielu artykułach opublikowanych w najlepszych czasopismach. Na przykład, gdy badam związek między stopą wzrostu PKB danego kraju a jego gęstością zaludnienia, przeprowadzam regresję:
ze wszystkimi 195 krajami na ziemi. W przypadku uwzględniono wszystkie kraje (populację). Ale cała literatura wciąż mówi o statystycznym znaczeniu współczynników.
Czy ktoś mógłby wyjaśnić, czy jest to niewłaściwe wykorzystanie wnioskowania statystycznego podczas regresji w całej populacji?
źródło
Odpowiedzi:
Początkowo oflagowałem to pytanie dla moderatorów, aby sprawdzić, czy lepiej byłoby przenieść się na stronę statystyk SE. Cross Validated. Ponieważ jednak PO wprowadził bardzo konkretny przykład ekonometrii, uważam, że (bardzo głęboka) koncepcja „populacji / próbki” może być użytecznie omówiona na potrzeby tego przykładu.
Pierwszym zagadnieniem jest omówione w odpowiedzi na @AdamBailey: jeśli weźmie się pod uwagę „wszystkie kraje świata” na dany rok lub lata i oznaczy dane jako „populację”, to następny rok powinien należeć do innej populacji. Jeśli należy do innej populacji, to jak wykorzystać wyniki z jednej populacji, aby wnioskować dla innej populacji? Rzeczywiście, tutaj nasza „populacja” jest dwuwymiarowa , kraj i okres czasu - iw tym sensie, z horyzontem czasowym otwartym, mamy tylko próbkę w naszych rękach.
Zatem nasze dane to tylko jedna z możliwych połączonych realizacji tych zmiennych losowych. Te realizacje powstały nie tylko w wyniku deterministycznych / inżynierskich relacji / przyczynowości (odzwierciedlonych w współczynnikach), ale także pod wpływem czynników z natury losowych. W tym sensie dane nie są „czystym / typowym” obrazem „populacji” - zawierają hałas, zaburzenia niestrukturalne, jednorazowe wstrząsy itp.
Następnie ta niepewność przeniesie się na oszacowanie współczynników, które próbujemy oszacować, ponieważ zakładamy, że współczynniki te opisują przyczynowość lub wspólny ruch przed przypadkowymi elementami wpływającymi na końcową wartość zmiennej zależnej.
Ze względu na oba powyższe aspekty mówienie o „błędzie standardowym oszacowań” jest w tym przypadku całkowicie uzasadnione, a następnie jak zwykle stosuj testy statystyczne.
źródło
Ważne jest, aby zastanowić się, na czym dokładnie polega populacja. W tym kontekście łatwo przeoczyć aspekt czasu.
Załóżmy na przykład, że celem jest prognoza PKB na najbliższe dwa lata dla każdego kraju na świecie. Następnie populacja będąca przedmiotem zainteresowania to zestaw par w formie „kraj, rok”. Nie jest to po prostu „wszystkie kraje”, a nawet jeśli model prognozy oszacowano na podstawie regresji danych z lat bieżących i poprzednich lat dla każdego kraju, nie oznacza to, że uwzględniono całą populację będącą przedmiotem zainteresowania.
Jeśli naprawdę zaczyna się od kompletnego zestawu danych dla całej populacji, którą można zainteresować, wówczas wystarczy tylko obliczyć statystyki podsumowujące. Może to obejmować odchylenia standardowe, ale niewłaściwe byłoby nazywanie tych standardowych błędów, ponieważ termin ten dotyczy rozkładu próbkowania, podczas gdy jedyną „próbą” w tym przypadku jest cała populacja.
źródło