Przypuszczam, że denerwuję się za każdym razem, gdy słyszę, jak ktoś mówi, że nienormalność reszt i / lub heteroskedastyczność narusza założenia OLS. Do oszacowania parametrów w modelu OLS żadne z tych założeń nie jest konieczne w twierdzeniu Gaussa-Markowa. Widzę, jak to ma znaczenie w testowaniu hipotez dla modelu OLS, ponieważ zakładając, że te rzeczy dają nam czyste wzory na testy t, testy F i bardziej ogólne statystyki Walda.
Ale bez nich nie jest trudno przeprowadzić test hipotez. Porzucając tylko homoskedastyczność, możemy łatwo obliczyć solidne błędy standardowe i klastry błędów standardowych. Jeśli całkowicie odrzucimy normalność, możemy użyć ładowania początkowego i, biorąc pod uwagę inną specyfikację parametryczną dla terminów błędów, współczynnika wiarygodności i testów mnożnika Lagrange'a.
Szkoda, że uczymy tego w ten sposób, ponieważ widzę wielu ludzi, którzy mają trudności z założeniem, że nie muszą się przede wszystkim spotykać.
Dlaczego tak mocno podkreślamy te założenia, skoro mamy możliwość łatwego zastosowania bardziej niezawodnych technik? Czy brakuje mi czegoś ważnego?
źródło
Odpowiedzi:
W ekonometrii powiedzielibyśmy, że nienormalność narusza warunki klasycznego normalnego modelu regresji liniowej, podczas gdy heteroskedastyczność narusza zarówno założenia CNLR, jak i klasycznego modelu regresji liniowej.
Ale te, które mówią „… naruszają OLS” są również uzasadnione: nazwa Zwyczajne Najmniejsze Kwadraty pochodzi bezpośrednio od Gaussa i zasadniczo odnosi się do normalnych błędów. Innymi słowy „OLS” nie jest skrótem do oszacowania metodą najmniejszych kwadratów (co jest znacznie bardziej ogólną zasadą i podejściem), ale CNLR.
Ok, to była historia, terminologia i semantyka. Rozumiem rdzeń pytania PO w następujący sposób: „Dlaczego powinniśmy podkreślać ideał, jeśli znaleźliśmy rozwiązania dla przypadku, gdy go nie ma?” (Ponieważ założenia CNLR są idealne w tym sensie, że zapewniają „gotowe” doskonałe właściwości estymatora najmniejszych kwadratów i bez potrzeby uciekania się do asymptotycznych wyników. Pamiętaj również, że OLS ma maksymalne prawdopodobieństwo, gdy błędy są normalne ).
Idealnie jest dobrym miejscem do rozpoczęcia nauczania . Tak zawsze robimy, ucząc każdego rodzaju przedmiotu: sytuacje „proste” są sytuacjami „idealnymi”, wolnymi od złożoności, z jakimi można się spotkać w prawdziwym życiu i prawdziwych badaniach, i dla których nie ma konkretnych rozwiązań .
I to jest dla mnie problematyczne w poście PO: pisze o solidnych standardowych błędach i bootstrapie, jakby były one „lepszymi alternatywami” lub niezawodnymi rozwiązaniami dla braku omawianych założeń w dyskusji, o których ponadto pisze OP
Dlaczego? Ponieważ istnieją pewne metody radzenia sobie z sytuacją, metody, które mają pewną ważność, ale są dalekie od ideału? Bootstrap i heteroskedastyczności odpornego błędy standardowe nie są to rozwiązania -jeśli oni rzeczywiście byli oni stały się dominującym paradygmatem, wysyłając CLR i CNLR do historii. Ale nie są.
Zaczynamy więc od zestawu założeń, które gwarantują te właściwości estymatora, które uznaliśmy za ważne (to kolejna dyskusja, czy właściwości oznaczone jako pożądane są rzeczywiście tymi, które powinny być), abyśmy byli widoczni, że każde ich naruszenie ma konsekwencje, których nie można w pełni zrównoważyć metodami, które znaleźliśmy, aby poradzić sobie z brakiem tych założeń. Z naukowego punktu widzenia byłoby bardzo niebezpieczne przekazanie uczucia, że „możemy rozpocząć naszą drogę do prawdy w tej sprawie” - ponieważ po prostu nie możemy.
Pozostają więc niedoskonałymi rozwiązaniami problemu , a nie alternatywnym i / lub zdecydowanie lepszym sposobem działania. Dlatego najpierw musimy nauczyć się sytuacji bezproblemowej, następnie wskazać możliwe problemy, a następnie omówić możliwe rozwiązania. W przeciwnym razie podnieślibyśmy te rozwiązania do statusu, którego tak naprawdę nie mają.
źródło
Gdybyśmy mieli czas w klasie, w której po raz pierwszy wprowadzamy modele regresji, aby omówić bootstrapowanie i inne techniki, o których wspominałeś (w tym wszystkie ich założenia, pułapki itp.), To zgodziłbym się z tobą, że nie trzeba mówić o normalności i założenia homoscedastyczności. Ale tak naprawdę, kiedy regresja jest wprowadzana po raz pierwszy, nie mamy czasu na rozmowę o tych wszystkich innych rzeczach, więc wolelibyśmy, aby uczniowie byli konserwatywni i sprawdzili, czy nie są potrzebne, i skonsultowali się ze statystykami (lub zebrali inne statystyki klasa lub 2 lub 3, ...), gdy założenia nie mają zastosowania.
Jeśli powiesz uczniom, że te założenia nie mają znaczenia, z wyjątkiem kiedy ..., wówczas większość zapamięta tylko nieistotną część, a nie ważne, kiedy części.
Jeśli mamy przypadek z nierównymi wariancjami, to tak, nadal możemy dopasować linię najmniejszych kwadratów, ale czy nadal jest to „najlepsza” linia? czy lepiej byłoby skonsultować się z kimś z większym doświadczeniem / szkoleniem w sprawie dopasowania linii w takim przypadku. Nawet jeśli jesteśmy zadowoleni z linii najmniejszych kwadratów, czy nie powinniśmy uznać, że przewidywania będą miały różne właściwości dla różnych wartości predyktora (ów)? Dlatego sprawdzanie nierównych wariancji jest przydatne do późniejszych interpretacji, nawet jeśli nie potrzebujemy ich do testów / interwałów / itp. którego używamy.
źródło
1) rzadko ludzie chcą tylko oszacować. Zazwyczaj wnioskowanie - CI, PI, testy - jest celem, a przynajmniej jego częścią (nawet jeśli czasami odbywa się to stosunkowo nieformalnie)
2) Rzeczy takie jak twierdzenie Gaussa Markowa niekoniecznie są bardzo pomocne - jeśli rozkład jest wystarczająco daleki od normy, estymator liniowy nie jest zbyt użyteczny. Nie ma sensu uzyskiwać NIEBIESKIEGO, jeśli żaden estymator liniowy nie jest bardzo dobry.
3) rzeczy, takie jak estymatory kanapkowe, wiążą się z dużą liczbą domyślnych parametrów. Nadal może być w porządku, jeśli masz dużo danych, ale wiele razy ludzie nie.
4) Przedziały prognozy zależą od kształtu rozkładu warunkowego, w tym od dobrego uchwycenia wariancji podczas obserwacji - nie można tak łatwo falować szczegółów za pomocą PI.
5) rzeczy takie jak ładowanie są często przydatne w przypadku bardzo dużych próbek. Czasami zmagają się w małych próbkach - a nawet w próbkach o średniej wielkości, często okazuje się, że faktyczne właściwości pokrycia nie są niczym reklamowane.
Innymi słowy - niewiele rzeczy jest typem panaceum, którym ludzie chcieliby. Wszystkie te rzeczy mają swoje miejsce iz pewnością istnieje wiele przypadków, w których (powiedzmy) normalność nie jest wymagana, a oszacowanie i wnioskowanie (testy i CI) można rozsądnie wykonać bez konieczności normalności, stałej wariancji i tak dalej.
Jedną z rzeczy, o których często się zapomina, są inne założenia parametryczne, które można by zamiast tego przyjąć. Często ludzie wiedzą wystarczająco dużo o sytuacji, aby przyjąć dość przyzwoite parametryczne założenie (np. Powiedzieć ... że reakcja warunkowa będzie miała tendencję do wypaczania, a wartość sd będzie w zasadzie proporcjonalna do średniej, co może skłonić nas do rozważenia, powiedzmy, modelu gamma lub lognormalnego); często może to dotyczyć zarówno heteroskedastyczności, jak i nienormalności za jednym razem.
Bardzo przydatnym narzędziem jest symulacja - dzięki temu możemy badać właściwości naszych narzędzi w sytuacjach bardzo podobnych do tych, na podstawie których wydaje się, że dane mogły powstać, i dlatego użyj ich w pocieszającej wiedzy, że mają one dobre właściwości w tych przypadkach ( lub czasami widzą, że nie działają tak dobrze, jak możemy się spodziewać).
źródło