Mam ogólne pytanie metodologiczne. Być może wcześniej na nie odpowiedziano, ale nie jestem w stanie zlokalizować odpowiedniego wątku. Docenię wskaźniki do możliwych duplikatów.
( Tutaj jest doskonałym jeden, ale bez odpowiedzi. To jest podobne w duchu, nawet z odpowiedzią, ale ten jest zbyt specyficzna z mojego punktu widzenia. To jest także w pobliżu, odkrył po zaksięgowaniu pytanie.)
Tematem przewodnim jest sposób prawidłowego wnioskowania statystycznego, gdy model sformułowany przed zobaczeniem danych nie opisuje odpowiednio procesu generowania danych . Pytanie jest bardzo ogólne, ale przedstawię konkretny przykład ilustrujący tę kwestię. Oczekuję jednak, że odpowiedzi skoncentrują się na ogólnym pytaniu metodologicznym, a nie na szczegółach konkretnego przykładu.
Rozważmy konkretny przykład: w ustawieniach szeregów czasowych zakładam, że proces generowania danych to z . Chciałbym przetestować hipotezę merytoryczną, że . Rzuciłem to na model aby uzyskać wykonalny statystyczny odpowiednik mojej hipotezy przedmiotowej, a jest to Na razie w porządku. Ale kiedy obserwuję dane, odkrywam, że model nie opisuje odpowiednio danych. Powiedzmy, że istnieje trend liniowy, więc prawdziwy proces generowania danych to z
Jak mogę dokonać prawidłowego wnioskowania statystycznego na temat mojej hipotezy merytorycznej ?
Jeśli oryginalnego modelu, jego założenia zostaną naruszone, a estymator nie ma tak ładnego rozkładu, jak w innym przypadku. Dlatego nie mogę przetestować hipotezy za pomocą testu .
Jeśli po obejrzeniu danych przełączę się z modelu na i zmienię hipotezę statystyczną z na , założenia modelu są spełnione i ja uzyskaj dobrze zachowujący się estymator i możesz bez problemu przetestować za pomocą testu . Jednak zmiana z na
informuje mnie zbiór danych, na którym chcę przetestować hipotezę. To uzależnia rozkład estymatora (a tym samym również wnioskowanie) od zmiany modelu bazowego, co wynika z obserwowanych danych. Oczywiście wprowadzenie takich uwarunkowań nie jest zadowalające.
Czy istnieje dobre wyjście? (Jeśli nie częsty, to może jakaś Bayesowska alternatywa?)
źródło
Odpowiedzi:
Wyjściem jest dosłownie próba próbna, prawdziwa. Nie ten, w którym dzielisz próbkę na trening i trzymasz się jak w krzyżowej walidacji, ale prawdziwa prognoza. Działa to bardzo dobrze w naukach przyrodniczych. W rzeczywistości jest to jedyny sposób, w jaki działa. Budujesz teorię na podstawie niektórych danych, a następnie masz przewidywać coś, czego jeszcze nie zaobserwowano. Oczywiście nie działa to w większości nauk społecznych (tzw.), Takich jak ekonomia.
W przemyśle działa to tak jak w nauce. Na przykład, jeśli algorytm handlu nie działa, w końcu stracisz pieniądze, a potem je porzucisz. Zestawy danych do wzajemnej weryfikacji i szkolenia są szeroko stosowane w projektowaniu i podejmowaniu decyzji o wdrożeniu algorytmu, ale po jego wprowadzeniu wszystko polega na zarabianiu pieniędzy lub stracie. Bardzo prosty test z próby.
źródło
Możesz zdefiniować „procedurę łączoną” i zbadać jej cechy. Załóżmy, że zaczynasz od prostego modelu i zezwalasz na dopasowanie jednego, dwóch lub trzech bardziej złożonych (lub nieparametrycznych) modeli na wypadek, gdyby prosty model nie pasował. Musisz określić formalną regułę, zgodnie z którą zdecydujesz się nie pasować do prostego modelu, ale do jednego z pozostałych (i które). Musisz także mieć testy swojej interesującej hipotezy, które zostaną zastosowane we wszystkich zaangażowanych modelach (parametrycznych lub nieparametrycznych).
Dzięki takiej konfiguracji możesz symulować cechy, tj. Z jakim procentem twoja zerowa hipoteza jest ostatecznie odrzucana, jeśli jest to prawdą, i w przypadku kilku odchyleń zainteresowania. Możesz także przeprowadzić symulację ze wszystkich zaangażowanych modeli i spojrzeć na takie rzeczy, jak poziom warunkowy i moc warunkowa, biorąc pod uwagę, że dane pochodzą z modelu X, Y lub Z, lub biorąc pod uwagę, że procedura testowa błędnej specyfikacji modelu wybrała model X, Y lub Z.
Może się okazać, że wybór modelu nie wyrządza wiele szkody w tym sensie, że osiągnięty poziom jest nadal bardzo zbliżony do poziomu, który osiągnąłeś, a moc jest OK, jeśli nie doskonała. Lub może się okazać, że wybór modelu zależny od danych naprawdę psuje rzeczy; będzie to zależeć od szczegółów (jeśli procedura wyboru modelu jest bardzo niezawodna, szanse są równe i moc nie wpłynie bardzo silnie).
Teraz nie jest to dokładnie to samo, co określenie jednego modelu, a następnie spojrzenie na dane i podjęcie decyzji „och, potrzebuję innego”, ale prawdopodobnie jest tak blisko, jak to możliwe, aby zbadać, jakie byłyby cechy takiego podejścia. Nie jest to trywialne, ponieważ musisz dokonać wielu wyborów, aby to zrobić.
Uwaga ogólna: Myślę, że dwuznaczne klasyfikowanie stosowanej metodologii statystycznej jako „prawidłowej” i „nieważnej” jest mylące. Nic nie jest w 100% aktualne, ponieważ założenia modelu nigdy nie sprawdzają się w praktyce. Z drugiej strony, chociaż możesz znaleźć uzasadnione (!) Powody nazywania czegoś „nieważnym”, jeśli przyjrzysz się dogłębnie charakterystyce rzekomo niewłaściwego podejścia, możesz odkryć, że nadal działa całkiem dobrze.
źródło