Mam dwie 2 godziny danych GPS z częstotliwością próbkowania 1 Hz (7200 pomiarów). Dane są podane w formie , gdzie jest niepewnością pomiaru.
Kiedy wezmę średnią ze wszystkich pomiarów (np. Średnią wartość Z tych dwóch godzin), jakie jest jej odchylenie standardowe? Mogę oczywiście obliczyć odchylenie standardowe od wartości Z, ale pomijam fakt, że znane są niepewności pomiaru ...
Edycja: wszystkie dane pochodzą z tej samej stacji, a wszystkie współrzędne są mierzone co sekundę. Ze względu na konstelacje satelitów itp. Każdy pomiar ma inną niepewność. Celem mojej analizy jest znalezienie przemieszczenia spowodowanego zdarzeniem zewnętrznym (trzęsieniem ziemi). Chciałbym wziąć średnią z 7200 pomiarów (2 godziny) przed trzęsieniem ziemi i inną średnią z 2 godzin po trzęsieniu ziemi, a następnie obliczyć wynikową różnicę (na przykład wysokość). Aby określić standardowe odchylenie tej różnicy, muszę znać odchylenie standardowe dwóch średnich.
źródło
Odpowiedzi:
Podejrzewam, że poprzednie odpowiedzi na to pytanie mogą nieco odbiegać od normy. Wydaje mi się, że to, o co tak naprawdę pyta oryginalny plakat, można by przeformułować jako „biorąc pod uwagę serię pomiarów wektorowych: z oraz kowariancja pomiaru :i=1,2,3,. . . ,7200Ci=( X 2 σ , i 0 0 0 Y 2
Ogólnie rzecz biorąc, odpowiadając na pytania stackexchange.com, zwykle nie uważam za użyteczne przepakowywanie długich pochodnych, które zostały już wcześniej przedstawione w wielu podręcznikach - jeśli chcesz naprawdę zrozumieć materiał i zrozumieć, dlaczego odpowiedzi wyglądają tak jak oni, to naprawdę powinieneś po prostu przeczytać wyjaśnienia, które zostały już opublikowane przez autorów podręcznika. Mając to na uwadze, przejdę bezpośrednio do powtórzenia odpowiedzi, które inni już udzielili. Frederick James, ustawiając , średnia ważona to: a kowariancja średniej ważonej wynosi:N=7200
Ponieważ zdarza się, że kowariancje pomiarowe są w tym konkretnym przypadku ukośne, analizy Bevington i Robinson można również wykorzystać do obliczenia średnich ważonych wariancją dla poszczególnych , i . Forma odpowiedzi skalarnej jest podobna do formy odpowiedzi wektorowej: a wariancja to lub równoważnie, i podobnie dlaXi Yi Zi
źródło
Należy to łatwo rozwiązać za pomocą wnioskowania bayesowskiego. Znasz właściwości pomiarowe poszczególnych punktów w odniesieniu do ich prawdziwej wartości i chcesz wnioskować o średniej populacji i SD, które wygenerowały prawdziwe wartości. To jest model hierarchiczny.
Ponowne odtworzenie problemu (podstawy Bayesa)
Zauważ, że podczas gdy ortodoksyjne statystyki dają ci jedną średnią, w ramach bayesowskich otrzymujesz rozkład wiarygodnych wartości średniej. Np. Obserwacje (1, 2, 3) z SD (2, 2, 3) mogły zostać wygenerowane na podstawie szacunku maksymalnego prawdopodobieństwa wynoszącego 2, ale również średnio 2,1 lub 1,8, choć nieco mniej prawdopodobne (biorąc pod uwagę dane) niż MLE. Więc oprócz SD, również wnioskujemy o średniej .
Kolejną różnicą pojęciową jest to, że przed dokonaniem obserwacji musisz zdefiniować swój stan wiedzy . Nazywamy to priors . Być może wiesz z góry, że określony obszar został zeskanowany i ma określony zakres wysokości. Całkowitym brakiem wiedzy byłoby posiadanie jednolitych (-90, 90) stopni jak wcześniej w X i Y i być może jednolitych (0, 10000) metrów wysokości (nad oceanem, poniżej najwyższego punktu na ziemi). Musisz zdefiniować rozkłady priors dla wszystkich parametrów, które chcesz oszacować, tj. Uzyskać rozkłady tylne . Dotyczy to również odchylenia standardowego.
Przeformułowując twój problem, zakładam, że chcesz wnioskować wiarygodne wartości dla trzech średnich (X.mean, Y.mean, X.mean) i trzech standardowych odchyleń (X.sd, Y.sd, X.sd), które mogłyby mieć wygenerował twoje dane.
Model
Używając standardowej składni BŁĘDÓW (do uruchomienia tego użyj pakietów WinBUGS, OpenBUGS, JAGS, stan lub innych), Twój model wyglądałby mniej więcej tak:
Oczywiście monitorujesz parametry .mean i .sd i używasz ich tylnych stron do wnioskowania.
Symulacja
Symulowałem niektóre takie dane:
Następnie uruchomiono model przy użyciu JAGS dla 2000 iteracji po wypaleniu 500 iteracji. Oto wynik dla X.sd.
Niebieski zakres wskazuje 95% przedział największej gęstości tylnej lub wiarygodnego (jeśli uważasz, że parametr jest obserwowany po zaobserwowaniu danych. Zauważ, że nie podaje tego zwykły przedział ufności).
Czerwona pionowa linia jest oszacowaniem MLE surowych danych. Zwykle jest tak, że najbardziej prawdopodobny parametr w estymacji Bayesa jest również najbardziej prawdopodobnym (maksymalnym prawdopodobieństwem) parametrem w statystykach ortodoksyjnych. Ale nie powinieneś zbytnio przejmować się górną częścią tylnej części ciała. Średnia lub mediana jest lepsza, jeśli chcesz sprowadzić ją do pojedynczej liczby.
Zauważ, że MLE / top nie ma wartości 5, ponieważ dane zostały wygenerowane losowo, a nie z powodu złych statystyk.
Ograniczenia
Jest to prosty model, który ma obecnie kilka wad.
Powinienem wspomnieć, że istnieje wiele literatury na temat przestrzennych modeli bayesowskich, o których nie wiem.
źródło
Najpierw wprowadzam notację i ustawiam problem, korzystając z prostego podejścia, o którym wspomniałeś. Potem idź dalej. Użyję , aby zapoznać się z Z wektora dałeś.z
Rozważ następujący model, w którym brakuje wyraźnego błędu pomiaru wzmianki: , gdzie jest szacunkową średnią wartością , a jest prawdziwą średnią wartością Z. Tutaj jest wektorem błędów w twoich danych i oczekujesz, że jeśli twoja próbka jest duża zbiegnie się w . Jeśli po prostu weźmiesz zaobserwowane wartości i uśrednisz je, otrzymasz a jeśli obliczysz standardowe odchylenie standardowe, otrzymasz , oszacowanie prawdziwego odchylenia standardowego populacjiˉ Z zμZϵ ˉ Z μZ¯=∑ni=1μZ+ϵin Z¯ z μZ ϵ Z¯ μZ Z Z¯ σ^ σ . Co jeśli chcesz skorzystać z wiedzy na temat błędu pomiaru?
Po pierwsze zauważmy, że możemy przeformułować początkowy model jako: , gdzie jest wektorem jedności, a skończy się na . Teraz to naprawdę wygląda jak regresja, ale nadal w zasadzie otrzymujemy oszacowanie . Jeśli wykonamy taką regresję, otrzymamy również oszacowanie standardowego błędu , który jest prawie tym, czego chcemy - to nic innego jak standardowy błąd (ale nadal chcemy uwzględnić błąd pomiaru).1z=1β+ϵ 1 ˉ Z μ Z ϵ zβ Z¯ μZ ϵ z
Możemy rozszerzyć nasz model początkowy, aby uzyskać model efektów mieszanych. , gdzie jest wektorem losowych efektów, a jest regresorem odnoszącym do . Podobnie jak w przypadku każdego efektu losowego, musisz przyjąć założenie dotyczące rozmieszczenia . Czy to prawda, że jest rozkładem błędu pomiaru dlauz=1β+Qu+ϵ u oo U U Z σ zQ z u u Zσ z ? Jeśli tak, można to wykorzystać do zapewnienia rozkładu efektów losowych. Zazwyczaj oprogramowanie do wykonywania podstawowego modelowania efektów mieszanych zakłada, że efekty losowe mają rozkład normalny (ze średnią 0 ...) i oszacuje dla ciebie wariancję. Być może możesz spróbować tego, aby przetestować koncepcję. Jeśli chcesz skorzystać z wcześniejszych informacji o rozkładzie błędu pomiaru, należy zastosować Bayesowski model efektów mieszanych. Możesz użyć R2OpenBUGS.
Po oszacowaniu tego modelu, standardowy błąd, który otrzymujesz dla resztek jest standardowym błędem, którym jesteś zainteresowany. Intuicyjnie, komponent efektów losowych modelu pochłania niektóre warianty, które możesz wyjaśnić, ponieważ wiesz, że istnieje pomiar błąd. Pozwala to uzyskać dokładniejsze oszacowanie wariantuϵϵ ϵ
Zobacz ten artykuł, aby uzyskać głębszą dyskusję na temat tego podejścia losowych efektów w celu uwzględnienia błędu pomiaru. Twoja sytuacja jest podobna do tej, którą autorzy przedstawiają dla a jego błąd pomiaru jest zepsutej wersji . Przykład w sekcji 4 może dać wgląd w twoją sytuację.W.D W
Jak wspomniał Whuber, możesz chcieć uwzględnić autokorelację w swoich danych. Korzystanie z efektów losowych nie rozwiąże tego problemu.
źródło