Jeśli istnieje, między dopasowaniem linii do wielu oddzielnych „eksperymentów”, a następnie uśrednieniem pasowań lub uśrednieniem danych z oddzielnych eksperymentów, a następnie dopasowaniem uśrednionych danych. Pozwól mi rozwinąć:
Wykonuję symulacje komputerowe, które generują krzywą, pokazaną poniżej. Wydobywamy ilość, nazwijmy ją „A”, dopasowując region liniowy wykresu (długi czas). Wartość jest po prostu nachyleniem regionu liniowego. Z regresją liniową związany jest oczywiście błąd.
Zazwyczaj przeprowadzamy około 100 takich symulacji w różnych warunkach początkowych, aby obliczyć średnią wartość „A”. Powiedziano mi, że lepiej jest uśrednić surowe dane (z poniższego wykresu) na grupy, powiedzmy 10, następnie dopasować do „A” i uśrednić te 10 „A” razem.
Nie mam intuicji, czy ma to jakąś wartość, czy też jest lepsze niż dopasowanie 100 pojedynczych wartości „A” i uśrednienie ich.
Odpowiedzi:
Wyobraźmy sobie, że jesteśmy w kontekście danych panelowych, w których występują różnice w czasie oraz między firmami . Pomyśl o każdym okresie jako osobnym eksperymencie. Rozumiem twoje pytanie jako równoważne z oszacowaniem efektu przy użyciu:i tt ja t
Ogólnie odpowiedź brzmi: nie.
Ustawić:
W moim sformułowaniu możemy traktować każdy okres jako osobny eksperyment.t
Powiedzmy, że masz zrównoważony panel długości na firm. Jeśli dzielimy każdy przedział czasu na itp., Możemy zapisać ogólne dane jako:n ( X t , y t )T. n ( Xt, yt)
Średnia pasowań:
Dopasowanie średnich:
Zasadniczo nie jest to równe oszacowaniu opartemu na zmienności przekrojowej średnich szeregów czasowych (tj. Między estymatorem).
Gdzie itd. ...x¯ja= 1T.∑txt , ja
Łączna ocena OLS:
Warto zastanowić się nad zbiorczym oszacowaniem OLS. Co to jest? Następnie użyj
Niech i będą naszymi szacunkami odpowiednio dla pełnej próbki i okresu . Potem będzie:S.= 1n T.∑jaX′X S.t= 1nX′tXt mi[ X x′] t
Jest to coś w rodzaju średniej z różnych szacunków czasowych , ale jest nieco inne. W pewnym sensie przywiązujesz większą wagę do okresów o większej zmienności zmiennych po prawej stronie.bt
Przypadek specjalny: zmienne po prawej stronie są niezmienne czasowo i specyficzne dla firmy
Jeśli zmienne po prawej stronie dla każdej firmy są stałe w czasie (tj. dla dowolnego i ), to dla wszystkich i mielibyśmy:ja Xt1= Xt2) t1 t2) S.= St t
Zabawny komentarz:
Tak jest w przypadku Fama i Macbeth, w którym, kiedy zastosowali tę technikę uśredniania szacunków przekrojowych, aby uzyskać spójne błędy standardowe przy szacowaniu, w jaki sposób oczekiwane zwroty różnią się w zależności od kowariancji firm na rynku (lub innych ładunków czynnikowych).
Procedura Fama-Macbeth jest intuicyjnym sposobem na uzyskanie spójnych standardowych błędów w kontekście panelu, gdy terminy błędów są skorelowane przekrojowo, ale niezależne w czasie. Bardziej nowoczesną techniką, która daje podobne wyniki, jest grupowanie na czas.
źródło
(Uwaga: nie mam wystarczającej reputacji, aby móc komentować, więc zamieszczam to jako odpowiedź).
W przypadku konkretnego postawionego pytania odpowiedź fcop jest prawidłowa: dopasowanie średniej jest takie samo jak uśrednienie pasowań (przynajmniej dla liniowych najmniejszych kwadratów). Warto jednak wspomnieć, że którekolwiek z tych naiwnych podejść „ online ” może dać stronnicze wyniki, w porównaniu do dopasowania wszystkich danych jednocześnie. Ponieważ oba są równoważne, skupię się na podejściu „dopasuj do średniej”. W istocie, montaż uśrednionej KRZYWYCH pomija pewne wątpliwości w wartości pomiędzy różnymi punktów. Na przykład jeśli , , a , toy¯[ X ] = ⟨ Y[ x ] ⟩ y x y1[ x1] = y2)[ x1] = 2 y1[ x2)] = 1 y1[ x2)] = 3 y¯[ x1] = y¯[ x2)] = 2 , ale przy każdym dopasowaniu krzywej powinno być znacznie więcej uwagi na temat niedopasowania na porównaniu z .x1 x2)
Zauważ, że większość naukowych platform oprogramowania powinna mieć narzędzia do obliczania / aktualizacji prawdziwego dopasowania „najmniejszych kwadratów” online (znanego jako rekurencyjne najmniejsze kwadraty ). Można więc wykorzystać wszystkie dane (jeśli jest to pożądane).
źródło