Różnica między uśrednieniem danych a dopasowaniem i dopasowaniem danych a następnie uśrednieniem

10

Jeśli istnieje, między dopasowaniem linii do wielu oddzielnych „eksperymentów”, a następnie uśrednieniem pasowań lub uśrednieniem danych z oddzielnych eksperymentów, a następnie dopasowaniem uśrednionych danych. Pozwól mi rozwinąć:

Wykonuję symulacje komputerowe, które generują krzywą, pokazaną poniżej. Wydobywamy ilość, nazwijmy ją „A”, dopasowując region liniowy wykresu (długi czas). Wartość jest po prostu nachyleniem regionu liniowego. Z regresją liniową związany jest oczywiście błąd.

Zazwyczaj przeprowadzamy około 100 takich symulacji w różnych warunkach początkowych, aby obliczyć średnią wartość „A”. Powiedziano mi, że lepiej jest uśrednić surowe dane (z poniższego wykresu) na grupy, powiedzmy 10, następnie dopasować do „A” i uśrednić te 10 „A” razem.

Nie mam intuicji, czy ma to jakąś wartość, czy też jest lepsze niż dopasowanie 100 pojedynczych wartości „A” i uśrednienie ich.

dane

pragmatist1
źródło
Nie jestem pewien, czy rozumiem: A w różnych momentach, a następnie ? Następnie robisz to kilka razy i bierzesz średnią wszystkich ? β 1A=β0+β1tβ1
Przepraszam, nie. Powyższy wykres jest wynikiem pojedynczej symulacji (nazwijmy to eksperymentem). Początkowy obszar nieliniowy jest odrzucany, a następnie dopasowujemy linię do części liniowej i uzyskujemy nachylenie „A”. Tak więc jedna cała symulacja daje jedno oszacowanie „A”. Oczywiście moje pytanie dotyczy tego, czy uśrednienie wielu wykresów, a następnie obliczenie A różni się od obliczenia A dla kilku wykresów i uśrednienia ich. Nadzieja, która wyjaśnia.
pragmatist1
1
Nie rozumiem, dlaczego miałoby to mieć znaczenie? (jeśli założenia dla regresji liniowej są spełnione)
Wydaje mi się, że dopasowanie nigdy nie idzie źle / nie zbiega się / nie podaje absurdalnie stromych oszacowań z powodu małych eksperymentów? Byłoby to coś, w czym mogłoby pomóc połączenie pierwszego (lub hierarchicznego modelu).
Björn
1
Możesz także dopasować wszystkie dane do siebie, ale zawierać jakiś element do rozróżnienia eksperymentów (różne przechwyty dla każdego eksperymentu lub nawet różne nachylenia), coś w stylu liniowego modelu mieszanego. W ten sposób możesz
oszacować

Odpowiedzi:

2

Wyobraźmy sobie, że jesteśmy w kontekście danych panelowych, w których występują różnice w czasie oraz między firmami . Pomyśl o każdym okresie jako osobnym eksperymencie. Rozumiem twoje pytanie jako równoważne z oszacowaniem efektu przy użyciu:i ttjat

  • Zróżnicowanie przekrojowe średnich szeregów czasowych.
  • Średnie szeregów czasowych zmienności przekroju.

Ogólnie odpowiedź brzmi: nie.

Ustawić:

W moim sformułowaniu możemy traktować każdy okres jako osobny eksperyment.t

Powiedzmy, że masz zrównoważony panel długości na firm. Jeśli dzielimy każdy przedział czasu na itp., Możemy zapisać ogólne dane jako:n ( X t , y t )T.n(Xt,yt)

Y=[y1y2)yn]X=[X1X2)Xn]

Średnia pasowań:

1T.tbt=1T.t(XtXt)-1Xtyt=1T.tS.t-1(1njaxt,jayt,ja)gdzie S.t=1njaxt,jaxt,ja

Dopasowanie średnich:

Zasadniczo nie jest to równe oszacowaniu opartemu na zmienności przekrojowej średnich szeregów czasowych (tj. Między estymatorem).

(1njax¯jax¯ja)-11njax¯jay¯ja

Gdzie itd. ...x¯ja=1T.txt,ja

Łączna ocena OLS:

Warto zastanowić się nad zbiorczym oszacowaniem OLS. Co to jest? Następnie użyj

b^=(XX)-1XY=(1nT.tXtXt)-1(1nT.tXtyja)
bt=(XtXt)-1Xtyja
=(1nT.tXtXt)-1(1nT.tXtXtbt)

Niech i będą naszymi szacunkami odpowiednio dla pełnej próbki i okresu . Potem będzie:S.=1nT.jaXXS.t=1nXtXtmi[xx]t

b^=1T.t(S.-1S.t)bt

Jest to coś w rodzaju średniej z różnych szacunków czasowych , ale jest nieco inne. W pewnym sensie przywiązujesz większą wagę do okresów o większej zmienności zmiennych po prawej stronie.bt

Przypadek specjalny: zmienne po prawej stronie są niezmienne czasowo i specyficzne dla firmy

Jeśli zmienne po prawej stronie dla każdej firmy są stałe w czasie (tj. dla dowolnego i ), to dla wszystkich i mielibyśmy:jaXt1=Xt2)t1t2)S.=S.tt

b^=1T.tbt

Zabawny komentarz:

Tak jest w przypadku Fama i Macbeth, w którym, kiedy zastosowali tę technikę uśredniania szacunków przekrojowych, aby uzyskać spójne błędy standardowe przy szacowaniu, w jaki sposób oczekiwane zwroty różnią się w zależności od kowariancji firm na rynku (lub innych ładunków czynnikowych).

Procedura Fama-Macbeth jest intuicyjnym sposobem na uzyskanie spójnych standardowych błędów w kontekście panelu, gdy terminy błędów są skorelowane przekrojowo, ale niezależne w czasie. Bardziej nowoczesną techniką, która daje podobne wyniki, jest grupowanie na czas.

Matthew Gunn
źródło
1

(Uwaga: nie mam wystarczającej reputacji, aby móc komentować, więc zamieszczam to jako odpowiedź).

W przypadku konkretnego postawionego pytania odpowiedź fcop jest prawidłowa: dopasowanie średniej jest takie samo jak uśrednienie pasowań (przynajmniej dla liniowych najmniejszych kwadratów). Warto jednak wspomnieć, że którekolwiek z tych naiwnych podejść „ online ” może dać stronnicze wyniki, w porównaniu do dopasowania wszystkich danych jednocześnie. Ponieważ oba są równoważne, skupię się na podejściu „dopasuj do średniej”. W istocie, montaż uśrednionej KRZYWYCH pomija pewne wątpliwości w wartości pomiędzy różnymi punktów. Na przykład jeśli , , a , toy¯[x]=y[x]yxy1[x1]=y2)[x1]=2)y1[x2)]=1y1[x2)]=3)y¯[x1]=y¯[x2)]=2) , ale przy każdym dopasowaniu krzywej powinno być znacznie więcej uwagi na temat niedopasowania na porównaniu z .x1x2)

Zauważ, że większość naukowych platform oprogramowania powinna mieć narzędzia do obliczania / aktualizacji prawdziwego dopasowania „najmniejszych kwadratów” online (znanego jako rekurencyjne najmniejsze kwadraty ). Można więc wykorzystać wszystkie dane (jeśli jest to pożądane).

GeoMatt22
źródło
1
Odpowiedź wysłana przez fcop została usunięta. Możesz nieco zmienić swoją odpowiedź
Glen_b