W analizie regresji jaka jest różnica między procesem generowania danych a modelem?

19

W analizie regresji jaka jest różnica między „procesem generowania danych” a „modelem”?

Latająca świnia
źródło
1
Proces generowania danych nigdy nie jest znany, wybieramy model z nadzieją, że wystarczająco przybliżymy proces generowania danych. Jest to jedna z możliwych odpowiedzi, pomogłaby, gdybyś podał więcej kontekstu, więc jest bardziej jasne, jakiego rodzaju odpowiedzi szukasz. Sprawdź czat, obecnie prowadzony klub czasopism omawia artykuł, w którym poruszono ten problem.
mpiktas,
3
Odpowiedzi na to pytanie będą się różnić, tak jak powinny, ponieważ zarówno „proces generowania danych”, jak i „model” są używane na różne sposoby przez różnych autorów. @ Wee, czy masz na myśli jakieś odniesienie?
whuber

Odpowiedzi:

15

Wszyscy dobrze rozumiemy, co może oznaczać „model”, chociaż jego definicja techniczna będzie się różnić w zależności od dyscypliny. Aby porównać to z DGP, zacząłem od spojrzenia na pięć pierwszych trafień (licząc dwa trafienia z tym samym autorem co jeden) w „procesie generowania danych” Googlinga.

  1. Papier , w jaki sposób US Air Force w rzeczywistości tworzy dane wsparcia logistycznego.

  2. Streszczenie artykułu opublikowanego w Environment and Planning A dotyczącego sposobu tworzenia „syntetycznych mikropopulacji” za pomocą komputerowych „modeli symulacyjnych”.

  3. Strona internetowa na „syntetycznego generowania danych”; czyli symulacja „w celu zbadania wpływu niektórych cech danych na ... modele”.

  4. Streszczenie artykułu konferencyjnego na temat eksploracji danych, w którym stwierdzono, że „dane w bazach danych są wynikiem leżącego u ich podstaw procesu generowania danych (dgp)”.

  5. Rozdział książki , która charakteryzuje dane interesów jako „wynikająca z jakiejś transformacji bazowego [] stochastycznego procesu ... niektóre lub wszystkie [którego] może być zauważony ...”V tW.tV.t

Te linki wykazują trzy nieco różne, ale ściśle powiązane zastosowania terminu „proces generowania danych”. Najczęstszy jest w kontekście symulacji statystycznej. Pozostałe odnoszą się do faktycznych środków, za pomocą których dane są tworzone w bieżącej sytuacji (logistyka) oraz do modelu prawdopodobieństwa dla procedury ciągłego tworzenia danych, który nie ma być analizowany bezpośrednio. W ostatnim przypadku tekst odróżnia nieobserwowalny proces stochastyczny, który mimo to jest modelowany matematycznie, od rzeczywistych liczb, które zostaną przeanalizowane.

Sugerują one, że możliwe są dwie nieznacznie różne odpowiedzi:

  1. W kontekście symulacji lub tworzenia „syntetycznych” danych do analizy „proces generowania danych” jest sposobem na tworzenie danych do późniejszych badań, zwykle za pomocą komputerowego generatora liczb pseudolosowych. Analiza domyślnie przyjmie pewien model opisujący matematyczne właściwości tego MZD.

  2. W kontekście analizy statystycznej możemy chcieć odróżnić zjawisko w świecie rzeczywistym (MZD) od obserwacji, które będą analizowane. Mamy modele zarówno zjawiska, jak i obserwacji, a także model ich połączenia.

W regresji MZD zwykle opisuje, w jaki sposób zbiór danych = , zakłada się zostało wygenerowane. Np . może zostać ustawione przez eksperymentatora lub można je w jakiś sposób zaobserwować, a następnie założyć, że powodują lub są powiązane z wartościami . Modelu opisałby możliwe sposoby, w jaki te dane mogą być matematycznie związanych; np. możemy powiedzieć, że każde jest zmienną losową z oczekiwaniami ( X 1 i , X 2 i , , X p i , Y i ) i = 1 , 2 , , n X j i Y i Y i X β σ 2 β σ(X,Y)ja(X1ja,X2)ja,,Xpja,Yja)ja=1,2),,nXjotjaYjaYjaXβ i wariancja dla nieznanych parametrów i .σ2)βσ

Whuber
źródło
Piszesz słowa „przyczyna” lub „spokrewniony”. Mam pytanie na ten temat. Z twojej odpowiedzi wynika, że ​​koncepcja MZD nie oznacza związku przyczynowego. Jednak ta „relacja” jest czymś więcej niż korelacją (lub jakimkolwiek rodzajem powiązania), czy nie? Zobacz także moje powiązane pytanie: stats.stackexchange.com/questions/399671/…
markowitz
@markowitz „Korelacja”, ściśle mówiąc, odnosi się do drugiego momentu dwuwymiarowej zmiennej losowej. Używam słowa „pokrewny” w szerszym znaczeniu słowa „nie [statystycznie] niezależny”.
whuber
Wiem i właśnie z tego powodu powiedziałem „lub jakikolwiek rodzaj powiązania [tylko statystycznego]”. Czy mogę powtórzyć moje pytanie jako: Czy jednak ten „związek” jest czymś więcej niż skojarzeniem, czy nie? Zaczynając od koncepcji „prawdziwego modelu”, czasami używanej jako synonim MZD, wydaje się coś więcej. Jeśli tak, nie rozumiem dokładnie, co to jest. Mój poprzedni link podaje przykład.
markowitz
@markowitz Obawiam się, że nie rozumiem, o co próbujesz zapytać. Być może dlatego, że nie jestem pewien, co dokładnie rozumiesz przez „związek” lub „skojarzenie”. Patrzyłem na twój link, ale niezwykłe angielskie użycie nie przekazuje mi nic znaczącego.
whuber
Przepraszam za mój angielski. Próbowałem zmodyfikować powiązane pytanie w jaśniejszym sensie. Mam nadzieję, że to zrozumiałe.
markowitz
4

MZD jest prawdziwym modelem. Model ten staraliśmy się, wykorzystując nasze najlepsze umiejętności, aby przedstawić prawdziwy stan przyrody. Na MZD ma wpływ „hałas”. Hałas może być różnego rodzaju:

  1. Jednorazowe interwencje
  2. Przesunięcia poziomów
  3. Trendy
  4. Zmiany sezonowości
  5. Zmiany parametrów modelu
  6. Zmiany w wariancji

Jeśli nie kontrolujesz tych 6 elementów, twoja zdolność do rozpoznania prawdziwej MZD jest zmniejszona.

Tom Reilly
źródło
4

Odpowiedź Whubera jest doskonała, ale warto podkreślić, że model statystyczny nie musi pod każdym względem przypominać modelu generującego dane, aby być odpowiednim modelem do wnioskowania o eksplorację danych. Liu i Meng wyjaśniają tę kwestię z wielką jasnością w swoim ostatnim artykule ArXived ( http://arxiv.org/abs/1510.08539 ):

Błędne przekonanie 1. Model prawdopodobieństwa musi opisywać generowanie danych.

θ). Nigdzie nie jest to bardziej zrozumiałe niż w aplikacjach obejmujących eksperymenty komputerowe, w których do opisania danych stosuje się wzór probabilistyczny zgodnie ze znanym (ale bardzo skomplikowanym) wzorem deterministycznym (Kennedy i O'Hagan, 2001; Conti i in., 2009). Potrzebujemy modelu opisowego, niekoniecznie modelu generatywnego. Zobacz Lehmann (1990), Breiman (2001) oraz Hansen i Yu (2001), aby uzyskać więcej informacji na ten temat.

Michael Lew
źródło
+1. Szczególnie podoba mi się rozróżnienie między opisowymi i generatywnymi modelami danych.
whuber