Jako kontekst: podczas pracy z bardzo dużym zestawem danych czasami pojawia się pytanie, czy możemy stworzyć syntetyczny zestaw danych, w którym „znamy” związek między predyktorami a zmienną odpowiedzi lub relacje między predyktorami.
Z biegiem lat wydaje mi się, że spotykam albo jednorazowe syntetyczne zestawy danych, które wyglądają, jakby zostały przygotowane w sposób ad hoc, lub bardziej uporządkowane zestawy danych, które wydają się szczególnie korzystne dla proponowanej przez badacza metody modelowania.
Uważam, że zastanawiam się nad standardowymi metodami tworzenia syntetycznych zestawów danych. Chociaż ponowne próbkowanie bootstrap jest jedną z powszechnych metod tworzenia syntetycznego zestawu danych, nie spełnia on warunku, że znamy strukturę a priori . Ponadto wymiana próbek bootstrap z innymi wymaga zasadniczo wymiany danych, a nie metody generowania danych.
Jeśli możemy dopasować rozkład parametryczny do danych lub znaleźć wystarczająco blisko sparametryzowany model, to jest to jeden z przykładów, w którym możemy wygenerować syntetyczne zestawy danych.
Jakie są inne metody? Szczególnie interesują mnie dane wielowymiarowe, dane rzadkie i szeregi czasowe. W przypadku danych wielowymiarowych szukałbym metod, które mogą generować interesujące struktury (np. Struktura kowariancji, modele liniowe, drzewa itp.). W przypadku danych szeregów czasowych z rozkładów na FFT, modele AR lub różne inne modele filtrowania lub prognozowania wydaje się na początek. W przypadku rzadkich danych przydatne jest odtworzenie wzorca rzadkości.
Wierzę, że tylko zarysowują powierzchnię - są to heurystyczne, a nie formalne praktyki. Czy istnieją odniesienia lub zasoby do generowania danych syntetycznych, które powinny być znane praktykom?
Uwaga 1: Zdaję sobie sprawę, że to pytanie dotyczy literatury na temat tego, jak można generować dane, takie jak konkretny model szeregów czasowych. Rozróżnia się tutaj praktyki, szczególnie w celu wskazania znanej struktury (moje pytanie), w porównaniu do podobieństwa / wierności do istniejącego zestawu danych. W moim przypadku nie jest konieczne posiadanie podobieństwa, podobnie jak znanej struktury, chociaż podobieństwo jest znacznie bardziej preferowane niż odmienność. Egzotyczny zestaw danych syntetycznych, dla którego model daje obietnicę, jest mniej preferowany niż realistyczna symulacja.
Uwaga 2: Wpis Wikipedii dotyczący danych syntetycznych wskazuje, że źródła takie jak Rubin i Fienberg rozwiązały ten problem, chociaż nie znalazłem żadnych referencji na temat najlepszych praktyk. Interesujące byłoby wiedzieć, co przejdzie z, powiedzmy, Annals of Applied Statistics (lub AOS), lub w recenzjach działa w tych lub innych czasopismach. Mówiąc prościej i kapryśnie, można zapytać, gdzie istnieje próg między „(dopuszczalnym) ugotowanym”) a „zbyt gotowanym”?
Uwaga 3: Chociaż nie ma to wpływu na pytanie, scenariusz użycia polega na modelowaniu różnych dużych, wielowymiarowych zestawów danych, w których celem badań jest poznanie (zarówno przez człowieka, jak i maszynę ;-)) struktury danych. W przeciwieństwie do scenariuszy jednowymiarowych, dwuwymiarowych i innych niskowymiarowych, struktura nie jest łatwo wywnioskowana. Gdy zmierzamy w kierunku lepszego zrozumienia struktury, możliwość generowania zestawów danych o podobnych właściwościach jest interesująca, aby zobaczyć, jak metoda modelowania oddziałuje z danymi (np. W celu zbadania stabilności parametrów). Niemniej jednak starsze przewodniki nisko wymiarowych danych syntetycznych mogą być punktem wyjścia, który można rozszerzyć lub dostosować do zestawów danych o wyższych wymiarach.
Pakiet statystyczny R ma funkcję symulacji, która symuluje dane w oparciu o model dopasowany do istniejących danych. Wykorzystuje dopasowany model jako „znaną” relację populacji, a następnie symuluje nowe dane na podstawie tego modelu. Istnieje metoda dla tej funkcji w pakiecie lme4. Te dopasowane obiekty mogą uwzględniać losowe i stałe efekty oraz korelację (w tym autokorelację dla szeregów czasowych).
Może to działać tak, jak chcesz.
źródło