Pracuję nad zadaniem domowym, w którym mój profesor chciałby, abyśmy stworzyli prawdziwy model regresji, symulowali próbkę danych, a on spróbuje znaleźć nasz prawdziwy model regresji, korzystając z niektórych technik, których nauczyliśmy się w klasie. My również będziemy musieli zrobić to samo z zestawem danych, który nam dał.
Mówi, że był w stanie stworzyć całkiem dokładny model dla wszystkich poprzednich prób spróbowania go oszukać. Niektórzy studenci tworzą jakiś szalony model, ale prawdopodobnie był w stanie stworzyć prostszy model, który był po prostu wystarczający.
Jak mogę opracować dla niego trudny model? Nie chcę być super tani, wykonując 4 warunki kwadratowe, 3 obserwacje i ogromną wariancję? Jak mogę stworzyć pozornie nieszkodliwy zestaw danych, który ma pod nim twardy model?
Po prostu musi przestrzegać 3 zasad:
Twój zestaw danych musi mieć jedną zmienną „Y” i 20 zmiennych „X” oznaczonych jako „Y”, „X1”, ..., „X20”.
Twoja zmienna odpowiedzi musi pochodzić z modelu regresji liniowej, który spełnia: gdzie i .
ϵ i ∼ N ( 0 , σ 2 ) p ≤ 21Wszystkie zmienne które zostały użyte do utworzenia są zawarte w zbiorze danych.Y
Należy zauważyć, że nie wszystkie 20 zmiennych X musi znajdować się w rzeczywistym modelu
Myślałem o użyciu czegoś takiego jak Fama-French 3 Factor Model i zmuszeniu go, by zaczął od danych giełdowych (SPX i AAPL) i musiałem przekształcić te zmienne w stale złożone zwroty, aby nieco je zaciemnić. Ale to pozostawia mi brakujące wartości w pierwszej obserwacji i jej szeregach czasowych (o których jeszcze nie rozmawialiśmy w klasie).
Nie jestem pewien, czy jest to właściwe miejsce do publikowania czegoś takiego. Czułem, że może to wygenerować dobrą dyskusję.
Edycja: Nie pytam też w szczególności o „gotowe” modele. Jestem bardziej ciekawy tematów / narzędzi w statystykach, które pozwolą komuś o tym poradzić.
Odpowiedzi:
Po prostu spraw, aby błąd był znacznie większy niż wyjaśniona część. Na przykład: , gdzie X i j = sin ( i + j ) , i = 1..1000 i σ = 1000000 . Oczywiście musisz pamiętać, jakie było twoje nasienie, abyś mógł udowodnić swojemu profesorowi, że miałeś rację, a on się mylił.yja= Xi 1+ ϵja XI j= grzech( i + j ) i = 1..1000 σ= 1000000
Powodzenia w identyfikacji fazy za pomocą tego stosunku szum / sygnał.
źródło
Jeśli jego celem jest odzyskanie prawdziwego procesu generowania danych, który tworzy , oszukiwanie swojego profesora jest dość trywialne. Aby dać ci przykład, rozważ zakłócenia ϵ i ∼ N ( 0 , 1 ) i następujące równania strukturalne:Y ϵi∼N(0,1)
Zauważ, że prawdziwa MZD , która obejmuje tylko X 1 , w sposób trywialny spełnia warunek 2. Warunek 3 jest również spełniony, ponieważ X 1 jest jedyną zmienną, która tworzy Y, a Ty podajesz X 1 i X 2 .Y X1 X1 Y X1 X2
I możesz wywołać dobrą dyskusję w klasie na temat związku przyczynowego, co oznacza prawdziwa MZD i ogólnie identyfikowalność.
źródło
Używaj zmiennych o wielokoliniowości i heteroscedastyczności, takich jak dochód w zależności od wieku: zrób bolesną inżynierię cech, która stwarza problemy ze skalowaniem: podaj NA dla niektórych pokropionych rzadkością. Fragment liniowości sprawia, że jest to trudniejsze, ale może być bolesne. Ponadto wartości odstające zwiększyłyby dla niego problem z góry.
źródło
źródło
Wybierz dowolny model liniowy. Daj mu zestaw danych, w którym większość próbek wynosi około x = 0. Daj mu kilka próbek około x = 1 000 000.
Fajne jest to, że próbki około x = 1 000 000 nie są wartościami odstającymi. Są generowane z tego samego źródła. Ponieważ jednak skale są tak różne, błędy wokół 1M nie będą pasować do błędów około 0.
Mamy zestaw danych n próbek, w pobliżu x = 0. Wybramy jeszcze 2 punkty w wartościach „wystarczająco daleko”. Zakładamy, że w tych dwóch punktach wystąpił błąd.
Wartość „wystarczająco daleko” jest taką wartością, że błąd oszacowania, który nie przechodzi bezpośrednio w tych dwóch punktach, jest znacznie większy niż błąd reszty zestawu danych.
Stąd regresja liniowa wybierze współczynniki, które przejdą w tych dwóch punktach i pominą resztę zestawu danych i będą różnić się od modelu podkreślającego.
Zobacz następujący przykład. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}
To jest w formacie serii WolfarmAlpha. W każdej parze pierwszy element to x, a drugi został wygenerowany w programie Excel przy użyciu wzoru = A2 + NORMINV (RAND (), 0,2000).
źródło