Ukrywanie modelu regresji przed profesorem (pancernik regresyjny) [zamknięte]

11

Pracuję nad zadaniem domowym, w którym mój profesor chciałby, abyśmy stworzyli prawdziwy model regresji, symulowali próbkę danych, a on spróbuje znaleźć nasz prawdziwy model regresji, korzystając z niektórych technik, których nauczyliśmy się w klasie. My również będziemy musieli zrobić to samo z zestawem danych, który nam dał.

Mówi, że był w stanie stworzyć całkiem dokładny model dla wszystkich poprzednich prób spróbowania go oszukać. Niektórzy studenci tworzą jakiś szalony model, ale prawdopodobnie był w stanie stworzyć prostszy model, który był po prostu wystarczający.

Jak mogę opracować dla niego trudny model? Nie chcę być super tani, wykonując 4 warunki kwadratowe, 3 obserwacje i ogromną wariancję? Jak mogę stworzyć pozornie nieszkodliwy zestaw danych, który ma pod nim twardy model?

Po prostu musi przestrzegać 3 zasad:

  1. Twój zestaw danych musi mieć jedną zmienną „Y” i 20 zmiennych „X” oznaczonych jako „Y”, „X1”, ..., „X20”.

  2. Twoja zmienna odpowiedzi musi pochodzić z modelu regresji liniowej, który spełnia: gdzie i .Y
    ϵ iN ( 0 , σ 2 ) p 21

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    ϵiN(0,σ2)p21
  3. Wszystkie zmienne które zostały użyte do utworzenia są zawarte w zbiorze danych.YXY

Należy zauważyć, że nie wszystkie 20 zmiennych X musi znajdować się w rzeczywistym modelu

Myślałem o użyciu czegoś takiego jak Fama-French 3 Factor Model i zmuszeniu go, by zaczął od danych giełdowych (SPX i AAPL) i musiałem przekształcić te zmienne w stale złożone zwroty, aby nieco je zaciemnić. Ale to pozostawia mi brakujące wartości w pierwszej obserwacji i jej szeregach czasowych (o których jeszcze nie rozmawialiśmy w klasie).

Nie jestem pewien, czy jest to właściwe miejsce do publikowania czegoś takiego. Czułem, że może to wygenerować dobrą dyskusję.

Edycja: Nie pytam też w szczególności o „gotowe” modele. Jestem bardziej ciekawy tematów / narzędzi w statystykach, które pozwolą komuś o tym poradzić.

dylanjm
źródło
4
Będzie ciężko, jeśli ograniczy cię do modelu liniowego ...
Frank H.
4
Jeśli twój profesor wygra, jeśli twoje prawdziwe współczynniki mieszczą się w 95% przedziałach ufności, to wielokoliniowość nie pomoże, ponieważ wielokoliniowość ogromnie zwiększa CI. Jeśli z drugiej strony zostanie dokonana ocena różnicy między przewidywanymi a rzeczywistymi danymi dotyczącymi nowych predyktorów („rzeczywistych” danych wygenerowanych przy użyciu prawdziwego MZD), wówczas wielokoliniowość będzie znacznie lepszym podejściem. Konkluzja: dowiedz się, czym jest funkcja celu i dostosuj swoje podejście do niej. (Odnosi się to ogólnie do życia ...)
Stephan Kolassa
4
@dylanjm Czy mógłbyś precyzyjnie określić warunki zwycięstwa?
Matthew Gunn
11
Celem takiego ćwiczenia jest nauczenie się poprzez próbę samodzielnego myślenia o czymś . Jeśli przeciwstawisz się tutaj ekspertom, Twoja szansa na rozciągnięcie mózgu poprzez konsolidację różnych informacji, które otrzymałeś w związku z regresją, jest dramatycznie zmniejszona (a także niesprawiedliwe wobec profesora). Co więcej, w każdej renomowanej instytucji przedstawiającej mu swoją pracę, gdy została ona częściowo wykonana przez kogoś innego, może leżeć gdzieś pomiędzy niewłaściwym postępowaniem akademickim a oszustwem (szczególnie jeśli jest warta jakiejkolwiek części twojego znaku). Bądź bardzo ostrożny, dokładnie tak, jak o to pytasz.
Glen_b
4
Pomimo popularności tego pytania, czuję się zobowiązany do zamknięcia go w tym momencie, ponieważ nawet po wielokrotnych prośbach o wyjaśnienia dotyczące zasad gry (jakie kryteria zostaną zastosowane do oceny sukcesu, ile próbek musisz dostarczyć itp.) To ważne informacje wciąż nie pojawiły się w pytaniu. Nasze cele są węższe i bardziej skoncentrowane niż „generowanie dyskusji”: proszę skonsultować się z naszym centrum pomocy w sprawie pytań, które możemy odpowiedzieć na tej stronie.
whuber

Odpowiedzi:

6

Po prostu spraw, aby błąd był znacznie większy niż wyjaśniona część. Na przykład: , gdzie X i j = sin ( i + j ) , i = 1..1000 i σ = 1000000 . Oczywiście musisz pamiętać, jakie było twoje nasienie, abyś mógł udowodnić swojemu profesorowi, że miałeś rację, a on się mylił.yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000

Powodzenia w identyfikacji fazy za pomocą tego stosunku szum / sygnał.

Aksakal
źródło
To nie wydaje się działać w przypadku kryterium wygranej CI, prawda? Otrzymamy po prostu ogromne CI, które z pewnością obejmą 1. I oczywiście pewną niestabilność liczbową.
Stephan Kolassa
Niestabilność nie będzie problemem, wszystko co robię, to zakopywanie sygnału w hałasie. To wyjdzie jako czysty biały szum.
Aksakal
4
był to uważany za niepożądany tani model przez OP
Sextus Empiricus
5

Jeśli jego celem jest odzyskanie prawdziwego procesu generowania danych, który tworzy , oszukiwanie swojego profesora jest dość trywialne. Aby dać ci przykład, rozważ zakłócenia ϵ iN ( 0 , 1 ) i następujące równania strukturalne:YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

Zauważ, że prawdziwa MZD , która obejmuje tylko X 1 , w sposób trywialny spełnia warunek 2. Warunek 3 jest również spełniony, ponieważ X 1 jest jedyną zmienną, która tworzy Y, a Ty podajesz X 1 i X 2 .YX1X1YX1X2

X1X2X1X2 Y

E[Y|X1]E[Y|X2]E[Y|X1,X2] E[Y|X1]YY itd. Możesz się kłócić, że to nie to, co powiedział, ponieważ stwierdza:

zmienna Y musi pochodzić z modelu regresji liniowej, który spełnia (...) zmienne, które zostały użyte do utworzenia Y (...) twojego rzeczywistego modelu (...)

I możesz wywołać dobrą dyskusję w klasie na temat związku przyczynowego, co oznacza prawdziwa MZD i ogólnie identyfikowalność.

Carlos Cinelli
źródło
proponujesz model zgodny z numerem 2 w poście
Aksakal
3

Używaj zmiennych o wielokoliniowości i heteroscedastyczności, takich jak dochód w zależności od wieku: zrób bolesną inżynierię cech, która stwarza problemy ze skalowaniem: podaj NA dla niektórych pokropionych rzadkością. Fragment liniowości sprawia, że ​​jest to trudniejsze, ale może być bolesne. Ponadto wartości odstające zwiększyłyby dla niego problem z góry.

David
źródło
Myślę, że heteroscedastyczność nie wchodzi w zakres problemu, ale zdecydowanie zgadzam się, że wielokoliniowość jest jednym z najlepszych sposobów na utrudnienie znalezienia prawdziwej specyfikacji.
JDL
2

X5X8X12X13

Ruben van Bergen
źródło
0

Wybierz dowolny model liniowy. Daj mu zestaw danych, w którym większość próbek wynosi około x = 0. Daj mu kilka próbek około x = 1 000 000.

Fajne jest to, że próbki około x = 1 000 000 nie są wartościami odstającymi. Są generowane z tego samego źródła. Ponieważ jednak skale są tak różne, błędy wokół 1M nie będą pasować do błędów około 0.

Yi=β0+β1Xi1+ϵi

Mamy zestaw danych n próbek, w pobliżu x = 0. Wybramy jeszcze 2 punkty w wartościach „wystarczająco daleko”. Zakładamy, że w tych dwóch punktach wystąpił błąd.

Wartość „wystarczająco daleko” jest taką wartością, że błąd oszacowania, który nie przechodzi bezpośrednio w tych dwóch punktach, jest znacznie większy niż błąd reszty zestawu danych.

Stąd regresja liniowa wybierze współczynniki, które przejdą w tych dwóch punktach i pominą resztę zestawu danych i będą różnić się od modelu podkreślającego.

Zobacz następujący przykład. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

To jest w formacie serii WolfarmAlpha. W każdej parze pierwszy element to x, a drugi został wygenerowany w programie Excel przy użyciu wzoru = A2 + NORMINV (RAND (), 0,2000).

β0=1,β1=1

y=178433.x426805y=x

DaL
źródło
Jak dokładnie to powinno działać i jaki efekt ma to stworzyć?
Richard Hardy
Działa, ponieważ hałas i precyzja będą działać inaczej w różnych skalach. W wysokich liczbach, przechodząc do skrajności i rozważając jeden punkt, linia powinna przejść bezpośrednio przez nią lub ponieść duże koszty. Wystarczy trochę hałasu, aby pominąć właściwe wartości. W okolicach zera, znowu w skrajności - bez intecepcji, pozostajesz z hałasem.
DaL
Użyj małej wartości dla zmiennej o niewłaściwym współczynniku, a płacisz koszty.
DaL
Tak, ale dlaczego profesorowi tak trudno byłoby odkryć model, który to wygenerował? Wygląda to na szczególnie łatwe zadanie, gdy istnieje tak duża zmienność w danym regresorze.
Richard Hardy,
Ponieważ żaden model nie będzie dobrze pasował do obu grup.
DaL