Regresja liniowa, oczekiwania warunkowe i wartości oczekiwane

11

Ok, więc trochę mgliste w kilku sprawach, każda pomoc byłaby mile widziana. Rozumiem, że model regresji liniowej jest przewidziany przez oczekiwanie warunkowe

mi(Y|X)=b+Xb+mi
  1. Czy zakładamy, że zarówno jak i są zmiennymi losowymi o nieznanym rozkładzie prawdopodobieństwa? Rozumiałem, że tylko reszty i szacowane współczynniki beta są zmiennymi losowymi. jeśli tak, jako przykład, jeśli otyłość i wiek, jeśli weźmiemy warunkowe oczekiwanie , jaka jest oczekiwana wartość otyłości, jeśli osoba ma lat w próbie, czy wystarczy wziąć średnią (średnią arytmetyczną) y dla tych obserwacji, w których ? jednak czy oczekiwana wartość nie oznacza, że ​​musimy ją pomnożyć przez prawdopodobieństwo wystąpienia? ale jak w tym sensie znaleźć prawdopodobieństwoXYY=X=mi(Y|X=35)35X=35X-wartość zmienna występująca, jeśli reprezentuje coś takiego jak wiek?
  2. Gdyby reprezentował kurs walutowy, czy byłby to klasyfikowany jako przypadkowy? jak, u licha, znalazłbyś oczekiwaną wartość tego, nie wiedząc jednak o prawdopodobieństwie? lub czy oczekiwana wartość byłaby równa średniej w limicie.X
  3. Jeśli nie założymy, że zmienne zależne same w sobie są zmiennymi losowymi, ponieważ nie odwracamy prawdopodobieństwa, co zakładamy, że są? właśnie ustalone wartości czy coś? ale jeśli tak jest, w jaki sposób możemy zacząć od zmiennej nieprzypadkowej? co sądzimy o rozkładzie zmiennych niezależnych?

Przepraszamy, jeśli coś nie ma sensu lub jest oczywiste dla każdego.

William Carulli
źródło
1
Współczynnik regresji jest nieznaną stałą, a nie zmienną losową (przynajmniej w świecie częstym). β
Richard Hardy
co rozumiesz przez warunkowe oczekiwania? E (Y | X) oznacza po prostu Y, biorąc pod uwagę X, czyli oczekiwaną wartość Y przy X. Powiedzmy, y = 5 + x, a następnie E (Y | X = 5) wynosi 10. Nie dostałem twojego punktu z warunkowe oczekiwanie
Zamir Akimbekov
@RichardHardy, zrozumiałem, że ponieważ B jest średnią rozkładu próbkowania beta, jest to zmienna losowa charakteryzująca się rozkładem normalnym. czy masz na myśli model populacji?
William Carulli
Tak, model populacji.
Richard Hardy
1
@WilliamCarulli Richard odnosi się do różnicy między parametrem populacji a parametrem szacowanym. Oszacowany parametr jest wprawdzie zmienną losową, ale (nieznany) prawdziwy parametr populacji jest wartością stałą.
Matthew Drury

Odpowiedzi:

8

W modelu prawdopodobieństwa leżącym u podstaw regresji liniowej X i Y zmiennymi losowymi.

jeśli tak, jako przykład, jeśli Y = otyłość i X = wiek, jeśli weźmiemy warunkowe oczekiwanie E (Y | X = 35), jaka jest oczekiwana wartość otyłości, jeśli osoba ma 35 lat w próbie, czy wystarczy wziąć średnią (średnią arytmetyczną) y dla tych obserwacji, w których X = 35?

Zgadza się. Zasadniczo nie można oczekiwać, że będziesz mieć wystarczającą ilość danych przy każdej określonej wartości X, lub może to być niemożliwe, jeśli X może przyjmować ciągły zakres wartości. Ale koncepcyjnie jest to poprawne.

jednak czy oczekiwana wartość nie oznacza, że ​​musimy ją pomnożyć przez prawdopodobieństwo wystąpienia?

Jest to różnica między bezwarunkowym oczekiwaniem a warunkowym oczekiwaniem E [ Y X = x ] . Relacja między nimi jestE[Y]E[YX=x]

E[Y]=xE[YX=x]Pr[X=x]

które jest prawem całkowitego oczekiwania.

ale jak w tym sensie znaleźć prawdopodobieństwo wystąpienia zmiennej wartości X, jeśli reprezentuje ona coś w rodzaju wieku?

Zasadniczo nie stosuje się regresji liniowej. Ponieważ próbujemy ustalić , nie musimy znać P r [ X = x ] .E[YX]Pr[X=x]

Jeśli nie założymy, że zmienne niezależne same w sobie są zmiennymi losowymi, ponieważ nie odwracamy prawdopodobieństwa, to co zakładamy? właśnie ustalone wartości czy coś?

My nie zakładamy, że Y jest zmienną losową. Jednym ze sposobów myślenia o regresji liniowej jest model prawdopodobieństwa dla Y

YXβ+N(0,σ)

Co oznacza, że ​​gdy poznasz wartość X, losowa zmienność Y jest ograniczona do sumy .N(0,σ)

Matthew Drury
źródło
Dziękuję bardzo za komentarz, ogromnie mi pomógł. Twoje zdrowie.
William Carulli
@WilliamCarulli Nie ma za co! Zapraszam do zadawania dalszych pytań, a ja postaram się odpowiedzieć. Jeśli naprawdę wyjaśnię wszystkie twoje problemy, możesz to zaakceptować.
Matthew Drury
3
To dobry post. Myślę jednak, że jakakolwiek odpowiedź, która nie potwierdza, że (a) może być ustalona lub (b) może być zmienną losową (ze szczególnymi założeniami niezależności), tak naprawdę nie uwzględnia obaw wyrażonych w pytaniu. X
whuber
@MatthewDrury, dla wyjaśnienia, jeśli moją zmienną zależną jest kurs walutowy, a moją zależną jest krajowa stopa procentowa, to
William Carulli
@ MatthewDrury @ MatthewDrury, aby wyjaśnić, jeśli moją zmienną zależną jest powiedz kurs walutowy, a moją zależną jest krajowa stopa procentowa, wówczas E (E (kurs wymiany | stopa procentowa)) = E (kurs wymiany) = średnia z próby kursu walutowego? Myślę, że to, co mnie dezorientuje, to to, że zawsze zakładam, że oczekiwania są obliczane na podstawie prawdopodobieństwa, nie widzę powodu, aby oznaczać regresję liniową jako oczekiwanie warunkowe, gdy rozwiązywanie jej za pomocą algebry macierzowej wydaje się znacznie inne niż przyjmowanie ogólnych oczekiwań.
William Carulli,
3

Będzie wiele odpowiedzi na to pytanie, ale nadal chcę je dodać, ponieważ podałeś kilka interesujących kwestii. Dla uproszczenia rozważam tylko prosty model liniowy.

   It is my understanding that the linear regression model
   is predicted via a conditional expectation E(Y|X)=b+Xb+e

Podstawowym równaniem prostej analizy regresji liniowej jest: Równanie to znaczy, że przeciętna wartość Y jest liniowa od wartości X . Można również zauważyć, że oczekiwana wartość jest również liniowa dla parametrów β 0 i β 1 , dlatego model nazywany jest liniowym. To podstawowe równanie można przepisać jako: Y = β 0 + β 1 X + ϵ , gdzie ϵ jest zmienną losową ze średnią zerową: E ( ϵ ) =

mi(Y|X)=β0+β1X,
YXβ0β1
Y=β0+β1X+ϵ,
ϵE(ϵ)=0
Do we assume that both X and Y are Random variables with some unknown 
probability distribution? ... If we don't assume the independent variables 
are themselves random 

XY

{X1,...,Xn}X

β0β1XX

if we take the conditional expectation E(Y|X=35) ... would we just take 
the average(arithmetic mean) of y for those observations where X=35?

φ^(x)E(Y|X=x)β^0β^1

φ^(x)=β^0+β^1x

Warunkowy średni estymator najmniejszych kwadratów ma wyrażenie równe opisanemu, jeśli twój model traktuje różne wagi jako poziomy pojedynczego czynnika. Modele te znane są również jako jednokierunkowa ANOVA, co jest szczególnym przypadkiem (nie prostego) modelu liniowego.
Mur1lo
źródło
1
Xβ^0β^1X
1
@ whuber „Po pierwsze, model nazywa się„ liniowy ”, ponieważ jest liniowy w parametrach„ Objaśniałem znaczenie równania, a nie znaczenie „liniowy” w „modelu liniowym”. „Szacunki β̂ 0 i β̂ 1 są zmiennymi losowymi, niezależnie od tego, co założymy o X”, oczywiście, ale rozkład tych zmiennych losowych zmienia się w zależności od sposobu, w jaki traktujesz X.
Mur1lo
1
@ whuber Całkowicie zgadzam się z twoimi ostatnimi punktami. Zmienię swoją odpowiedź, aby była bardziej przejrzysta we wszystkich wskazanych przez Ciebie kwestiach. Dzięki za opinie.
Mur1lo