W jaki sposób rozkład terminu błędu wpływa na rozkład odpowiedzi?

14

Kiedy więc zakładam, że terminy błędów są zwykle rozkładane w regresji liniowej, co to oznacza dla zmiennej odpowiedzi, y ?

MarkDollar
źródło

Odpowiedzi:

7

Może mnie nie ma, ale myślę, że powinniśmy się zastanawiać nad , czyli jak czytam OP. W najprostszym przypadku regresji liniowej, jeśli twój model to y = X β + ϵ, wówczas jedynym składnikiem stochastycznym w twoim modelu jest termin błędu. Jako taki określa rozkład próbkowania y . Jeżeli ϵ N ( 0 , σ 2 I ), to y | X , β N ( X β ,f(y|β,X)y=Xβ+ϵyϵN(0,σ2I) . Jednak to, co mówi @Aniko, jest z pewnością prawdziwe dla f ( y ) (nieznacznie powyżej X , β ). Na obecnym etapie pytanie jest nieco niejasne.y|X,βN(Xβ,σ2I)f(y)X,β

JMS
źródło
Lubię wszystkie komentarze! I wszystkie wydają się mieć rację. Ale właśnie szukałem najłatwiejszej odpowiedzi :) Co się stanie, gdy założymy, że błąd jest normalnie rozpowszechniany. To, że dzieje się to teraz bardzo często, w rzeczywistości wynika z innych odpowiedzi! Wielkie dzięki!
MarkDollar
17

Krótka odpowiedź jest taka, że ​​nie można wnioskować na temat rozkładu , ponieważ zależy to od rozkładu x oraz siły i kształtu relacji. Bardziej formalnie, yyxy będą mieć „mieszankę normalnej” dystrybucji, co w praktyce może być prawie wszystko.

Oto dwa skrajne przykłady, które to ilustrują:

  1. Załóżmy, że istnieją tylko dwie możliwe wartości , 0 i 1, ay = 10 x + N ( 0 , 1 ) . Następnie yxy=10x+N(0,1)y będzie miał silnie dwumodalny rozkład z guzami na 0 i 10.
  2. Załóżmy teraz ten sam związek, ale niech będzie równomiernie rozmieszczone w przedziale 0-1 z dużą ilością wartości. Następnie yxy będzie prawie równomiernie rozmieszczone w przedziale 0-10 (z pewnymi pół-normalnymi ogonami na krawędziach).

W rzeczywistości, ponieważ każdy rozkład można dowolnie aproksymować przy użyciu mieszanki normalnych, naprawdę można uzyskać dowolny rozkład dla .y

Aniko
źródło
8
+1 Re ostatnia wypowiedź: kiedyś popełniłem błąd, myśląc o tym również. Z matematycznego punktu widzenia masz rację, ale w praktyce prawie niemożliwe jest przybliżenie nieróżniczkowalnego skoku za pomocą normalnych (takich jak rozkłady w kształcie litery J lub U): normalne są po prostu zbyt płaskie na swoich szczytach, aby uchwycić gęstość w pikach. Potrzebujesz o wiele za dużo komponentów. Normalne są dobre do aproksymacji rozkładów, których pdf jest bardzo gładki.
whuber
1
@whuber Zgoda. Nie sugerowałbym stosowania przybliżenia mieszanki normalnej dla żadnego rozkładu w praktyce, próbowałem tylko dać skrajny przykład.
Aniko
5

Wymyślamy termin błędu, narzucając fikcyjny model prawdziwym danym; rozkład składnika błędu nie wpływa na rozkład odpowiedzi.

Często zakładamy, że błąd rozkłada się normalnie i dlatego próbujemy skonstruować model w taki sposób, aby nasze szacunkowe wartości resztkowe były normalnie rozłożone. Może to być trudne w przypadku niektórych dystrybucji . W tych przypadkach przypuszczam, że można powiedzieć, że rozkład odpowiedzi wpływa na termin błędu.y

Thomas Levine
źródło
2
„Często próbują skonstruować model taki, że nasze pojęcie błędu jest normalnie rozprowadzane” - a dokładniej, myślę, że odnosimy się do reszty . Są to szacunkowe w warunkach błędów w taki sam sposób, X β jest oszacowanie E ( a ) = X p . Chcielibyśmy, aby reszty wyglądały normalnie, ponieważ to właśnie założyliśmy na temat błędów. „Wynajdujemy” termin błędu, określając model, a nie dopasowując go. yXβ^Xβ^E(y)=Xβ
JMS
Zgadzam się z twoją precyzją, JMS. +1, a ja dostosuję swoją odpowiedź.
Thomas Levine
2

Jeśli wypiszesz odpowiedź jako Gdzie m jest „modelem” (prognoza dla y ), a e jest „błędem”, wówczas można to zmienić, aby wskazać y - m = e . Przypisanie rozkładu błędów jest tym samym, co wskazanie, w jaki sposób model jest niekompletny. Innymi słowy, wskazuje, w jakim stopniu nie wiesz, dlaczego zaobserwowana reakcja była wartością, jaką była, a nie tym, co przewidywał model. Gdybyście wiedzieli, że model jest idealny, dla błędów przypisalibyście rozkład prawdopodobieństwa z całą jego masą na zero. Przypisywanie N (

y=m+e
myeym=e zasadzie mówi, że błędy są małe w jednostkach σ . Chodzi o to, że prognozy modelu są „błędne” o podobne wielkości dla różnych obserwacji i są „w przybliżeniu prawidłowe” w skali σ . W przeciwieństwie do tego alternatywnym przypisaniem jest C a u c h y ( 0 , γ ), który mówi, że większość błędów jest niewielka, ale niektóre błędy są dość duże - model ma czasami „pomyłkę” lub „szok” pod względem przewidywania odpowiedzi.N(0,σ2)σσCauchy(0,γ)

W pewnym sensie rozkład błędów jest ściślej związany z modelem niż z odpowiedzią. Można to zobaczyć z niemożności zidentyfikowania powyższego równania, ponieważ jeśli zarówno jak i e są nieznane, to dodanie dowolnego wektora do m i odjęcie go od e prowadzi do tej samej wartości y , y = m + e = ( m + b ) + ( e - b ) = m + e memeyy=m+e=(m+b)+(eb)=m+e. Przypisanie rozkładu błędów i równanie modelu zasadniczo mówi, które dowolne wektory są bardziej prawdopodobne niż inne.

prawdopodobieństwo prawdopodobieństwa
źródło
„Wydaje się to dziwne, ponieważ obserwujesz y tylko raz i tylko raz (y jest kompletnym wektorem / macierzą / itd. Odpowiedzi). Jak można to„ rozprowadzić ”? Moim zdaniem może być rozprowadzone tylko w jakimś wymyślonym zespole, nie ma to nic wspólnego z twoją rzeczywiście zaobserwowaną reakcją. Przynajmniej każde takie przypuszczenie, że odpowiedź „jest dystrybuowana” jest nie do zweryfikowania „Jestem zdezorientowany; czy mówisz, że nie możemy przetestować vs H 1 : y f 1 ? H0:yf0H1:yf1
JMS
nie, przepraszam, nie może tak być. Nadal jestem zdezorientowany. Może to trochę nieprecyzyjne, ale sposób, w jaki go czytam, ma próbek Y i od Y ze stałym x i , jego model to Y = X β + ϵ i zastanawia się, co zakładany rozkład ϵ implikuje rozkład Y | β , X pod jego modelem . Tutaj oznaczałoby to, że to normalne; możemy to przetestować za pomocą naszej próbkinyiYxiY=Xβ+ϵϵY|β,X
JMS
@JMS - Myślę, że mógłbym usunąć ten pierwszy akapit. Nie sądzę, żeby to coś dodawało do mojej odpowiedzi (poza zamieszaniem).
probabilityislogic
jedną z moich ulubionych rzeczy do dodania do moich odpowiedzi :)
JMS