Kiedy więc zakładam, że terminy błędów są zwykle rozkładane w regresji liniowej, co to oznacza dla zmiennej odpowiedzi, ?
regression
distributions
MarkDollar
źródło
źródło
Krótka odpowiedź jest taka, że nie można wnioskować na temat rozkładu , ponieważ zależy to od rozkładu x oraz siły i kształtu relacji. Bardziej formalnie, yy x y będą mieć „mieszankę normalnej” dystrybucji, co w praktyce może być prawie wszystko.
Oto dwa skrajne przykłady, które to ilustrują:
W rzeczywistości, ponieważ każdy rozkład można dowolnie aproksymować przy użyciu mieszanki normalnych, naprawdę można uzyskać dowolny rozkład dla .y
źródło
Wymyślamy termin błędu, narzucając fikcyjny model prawdziwym danym; rozkład składnika błędu nie wpływa na rozkład odpowiedzi.
Często zakładamy, że błąd rozkłada się normalnie i dlatego próbujemy skonstruować model w taki sposób, aby nasze szacunkowe wartości resztkowe były normalnie rozłożone. Może to być trudne w przypadku niektórych dystrybucji . W tych przypadkach przypuszczam, że można powiedzieć, że rozkład odpowiedzi wpływa na termin błędu.y
źródło
Jeśli wypiszesz odpowiedź jako Gdzie m jest „modelem” (prognoza dla y ), a e jest „błędem”, wówczas można to zmienić, aby wskazać y - m = e . Przypisanie rozkładu błędów jest tym samym, co wskazanie, w jaki sposób model jest niekompletny. Innymi słowy, wskazuje, w jakim stopniu nie wiesz, dlaczego zaobserwowana reakcja była wartością, jaką była, a nie tym, co przewidywał model. Gdybyście wiedzieli, że model jest idealny, dla błędów przypisalibyście rozkład prawdopodobieństwa z całą jego masą na zero. Przypisywanie N (
W pewnym sensie rozkład błędów jest ściślej związany z modelem niż z odpowiedzią. Można to zobaczyć z niemożności zidentyfikowania powyższego równania, ponieważ jeśli zarówno jak i e są nieznane, to dodanie dowolnego wektora do m i odjęcie go od e prowadzi do tej samej wartości y , y = m + e = ( m + b ) + ( e - b ) = m ′ + e ′m e m e y y=m+e=(m+b)+(e−b)=m′+e′ . Przypisanie rozkładu błędów i równanie modelu zasadniczo mówi, które dowolne wektory są bardziej prawdopodobne niż inne.
źródło