Dlaczego konieczne jest założenie podziału na błędy, tj
, z .
Dlaczego nie napisać?
, z ,
gdzie w obu przypadkach .
Podkreśliłem, że założenia dystrybucyjne dotyczą błędów, a nie danych, ale bez wyjaśnienia.
Naprawdę nie rozumiem różnicy między tymi dwoma sformułowaniami. W niektórych miejscach widzę, że na danych umieszczane są założenia dystrybucyjne (Bayesian, jak się wydaje, wydaje się to głównie), ale w większości przypadków założenia są oparte na błędach.
Dlaczego podczas modelowania / dlaczego ktoś powinien zacząć od założeń dotyczących jednego lub drugiego?
Odpowiedzi:
W ustawieniach regresji liniowej często wykonuje się analizy i uzyskuje wyniki zależne od , tj. Zależne od „danych”. Potrzebne jest więc to, że jest normalny, to znaczy musi być normalny. Jak pokazuje przykład Petera Floma, można mieć normalność bez normalności , a zatem, ponieważ potrzebna jest normalność , jest to rozsądne założenie.y ∣ X ϵ ϵ y ϵX y∣X ϵ ϵ y ϵ
źródło
Drugą definicję napisałbym jako
lub (jak sugeruje Karl Oskar +1)
tj. założeniem modelowania jest to, że zmienna odpowiedzi jest zwykle rozkładana wokół linii regresji (która jest oszacowaniem średniej warunkowej), ze stałą wariancją . To nie to samo, co sugerowanie, że są normalnie rozłożone, ponieważ średnia rozkładu zależy od .y i X iσ2 yi Xi
Myślę, że widziałem podobne sformułowania w literaturze dotyczącej uczenia maszynowego; o ile widzę, jest to równoważne z pierwszą definicją, wszystko, co zrobiłem, to nieco inaczej wyrażać drugą formułę, aby wyeliminować i .Yϵi y^
źródło
Różnicę najłatwiej zilustrować przykładem. Oto prosty:
Załóżmy, że Y jest bimodalny, a modalność jest uwzględniana przez zmienną niezależną. Załóżmy na przykład, że Y jest wzrostem, a twoja próbka (z jakiegokolwiek powodu) składa się z dżokejów i koszykarzy. np. w
R
pierwsza gęstość jest bardzo nienormalna. Ale resztki z modelu są bardzo bliskie normalności.
Jeśli chodzi o to, dlaczego ograniczenia zostały umieszczone w ten sposób - pozwolę komuś innemu na to odpowiedzieć.
źródło
Musisz dodać suscripted i do drugiego sformułowania: ponieważ musi być w stanie zmieniać się wraz z .
R x i
Jak już wspomniano, czym jest ? Jest to . Prowadzi to do sformułowania @DikranMarsupial przedstawia: Warto zauważyć, że jest to dokładnie to samo co twój pierwszy sformułowanie, ponieważ oba określają rozkład normalny, a oczekiwane wartości są równe. To znaczy: (I oczywiście wariancje są równe.) Innymi słowy, to jesty^i xiβ^
Powstaje więc pytanie, czy istnieje powód, aby preferować prezentowanie pomysłu przy użyciu pierwszego sformułowania?
Myślę, że odpowiedź jest twierdząca z dwóch powodów:
Uważam, że te konfuzje są bardziej prawdopodobne przy użyciu drugiego sformułowania niż pierwszego.
źródło