Widziałem „reszty” zdefiniowane na różne sposoby jako „przewidywane minus rzeczywiste wartości” lub „rzeczywiste minus przewidywane wartości”. W celach ilustracyjnych, aby pokazać, że obie formuły są szeroko stosowane, porównaj następujące wyszukiwania w Internecie:
W praktyce prawie nigdy nie robi to różnicy, ponieważ znak poszczególnych jednostek zwykle nie ma znaczenia (np. Czy są one podniesione do kwadratu lub wzięte wartości bezwzględne). Moje pytanie brzmi jednak: czy jedna z tych dwóch wersji (najpierw przewidywanie vs. pierwsza rzeczywista) jest uważana za „standard”? Lubię być konsekwentny w używaniu, więc jeśli istnieje dobrze przyjęty konwencjonalny standard, wolałbym go przestrzegać. Jeśli jednak nie ma standardu, z przyjemnością przyjmuję to jako odpowiedź, jeśli można w przekonujący sposób wykazać, że nie ma standardowej konwencji.
źródło
Odpowiedzi:
Resztki są zawsze rzeczywiste minus przewidywane. Modele to: Stąd, resztki , które są oszacowaniami błędów : ε ε ε = Y - Y
Zgadzam się z @whuber, że znak tak naprawdę nie ma znaczenia matematycznego. Po prostu dobrze jest mieć konwencję. Obecna konwencja jest taka, jak w mojej odpowiedzi.
Ponieważ OP zakwestionowało moje autorytety w tym zakresie, dodaję kilka referencji:
źródło
Właśnie natknąłem atrakcyjną względu na jedną odpowiedź będzie prawidłowa.
Regresja (i większość wszelkiego rodzaju modeli statystycznych) dotyczy tego, w jaki sposób warunkowe rozkłady odpowiedzi zależą od zmiennych objaśniających. Ważnym elementem charakteryzującym te rozkłady jest pewna miara zwana zwykle „skośnością” (chociaż oferowane są różne i różne formuły): odnosi się do najbardziej podstawowego sposobu, w jaki kształt dystrybucyjny odbiega od symetrii. Oto przykład danych dwuwymiarowych (odpowiedź i pojedyncza zmienna objaśniająca ) z pozytywnie wypaczonymi odpowiedziami warunkowymi:xy x
Niebieska krzywa jest zwykłym dopasowaniem najmniejszych kwadratów. Wykreśla dopasowane wartości.
Kiedy obliczamy różnicę między odpowiedzią a jej dopasowaną wartością , zmieniamy położenie rozkładu warunkowego, ale nie zmieniamy w inny sposób jego kształtu. W szczególności jego skośność pozostanie niezmieniona.yy y^
Jest to standardowy wykres diagnostyczny pokazujący, jak przesunięte rozkłady warunkowe różnią się w zależności od przewidywanych wartości. Geometrycznie jest to prawie to samo, co „aż” do poprzedniego wykresu rozrzutu.
Jeśli zamiast tego obliczymy różnicę w innej kolejności, zmieni się, a następnie odwróci kształt rozkładu warunkowego. Jego skośność będzie ujemna z pierwotnego rozkładu warunkowego.y^−y,
Pokazuje to te same wielkości, co na poprzednim rysunku, ale reszty zostały obliczone przez odjęcie danych od ich pasowań - co oczywiście jest tym samym, co zanegowanie poprzednich reszt.
Chociaż obie powyższe liczby są matematycznie równoważne pod każdym względem - jedna jest przekształcana w drugą po prostu przez odwrócenie punktów w niebieskim horyzoncie - jedna z nich ma znacznie bardziej bezpośredni związek wizualny z oryginalną fabułą.
W związku z tym, jeśli naszym celem jest powiązanie cech dystrybucyjnych reszt z cechami pierwotnych danych - i tak prawie zawsze ma miejsce - to lepiej po prostu przesunąć odpowiedzi, niż je zmienić i odwrócić.
Prawidłowa odpowiedź jest jasna: oblicz resztę jakoy−y^.
źródło
Green & Tashman (2008, Foresight ) przedstawiają małą ankietę na temat analogicznego pytania dotyczącego błędów prognoz. Podsumuję argumenty na temat dowolnej z konwencji, które zgłosiły:
Argumenty za „faktycznie przewidywanym”
Co najmniej jeden respondent z sejsmologii napisał, że jest to również konwencja modelowania czasu podróży fali sejsmicznej. „Kiedy faktyczna fala sejsmiczna przybywa przed czasem przewidywanym przez model, mamy resztkowy ujemny czas podróży (błąd)”. ( sic )
Konwencja ta ma sens, jeśli interpretujemy jako budżet, plan lub cel. W tym przypadku błąd dodatni oznacza przekroczenie budżetu / planu / celu.y^
Konwencja ta sprawia, że formuły wygładzania wykładniczego są nieco bardziej intuicyjne. Możemy użyć znaku . W przypadku drugiej konwencji musielibyśmy użyć znaku .+ −
Argumenty za „przewidywane-rzeczywiste”
Jeśli , to błąd dodatni wskazuje, że prognoza była zbyt wysoka. Jest to bardziej intuicyjne niż na odwrót.y=y^−ϵ
W związku z tym, jeśli pozytywne nastawienie zostanie zdefiniowane jako pozytywne oczekiwane błędy, oznaczałoby to, że prognozy są średnio zbyt wysokie w przypadku tej konwencji.
I to właściwie jedyny argument podany dla tej konwencji. Z drugiej strony, biorąc pod uwagę nieporozumienia, do których może doprowadzić druga konwencja (błędy pozytywne = prognoza zbyt niska), jest to silna decyzja.
Na koniec argumentowałbym, że sprowadza się to do tego, komu należy przekazać resztki. Biorąc pod uwagę, że z pewnością są dwie strony tej dyskusji, warto wyraźnie zaznaczyć, którą konwencję przestrzegasz.
źródło
Różna terminologia sugeruje różne konwencje. Termin „resztkowy” implikuje, że pozostało po uwzględnieniu wszystkich zmiennych objaśniających, tj. Przewidywaniu faktycznym. „Błąd prognozy” oznacza, że o ile prognoza odbiega od rzeczywistej, tj. Rzeczywistej prognozy.
Koncepcja modelowania wpływa również na to, która konwencja jest bardziej naturalna. Załóżmy, że masz ramkę danych z jedną lub więcej kolumnami funkcji , kolumna odpowiedzi i kolumna predykcji .X=x1,x2... y y^
Jedna koncepcja jest taka, że jest „prawdziwa” wartość i jest po prostu przekształcona wersja . W tej koncepcji i są zmiennymi losowymi ( jest zmienną pochodną). Chociaż jest tym, czym naprawdę jesteśmy zainteresowani, jest tym, co możemy zaobserwować, więc jest używany jako proxy dla . „Błąd” oznacza, ile odbiega od tej „prawdziwej” wartości . Sugeruje to zdefiniowanie błędu zgodnie z kierunkiem tego odchylenia, tj. .y y^ X y y^ y^ y y^ y^ y y^ y e=y^−y
Istnieje jednak inna koncepcja, która uważa za „prawdziwą” wartość. To znaczy, y zależy od w pewnym deterministycznym procesie; określony stan powoduje powstanie określonej wartości deterministycznej. Ta wartość jest następnie zaburzona przez jakiś losowy proces. Mamy więc . W tej koncepcji jest „rzeczywistą” wartością y. Załóżmy na przykład, że próbujesz obliczyć wartość g, przyspieszenie ziemskie. Upuszczasz kilka przedmiotów, mierzysz, jak daleko spadły ( ) i ile czasu zajęło im upadek ( ). Następnie analizujesz dane za pomocą modelu y =y^ X X x→f(X)→f(X)+error() y^ X y 2xg−−√ . Okazuje się, że nie ma wartości g, która sprawia, że to równanie działa dokładnie. Więc modelujesz to jako
Oznacza to, że bierzesz zmienną y i uznajesz, że istnieje „prawdziwa” wartość faktycznie generowana przez prawa fizyczne, a następnie inna wartość która jest modyfikowana przez coś niezależnego od , na przykład błędy pomiaru lub porywy wiatru lub cokolwiek innego.y^ y y^ X
W tej koncepcji bierzesz y = aby być tym, co rzeczywistość „powinna” robić, a jeśli otrzymasz odpowiedzi, które się z tym nie zgadzają, cóż, rzeczywistość ma zła odpowiedź. Oczywiście teraz może to wydawać się głupie i aroganckie, ale istnieją dobre powody, aby kontynuować tę koncepcję i warto pomyśleć w ten sposób. I ostatecznie jest to tylko model; statystycy niekoniecznie myślą, że tak właśnie działa świat (chociaż prawdopodobnie są tacy, którzy tak robią). Biorąc pod uwagę równanie , wynika z tego, że błędy są rzeczywiste minus przewidywane.2xg−−√ y=y^+error
Zauważ też, że jeśli nie podoba Ci się aspekt „rzeczywistość źle zrozumiała” w drugiej koncepcji, możesz go postrzegać jako „Zidentyfikowaliśmy proces, przez który y zależy od , ale nie otrzymujemy dokładnie prawidłowe odpowiedzi, więc musi istnieć jakiś inny proces g, który również wpływa na y ”. W tej odmianieX
y= y +g(?)G=Y - Yy^=f(X)
y=y^+g(?)
g=y−y^ .
źródło
Odpowiedź @Aksakal jest całkowicie poprawna, ale dodam tylko jeden dodatkowy element, który znajduję, pomaga mi (i moim studentom).
Motto: Statystyka jest „idealna”. W tej chwili zawsze mogę zapewnić idealną prognozę (wiem, że niektóre brwi podnoszą się teraz ... więc wysłuchaj mnie).
Mam zamiar przewidzieć moje zaobserwowane wartości . W przypadku jakiejś formy modelu wygeneruję przewidywaną wartość dla każdej zaobserwowanej wartości, nazywam to . Jedynym problemem jest to, że zwykle (zawsze) Więc dodamy nową zmienną , aby równość się zachowała ... ale wydaje mi się, że lepszą opcją jest dodanie jej do nasza „przewidywana” („wymyślona”) wartość zamiast dodawania jej do wartości rzeczywistej (ponieważ dodawanie lub odejmowanie od wartości rzeczywistej może być fizycznie niemożliwe ... patrz uwagi poniżej): Teraz mamy „doskonałą” prognozę… nasza „ostateczna” wartość odpowiada naszej obserwowanej wartości.Y i Y i ≠ Y i ε i Y i = r i + ε Iyi y^i
Oczywiście, to przeskakuje ogromną teorię statystyczną leżącą u podstaw tego, co się dzieje ... ale podkreśla ideę, że zaobserwowana wartość jest sumą dwóch odrębnych części (części systematycznej i części przypadkowej). Jeśli pamiętasz to w tej formie, zawsze będziesz mieć , że reszta, , jest obserwowanym pomniejszonym o przewidywane.ϵi
źródło
Jeśli jednak wówczas otrzymujemy nasze pozostałości przez , gdzie jest macierzą idempotent wystające do przestrzeni prostopadłym do powierzchni kolumny macierzy wzór . Jeśli zamiast tego stosuje się następnie kończy się z . Ale sam nie jest idempotentny, ponieważ . Tak więc naprawdę jest negatywem macierzy projekcji, a mianowicie . Dlatego uważam to za cofnięcie negatywu wprowadzonego za pomocą , więc ze względu na oszczędność lepiej po prostu użyćε^=Y−Y^ (I−PX)Y I−PX X Y=Xβ−ε ε^=(PX−I)Y PX−I p X - I I - P X Y = X β - ε Y = X β + ε Y - Y(PX−I)2=P2X−2PX+I=−(PX−I) PX−I I−PX Y=Xβ−ε Y=Xβ+ε co z kolei daje nam jako resztki.Y−Y^
Jak wspomniano w innym miejscu nie jest niczym przerwy nic, jeśli użyjemy , ale koniec z tym podwójnym negatywnej sytuacji, która moim zdaniem jest to wystarczająco dobry powód, aby po prostu użyć .Y - YY^−Y Y−Y^
źródło