Czy reszty są „przewidywane minus rzeczywiste” lub „rzeczywiste minus prognozowane”

46

Widziałem „reszty” zdefiniowane na różne sposoby jako „przewidywane minus rzeczywiste wartości” lub „rzeczywiste minus przewidywane wartości”. W celach ilustracyjnych, aby pokazać, że obie formuły są szeroko stosowane, porównaj następujące wyszukiwania w Internecie:

W praktyce prawie nigdy nie robi to różnicy, ponieważ znak poszczególnych jednostek zwykle nie ma znaczenia (np. Czy są one podniesione do kwadratu lub wzięte wartości bezwzględne). Moje pytanie brzmi jednak: czy jedna z tych dwóch wersji (najpierw przewidywanie vs. pierwsza rzeczywista) jest uważana za „standard”? Lubię być konsekwentny w używaniu, więc jeśli istnieje dobrze przyjęty konwencjonalny standard, wolałbym go przestrzegać. Jeśli jednak nie ma standardu, z przyjemnością przyjmuję to jako odpowiedź, jeśli można w przekonujący sposób wykazać, że nie ma standardowej konwencji.

Tripartio
źródło
8
Ponieważ reszta jest powiązana z błędem modelu, kiedy piszemy , sprawia, że ​​myślimy, że jest „częścią stałą” plus „częścią losową”, więc reszta to minus . y y a + b xy=a+bx+ϵyya+bx
AdamO
Przewidywany minus rzeczywisty lub faktyczny minus przewidywany byłby błędem prognozowania (lub jego ujemną wartością), podczas gdy dopasowany minus rzeczywisty lub rzeczywisty minus dopasowany byłby resztkowy (lub jego ujemny). Odpowiedź Stephena Kolassy wymienia błędy prognozy z jakiegoś powodu.
Richard Hardy,
Uważam (przewidywane-rzeczywiste) wygodniej pracować z. Często trzeba obliczyć pochodne rezydualne w odniesieniu do niektórych parametrów. Jeśli użyjesz (rzeczywistego przewidywania), pojawią się znaki minus, które musisz śledzić przez resztę obliczeń, wymagając użycia większej liczby nawiasów, upewniając się, że anulujesz podwójne negatywy, gdy wystąpią, i tak dalej. Z mojego doświadczenia wynika, że ​​prowadzi to do większej liczby błędów
Nick Alger,

Odpowiedzi:

42

Resztki są zawsze rzeczywiste minus przewidywane. Modele to: Stąd, resztki , które są oszacowaniami błędów : ε ε ε = Y - Y

y=f(x;β)+ε
ε^ε
ε^=yy^y^=f(x;β^)

Zgadzam się z @whuber, że znak tak naprawdę nie ma znaczenia matematycznego. Po prostu dobrze jest mieć konwencję. Obecna konwencja jest taka, jak w mojej odpowiedzi.

Ponieważ OP zakwestionowało moje autorytety w tym zakresie, dodaję kilka referencji:

Aksakal
źródło
3
Zredagowałem moje pytanie, aby dodać kilka przykładowych wyszukiwań w sieci, które wyraźnie pokazują, że reszty NIE ZAWSZE są faktycznie pomniejszone; alternatywa jest również dość częsta - stąd moje zamieszanie. Moje pytanie brzmi, czy istnieje wiarygodna dokumentacja prawidłowej konwencji, której niestety nie zawiera twoja odpowiedź.
Tripartio
5
W moim czytaniu zaobserwowano przewiduje się większość współczesnych konwencji w statystyce. Warto jednak zauważyć, że Gauss zastosował odwrotną konwencję: reszty naturalnie kwadratów są takie same w obu przypadkach w kontekście najmniejszych kwadratów, sum kwadratów lub średnich kwadratów. Mimo, że istnieją XIX-wieczne i wcześniejsze precedensy dotyczące patrzenia na poszczególne pozostałości, troska o nich, a zwłaszcza ich planowanie, zaczęły być powszechne i rutynowe aż do wczesnych lat sześćdziesiątych. Oznacza to, że tylko wtedy, gdy widoczny jest znak pozostałości, każdy musi dbać o to, co to jest.
Nick Cox
18
+1. Pojęcie pozostałości wynika z „reszty; tego, co pozostało” : innymi słowy, tego, co pozostaje w danych po uwzględnieniu prognozy. Sugeruje to, że ktokolwiek nazwał te wielkości „resztkowym”, miał na myśli definicję „wartość danych minus dopasowana wartość”.
whuber
3
@NickCox, czy mógłbyś sformalizować swoje komentarze jako odpowiedź z cytatami? Moje pytanie nie dotyczy tak naprawdę statystyk, ale konwencji naukowej, więc informacje historyczne i użytkowe wskazane w komentarzu są odpowiedziami, których szukam.
Tripartio
6
Słowo resztkowe długie, długie poprzedza Salsburg. Muszę powiedzieć, że jego książka, choć czasem zabawna, nie jest autorytatywna. Jeśli jesteś zainteresowany, możesz poszukać mojej recenzji w Biometrics jstor.org/stable/3068274
Nick Cox
22

Właśnie natknąłem atrakcyjną względu na jedną odpowiedź będzie prawidłowa.

Regresja (i większość wszelkiego rodzaju modeli statystycznych) dotyczy tego, w jaki sposób warunkowe rozkłady odpowiedzi zależą od zmiennych objaśniających. Ważnym elementem charakteryzującym te rozkłady jest pewna miara zwana zwykle „skośnością” (chociaż oferowane są różne i różne formuły): odnosi się do najbardziej podstawowego sposobu, w jaki kształt dystrybucyjny odbiega od symetrii. Oto przykład danych dwuwymiarowych (odpowiedź i pojedyncza zmienna objaśniająca ) z pozytywnie wypaczonymi odpowiedziami warunkowymi:xyx

! [Rysunek 1: Wykres rozrzutu z linią najmniejszych kwadratów.

Niebieska krzywa jest zwykłym dopasowaniem najmniejszych kwadratów. Wykreśla dopasowane wartości.

Kiedy obliczamy różnicę między odpowiedzią a jej dopasowaną wartością , zmieniamy położenie rozkładu warunkowego, ale nie zmieniamy w inny sposób jego kształtu. W szczególności jego skośność pozostanie niezmieniona.yyy^

Ryc. 2: Resztki vs. wartości prognozowane.

Jest to standardowy wykres diagnostyczny pokazujący, jak przesunięte rozkłady warunkowe różnią się w zależności od przewidywanych wartości. Geometrycznie jest to prawie to samo, co „aż” do poprzedniego wykresu rozrzutu.

Jeśli zamiast tego obliczymy różnicę w innej kolejności, zmieni się, a następnie odwróci kształt rozkładu warunkowego. Jego skośność będzie ujemna z pierwotnego rozkładu warunkowego.y^y,

Rycina 3: poprzedni wykres z resztkami zanegowanymi

Pokazuje to te same wielkości, co na poprzednim rysunku, ale reszty zostały obliczone przez odjęcie danych od ich pasowań - co oczywiście jest tym samym, co zanegowanie poprzednich reszt.

Chociaż obie powyższe liczby są matematycznie równoważne pod każdym względem - jedna jest przekształcana w drugą po prostu przez odwrócenie punktów w niebieskim horyzoncie - jedna z nich ma znacznie bardziej bezpośredni związek wizualny z oryginalną fabułą.

W związku z tym, jeśli naszym celem jest powiązanie cech dystrybucyjnych reszt z cechami pierwotnych danych - i tak prawie zawsze ma miejsce - to lepiej po prostu przesunąć odpowiedzi, niż je zmienić i odwrócić.

Prawidłowa odpowiedź jest jasna: oblicz resztę jakoyy^.

Whuber
źródło
1
Nie sądzę, że podążam za tym, co jest wyjątkowe w skośności - czy twój argument na temat resztek pasujących do oryginalnej fabuły nie od razu jest sam w sobie?
MichaelChirico,
2
@Michael Masz całkowitą rację. Skośność jest jednak przydatna do zilustrowania tego punktu, ponieważ wyraźnie odróżnia kształt rozkładu od kształtu jego ujemnego.
whuber
10

Green & Tashman (2008, Foresight ) przedstawiają małą ankietę na temat analogicznego pytania dotyczącego błędów prognoz. Podsumuję argumenty na temat dowolnej z konwencji, które zgłosiły:

Argumenty za „faktycznie przewidywanym”

  1. Konwencja statystyczna to .y=y^+ϵ
  2. Co najmniej jeden respondent z sejsmologii napisał, że jest to również konwencja modelowania czasu podróży fali sejsmicznej. „Kiedy faktyczna fala sejsmiczna przybywa przed czasem przewidywanym przez model, mamy resztkowy ujemny czas podróży (błąd)”. ( sic )

  3. Konwencja ta ma sens, jeśli interpretujemy jako budżet, plan lub cel. W tym przypadku błąd dodatni oznacza przekroczenie budżetu / planu / celu.y^

  4. Konwencja ta sprawia, że ​​formuły wygładzania wykładniczego są nieco bardziej intuicyjne. Możemy użyć znaku . W przypadku drugiej konwencji musielibyśmy użyć znaku .+

Argumenty za „przewidywane-rzeczywiste”

  1. Jeśli , to błąd dodatni wskazuje, że prognoza była zbyt wysoka. Jest to bardziej intuicyjne niż na odwrót.y=y^ϵ

    W związku z tym, jeśli pozytywne nastawienie zostanie zdefiniowane jako pozytywne oczekiwane błędy, oznaczałoby to, że prognozy są średnio zbyt wysokie w przypadku tej konwencji.

    I to właściwie jedyny argument podany dla tej konwencji. Z drugiej strony, biorąc pod uwagę nieporozumienia, do których może doprowadzić druga konwencja (błędy pozytywne = prognoza zbyt niska), jest to silna decyzja.

Na koniec argumentowałbym, że sprowadza się to do tego, komu należy przekazać resztki. Biorąc pod uwagę, że z pewnością są dwie strony tej dyskusji, warto wyraźnie zaznaczyć, którą konwencję przestrzegasz.

S. Kolassa - Przywróć Monikę
źródło
7
Interesujące punkty, ale ilekroć ktoś mówi „intuicyjnie”, tłumaczę to jako „znane”, a tłumaczenie jest często bardziej przekonujące i nigdy nie mniejsze. Spróbuj tego: konwencja sumowania Einsteina jest intuicyjna. Tylko kiedy się przyzwyczaisz. Pomiar kątów od osi przeciwnie do ruchu wskazówek zegara jest intuicyjny. Nie dla geografów lub kogokolwiek, kto nauczył się używać kompasu, zanim przestudiował geometrię współrzędnych. x
Nick Cox,
3
@NickCox: abstrakcyjnie masz rację. Jednak weź dużą liczbę osób i zapytaj: „Prognoza pogody dla dzisiejszej temperatury zawierała duży błąd dodatni . Czy uważasz, że prognoza była (A) zbyt wysoka lub (B) zbyt niska ?” Myślę, że potrafię przewidzieć, który z (A) lub (B) zdecydowana większość wybierze.
S. Kolassa - Przywróć Monikę
6
Tak - i gdybyś sformułował to pytanie jako „Czy uważasz, że temperatura była (A) wyższa lub (B) niższa niż prognoza”, bardzo dobrze możesz uzyskać dokładnie odwrotne odpowiedzi! Odwołanie się do „błędu pozytywnego” rodzi jedynie pytanie „jaki jest błąd”, a to prowadzi nas - w idealnie okrągły sposób - do pierwotnego pytania.
whuber
2
@ Whuber to raczej nienaturalne sformułowanie pytania. Biorąc pod uwagę, że „obserwowany” jest „ustalony”, związek modelu z nim wydaje się bardziej naturalny niż na odwrót. Dostaję mandat za przekroczenie prędkości za zbyt szybką jazdę, a nie „ograniczenie prędkości było poniżej mojej prędkości”. Argumenty w języku naturalnym mają zdecydowanie ograniczone zastosowanie do terminów / języka technicznego /
mbrig
2
@whuber Mówię, że jeden ze sposobów sformułowania pytania jest wyraźnie bardziej naturalny (przynajmniej w języku angielskim).
mbrig
4

Różna terminologia sugeruje różne konwencje. Termin „resztkowy” implikuje, że pozostało po uwzględnieniu wszystkich zmiennych objaśniających, tj. Przewidywaniu faktycznym. „Błąd prognozy” oznacza, że ​​o ile prognoza odbiega od rzeczywistej, tj. Rzeczywistej prognozy.

Koncepcja modelowania wpływa również na to, która konwencja jest bardziej naturalna. Załóżmy, że masz ramkę danych z jedną lub więcej kolumnami funkcji , kolumna odpowiedzi i kolumna predykcji .X=x1,x2...yy^

Jedna koncepcja jest taka, że jest „prawdziwa” wartość i jest po prostu przekształcona wersja . W tej koncepcji i są zmiennymi losowymi ( jest zmienną pochodną). Chociaż jest tym, czym naprawdę jesteśmy zainteresowani, jest tym, co możemy zaobserwować, więc jest używany jako proxy dla . „Błąd” oznacza, ile odbiega od tej „prawdziwej” wartości . Sugeruje to zdefiniowanie błędu zgodnie z kierunkiem tego odchylenia, tj. .yy^Xyy^y^yy^y^yy^ye=y^y

Istnieje jednak inna koncepcja, która uważa za „prawdziwą” wartość. To znaczy, y zależy od w pewnym deterministycznym procesie; określony stan powoduje powstanie określonej wartości deterministycznej. Ta wartość jest następnie zaburzona przez jakiś losowy proces. Mamy więc . W tej koncepcji jest „rzeczywistą” wartością y. Załóżmy na przykład, że próbujesz obliczyć wartość g, przyspieszenie ziemskie. Upuszczasz kilka przedmiotów, mierzysz, jak daleko spadły ( ) i ile czasu zajęło im upadek ( ). Następnie analizujesz dane za pomocą modelu y =y^XXxf(X)f(X)+error()y^Xy2xg. Okazuje się, że nie ma wartości g, która sprawia, że ​​to równanie działa dokładnie. Więc modelujesz to jako

y^=2xg
y=y^+error .

Oznacza to, że bierzesz zmienną y i uznajesz, że istnieje „prawdziwa” wartość faktycznie generowana przez prawa fizyczne, a następnie inna wartość która jest modyfikowana przez coś niezależnego od , na przykład błędy pomiaru lub porywy wiatru lub cokolwiek innego.y^yy^X

W tej koncepcji bierzesz y = aby być tym, co rzeczywistość „powinna” robić, a jeśli otrzymasz odpowiedzi, które się z tym nie zgadzają, cóż, rzeczywistość ma zła odpowiedź. Oczywiście teraz może to wydawać się głupie i aroganckie, ale istnieją dobre powody, aby kontynuować tę koncepcję i warto pomyśleć w ten sposób. I ostatecznie jest to tylko model; statystycy niekoniecznie myślą, że tak właśnie działa świat (chociaż prawdopodobnie są tacy, którzy tak robią). Biorąc pod uwagę równanie , wynika z tego, że błędy są rzeczywiste minus przewidywane.2xgy=y^+error

Zauważ też, że jeśli nie podoba Ci się aspekt „rzeczywistość źle zrozumiała” w drugiej koncepcji, możesz go postrzegać jako „Zidentyfikowaliśmy proces, przez który y zależy od , ale nie otrzymujemy dokładnie prawidłowe odpowiedzi, więc musi istnieć jakiś inny proces g, który również wpływa na y ”. W tej odmianieX

y= y +g(?)G=Y - Yy^=f(X)
y=y^+g(?)
g=yy^ .

Akumulacja
źródło
4

Odpowiedź @Aksakal jest całkowicie poprawna, ale dodam tylko jeden dodatkowy element, który znajduję, pomaga mi (i moim studentom).

Motto: Statystyka jest „idealna”. W tej chwili zawsze mogę zapewnić idealną prognozę (wiem, że niektóre brwi podnoszą się teraz ... więc wysłuchaj mnie).

Mam zamiar przewidzieć moje zaobserwowane wartości . W przypadku jakiejś formy modelu wygeneruję przewidywaną wartość dla każdej zaobserwowanej wartości, nazywam to . Jedynym problemem jest to, że zwykle (zawsze) Więc dodamy nową zmienną , aby równość się zachowała ... ale wydaje mi się, że lepszą opcją jest dodanie jej do nasza „przewidywana” („wymyślona”) wartość zamiast dodawania jej do wartości rzeczywistej (ponieważ dodawanie lub odejmowanie od wartości rzeczywistej może być fizycznie niemożliwe ... patrz uwagi poniżej): Teraz mamy „doskonałą” prognozę… nasza „ostateczna” wartość odpowiada naszej obserwowanej wartości.Y i Y iY i ε i Y i = r i + ε Iyiy^i

yiy^i
ϵi
yi=y^i+ϵi

Oczywiście, to przeskakuje ogromną teorię statystyczną leżącą u podstaw tego, co się dzieje ... ale podkreśla ideę, że zaobserwowana wartość jest sumą dwóch odrębnych części (części systematycznej i części przypadkowej). Jeśli pamiętasz to w tej formie, zawsze będziesz mieć , że reszta, , jest obserwowanym pomniejszonym o przewidywane.ϵi

Gregg H.
źródło
2
Wiele razy, gdy jest napisane w inny sposób, , często bierze udział w obliczeniach, które nie obejmują znaku (na przykład, gdy pracujesz z absolutem reszt lub kwadratów resztkowych ). y^iyi
Gregg H
6
Dlaczego „najlepiej dodać to do naszej przewidywanej wartości”? Dlaczego nie „zobaczyć, ile danych należy dostosować, aby zgodzić się z naszymi przewidywaniami”? Żadne z tych podejść nie wydaje się twierdzić, że jest bardziej oczywiste, znaczące lub „intuicyjne” niż drugie.
whuber
2
@ gdy jeden element jest „prawdziwy” (obserwowany, konkretny), drugi jest (hipotetycznym) konstruktem; gdybyśmy modelowali wysokość w oparciu o wagę, czy rozsądne byłoby „zmniejszenie” kogoś o 3 cale, aby dopasować jego rzeczywistą / zaobserwowaną wysokość do pewnej (wyobrażonej) przewidywanej wartości?
Gregg H
2
Tak - to powszechny sposób myślenia o danych. Próbuję jedynie wskazać na możliwość, że twoje założenia dotyczące tego, jak ludzie będą postrzegać to pytanie i rozumieją znaczenie słowa „najlepszy”, mogą być spekulatywne i subiektywne.
whuber
słuszny punkt ... zaktualizuje krótki komentarz
Gregg H
2

Wykorzystam konkretny przypadek regresji liniowej metodą najmniejszych kwadratów. Jeśli weźmiemy nasz model będzie wtedy jako punkty @Aksakal się naturalnie skończyć z tak . Gdybyśmy zamiast wziąć jako naszego modelu, które są z pewnością swobodnie zrobić, to otrzymujemy . W tym momencie nie ma naprawdę żadnego powodu, aby preferować jeden nad drugim oprócz niejasnym preferencją dla na .ε = Y - X β ε = Y - Y Y = X β - ε ε = X β - YY=Xβ+εε=YXβε^=YY^Y=Xβε1-1ε=XβYε^=Y^Y11

Jeśli jednak wówczas otrzymujemy nasze pozostałości przez , gdzie jest macierzą idempotent wystające do przestrzeni prostopadłym do powierzchni kolumny macierzy wzór . Jeśli zamiast tego stosuje się następnie kończy się z . Ale sam nie jest idempotentny, ponieważ . Tak więc naprawdę jest negatywem macierzy projekcji, a mianowicie . Dlatego uważam to za cofnięcie negatywu wprowadzonego za pomocą , więc ze względu na oszczędność lepiej po prostu użyćε^=YY^(IPX)YIPXXY=Xβεε^=(PXI)YPXIp X - I I - P X Y = X β - ε Y = X β + ε Y - Y(PXI)2=PX22PX+I=(PXI)PXIIPXY=XβεY=Xβ+ε co z kolei daje nam jako resztki.YY^

Jak wspomniano w innym miejscu nie jest niczym przerwy nic, jeśli użyjemy , ale koniec z tym podwójnym negatywnej sytuacji, która moim zdaniem jest to wystarczająco dobry powód, aby po prostu użyć .Y - YY^YYY^

jld
źródło
Ale pisanie czegokolwiek nie ma nic wspólnego ze znakami określonych wartości , jak pisanie jest zobowiązaniem lub założeniem, że lub jest w praktyce pozytywny. To może być takie samo równanie, ale z odwrócony znak. e y = β 0 + β 1 x+eey=β0+β1xβ 1 eβ0β1e
Nick Cox
@NickCox dziękuję za komentarz, zdaję sobie sprawę, że przewidziałem moją odpowiedź przy założeniu, że chcielibyśmy napisać nasz model . Przepisałem to, aby rozwiązać ten Y=Xβ+ε
problem