Dlaczego regresja liniowa wykorzystuje funkcję kosztu opartą na pionowej odległości między hipotezą a wejściowym punktem danych?

14

Powiedzmy, że mamy wejściowe (predyktor) i wyjściowe (odpowiedź) punkty danych A, B, C, D, E i chcemy dopasować linię przez te punkty. Jest to prosty problem do zilustrowania pytania, ale można go również rozszerzyć na większe wymiary.

Opis problemu

wprowadź opis zdjęcia tutaj

Bieżące najlepsze dopasowanie lub hipoteza jest reprezentowane przez czarną linię powyżej. Niebieska strzałka ( ) przedstawia pionową odległość między punktem danych a bieżącym najlepszym dopasowaniem, poprzez narysowanie pionowej linii od punktu, aż przecina ona linię.

Zielona strzałka ( ) jest rysowana w taki sposób, że jest prostopadła do bieżącej hipotezy w punkcie przecięcia, a zatem reprezentuje najmniejszą odległość między punktem danych a bieżącą hipotezą. W przypadku punktów A i B linia narysowana w taki sposób, że jest pionowa w stosunku do bieżącego najlepszego odgadnięcia i jest podobna do linii, która jest pionowa względem osi x. W przypadku tych dwóch punktów niebieska i zielona linia nakładają się, ale nie dotyczą punktów C, D i E.

Zasada najmniejszych kwadratów określa funkcję kosztu regresji liniowej poprzez narysowanie linii pionowej przez punkty danych (A, B, C, D lub E) do oszacowanej hipotezy ( ), w dowolnym cyklu treningowym i jest reprezentowany przez

CostFunction=i=1N(yihθ(xi))2

Tutaj reprezentuje punkty danych, a reprezentuje najlepsze dopasowanie.(xi,yi)hθ(xi)

Minimalna odległość między punktem (A, B, C, D lub E) jest reprezentowana przez prostopadłą linię poprowadzoną od tego punktu do bieżącego najlepszego odgadnięcia (zielone strzałki).

Celem funkcji najmniejszych kwadratów jest zdefiniowanie funkcji celu, która po zminimalizowaniu spowodowałaby powstanie najmniejszej odległości między hipotezą a wszystkimi połączonymi punktami, ale niekoniecznie zminimalizowałaby odległość między hipotezą a pojedynczym punktem wejściowym.

**Pytanie**

Dlaczego nie zdefiniujemy funkcji kosztu dla regresji liniowej jako najmniejszej odległości między wejściowym punktem danych a hipotezą (zdefiniowaną linią prostopadłą do hipotezy) przechodzącej przez wejściową pulę danych, jak podano przez ( )?

alpha_989
źródło
5
Prosta regresja liniowa zakłada, że ​​nie ma błędu w wartościach współrzędnych x obserwacji (np. Ponieważ są to manipulacje eksperymentalne). Jeśli na osi X występują błędy, można je uwzględnić, minimalizując funkcję kosztu podobną do tej, którą proponujesz; wymaga to ustawienia stosunku wariancji błędów na osi xiy. Jeśli stosunek , oznacza to zminimalizowanie odległości prostopadłej między punktami a linią (regresja ortogonalna). Jeśli stosunek 1 nazywa się to regresją Deeminga=11
matteo
Zobacz ten post na PCA: cerebralmastication.com/2010/09/…
James

Odpowiedzi:

13

Gdy występują zakłócenia zarówno zmiennej zależnej (błędy pionowe), jak i zmiennej niezależnej (błędy poziome), można zmodyfikować funkcję celu najmniejszych kwadratów, aby uwzględnić te błędy poziome. Problem w ważeniu tych dwóch rodzajów błędów. Ta waga zwykle zależy od stosunku wariancji dwóch błędów:

  1. Jeśli wariancja błędu pionowego jest wyjątkowo duża w stosunku do wariancji błędu poziomego, OLS jest poprawny.
  2. Jeżeli wariancja błędu poziomego jest wyjątkowo duża w stosunku do wariancji błędu pionowego, właściwe są odwrotne najmniejsze kwadraty (w których jest regresowane na y, a odwrotność oszacowania współczynnika dla y jest stosowana jako oszacowanie β ).xyyβ
  3. Jeżeli stosunek wariancji błędu pionowego do wariancji błędu poziomego jest równy stosunkowi wariancji zmiennych zależnych i niezależnych, mamy przypadek regresji „diagonalnej”, w której spójne oszacowanie okazuje się być średnią geometryczną OLS i odwrotnych estymatorów najmniejszych kwadratów.
  4. Jeśli stosunek tych wariancji błędów wynosi jeden, mamy do czynienia z regresją „ortogonalną”, w której zminimalizowana jest suma błędów kwadratu mierzonych wzdłuż linii prostopadłej do linii szacowania. To właśnie miałeś na myśli.

W praktyce wielką wadą tej procedury jest to, że stosunek wariancji błędów zwykle nie jest znany i zwykle nie można go oszacować, więc droga naprzód nie jest jasna.

Dimitriy V. Masterov
źródło
Próbowałem edytować, aby w pierwszym zdaniu zmienić „zależny” na „niezależny”, ale zmiany muszą składać się z 6 znaków. Może zaktualizujesz odpowiedź, aby naprawić literówkę?
Ryan Stout,
@RyanStout Dzięki i gotowe. Myślę, że wstawianie spacji cię do tego doprowadzi.
Dimitriy V. Masterov,
Teraz jestem trochę zdezorientowany: czy błędy pionowe nie są błędami zmiennej zależnej (y) i poziomymi błędami zmiennej niezależnej (x)?
Ryan Stout,
@RyanStout Znowu to popsułem
Dimitriy V. Masterov,
9

i=1N(yihθ(xi))2
i=1Nminx,y[(yihθ(x))2+(xix)2]
hθ(x)
Moormanly
źródło
Trafne spostrzeżenie. Zastanawiałem się, jak ogólnie obliczyć funkcję kosztu.
alpha_989,
Niekoniecznie jestem pewien, jak ocenić odległość między punktem a nieliniową płaszczyzną / powierzchnią, ale aby ocenić odległość między punktem a liniową powierzchnią / płaszczyzną, możemy nie potrzebować zagnieżdżonej minimalizacji: mathinsight.org/distance_point_plane
alpha_989,
Po drugie, gdy stosujemy regresję, naszym celem jest ocena wag w celu znalezienia najlepszego dopasowania. Z tego, co rozumiem, podczas faktycznego obliczania rzadko oceniamy funkcję kosztu, ale jakąś pochodną funkcji kosztu?
alpha_989,
1
@whuber. Widzę. Kiedy ustalimy te znaczenia dla tych dwóch terminów, zgadzam się, że rozwiązywane problemy są różne (czy istnieje lub nie ma możliwości błędu w x). Nie sądzę, że uzyskasz szerokie porozumienie od osób posiadających wiedzę na temat znaczenia tych terminów, ale to jest punkt poboczny.
stochastyczny
1
@Stochastic Zgadzam się, że koncepcja „dopasowania krzywej” może być niejasna, ale koncepcja regresji, na którą się powołuję, pojawia się w pismach najlepszych autorytetów.
whuber
2

Wersja uproszczona polega na tym, że zakłada się, że X nie zawiera błędów. Na przykład, patrząc na punkt E na wykresie, zakłada się, że jego współrzędna X jest dokładnie dokładna. Zwykle dzieje się tak, gdy możemy kontrolować X, innymi słowy, kiedy możemy ustawić na określoną wartość. W takim przypadku jedynym możliwym błędem jest kierunek Y i dlatego funkcja błędu / kosztu obejmuje tylko kierunek Y.

Ilekroć tak nie jest, za każdym razem, gdy nie kontrolujemy X, X może mieć błąd, ludzie włączają kierunek X do funkcji błędu w czymś zwanym regresją typu II lub modelu II i jego wariantach. Może to być trudne, jeśli X i Y mają różne skale, więc musisz pomyśleć o normalizacji i tym podobnych.

CHP
źródło
1

Ryzyko bycia prozaicznym powoduje, że funkcja błędu polega na tym, że standardowa interpretacja polega na tym, że podano x i próbuje się najlepiej opisać (lub przewidzieć) składnik y. Więc nie ma błędu w „x”. Na przykład możesz spróbować zrozumieć (lub przewidzieć) cenę zamknięcia akcji jutro w oparciu o dzisiejszą cenę zamknięcia. Podobnie można próbować zrozumieć jutro średnią temperaturę w kategoriach dzisiejszej średniej temperatury. Oczywiście te przykłady są proste, ale taki jest pomysł. Nawiasem mówiąc, większość ludzi nie zdaje sobie sprawy, ale myślę, że z twoich przykładów jasno wynika, że ​​jeśli regresujesz y względem x, linia regresji nie musi mieć żadnego szczególnego podobieństwa do regresji x względem y. Regresja ortogonalna jest terminem regresji, w którym próbuje się znaleźć linię, która minimalizuje odległość punktów od linii. Na przykład, jeśli ktoś próbuje zrozumieć związek między ceną akcji IBM a ceną akcji AAPL, byłaby to odpowiednia metoda.

meh
źródło
1

Masz rację, że przy dopasowywaniu linii przez punkty odległość ortogonalna jest najbardziej naturalną funkcją straty, którą można zastosować do dowolnych linii (zwróć uwagę, że odległość y staje się bez znaczenia dla linii prostopadłych do osi x). Problem ten znany jest pod wieloma nazwami, np. „Regresja ortogonalna” lub (najczęściej używany termin AFAIK) „analiza głównych składników” (PCA). Omówienie tego problemu w dowolnych wymiarach, patrz

Späth: „Prostokątne dopasowanie do najmniejszych kwadratów z kolektorami liniowymi”. Numerische Mathematik 48, s. 441–445, 1986

Jak już zauważył @aginensky, ideą regresji liniowej nie jest dopasowanie linii przez punkty, ale przewidywanie wartości y dla danych wartości x. Dlatego używana jest tylko odległość w y, która jest dokładnością prognozowania.

x(t)pii=1Nt

Wang, Pottmann, Liu: „Dopasowywanie krzywych splajnu B do chmur punktów poprzez minimalizację odległości kwadratu na podstawie krzywizny”. Transakcje ACM na grafice 25.2, s. 214–238, 2006

Cdalitz
źródło