Czy wielokrotna regresja liniowa w 3 wymiarach jest płaszczyzną najlepszego dopasowania czy linią najlepszego dopasowania?

11

Nasz profesor nie zajmuje się matematyką ani nawet geometryczną reprezentacją wielokrotnej regresji liniowej, co mnie nieco zdezorientowało.

Z jednej strony jest to nadal nazywane wielokrotną regresją liniową , nawet w wyższych wymiarach. Z drugiej strony, jeśli mamy na przykład i możemy podłączyć dowolne wartości, które chcielibyśmy dla i X_2 , czy nie dałoby to płaszczyzny możliwych rozwiązań a nie linia?x1x2Y^=b0+b1X1+b2X2X1X2

Zasadniczo, czy nasza powierzchnia predykcji nie będzie k wymiarową hiperpłaszczyzną dla k zmiennych niezależnych?

Jeremy Radcliff
źródło

Odpowiedzi:

12

Masz rację, powierzchnia rozwiązania będzie ogólnie hiperpłaszczyzną. Po prostu słowo „hiperpłaszczyzna” to kęs, płaszczyzna jest krótsza, a linia jeszcze krótsza. W dalszym ciągu matematyki sprawa jednowymiarowa jest coraz rzadziej dyskutowana, więc kompromis

Big words for high dimensional, Small words for small dimensional

zaczyna patrzeć, cóż, do tyłu.

Na przykład, gdy widzę równanie takie jak , gdzie jest macierzą, a są wektorami, nazywam to równaniem liniowym . We wcześniejszej części mojego życia nazwałbym to układem równań liniowych , rezerwując równanie liniowe dla przypadku jednowymiarowego. Ale doszedłem do momentu, w którym przypadek jednowymiarowy po prostu nie pojawiał się zbyt często, podczas gdy przypadek wielowymiarowy był wszędzie.A x , bAx=bAx,b

Dzieje się tak również z notacją. Widziałeś kiedyś, jak ktoś pisze

fx=2x

Ten symbol po lewej to nazwa funkcji, więc aby być formalnym i pedantycznym, powinieneś pisać

fx(x)=2x

Gorzej jest w przypadku wielu wymiarów, kiedy pochodna przyjmuje dwa argumenty, jeden to pochodna pochodnej, a drugi to kierunek, w którym oceniasz pochodną, ​​która wygląda jak

xf(v)

ale ludzie bardzo szybko stają się leniwi i zaczynają odrzucać jeden lub drugi argument, pozostawiając ich zrozumiałymi z kontekstu.

Profesjonalni matematycy, języki mocno w policzek, nazywają to nadużyciem notacji . Istnieją tematy, w których wyrażanie siebie byłoby niemożliwe bez nadużywania notacji, czego przykładem jest moja ukochana geometria różnicowa . Wielki Nicolas Bourbaki wyraził to bardzo elokwentnie

W miarę możliwości zwróciliśmy uwagę w tekście na nadużycia językowe, bez których żaden tekst matematyczny niesie ryzyko pedanterii, nie mówiąc o nieczytelności.

- Bourbaki (1988)

Komentujesz nawet nadużycie notacji, w którą wpadłem, nawet sam tego nie zauważając!

Technicznie, ponieważ napisałeś df / dx jako pochodną cząstkową, nawet jeśli inne zmienne implikowane byłyby utrzymywane jako stałe, to czy cząstkowa pochodna nie byłaby technicznie funkcją wszystkich zmiennych pierwotnej funkcji, tak jak w df / dx ( x, y, ...)?

Masz całkowitą rację, a to daje dobrą (niezamierzoną) ilustrację tego, o co mi chodzi.

W mojej codziennej pracy i studiach spotykam pochodną w sensie jednej zmiennej tak rzadko, że w zasadzie zapomniałem, że jest tutaj poprawnym zapisem. Zamierzałem, aby powyższe dotyczyło funkcji jednej zmiennej, ale nieświadomie zasygnalizowałem inaczej przez użycie .dfdx

Myślę, że myślę o tym tak, jak kiedy mówimy „nieskończona suma” zamiast „granicy sumy, gdy liczba terminów zbliża się do nieskończoności”. Myślę, że jest w porządku, o ile różnica koncepcyjna jest wyraźna. W tym przypadku (regresja wielokrotna) nie byłem do końca pewien, o czym mówiliśmy.

Tak, to spójny sposób myślenia o tym. Jedyną prawdziwą różnicą jest to, że mamy tak powszechną sytuację, że wymyśliliśmy dodatkową (*) notację i terminologię ( i „nieskończona suma”), aby to wyrazić. W innych przypadkach możemy uogólniać koncepcję, a następnie, że uogólnione pojęcie staje się tak powszechne, że ponowne wykorzystanie starego zapisu lub terminologii uogólnionego pojęcia.Σ

Jako leniwi ludzie chcemy oszczędzać słowa w typowych przypadkach.

(*) Historycznie nie tak powstały nieskończone sumy. Granica definicji sum częściowych została opracowana a posteriori, gdy matematycy zaczęli napotykać sytuacje, w których konieczne było bardzo precyzyjne uzasadnienie.

Matthew Drury
źródło
To zabawne, że podajesz przykład częściowych pochodnych, ponieważ zawsze się nad tym zastanawiałem (radość z samokształcenia ...). Nawiasem mówiąc (niepowiązane i nie jestem pedantyczny, ale po prostu chcę się upewnić, że rozumiem tak dużo, jak to możliwe) technicznie, ponieważ napisałeś df / dx jako pochodną częściową, nawet jeśli inne domniemane zmienne byłyby utrzymywane jako stałe, nie pochodna cząstkowa technicznie nadal będzie funkcją wszystkich zmiennych pierwotnej funkcji, jak w df / dx (x, y, ...)? Wydaje mi się, że moje pytanie nie jest pochodną częściową wciąż funkcją wszystkich zmiennych?
Jeremy Radcliff
Dziękujemy również za wyjaśnienie tego wszystkiego. Myślę, że myślę o tym tak, jak kiedy mówimy „nieskończona suma” zamiast „granicy sumy, gdy liczba terminów zbliża się do nieskończoności”. Myślę, że jest w porządku, o ile różnica koncepcyjna jest wyraźna. W tym przypadku (regresja wielokrotna) nie byłem do końca pewien, o czym mówiliśmy. Próbowałem wyobrazić sobie linię w 3d, a potem zdałem sobie sprawę, że nie ma sensu, jeśli pozwalamy na swobodne zmienianie się kilku niezależnych zmiennych, więc chciałem się tylko upewnić.
Jeremy Radcliff
+1 świetna odpowiedź. Czasami ludzie są leniwi i powodują wiele zamieszania. Właśnie dlatego starałem się prosić o notacje w tym poście. stats.stackexchange.com/questions/216286/…
Haitao Du
@jeremyradcliff Edytowałem w komentarzu.
Matthew Drury
@MatthewDrury, dziękuję za poświęcenie czasu na zajęcie się moimi komentarzami. Jest to dla mnie bardzo pomocne, ponieważ studiuję większość matematyki, którą znam, a brak otaczającej kultury i dostęp do matematyków sprawiają, że miejsca takie jak wymiana stosów i odpowiedzi takie jak twoje są dla mnie bezcenne.
Jeremy Radcliff
5

„Liniowy” nie oznacza dokładnie, jak myślisz, co robi w tym kontekście - jest nieco bardziej ogólny

Po pierwsze, tak naprawdę nie jest to odniesienie do liniowości x, ale do parametrów * („liniowy w parametrach”).

Po drugie, funkcja liniowa w sensie algebry liniowej jest zasadniczo mapą liniową; jest funkcją liniową w -space.βE(Y|X)=Xββ

Zatem płaszczyzna (lub bardziej ogólnie hiperpłaszczyzna) najlepszego dopasowania jest nadal „regresją liniową”.

1XβXβ

Glen_b - Przywróć Monikę
źródło