Czy można wykonać prostą regresję liniową bez użycia wykresów i algebry liniowej?

47

Jestem całkowicie ślepy i pochodzę z programowania.

Próbuję nauczyć się uczenia maszynowego i aby to zrobić, najpierw muszę się dowiedzieć o regresji liniowej. Wszystkie wyjaśnienia w Internecie, które znajduję na ten temat, najpierw rysują dane. Szukam praktycznego wyjaśnienia regresji liniowej, która nie zależy od wykresów i wykresów.

Oto moje rozumienie celu prostej regresji liniowej:

Prosta regresja liniowa próbuje znaleźć wzór, który po Xjej podaniu zapewniłby najbliższe oszacowanie Y.

Tak więc, jak rozumiem, to co należy zrobić, to porównać predyktor (na przykład powierzchnię domu w stopach kwadratowych) z niezależną zmienną (ceną). W moim przykładzie prawdopodobnie możesz stworzyć wizualny sposób uzyskania najlepszej formuły do ​​obliczenia ceny domu na podstawie jego powierzchni. Na przykład, może uzyskasz powierzchnię i cenę 1000 domów w okolicy i podzielisz cenę na powierzchnię? Wynik (przynajmniej w Iranie, gdzie mieszkam) miałby bardzo znikomą wariancję. Prawdopodobnie dostaniesz coś takiego:

Price = 2333 Rials * Area of the house

Oczywiście musiałbyś wtedy przejrzeć wszystkie 1000 domów w swoim zbiorze danych, umieścić obszar w powyższym wzorze, porównać oszacowanie z rzeczywistą ceną, obliczyć wyniki (chyba, aby zapobiec wzajemnemu anulowaniu wariancji) a następnie uzyskaj numer, a następnie baw się z, 2333aby zmniejszyć liczbę błędów.

Oczywiście jest to opcja brutalnej siły, w której obliczenie błędów i znalezienie najlepszej opcji zajmie wieki, ale rozumiesz, co mówię? Nie mówiłem nic o wykresie, linii, punktach na wykresie ani o najlepszym sposobie dopasowania linii do istniejących danych.

Dlaczego więc potrzebujesz do tego wykresu rozrzutu i algebry liniowej? Czy nie ma sposobu niewizualnego?

Po pierwsze, czy mam rację w moich założeniach? Jeśli nie, chciałbym być poprawiony. Niezależnie od tego, czy jestem, czy istnieje sposób na wymyślenie formuły bez zabawy algebrą liniową?

Byłbym bardzo wdzięczny, gdybym mógł podać przykład z wyjaśnieniem, dzięki czemu mogę to zrobić wraz z tekstem, aby sprawdzić swoje zrozumienie.

Parham Doustdar
źródło
2
Ale czy masz wyobraźnię przestrzenną, która może przejąć tę wizję? Jeśli tak, przypuszczam, że można w jakiś sposób wyobrazić sobie wykres rozrzutu. Wątpię, czy esencję regresji można uchwycić wyłącznie poprzez myślenie zdań (takie jak werbalne).
ttnphns
3
Jakie jest twoje tło matematyczne? Strona Wikipedii o nazwie Prosta regresja liniowa składa się głównie z tekstu i zawiera, jak sądzę, dość jasny opis w pierwszym akapicie. Jak ten artykuł wypada w porównaniu z poziomem szczegółowości, którego szukasz?
shadowtalker
3
Zastanowię się nad tym, zobaczę, czy uda mi się wymyślić, ale od razu pomyślmy o regresji jako rozwiązaniu równania, które nie ma rozwiązania. Wszystkie twoje punkty danych zostaną niepoprawnie przewidziane przez twojego regresora (obszar domu). Szukasz równania, które sprawia, że ​​twoje błędy są jak najbardziej tolerowane.
Antoni Parellada,
8
doskonałe pytanie, musimy zastanowić się więcej nad wyjaśnieniem naszych koncepcji osobom niepełnosprawnym
Aksakal
4
Nie musisz używać fabuły. Rzeczywiście, w przypadku wielokrotnej regresji liniowej (regresja z wieloma predyktorami) nie można wykreślić przestrzeni wymiarowej. Jednak algebra liniowa nadal działa. Wszystkie formuły algebry liniowej uczestniczące w regresji liniowej można zredukować do operacji na prostych liczbach skalarnych. Po prostu nie chcesz tego robić ręcznie, jeśli cenisz swoje zdrowie psychiczne. p+1
przypuszcza

Odpowiedzi:

17

Tak, zgadzasz się. Musisz grać z 2333, aż znajdziesz właściwy, który minimalizuje błąd. Ale istnieje matematyczny sposób na znalezienie „właściwego”. Nazwijmy ten numer . , suma błędów kwadratu (SSE) jest funkcją ponieważ dla każdego wyboru można obliczyć kwotę, o którą każde oszacowanie jest wyłączone, obliczyć ją i zsumować.βEββ

Co minimalizuje całkowitą sumę kwadratów błędów? To tylko problem z rachunkiem różniczkowym. Weź pochodną przez i ustaw ją na zero. To daje równanie dla . Sprawdź, czy druga pochodna jest pozytywna, aby wiedzieć, że jest to minimium. W ten sposób otrzymujesz równanie dla które minimalizuje błąd.βEβββ

Jeśli wyprowadzisz to w ten sposób, otrzymasz jako podsumowanie. Jeśli napiszesz formę algebry liniowej oszacowania, zobaczysz, że to jest to samo.β

Edycja: Oto link do niektórych notatek z tego typu pochodnymi. Matematyka robi się trochę nieuporządkowana, ale w jej istocie jest to tylko problem różniczkowy.

Chris Rackauckas
źródło
O MÓJ BOŻE. Wreszcie! Sposób nieliniowo-algebry na obliczenie tego. Pojęcia, o których mówisz w swojej odpowiedzi, są ponad moimi głowami, ale na pewno przyjrzę się pochodnym, aby lepiej zrozumieć tę myślenie.
Parham Doustdar,
1
Odniosłem się do kilku notatek, które wyjaśniają to na dość podstawowym poziomie. Myślę, że każda odpowiedź będzie wymagała rachunku różniczkowego, ponieważ sposobem rozwiązywania problemów, takich jak „znajdź minimum ”, jest pobranie pochodnej i ustawienie jej na zero. Intuicyjnie oznacza to, że minimum (lub maksimum) wzgórza będzie tam, gdzie wzgórze jest płaskie (ponieważ nachylenie jest najwyższe wzdłuż boku wzgórza!). Pochodna = nachylenie. Tak więc w obszarach zmiana zaczyna powodować niewielką zmianę , jesteś bliski minimum (lub maksimum. Musisz się upewnić, że to nie jest maksimum!). E(β)βE
Chris Rackauckas,
4
Ten pomysł przenosi Cię do uczenia maszynowego. Jedną z podstawowych metod uczenia maszynowego jest przyzwoity gradient. To w zasadzie przekłada się na „podążanie po zboczu”. jeśli nadal będziesz pozwalać piłce toczyć się w kierunku, w którym wzgórze jest najbardziej strome, osiągniesz minimum. Tak więc metoda przyzwoitego gradientu polega właśnie na tym: dowiedz się, który sposób zmiany powoduje, że błąd zmniejsza się najbardziej i idź w tamtą stronę! β
Chris Rackauckas,
2
W przypadku regresji metodą najmniejszych kwadratów nie musisz robić przyzwoitego gradientu, ponieważ możesz rozwiązać równanie, które jest odpowiedzią, ale daje to dobry sposób zrozumienia, czym jest uczenie maszynowe. Sprowadza się do wyboru sposobu pomiaru błędu, a następnie znalezienia sposobu na zminimalizowanie równania błędu. Wynikiem jest „najlepsze” równanie szacunkowe wyuczone na podstawie danych. Mam nadzieję, że pomoże ci to w drodze do uczenia maszynowego!
Chris Rackauckas,
10

Twoje zrozumienie jest bliskie, ale wymaga pewnego rozszerzenia: prosta regresja liniowa próbuje znaleźć wzór, który po Xjej podaniu zapewniłby najbliższe oszacowanie Y oparte na zależności liniowej między X i Y .

Twój przykład ceny domu, gdy jest nieco przedłużony, pokazuje, dlaczego kończysz na wykresach rozrzutu i tym podobnych. Po pierwsze, zwykłe podzielenie ceny przez powierzchnię nie działa w innych przypadkach, takich jak ceny gruntów w moim rodzinnym mieście, gdzie przepisy budowlane oznaczają, że posiadanie działki, na której można zbudować dom, ma wysoką wartość. Dlatego ceny gruntów nie są wprost proporcjonalne do powierzchni. Każdy wzrost powierzchni działki może dawać taki sam wzrost wartości działki, ale jeśli przeszedłbyś do (mitycznej) działki o powierzchni 0, nadal istniałaby powiązana pozorna cena reprezentująca wartość samego posiadania działki zatwierdzone do budowy.

Jest to nadal liniowa zależność między obszarem a wartością, ale w relacji występuje przecięcie reprezentujące wartość samego posiadania działki. Tym niemniej zależność liniowa polega na tym, że zmiana wartości na jednostkę zmiany pola, nachylenia lub współczynnika regresji jest zawsze taka sama, niezależnie od wielkości pola lub wartości.

Powiedzmy, że znasz już przecięcie i nachylenie, które wiążą obszary działki z wartością, i porównujesz wartości z tej liniowej relacji z rzeczywistymi wartościami reprezentowanymi przez ostatnią sprzedaż. Przekonasz się, że przewidywane i rzeczywiste wartości rzadko się pokrywają. Rozbieżności te reprezentują błędy w modelu i powodują rozproszenie wartości wokół przewidywanej relacji. Otrzymujesz wykres rozproszenia punktów skupionych wokół przewidywanej linii prostej między obszarem a wartością.

W większości praktycznych przykładów nie znasz jeszcze przecięcia i nachylenia, więc musisz spróbować oszacować je na podstawie danych. Właśnie to próbuje regresja liniowa.

Lepiej jest pomyśleć o regresji liniowej i modelowaniu pokrewnym z perspektywy estymacji maksymalnego prawdopodobieństwa , która polega na wyszukiwaniu określonych wartości parametrów w modelu, które sprawiają, że dane są najbardziej prawdopodobne. Jest to podobne do podejścia „brutalnej siły”, które proponujesz w swoim pytaniu, ale z nieco inną miarą tego, co próbujesz zoptymalizować. Dzięki nowoczesnym metodom obliczeniowym i inteligentnemu zaprojektowaniu wzorca wyszukiwania można to zrobić dość szybko.

Oszacowanie maksymalnego prawdopodobieństwa można konceptualizować w sposób, który nie wymaga wykresu graficznego i jest podobny do sposobu, w jaki już myślisz. W przypadku regresji liniowej zarówno standardowa regresja najmniejszych kwadratów, jak i maksymalne prawdopodobieństwo zapewniają takie same oszacowania przecięcia i nachylenia.

Myślenie w kategoriach maksymalnego prawdopodobieństwa ma tę dodatkową zaletę, że lepiej rozciąga się na inne sytuacje, w których relacje nie są ściśle liniowe. Dobrym przykładem jest regresja logistyczna, w której próbujesz oszacować prawdopodobieństwo wystąpienia zdarzenia na podstawie zmiennych predykcyjnych. Można to osiągnąć przez maksymalne prawdopodobieństwo, ale w przeciwieństwie do standardowej regresji liniowej nie ma prostego równania, które tworzy punkt przecięcia i nachylenia w regresji logistycznej.

EdM
źródło
1
Myślałem, że „liniowa” w „regresji liniowej” oznacza „liniową w parametrach”, więc możesz mieć jako zmienną niezależną, ale współczynnik każdej zmiennej niezależnej musi pojawiać się liniowo ? x2
@ fcop masz rację. Zacząłem od przykładu dostarczonego przez PO, który zakłada proporcjonalność między wartościami a obszarami. Mam tendencję do myślenia o transformowanych wartościach oryginalnych zmiennych predykcyjnych jako o rzeczywistych zmiennych niezależnych w regresji, gdy używane są transformacje takie jak moce lub logi. Myślę, że w praktyce stanowi to głównie różnicę terminologiczną, chociaż istnieją różnice w modelach błędów domyślnych.
EdM
Rozumiem, o co ci chodzi, to była dobra odpowiedź (+1)
6

Przede wszystkim moje komplementy. Wszystkim trudno jest zmagać się ze statystykami (jestem lekarzem, więc możesz zgadnąć, jak ciężko mi jest) ...

Nie mogę zaproponować wizualnego wyjaśnienia regresji liniowej , ale coś bardzo zbliżonego: dotykowe wyjaśnienie regresji liniowej .

Wyobraź sobie, że wchodzisz do pokoju od drzwi. Pokój ma kształt kwadratu, a drzwi znajdują się w lewym dolnym rogu. Chcesz dostać się do następnego pokoju, którego drzwi, jak się spodziewasz, będą mniej więcej w prawym górnym rogu. Wyobraź sobie, że nie możesz dokładnie powiedzieć, gdzie są następne drzwi (nigdy!), Ale w pokoju są rozrzuceni ludzie, którzy mogą powiedzieć ci, które mają iść. Oni też nie widzą, ale mogą powiedzieć ci, co jest blisko nich. Ostateczna ścieżka, którą przejdziesz, aby dotrzeć do następnych drzwi, prowadzona przez tych ludzi, jest analogiczna do linii regresji, która minimalizuje odległość między tymi ludźmi i prowadzi cię do drzwi, blisko (jeśli nie na właściwej) ścieżce.

Joe_74
źródło
1
(+1) Bardzo podoba mi się twój przykład i zabawne, że przez czysty przypadek zastosowaliśmy bardzo podobną ilustrację tego problemu!
Tim
„Pokój ma kształt kwadratu” - co jest kwadratem dla osób niewidomych? W tym zdaniu doprowadziłeś nas z powrotem do miejsca, od którego mieliśmy zacząć.
Aksakal
4
Nie zgadzam się Pozwól im przejść 10 stóp w jednym kierunku, a następnie obróć o 90 ° (np. Rozpiętość ramion) i pozwól im znów przejść 10 stóp. To kwadrat, jeśli nie widzisz poprawnie.
Joe_74,
@ GiuseppeBiondi-Zoccai, jeśli buduję model ciśnienia w komorze na temperaturę, dlaczego miałbym wymyślić kwadraty i linie oraz inne koncepcje przestrzenne? Jest to z pewnością wygodne, jeśli nie jesteś ślepy, ale dla niewidomych te analogie przestrzenne nie przynoszą niczego do stołu z uwagi na problem, tylko komplikują ekspozycję
Aksakal
2
Ponownie grzecznie się nie zgadzam ... zawsze zakładałem, że osoby niewidome mają szczególnie rozwinięte dotykowe umiejętności przestrzenne. W każdym razie każdy przykład, która praca jest w porządku, a im więcej, tym lepiej.
Joe_74
3

Dobry przykład, który może pomóc w zadaniu pytania, podali Andrew Gelman i David K. Park (2012). Kij Chodźmy do przykładu przewidywania cenę domu biorąc pod uwagę to obszar . W tym celu wykorzystujemy prosty model regresji liniowejYX

Y=β0+β1X+ε

Dla uproszczenia zapomnijmy o przechwytywaniu , możesz sprawdzić ten wątek, aby dowiedzieć się, dlaczego jest on ważny . Dane te można wizualizować na wykresie rozrzutu. Co to jest wykres rozrzutu? Wyobraźmy sobie dwuwymiarową przestrzeń (może to być pokój), punkty danych są „rozproszone” wokół miejsca, w którym wartości obu zmiennych oznaczają ich pozycje osi i osi. Wiesz już, że w jakiś sposób przekłada się to na model regresji liniowej.β0yx

Aby to wyjaśnić, uprośćmy ten przykład jeszcze bardziej - tak jak zrobili to Gelman i Park. Zaproponowane przez nich uproszczenie polega na podzieleniuβ 1Xzmienna, tj. powierzchnia domu, na trzy grupy: „małe”, „średnie” i „duże” domy (opisują, jak optymalnie podjąć taką decyzję, ale ma to mniejsze znaczenie). Następnie obliczyć średnią wielkość „małego” domu i średnią wielkość „dużego” domu. Oblicz także średnią cenę „małego” domu i „dużego”. Teraz zmniejsz swoje dane do dwóch punktów - centrów chmur punktów danych dla małych i dużych domów rozproszonych w przestrzeni i usuń wszystkie punkty danych o „średnich” domach. Pozostały ci dwa punkty w dwuwymiarowej przestrzeni. Linia regresji jest linią łączącą punkty - możesz myśleć o niej jako o kierunku od jednego punktu do drugiego. β1

To samo dzieje się, gdy mamy więcej punktów rozrzuconych po przestrzeni: linia regresji odnajduje swoją drogę, minimalizując odległość kwadratową do każdego punktu. Linia przebiega dokładnie przez środek chmury punktów rozproszonych w przestrzeni. Zamiast łączyć dwa punkty, możesz myśleć o tym jak o połączeniu nieograniczonej liczby takich centralnych punktów.


Gelman, A., i Park, DK (2012). Podział predyktora na górną ćwiartkę lub trzecią i dolną ćwiartkę lub trzecią. The American Statistician, 62 (4), 1-8.

Tim
źródło
3

Krótka odpowiedź brzmi: tak. Która linia najlepiej przechodzi przez środek wszystkich punktów, które składają się na całość lub tylko powierzchnię samolotu lub oszczepu? Narysuj to; w twojej głowie lub na zdjęciu. Szukasz i na tej samotnej linii, z której każdy punkt (interesujący, niezależnie od tego, czy je wykreślisz, czy nie), który przyczyniłby się do całkowitego najmniejszego (między punktami) odchylenia od tej linii. Jeśli zrobisz to na oko, domyślnie na podstawie zdrowego rozsądku, przybliżasz (wyjątkowo dobrze) wynik obliczony matematycznie. W tym celu istnieją formuły, które niepokoją oko i mogą nie mieć zdrowego rozsądku. Przy podobnych sformalizowanych problemach w inżynierii i nauce rozpraszacze wciąż zapraszają do wstępnej oceny wzrokowej, ale na tych arenach należy spodziewać się „testowego” prawdopodobieństwa, że ​​linia jest linią. Stamtąd idzie w dół. Jednak, Najwyraźniej próbujesz nauczyć maszynę, aby powiększała (w efekcie) metry i granice (a) sporego podwórka i (b) rozproszonego w nim żywego inwentarza. Jeśli podasz swojej maszynie to, co stanowi obraz (graficzny, algebraiczny) nieruchomości i mieszkańców, powinna ona być w stanie dowiedzieć się (linia środkowa starannie dzieląca kroplę na dwie, obliczone odkodowanie na linię), co chcesz zrobić. Każdy podręcznik do dobrych statystyk (poproś nauczycieli lub profesorów o podanie więcej niż jednego) powinien przede wszystkim określać zarówno cały punkt regresji liniowej, jak i to, jak to zrobić w najprostszych przypadkach (od przypadków, które nie są proste). Kilka precli później, będziesz mieć to na sobie. Jeśli podasz swojej maszynie to, co stanowi obraz (graficzny, algebraiczny) nieruchomości i mieszkańców, powinna ona być w stanie dowiedzieć się (linia środkowa starannie dzieląca kroplę na dwie, obliczone odkodowanie na linię), co chcesz zrobić. Każdy podręcznik do dobrych statystyk (poproś nauczycieli lub profesorów o podanie więcej niż jednego) powinien przede wszystkim określać zarówno cały punkt regresji liniowej, jak i to, jak to zrobić w najprostszych przypadkach (od przypadków, które nie są proste). Kilka precli później, będziesz mieć to na sobie. Jeśli podasz swojej maszynie to, co stanowi obraz (graficzny, algebraiczny) nieruchomości i mieszkańców, powinna ona być w stanie dowiedzieć się (linia środkowa starannie dzieląca kroplę na dwie, obliczone odkodowanie na linię), co chcesz zrobić. Każdy podręcznik do dobrych statystyk (poproś nauczycieli lub profesorów o podanie więcej niż jednego) powinien przede wszystkim określać zarówno cały punkt regresji liniowej, jak i to, jak to zrobić w najprostszych przypadkach (od przypadków, które nie są proste). Kilka precli później, będziesz mieć to na sobie. Każdy podręcznik do dobrych statystyk (poproś nauczycieli lub profesorów o podanie więcej niż jednego) powinien przede wszystkim określać zarówno cały punkt regresji liniowej, jak i to, jak to zrobić w najprostszych przypadkach (od przypadków, które nie są proste). Kilka precli później, będziesz mieć to na sobie. Każdy podręcznik do dobrych statystyk (poproś nauczycieli lub profesorów o podanie więcej niż jednego) powinien przede wszystkim określać zarówno cały punkt regresji liniowej, jak i to, jak to zrobić w najprostszych przypadkach (od przypadków, które nie są proste). Kilka precli później, będziesz mieć to na sobie.


W odniesieniu: komentarz Silverfisha do mojego postu supra (nie ma innego prostego sposobu, aby dodać komentarz do tego komentarza), tak, OP jest ślepy, uczy się uczenia maszynowego i poprosił o praktyczność bez wykresów lub wykresów, ale zakładam, że jest w stanie odróżnić „wizualizację” od „wizji”, wizualizuje i ma w głowie prawdziwe obrazy, a także ma podstawowe pojęcie o wszelkiego rodzaju fizyce w obiektach otaczającego go świata (między innymi w domach), dzięki czemu może nadal „ narysuj „zarówno matematycznie, jak i nie tylko w swojej głowie, i prawdopodobnie może umieścić dobre pozory 2D i 3D na papierze. Szeroka gama książek i innych tekstów jest obecnie dostępna w fizycznym alfabecie Braille'a, a także w głosie elektronicznym na własnym komputerze (np. Na forach, słownikach itp.), a wiele szkół dla niewidomych ma dość kompletne programy nauczania. Zamiast samolotu lub oszczepu sofa lub laska niekoniecznie byłyby bardziej odpowiednie, a teksty statystyczne prawdopodobnie są dostępne. Jest mniej zainteresowany tym, w jaki sposób maszyny mogą nauczyć się rysować i wykresywać lub obliczać regresję, a następnie, w jaki sposób maszyny mogą nauczyć się robić coś równoważnego (i bardziej podstawowego) w celu uchwycenia regresji (czy maszyna może to wyświetlić, zareagować na nią, śledzić tego, unikaj go, czy cokolwiek innego). Istotnym pchnięciem (zarówno dla niewidomych, jak i widzących uczniów) jest wciąż to, jak wizualizować to, co może być niewidzialne (takie jak koncepcja liniowości zamiast instancji linii narysowanej, sprzed Euclida i Pitagorasa) oraz jak wizualizować podstawowy cel specjalnego rodzaju liniowości (regresja, której podstawowy punkt najlepiej pasuje do najmniejszego odchylenia, od wczesnych lat matematyki i statystyki). Wydajność regranu dla linii liniowej Fortran jest ledwo „wizualna” aż do mentalnej asymilacji, ale nawet podstawowy punkt regresji jest wyobrażony (linia, której nie ma, dopóki nie zostanie stworzona w określonym celu).

butte
źródło
2
Być może błędnie rozumiem tę odpowiedź, ale „narysuj ją w głowie lub na zdjęciu” wydaje się nieco pomijać sedno pytania: pierwotne pytanie zadaje ktoś, kto jest całkowicie ślepy i dlatego szuka osoby niebędącej wizualny sposób zbliżania się do regresji.
Silverfish
@Silverfish Odpowiedź (za długa na komentarz) została edytowana w powyższej odpowiedzi
Dzięki. Myślałem, że głos był nieco trudny (to nie byłem ja), ale niektóre wybory językowe w tej odpowiedzi były niefortunne (np. Istnieje kilka odniesień do robienia rzeczy „na oko”). Niemniej jednak rozumiem, dlaczego chcesz rozróżnić percepcję wzrokową od tego, co można zwizualizować „okiem umysłu”.
Silverfish
2
Mogę wizualizować rzeczy w mojej głowie. Po prostu nie używam tych samych sposobów wizualizacji. To nie jest kwestia nieużywania drawlub visualize. To tylko kwestia wykorzystania tej koncepcji do uzyskania wizualizacji, a nie na odwrót. Przekonałem się, że dzieje się tak w wielu miejscach matematyki. Aby wyjaśnić trudny temat, zwykle stosuje się kształty i obrazy, zamiast powiązać obliczenia z pojęciami, które uczący się znałby z prawdziwego życia.
Parham Doustdar,
3

Powodem, dla którego wykresy są powszechnie stosowane do wprowadzenia prostej regresji - reakcji przewidywanej przez pojedynczy predyktor - jest to, że pomagają one zrozumieć.

Uważam jednak, że mogę nadać smak, który może pomóc w zrozumieniu, co się dzieje. W tym skoncentruję się głównie na próbie przekazania zrozumienia, które dają, co może pomóc w niektórych innych aspektach, które zwykle napotykasz podczas czytania o regresji. Więc ta odpowiedź dotyczy głównie określonego aspektu Twojego postu.

Wyobraź sobie, że siedzisz przed dużym prostokątnym stołem, takim jak zwykłe biurko, jedno długie na ramię (być może 1,8 metra), może o połowę mniejsze.

Siedzisz przed stołem w zwykłej pozycji, na środku jednego długiego boku. Na tym stole wbita jest duża liczba gwoździ (z dość gładkimi główkami) w górną powierzchnię, tak aby każdy z nich lekko się podniósł (wystarczająco, aby poczuć, gdzie są, i wystarczająco, aby przywiązać do nich sznurek lub przyczepić gumkę ).

Gwoździe te znajdują się w różnych odległościach od krawędzi biurka, w taki sposób, że w kierunku jednego końca (powiedzmy lewy koniec) zwykle znajdują się bliżej krawędzi biurka, a następnie w miarę przesuwania się w kierunku drugiego końca główki gwoździ mają tendencję do bycia dalej od swojej krawędzi.

Wyobraź sobie, że warto mieć poczucie, jak średnio paznokcie są od krawędzi w dowolnej pozycji wzdłuż krawędzi.

Wybierz miejsce wzdłuż krawędzi biurka i umieść tam rękę, a następnie sięgnij do przodu bezpośrednio po stole, delikatnie przeciągając dłoń bezpośrednio do siebie, a następnie ponownie, przesuwając dłoń w przód iw tył nad główkami gwoździ. Z tych gwoździ napotyka się kilkadziesiąt guzów - tych w wąskiej szerokości dłoni (gdy odsuwa się bezpośrednio od krawędzi, w stałej odległości od lewego końca biurka), odcinek lub pasek o szerokości około dziesięciu centymetrów .

Chodzi o to, aby w tej niewielkiej sekcji ustalić średnią odległość do gwoździa od krawędzi biurka. Intuicyjnie to tylko środek uderzeń, które uderzyłyśmy, ale jeśli zmierzyliśmy każdą odległość do gwoździa w tej szerokości biurka o szerokości dłoni, moglibyśmy łatwo obliczyć te średnie.

Na przykład, moglibyśmy skorzystać z kwadratu w kształcie litery T, którego głowa przesuwa się wzdłuż krawędzi biurka i którego trzonek biegnie w kierunku drugiej strony biurka, ale tuż nad biurkiem, abyśmy nie uderzali w gwoździe, gdy przesuwa się w lewo lub w prawo - gdy mijamy dany gwóźdź, możemy uzyskać jego odległość wzdłuż trzonu kwadratu T.

Tak więc, w miarę postępów miejsc wzdłuż naszej krawędzi, powtarzamy to ćwiczenie polegające na znalezieniu wszystkich gwoździ w pasie o szerokości dłoni biegnącym do nas i od nas oraz znalezieniu ich średniej odległości. Być może dzielimy biurko na paski o szerokości dłoni wzdłuż naszej krawędzi (więc każdy gwóźdź występuje w dokładnie jednym pasku).

Teraz wyobraź sobie, że powiedziano 21 takich pasków, pierwszy na lewej krawędzi i ostatni na prawej krawędzi. Środki oddalają się od naszego biurka, gdy przechodzimy przez paski.

Środki te tworzą prosty nieparametryczny estymator regresji oczekiwań y (nasz dystans) biorąc pod uwagę x (odległość wzdłuż naszej krawędzi od lewego końca), czyli E (y | x). W szczególności jest to podzielony estymator regresji nieparametrycznej, zwany także regresogramem

Jeśli te wartości średnich pasów wzrastały regularnie - to znaczy, że średnia zwykle zwiększała się o mniej więcej taką samą ilość na pasek, jak poruszaliśmy się po pasach - wówczas moglibyśmy lepiej oszacować naszą funkcję regresji, zakładając, że oczekiwana wartość y była liniowa funkcja x - tzn. oczekiwana wartość y dla x była stałą powiększoną o wielokrotność x. Tutaj stała reprezentuje miejsce, w którym gwoździe zwykle się znajdują, gdy x wynosi zero (często możemy umieścić to na skrajnej lewej krawędzi, ale nie musi tak być), a konkretna wielokrotność x oznacza, jak szybko średnia jest średnia zmienia się, gdy poruszamy się o jeden centymetr (powiedzmy) w prawo.

Ale jak znaleźć taką funkcję liniową?

Wyobraź sobie, że owijamy jedną gumką nad każdą główką gwoździa i przyczepiamy każdą do długiego cienkiego patyka, który leży tuż nad biurkiem, na gwoździach, tak aby leżał gdzieś w pobliżu „środka” każdego paska dla.

Mocujemy opaski w taki sposób, aby rozciągały się tylko w kierunku do nas i od nas (nie w lewo ani w prawo) - w lewo do siebie naciągałyby, aby ich kierunek rozciągania pod kątem prostym kijem, ale tutaj zapobiegamy temu, aby ich kierunek rozciągania pozostał tylko w kierunkach w kierunku lub od naszej krawędzi biurka. Teraz pozwalamy kijowi osiadać, gdy opaski ciągną go w kierunku każdego gwoździa, przy czym bardziej odległe gwoździe (z bardziej rozciągniętymi gumowymi opaskami) ciągną odpowiednio mocniej niż gwoździe blisko patyka.

Wówczas łączny wynik wszystkich pasm ciągnących za drążek byłby (najlepiej, co najmniej) pociągnięcie za drążek, aby zminimalizować sumę kwadratowych długości naciągniętych gumek; w tym kierunku bezpośrednio w poprzek stołu odległość od naszej krawędzi stołu do drążka w dowolnej pozycji x byłaby naszym oszacowaniem oczekiwanej wartości y danej x.

Jest to zasadniczo oszacowanie regresji liniowej.

Teraz wyobraź sobie, że zamiast gwoździ mamy wiele owoców (na przykład małych jabłek) zwisających z dużego drzewa i chcemy znaleźć średnią odległość owoców nad ziemią, która zmienia się w zależności od położenia na ziemi. Wyobraź sobie, że w tym przypadku wysokości nad ziemią stają się większe, gdy idziemy do przodu i nieco większe, gdy poruszamy się w prawo, znowu w regularny sposób, więc każdy krok do przodu zazwyczaj zmienia średnią wysokość o mniej więcej tę samą wartość, a każdy krok do prawo zmieni również średnią o mniej więcej stałą wartość (ale ta poprawiona o krok zmiana średniej średniej różni się od kroku o krok do przodu).

Jeśli zminimalizujemy sumę kwadratowych odległości w pionie od owoców do cienkiego płaskiego arkusza (być może cienkiego arkusza z bardzo sztywnego plastiku), aby dowiedzieć się, jak zmienia się średnia wysokość, gdy poruszamy się do przodu lub krok w prawo, byłoby to regresja liniowa z dwoma predyktorami - regresja wielokrotna.

To jedyne dwa przypadki, które fabuły mogą pomóc zrozumieć (mogą szybko pokazać to, co właśnie opisałem szczegółowo, ale mam nadzieję, że wiesz, że masz podstawy do konceptualizacji tych samych pomysłów). Oprócz tych najprostszych dwóch przypadków pozostaje nam tylko matematyka.

Weźmy teraz przykład ceny domu; możesz przedstawić powierzchnię każdego domu według odległości wzdłuż krawędzi biurka - reprezentować największy rozmiar domu jako pozycję w pobliżu prawej krawędzi, każdy inny rozmiar domu będzie znajdować się nieco dalej po lewej stronie, gdzie pewna liczba centymetrów będzie reprezentować liczba metrów kwadratowych. Teraz odległość reprezentuje cenę sprzedaży. Reprezentuj najdroższy dom jako pewną odległość w pobliżu najdalszej krawędzi biurka (jak zawsze krawędź najdalej od krzesła), a każdy przesunięty centymetr będzie reprezentował pewną liczbę rialów.

Dla obecnych wyobraźmy sobie, że wybraliśmy reprezentację tak, aby lewa krawędź biurka odpowiadała powierzchni domu równej zero, a bliższa krawędź - cenie domu równej 0. Następnie wbijamy gwóźdź do każdego domu.

Prawdopodobnie nie będziemy mieć gwoździ w pobliżu lewego końca naszej krawędzi (mogą być głównie w prawo i od nas), ponieważ niekoniecznie jest to dobry wybór skali, ale twój wybór modelu bez przechwytu sprawia, że ​​jest to lepszy sposób na omówienie tego.

Teraz w swoim modelu zmuszasz kij do przejścia przez pętlę sznurka w lewym rogu bliskiej krawędzi biurka - w ten sposób zmuszając dopasowany model do ceny zerowej za obszar zerowy, co może wydawać się naturalne - ale wyobraź sobie, że istnieją niektóre dość stałe składniki ceny, które wpłynęły na każdą sprzedaż. Wtedy sensowne byłoby, aby przecięcie było różne od zera.

W każdym razie, po dodaniu tej pętli, to samo ćwiczenie z gumką, jak poprzednio, znajdzie nasze oszacowanie najmniejszej kwadratowej linii.

Glen_b
źródło
Wow, dziękuję za tę długą odpowiedź przestrzenną. To wiele wyjaśniało. Dzięki.
Parham Doustdar,
2

Czy napotkałeś rodzaj tostera, który często dostajesz w hotelach. Na jednym końcu kładziesz chleb na przenośnik, a na drugim wypływa toast. Niestety, w tosterze w tym tanim hotelu wszystkie grzejniki zostały przeniesione na losowe wysokości i odległości od wejścia do tostera. Nie możesz przesuwać grzejników ani zginać ścieżki pasa (nawiasem mówiąc, tutaj jest prosty (tu właśnie wchodzi bit liniowy)), ale możesz zmienić WYSOKOŚĆ i POCHYLENIE paska.

Biorąc pod uwagę położenie wszystkich grzejników, regresja liniowa powie prawidłową wysokość i kąt, aby umieścić pas, aby uzyskać jak najwięcej ciepła. Wynika to z faktu, że regresja liniowa zminimalizuje średnią odległość między tostem a grzejnikami.

Moją pierwszą wakacyjną pracą były ręcznie regresje liniowe. Facet, który powiedział, że tego nie chcesz, jest PRAWDZIWY !!!

Chris J
źródło
2

Moje ulubione wytłumaczenie regresji liniowej jest geometryczne, ale nie wizualne. Traktuje zestaw danych jako pojedynczy punkt w przestrzeni wielowymiarowej, zamiast rozbijać go na chmurę punktów w przestrzeni dwuwymiarowej.

Obszar i cena domu to para liczb, które można traktować jako współrzędne punktu w przestrzeni dwuwymiarowej. Obszary i ceny tysiąca domów to tysiące par liczb, które można traktować jako współrzędne punktu w przestrzeni dwóch tysięcy wymiarów. Dla wygody nazwałbym przestrzeń 2000-wymiarową „przestrzenią danych”. Twój zestaw danych jest pojedynczym punktem w przestrzeni danych.ap(a,p)a1,,a1000p1,,p1000

D=(a1,,a1000,p1,,p1000)
D

Gdyby związek między obszarem a ceną był idealnie liniowy, punkt znajdowałby się w bardzo specjalnym obszarze przestrzeni danych, który nazywam „arkuszem liniowym”. Składa się z punktów Liczby i mogą się zmieniać, ale są ustalone tak, aby były tymi samymi obszarami, które pojawiają się w zbiorze danych. Nazywam arkusz liniowy „arkuszem”, ponieważ jest dwuwymiarowy: punkt na nim określają dwie współrzędne iD

M(ρ,β)=(a1,,a1000,ρa1+β,,ρa1000+β).
ρβa1,,a1000ρβ. Jeśli chcesz dowiedzieć się, jak kształtowany jest arkusz liniowy, wyobraź sobie cienki, prosty drut rozciągnięty w przestrzeni trójwymiarowej. Arkusz liniowy jest taki: jest idealnie płaski, a jego wymiar jest bardzo niski w porównaniu do wymiaru przestrzeni, w której znajduje się wnętrze.

W prawdziwym sąsiedztwie związek między powierzchnią a ceną nie będzie idealnie liniowy, więc punkt nie będzie się dokładnie opierał na arkuszu liniowym. Może jednak znajdować się bardzo blisko arkusza liniowego. Celem regresji liniowej jest, aby znaleźć punkt na arkuszu liniowej, która znajduje się najbliżej punktu danych . Ten punkt jest najlepszym modelem liniowym dla danych.DM(ρ,β)D

Korzystając z twierdzenia Pitagorasa, możesz dowiedzieć się, że kwadrat odległości między i wynosi Innymi słowy, odległość między punktem danych a punktem modelu jest całkowitym błędem kwadratowym modelu! Minimalizowanie całkowitego błędu kwadratu modelu jest tym samym, co minimalizowanie odległości między modelem a danymi w przestrzeni danych.M ( ρ , β ) [ p 1 - ( ρ a 1 + β ) ] 2 + + [ p 1000 - ( ρ a 1000 + β ) ] 2 .DM(ρ,β)

[p1(ρa1+β)]2++[p1000(ρa1000+β)]2.

Jak zauważył Chris Rackauckas , rachunek daje bardzo praktyczny sposób na znalezienie współrzędnych i które minimalizują odległość między i .β D M ( ρ , β )ρβDM(ρ,β)

Vectornaut
źródło
1

Odpowiedzi @Chris Rackauckas i @ EDM są na miejscu. Istnieje wiele sposobów podejścia do prostej regresji liniowej, które nie wymagają kreślenia ani wizualnych wyjaśnień zwykłego oszacowania metodą najmniejszych kwadratów, i dają bardzo solidne wyjaśnienia tego, co faktycznie dzieje się, gdy korzystasz z OLS.

Mogę dodać, że użycie wykresów rozrzutu jako narzędzia instruktażowego do nauki jakiejkolwiek nowej procedury modelowania, czy to parametrycznego modelu oldschoolowego, zaawansowanego uczenia maszynowego, czy algorytmów bayesowskich, wykresy mogą pomóc skrócić czas potrzebny na nauczenie się, co konkretny algorytm działa.

Tworzenie wykresów jest również bardzo ważne dla eksploracyjnej analizy danych, gdy zaczynasz pracę z nowym zestawem danych. Miałem sytuacje, w których zebrałem wiele danych, opracowałem teorię, dokładnie zaplanowałem mój model, a następnie uruchomiłem go, ale w końcu uzyskałem wyniki, które zasadniczo nie miały mocy predykcyjnej. Wykreślenie relacji dwuwymiarowych może wyeliminować pewne domysły: w twoim przykładzie cena domu może być liniowo powiązana z powierzchnią, ale być może związek nie jest liniowy. Wykresy rozrzutu pomagają zdecydować, czy potrzebujesz regresji wyższego rzędu w regresji, czy chcesz użyć innej metody niż regresja liniowa, czy też chcesz zastosować jakąś metodę nieparametryczną.

Chris K.
źródło
1

Kwartet Google dla Anscombe.

Pokazuje 4 zestawy danych, które przy kontroli numerycznej nie wykazują dużej różnicy.

Jednak po utworzeniu wizualnego wykresu rozproszenia różnice stają się dramatycznie widoczne.

Daje całkiem jasny obraz, dlaczego zawsze powinieneś rysować swoje dane, regresję lub brak regresji :-)

ctd2015
źródło
0

Chcemy mieć rozwiązanie, które minimalizuje różnicę między wartościami przewidywanymi i rzeczywistymi.

y=bx+a

yy

Jeśli założymy, że rozkład błędów jest zwykle rozkładem, okazuje się, że istnieje analityczne rozwiązanie tego problemu minimalizacji. Suma kwadratów różnic jest najlepszą wartością do zminimalizowania dla najlepszego dopasowania. Ale normalność nie jest wymagana w ogólnym przypadku.

Nie ma w tym nic więcej.

y=bx+a

W dzisiejszych czasach jest to raczej pomoc w zrozumieniu, ale nie trzeba naprawdę rozumieć regresji liniowej.

EDYCJA: zastąpiono założenie o normalności błędów poprawną, ale mniej zwięzłą listą. Normalność była wymagana, aby mieć rozwiązanie analityczne i można ją założyć w wielu praktycznych przypadkach. W takim przypadku suma kwadratów jest optymalna nie tylko dla estymatora liniowego i maksymalizuje również prawdopodobieństwo.

Jeżeli dalej przyjmuje się założenie o normalności rozkładu błędów, wówczas suma kwadratów jest optymalna zarówno dla estymatorów liniowych, jak i nieliniowych i maksymalizuje prawdopodobieństwo.

Diego
źródło
1
Założenie normalnego rozkładu nie jest wymagane dla niczego, co opisałeś
Aksakal
Pls sprawdź to wyjaśnienie stats.stackexchange.com/a/1516/98469
Diego
Link nie ma nic wspólnego z twoją odpowiedzią. Jeśli rozwinąłeś właściwości małej próbki lub MLE, możesz przyjąć założenie rozkładu normalnego, ale w obecnej postaci opis OLS w odpowiedzi nie wymaga rozkładu normalnego. W rzeczywistości, aby zminimalizować sumę kwadratów, nie potrzebujesz żadnej dystrybucji ani statystyk. To czysta algebra.
Aksakal
Chodzi o to, dlaczego minimalizujemy sumę kwadratów, a nie jakąś inną metrykę. Nie chodzi o to, jak zminimalizować sumę kwadratów.
Diego,
Minimalizowanie sumy kwadratów nie ma nic wspólnego z rozkładem normalnym. To tylko twoja funkcja utraty. Z tą funkcją utraty można zastosować dowolny inny rozkład błędów. Potrzebujesz rozkładów w niektórych przypadkach, np. Jeśli chcesz wyciągać wnioski na temat wartości parametrów w małych próbkach itp. Nawet w tym przypadku możesz użyć innych rozkładów, nie jestem pewien, dlaczego utknąłeś w normie.
Aksakal,