W jaki sposób regresja logistyczna może tworzyć krzywe, które nie są tradycyjnymi funkcjami?

15

Wydaje mi się, że mam pewne podstawowe zamieszanie co do działania funkcji w regresji logistycznej (a może po prostu funkcjonuje jako całość).

Jak to się dzieje, że funkcja h (x) tworzy krzywą widoczną po lewej stronie obrazu?

Widzę, że jest to wykres dwóch zmiennych, ale te dwie zmienne (x1 i x2) są również argumentami samej funkcji. Znam standardowe funkcje jednej mapy zmiennych do jednego wyjścia, ale ta funkcja wyraźnie tego nie robi - i nie jestem całkowicie pewien, dlaczego.

wprowadź opis zdjęcia tutaj

Moją intuicją jest to, że niebiesko-różowa krzywa tak naprawdę nie jest narysowana na tym wykresie, ale raczej reprezentacja (kółka i litery X), która jest mapowana na wartości w następnym wymiarze (3.) wykresu. Czy to rozumowanie jest błędne i czy czegoś mi brakuje? Dzięki za wgląd / intuicję.

Sam
źródło
8
Zwróć uwagę na etykiety osi, zauważ, że żadna z nich nie ma oznaczenia . y
Matthew Drury
3
Czym byłaby „tradycyjna funkcja”?
whuber
@matthewDrury Rozumiem to i to wyjaśnia 2D X / Os. Pytam, skąd pochodzi wykreślona krzywa
Sam

Odpowiedzi:

19

Jest to przykład nadmiernego dopasowania na kursie Coursera na ML przez Andrew Ng w przypadku modelu klasyfikacyjnego z dwiema cechami , w którym prawdziwe wartości są symbolizowane przez x i , a granica decyzji wynosi dokładnie dopasowane do zestawu treningowego dzięki zastosowaniu wielomianowych terminów wysokiego rzędu.(x1,x2))×,

Problem, który próbuje zilustrować, związany jest z faktem, że chociaż linia decyzyjna granicy (linia krzywoliniowa na niebiesko) nie błędnie klasyfikuje żadnych przykładów, jej zdolność do generalizowania poza zestawem treningowym będzie zagrożona. Andrew Ng wyjaśnia dalej, że regularyzacja może złagodzić ten efekt, i rysuje krzywą magenta jako granicę decyzji mniej ścisłą względem zestawu treningowego i bardziej prawdopodobną uogólnienie.


W odniesieniu do konkretnego pytania:

Moją intuicją jest to, że niebiesko-różowa krzywa tak naprawdę nie jest narysowana na tym wykresie, ale raczej reprezentacja (kółka i litery X), która jest mapowana na wartości w następnym wymiarze (3.) wykresu.

Wysokość nie ma (trzeci wymiar): istnieją dwie kategorie i ) , a linia decyzyjna pokazuje, w jaki sposób model je rozdziela. W prostszym modelu(×),

hθ(x)=sol(θ0+θ1x1+θ2)x2))

granica decyzji będzie liniowa.


Być może masz na myśli coś takiego, na przykład:

5+2)x-1.3x2)-1.2x2)y+1x2)y2)+3)x2)y3)

wprowadź opis zdjęcia tutaj

sol()x1x2)× ().(1,0)

(x1,x2))×××ten wpis na blogu na temat R-blogerów ).

Zwróć uwagę na wpis w Wikipedii dotyczący granicy decyzji :

W problemie klasyfikacji statystycznej z dwiema klasami granica decyzyjna lub powierzchnia decyzyjna to hiperpowierzchnia, która dzieli podstawową przestrzeń wektorową na dwa zbiory, po jednym dla każdej klasy. Klasyfikator sklasyfikuje wszystkie punkty po jednej stronie granicy decyzji jako należące do jednej klasy i wszystkie po drugiej stronie jako należące do drugiej klasy. Granica decyzyjna to obszar przestrzeni problemowej, w którym etykieta wyjściowa klasyfikatora jest niejednoznaczna.

[0,1]),

wprowadź opis zdjęcia tutaj


3)

wprowadź opis zdjęcia tutaj

y1=hθ(x)W.(Θ)Θ

Łącząc wiele neuronów, te oddzielające hiperpłaszczyzny można dodawać i odejmować, aby uzyskać kapryśne kształty:

wprowadź opis zdjęcia tutaj

Odnosi się to do uniwersalnego twierdzenia o aproksymacji .

Antoni Parellada
źródło
1
+1 zawsze sprawia przyjemność z czytania odpowiedzi. Może być jeszcze lepiej, jeśli płaszczyzna decyzyjna przecina się z twoją fabułą. pokazać niektóre powyżej, a niektóre poniżej.
Haitao Du
Wielkie dzięki za to. Nadal wydaje mi się, że brakuje mi czegoś małego w samej krzywej - to znaczy, że granica decyzyjna nie jest tak naprawdę „rysowana”, ale jest po prostu sposobem Andrew Ng na wskazanie progów wartości x1 i x2, które spowodować, że hipoteza będzie albo × albo ∘? Myślę, że niektóre z moich nieporozumień wynikały z tego, że ta krzywa może być funkcją w pierwszej kolejności, ale teraz zdaję sobie sprawę, że tak nie jest.
Sam
1
@AntoniParellada To wspaniale, widzę teraz rozróżnienie. Wielkie dzięki za pomoc.
Sam
0

Mamy kilku wymagających matematyków, którzy odpowiadają na to pytanie. Nigdy nie widziałem takiego diagramu, jak tutaj, z wartościami predyktorów X1 i X2 oraz linią „granicy decyzji” oddzielającą przewidywane pozytywne od przewidywanych negatywnych. (czy jest to mapa przewidywanych vs. rzeczywistych wyników?) Ale jest przydatna - o ile masz tylko dwa interesujące predyktory, które chcesz zmapować.
Wygląda na to, że karmazynowa linia oddziela przewidywane pozytywy od przewidywanych negatywów, podczas gdy ciemnoniebieska linia obejmuje wszystkie pozytywy. Zwykle dzieje się tak w przypadku regresji logistycznej: model poprawnie przewidzi wynik dla mniej niż 100% przypadków (i przewidzi niektóre fałszywie dodatnie i / lub fałszywie ujemne).
Możliwe jest uruchomienie regresji logistycznej i zlecenie tej funkcji wygenerowania funkcji h (x) dla każdego przypadku w zbiorze danych. Spowoduje to wygenerowanie oceny skłonności dla każdego pacjenta, od 0 do 1, która daje przewidywane prawdopodobieństwo lub prawdopodobieństwo pozytywnego wyniku dla każdego pacjenta na podstawie zmiennych predykcyjnych tego pacjenta, na podstawie modelu regresji logistycznej z wykorzystaniem wszystkich pacjentów. Przewiduje się, że osoby o wartości granicznej oceny skłonności wynoszącej 0,5 lub więcej, będą miały wynik, a osoby poniżej 0,5 - nie uzyskają wyniku. Możesz jednak dostosować ten poziom odcięcia według własnego uznania, na przykład, aby stworzyć diagnostyczny model predykcyjny niektórych wyników na podstawie wszystkich zmiennych wejściowych wprowadzonych w analizie regresji logistycznej. Możesz ustawić wartość graniczną na przykład na 0,3. Następnie możesz wykonać tabelę 2 x 2 wyników przewidywanych w stosunku do rzeczywistych i określić swoją wrażliwość, swoistość, współczynnik fałszywie dodatnich i fałszywie ujemnych wyników modelu na podstawie tego poziomu odcięcia. Zapewnia to więcej informacji, a także uwalnia od limitu 2 zmiennych używanych na wykresie. Możesz użyć tyle predyktorów, ile możesz rozsądnie zmieścić w modelu i nadal tworzyć tabelę 2 x 2 wyników rzeczywistych w stosunku do przewidywanych. Ponieważ regresja logistyczna wykorzystuje wyniki kategoryczne (tak-nie), każda komórka w tabeli 2X2 jest po prostu liczbą podmiotów spełniających kryteria wiersza i kolumny. Możesz użyć tyle predyktorów, ile możesz rozsądnie zmieścić w modelu i nadal tworzyć tabelę 2 x 2 wyników rzeczywistych w stosunku do przewidywanych. Ponieważ regresja logistyczna wykorzystuje wyniki kategoryczne (tak-nie), każda komórka w tabeli 2X2 jest po prostu liczbą podmiotów spełniających kryteria wiersza i kolumny. Możesz użyć tyle predyktorów, ile możesz rozsądnie zmieścić w modelu i nadal tworzyć tabelę 2 x 2 wyników rzeczywistych w stosunku do przewidywanych. Ponieważ regresja logistyczna wykorzystuje wyniki kategoryczne (tak-nie), każda komórka w tabeli 2X2 jest po prostu liczbą podmiotów spełniających kryteria wiersza i kolumny.
Na podanym przez ciebie wykresie prawdopodobnie zakłada on wartość graniczną 0,5. Jest to częste ustawienie domyślne oprogramowania. Jeśli dostosowałeś go wyżej (na przykład do 0,65), może on zawierać wszystkie O wewnątrz linii, ale miałbyś również kilka fałszywych trafień (X, które jego zdaniem powinny być O), które byłyby przewidywane przez model, aby uzyskać wynik zainteresowanie. (lub niższy wynik odcięcia i więcej fałszywych negatywów).
Mam nadzieję, że to pomoże.

Nocnik
źródło