Wydaje mi się, że mam pewne podstawowe zamieszanie co do działania funkcji w regresji logistycznej (a może po prostu funkcjonuje jako całość).
Jak to się dzieje, że funkcja h (x) tworzy krzywą widoczną po lewej stronie obrazu?
Widzę, że jest to wykres dwóch zmiennych, ale te dwie zmienne (x1 i x2) są również argumentami samej funkcji. Znam standardowe funkcje jednej mapy zmiennych do jednego wyjścia, ale ta funkcja wyraźnie tego nie robi - i nie jestem całkowicie pewien, dlaczego.
Moją intuicją jest to, że niebiesko-różowa krzywa tak naprawdę nie jest narysowana na tym wykresie, ale raczej reprezentacja (kółka i litery X), która jest mapowana na wartości w następnym wymiarze (3.) wykresu. Czy to rozumowanie jest błędne i czy czegoś mi brakuje? Dzięki za wgląd / intuicję.
Odpowiedzi:
Jest to przykład nadmiernego dopasowania na kursie Coursera na ML przez Andrew Ng w przypadku modelu klasyfikacyjnego z dwiema cechami , w którym prawdziwe wartości są symbolizowane przez x i ∘ , a granica decyzji wynosi dokładnie dopasowane do zestawu treningowego dzięki zastosowaniu wielomianowych terminów wysokiego rzędu.( x1, x2)) × ∘ ,
Problem, który próbuje zilustrować, związany jest z faktem, że chociaż linia decyzyjna granicy (linia krzywoliniowa na niebiesko) nie błędnie klasyfikuje żadnych przykładów, jej zdolność do generalizowania poza zestawem treningowym będzie zagrożona. Andrew Ng wyjaśnia dalej, że regularyzacja może złagodzić ten efekt, i rysuje krzywą magenta jako granicę decyzji mniej ścisłą względem zestawu treningowego i bardziej prawdopodobną uogólnienie.
W odniesieniu do konkretnego pytania:
Wysokość nie ma (trzeci wymiar): istnieją dwie kategorie i ∘ ) , a linia decyzyjna pokazuje, w jaki sposób model je rozdziela. W prostszym modelu( × ∘ ) ,
granica decyzji będzie liniowa.
Być może masz na myśli coś takiego, na przykład:
Zwróć uwagę na wpis w Wikipedii dotyczący granicy decyzji :
Łącząc wiele neuronów, te oddzielające hiperpłaszczyzny można dodawać i odejmować, aby uzyskać kapryśne kształty:
Odnosi się to do uniwersalnego twierdzenia o aproksymacji .
źródło
Mamy kilku wymagających matematyków, którzy odpowiadają na to pytanie. Nigdy nie widziałem takiego diagramu, jak tutaj, z wartościami predyktorów X1 i X2 oraz linią „granicy decyzji” oddzielającą przewidywane pozytywne od przewidywanych negatywnych. (czy jest to mapa przewidywanych vs. rzeczywistych wyników?) Ale jest przydatna - o ile masz tylko dwa interesujące predyktory, które chcesz zmapować.
Wygląda na to, że karmazynowa linia oddziela przewidywane pozytywy od przewidywanych negatywów, podczas gdy ciemnoniebieska linia obejmuje wszystkie pozytywy. Zwykle dzieje się tak w przypadku regresji logistycznej: model poprawnie przewidzi wynik dla mniej niż 100% przypadków (i przewidzi niektóre fałszywie dodatnie i / lub fałszywie ujemne).
Możliwe jest uruchomienie regresji logistycznej i zlecenie tej funkcji wygenerowania funkcji h (x) dla każdego przypadku w zbiorze danych. Spowoduje to wygenerowanie oceny skłonności dla każdego pacjenta, od 0 do 1, która daje przewidywane prawdopodobieństwo lub prawdopodobieństwo pozytywnego wyniku dla każdego pacjenta na podstawie zmiennych predykcyjnych tego pacjenta, na podstawie modelu regresji logistycznej z wykorzystaniem wszystkich pacjentów. Przewiduje się, że osoby o wartości granicznej oceny skłonności wynoszącej 0,5 lub więcej, będą miały wynik, a osoby poniżej 0,5 - nie uzyskają wyniku. Możesz jednak dostosować ten poziom odcięcia według własnego uznania, na przykład, aby stworzyć diagnostyczny model predykcyjny niektórych wyników na podstawie wszystkich zmiennych wejściowych wprowadzonych w analizie regresji logistycznej. Możesz ustawić wartość graniczną na przykład na 0,3. Następnie możesz wykonać tabelę 2 x 2 wyników przewidywanych w stosunku do rzeczywistych i określić swoją wrażliwość, swoistość, współczynnik fałszywie dodatnich i fałszywie ujemnych wyników modelu na podstawie tego poziomu odcięcia. Zapewnia to więcej informacji, a także uwalnia od limitu 2 zmiennych używanych na wykresie. Możesz użyć tyle predyktorów, ile możesz rozsądnie zmieścić w modelu i nadal tworzyć tabelę 2 x 2 wyników rzeczywistych w stosunku do przewidywanych. Ponieważ regresja logistyczna wykorzystuje wyniki kategoryczne (tak-nie), każda komórka w tabeli 2X2 jest po prostu liczbą podmiotów spełniających kryteria wiersza i kolumny. Możesz użyć tyle predyktorów, ile możesz rozsądnie zmieścić w modelu i nadal tworzyć tabelę 2 x 2 wyników rzeczywistych w stosunku do przewidywanych. Ponieważ regresja logistyczna wykorzystuje wyniki kategoryczne (tak-nie), każda komórka w tabeli 2X2 jest po prostu liczbą podmiotów spełniających kryteria wiersza i kolumny. Możesz użyć tyle predyktorów, ile możesz rozsądnie zmieścić w modelu i nadal tworzyć tabelę 2 x 2 wyników rzeczywistych w stosunku do przewidywanych. Ponieważ regresja logistyczna wykorzystuje wyniki kategoryczne (tak-nie), każda komórka w tabeli 2X2 jest po prostu liczbą podmiotów spełniających kryteria wiersza i kolumny.
Na podanym przez ciebie wykresie prawdopodobnie zakłada on wartość graniczną 0,5. Jest to częste ustawienie domyślne oprogramowania. Jeśli dostosowałeś go wyżej (na przykład do 0,65), może on zawierać wszystkie O wewnątrz linii, ale miałbyś również kilka fałszywych trafień (X, które jego zdaniem powinny być O), które byłyby przewidywane przez model, aby uzyskać wynik zainteresowanie. (lub niższy wynik odcięcia i więcej fałszywych negatywów).
Mam nadzieję, że to pomoże.
źródło