Intuicja dla maszyn wektorów wsparcia i hiperpłaszczyzny

15

W moim projekcie chcę stworzyć model regresji logistycznej do przewidywania klasyfikacji binarnej (1 lub 0).

Mam 15 zmiennych, z których 2 są kategoryczne, a pozostałe są mieszaniną zmiennych ciągłych i dyskretnych.

Aby dopasować model regresji logistycznej, zalecono mi sprawdzenie liniowej separowalności za pomocą SVM, perceptronu lub programowania liniowego. Jest to zgodne z przedstawionymi tutaj sugestiami dotyczącymi testowania liniowej separowalności.

Jako nowicjusz w uczeniu maszynowym rozumiem podstawowe pojęcia o algorytmach wspomnianych powyżej, ale koncepcyjnie staram się wyobrazić sobie, jak możemy oddzielić dane, które mają tak wiele wymiarów, tj. 15 w moim przypadku.

Wszystkie przykłady w materiale online zazwyczaj przedstawiają dwuwymiarowy wykres dwóch zmiennych liczbowych (wzrost, waga), które pokazują wyraźną lukę między kategoriami i ułatwiają ich zrozumienie, ale w świecie rzeczywistym dane mają zwykle znacznie większy wymiar. Ciągle wracam do zestawu danych Iris i próbuję dopasować hiperpłaszczyznę do trzech gatunków. Jak to jest szczególnie trudne, jeśli nie niemożliwe, aby zrobić to między dwoma gatunkami, dwie klasy teraz mi uciekają.

Jak można to osiągnąć, gdy mamy jeszcze wyższe rzędy wymiarów , czy zakłada się, że kiedy przekroczymy pewną liczbę cech, używamy jąder do mapowania na przestrzeń o wyższych wymiarach, aby osiągnąć tę rozdzielność?

Również w celu przetestowania liniowej separowalności jaka jest używana metryka? Czy jest to dokładność modelu SVM, tj. Dokładność oparta na macierzy pomieszania?

Będziemy wdzięczni za wszelką pomoc w lepszym zrozumieniu tego tematu. Poniżej znajduje się próbka wykresu dwóch zmiennych w moim zbiorze danych, który pokazuje, jak nakładają się tylko te dwie zmienne.

wprowadź opis zdjęcia tutaj

Koza
źródło
1
Wygląda na to, że masz kilka różnych pytań. umieść je wszystkie na liście lub usuń zbędne pytania. przyciąga to więcej ludzi do odpowiedzi i lepszych odpowiedzi
Aksakal
2
generalnie intuicja potrzebuje dużej pomocy wyobraźni przy przechodzeniu z sytuacji 2D do sytuacji wysoko wymiarowej, często intuicja całkowicie się psuje. istnieje wiele wysokowymiarowych wersji problemów niskowymiarowych, które wydają się należeć do zupełnie innego świata, w którym wszystko działa inaczej, pomyśl o twierdzeniu Fermata
Aksakal

Odpowiedzi:

14

Spróbuję pomóc ci zrozumieć, dlaczego dodanie wymiarów pomaga klasyfikatorowi liniowemu lepiej oddzielić dwie klasy.

X1X2)n=3)

n = 3

Teraz wyobraź sobie, że przypisujesz niektóre punkty do klasy 1, a niektóre do klasy 2. Zauważ, że bez względu na to, jak przypisujemy klasy do punktów, zawsze możemy narysować linię, która doskonale oddziela dwie klasy.

Ale teraz powiedzmy, że dodajemy nowy punkt:

n = 4

p=2)

X3)

p = 3, n = 4

p=3)n=4

pp+1

np

fanfanfafapfan=p+1fapzmienne, to może zniszczyć dowolną liczbę punktów. To pojęcie rozbicia, które mówi nam o złożoności zestawu możliwych klasyfikatorów, wywodzi się z teorii uczenia statystycznego i może być użyte do wyrażenia stwierdzenia o stopniu przeregulowania, jaki może zrobić zestaw klasyfikatorów. Jeśli jesteś zainteresowany, gorąco polecam Luxburg i Schölkopf „Statystyczna teoria uczenia się: modele, koncepcje i wyniki” (2008).

jld
źródło
wielkie dzięki za szczegółową odpowiedź, naprawdę pomogło mi to lepiej zrozumieć ideę funkcji wielowymiarowych i intuicyjnie je rozdzielić.
TheGoat
7

Łatwo jest popełnić błąd, gdy weźmiesz intuicję na temat przestrzeni o małych wymiarach i zastosujesz ją do przestrzeni o dużych wymiarach. Twoja intuicja jest w tym przypadku dokładnie odwrócona. O wiele łatwiej jest znaleźć oddzielającą hiperpłaszczyznę w przestrzeni o wyższych wymiarach niż w przestrzeni o niższych wymiarach.

Chociaż patrząc na dwie dowolne pary zmiennych, rozkłady czerwony i niebieski nakładają się na siebie, jednak patrząc na wszystkie 15 zmiennych jednocześnie, bardzo możliwe, że się nie pokrywają.

Aaron
źródło
2

Masz 15 zmiennych, ale nie wszystkie z nich są równie istotne dla rozróżnienia zmiennej zależnej (niektóre z nich mogą nawet być nieistotne).

Analiza głównych składników (PCA) przelicza liniowo podstawę tych 15 zmiennych i porządkuje je w taki sposób, aby pierwsze kilka składników zazwyczaj wyjaśniało większość wariancji. Pozwala to więc zredukować problem 15-wymiarowy do (powiedzmy) problemu 2,3,4 lub 5-wymiarowego. Dlatego sprawia, że ​​knowanie jest bardziej intuicyjne; zazwyczaj można użyć dwóch lub trzech osi dla zmiennych numerycznych (lub porządkowych o dużej liczności), a następnie użyć koloru znacznika, kształtu i rozmiaru dla trzech dodatkowych wymiarów (być może więcej, jeśli można połączyć porządki o niskiej liczności). Tak więc kreślenie z 6 najważniejszymi komputerami PC powinno dać wyraźniejszą wizualizację powierzchni decyzyjnej.

smci
źródło