Dlaczego zwiększenie liczby funkcji zmniejsza wydajność?

12

Próbuję uzyskać intuicję, dlaczego zwiększenie liczby funkcji może obniżyć wydajność. Obecnie używam klasyfikatora LDA, który sprawdza się lepiej w przypadku niektórych funkcji, ale gorzej, gdy patrzy się na więcej funkcji. Moja dokładność klasyfikacji jest przeprowadzana przy użyciu stratyfikowanego 10-krotnego xval.

Czy istnieje prosty przypadek, w którym klasyfikator działałby lepiej w trybie jednostronnym niż dwustronnym, aby uzyskać nieco fizyczną lub przestrzenną intuicję dotyczącą tego, co dzieje się w tych wyższych wymiarach?

dvreed77
źródło
8
Krótko mówiąc, dodanie nieistotnych predyktorów może pogorszyć wydajność nowych danych - zwiększona wariancja prognozy (nadmierne dopasowanie). Wynika to z tego, że dopasowujesz się do szumu i osłabiasz „prawdziwy sygnał”.
B_Miner

Odpowiedzi:

9

Zobacz „ Problem wymiarowości: prosty przykład ” - bardzo krótki i bardzo stary artykuł GV Trunk. Uważa problem dwie klasy, z rozkładami Gaussa klasowo uwarunkowane gdzie funkcje są wszystkie istotne, ale wraz ze spadkiem znaczenia. Pokazuje, że poziom błędu klasyfikatora wyszkolonego na skończonej próbce zbiega się do 0,5, podczas gdy błąd Bayesa zbliża się do 0, gdy liczba cech rośnie.

Innuo
źródło
(+1) To urocze małe odniesienie.
kardynał
2

Nazywa się to „ Klątwą wymiarów ”. Nie wiem, czy istnieje jakikolwiek konkretny powód LDA, ale ogólnie biorąc duży wymiar wyników wektora cech z potrzebą bardziej złożonych granic decyzyjnych. Złożone granice wiążą się również z pytaniem „W jakim stopniu?” ponieważ uważamy również, że są nadmiernie dopasowane. Kolejnym aspektem jest to, że wraz z dodatkowymi wymiarami wzrasta złożoność algorytmu uczenia się. W ten sposób praca ze stosunkowo powolnym algorytmem uczenia się z ogromnym wektorem funkcji pogarsza sytuację w pracy. Oprócz wymiaru, który możesz mieć zwiększoną możliwość, mają one skorelowane cechy, w których nie jest dobre dla wielu algorytmów uczenia się, takich jak sieć neuronowa lub niektóre inne.

Możesz liczyć inne powody, które znajdują się pod „Klątwą wymiarowości”, ale faktem jest, że masz wystarczającą liczbę instancji ze zwięzłym wektorem cech, który jest poprzedzany przez niektóre procedury wyboru cech.

erogol
źródło