Mam 12 pozytywnych zestawów treningowych (komórki rakowe leczone lekami z każdym z 12 różnych mechanizmów działania). Dla każdego z tych pozytywnych zestawów treningowych chciałbym wytrenować maszynę wektora nośnego, aby odróżniała ją od ujemnego zestawu o równej wielkości próbkowanego z eksperymentu. Każdy zestaw ma od 1000 do 6000 komórek, a dla każdej komórki jest 476 cech (cechy obrazu), każdy skalowany liniowo do [0, 1].
Używam LIBSVM i jądra Gaussa RGB. Korzystając z pięciokrotnej walidacji krzyżowej, przeprowadziłem wyszukiwanie siatki dla log₂ C ∈ [-5, 15] i log₂ ɣ ∈ [-15, 3]. Wyniki są następujące:
Byłem rozczarowany, że nie ma jednego zestawu parametrów, które dałyby wysoką dokładność dla wszystkich 12 problemów klasyfikacyjnych. Byłem również zaskoczony, że siatki na ogół nie pokazują regionu o wysokiej dokładności otoczonego mniejszymi dokładnościami. Czy to tylko oznacza, że muszę rozszerzyć przestrzeń parametrów wyszukiwania, czy też wyszukiwanie siatki wskazuje, że coś innego jest nie tak?
Odpowiedzi:
Optymalne wartości dla hiper-parametrów będą różne dla różnych uczenia się, musisz je dostroić osobno dla każdego problemu.
Powodem, dla którego nie dostajesz jednego optimum, jest to, że zarówno parametr jądra, jak i parametr regularyzacji kontrolują złożoność modelu. Jeśli C jest mały, otrzymujesz gładki model, podobnie jeśli jądro z jest szerokie, otrzymasz gładki model (ponieważ podstawowe funkcje nie są bardzo lokalne). Oznacza to, że różne kombinacje C i szerokości jądra prowadzą do podobnie złożonych modeli o podobnej wydajności (dlatego otrzymujesz funkcję ukośną na wielu twoich działkach).
Optymalne zależy również od konkretnego doboru zestawu treningowego. Możliwe jest przeregulowanie błędu weryfikacji krzyżowej, więc wybranie hiperparametrów przez weryfikację krzyżową może faktycznie pogorszyć wydajność, jeśli nie będziesz miał szczęścia. Zobacz Cawley i Talbot jakiegoś dyskusji o tym.
Fakt, że hiperparametry mają szeroki zakres wartości, przy którym uzyskuje się podobnie dobre wartości, jest w rzeczywistości dobrą cechą maszyn wektorów wsparcia, ponieważ sugeruje, że nie są one zbyt podatne na nadmierne dopasowanie w wyborze modelu. Jeśli miałeś ostry pik przy optymalnych wartościach, byłoby to złe, ponieważ trudno byłoby go znaleźć przy użyciu skończonego zestawu danych, który zapewniłby niewiarygodne wskazanie, gdzie ten pik rzeczywiście znajduje się.
źródło