Przykładem dobrej miary separowalności klasowej u uczących się z dyskryminacją liniową jest liniowy współczynnik dyskryminacji Fishera. Czy istnieją inne przydatne wskaźniki pozwalające ustalić, czy zestawy funkcji zapewniają dobrą separację klas między zmiennymi docelowymi? W szczególności jestem zainteresowany znalezieniem dobrych wielowymiarowych atrybutów wejściowych dla maksymalizacji separacji klas docelowych i byłoby miło mieć nieliniową / nieparametryczną miarę, aby szybko ustalić, czy zapewniają dobrą separowalność.
11
Odpowiedzi:
Zmienne znaczenie ważności (VIM) z losowych lasów może być tym, czego szukasz. Krótki przegląd dwóch z nich znajduje się w artykule Przegląd losowej metodologii leśnej i praktycznych wytycznych z naciskiem na biologię obliczeniową i bioinformatykę autorstwa Boulesteix i in.
Idea GIM VIM polega na tym, że otrzymujesz statystyki dotyczące tego, jak często losowy las używał określonego atrybutu jako kryterium podziału. Tutaj najczęściej wybierane są funkcje informacyjne.
Permutacji VIM opiera się na założeniu, że błędów szacunki RF klasyfikatorze są porównywane pomiędzy
Wynikowa różnica w oszacowaniu błędu będzie duża dla ważnych funkcji.
O ile pamiętam, VIM-y mogą być również używane do odkrywania zależności między funkcjami.
źródło
Znalezienie optymalnego zestawu funkcji może być dość kosztowne obliczeniowo. Główne kategorie dostępnych rozwiązań można pogrupować w dwa zestawy: albo przypisać do konkretnego klasyfikatora (opakowania), albo prosty ranking funkcji oparty na niektórych kryteriach (metody filtrowania).
W oparciu o twoje wymagania (szybkie / nieparametryczne / nieliniowe) prawdopodobnie potrzebujesz kandydatów z metod filtrowania. Istnieje sporo przykładów opisanych w literaturze . Na przykład Zysk informacji - który ocenia wartość atrybutu poprzez pomiar przyrostu informacji w odniesieniu do klasy; lub Korelacja, która ocenia wartość atrybutu na podstawie korelacji między atrybutem a klasą.
Metody otoki są powiązane z klasyfikatorem i mogą kończyć się lepszym zestawem funkcji dla interesującego klasyfikatora. Ze względu na swój charakter (pełne szkolenie / testowanie w każdej iteracji) nie można ich uważać za szybkie lub nieparametryczne, ale mogą sobie radzić z nieliniowymi relacjami cech (twoje trzecie wymaganie). Przykładem może być rekurencyjna eliminacja cech oparta na maszynach SVM, a tym samym ukierunkowana na maksymalizację marginesu między klasami, która może poradzić sobie z nieliniowymi relacjami cech (przy użyciu nieliniowego jądra).
źródło