Załóżmy, że mam zestaw instancji z przypisanymi etykietami klas. Nie ma znaczenia, jak te instancje zostały oznaczone, ale jak pewne jest ich członkostwo w klasie. Każde wystąpienie należy do dokładnie jednej klasy. Powiedzmy, że potrafię oszacować pewność przynależności do każdej klasy za pomocą nominalnego atrybutu, który wynosi od 1 do 3 (odpowiednio bardzo niepewne).
Czy istnieje jakiś rodzaj klasyfikatora, który bierze pod uwagę taką miarę pewności, a jeśli tak, to czy jest on dostępny w zestawie narzędzi WEKA?
Wyobrażam sobie, że taka sytuacja zdarza się dość często, na przykład gdy przypadki są klasyfikowane przez ludzi, co nie zawsze jest całkowicie pewne. W moim przypadku muszę klasyfikować obrazy, a czasem obraz może należeć do więcej niż jednej klasy. Jeśli tak się stanie, daję klasie dużą niepewność, ale nadal klasyfikuję ją za pomocą tylko jednej klasy.
A może istnieją inne podejścia do tego problemu bez specjalistycznego klasyfikatora? Np. Biorąc tylko „określone” klasyfikacje na szkolenie? Obawiam się, że w tym przypadku będzie więcej błędnych klasyfikacji, ponieważ przypadki „graniczne” nie są objęte.
źródło
Odpowiedzi:
Przede wszystkim, jak już wyjaśnił @Marc Claesen, półnadzorowana klasyfikacja jest jedną z technik, które pozwalają zająć się sytuacją, w której wiadomo, że klasy są naprawdę odrębne, ale nie masz pewności, do której klasy faktycznie należy sprawa.
Istnieją jednak również powiązane sytuacje, w których „rzeczywistość” nie jest tak jasna, a założenie posiadania naprawdę odrębnych klas nie jest spełnione: przypadki graniczne mogą być rzeczywistością „fizyczną” (patrz poniżej artykuły na temat aplikacji gdzie spełniliśmy taki warunek).
Jest jedno kluczowe założenie dla półnadzorowanych klasyfikatorów , które musisz upewnić się, że jest spełnione: założenie, że w przestrzeni cech granice klas towarzyszą niskiej gęstości próbki . Jest to określane jako założenie klastra.
Nawet jeśli rzeczywistość leżąca u podstaw twoich danych ma odrębne klasy, twój zestaw danych może mieć nieproporcjonalnie więcej przypadków granicznych: np. Jeśli twoja technika klasyfikacji ma na celu klasyfikację trudnych przypadków, podczas gdy jasne i łatwe przypadki nie są interesujące i już twoje dane treningowe odzwierciedlają to sytuacja.
W pełni się z tobą zgadzam, że wykluczenie przypadków granicznych jest często złym pomysłem: usunięcie wszystkich trudnych przypadków kończy się sztucznie łatwym problemem. IMHO jest nawet gorsze, że wykluczenie przypadków granicznych zwykle nie kończy się na szkoleniu modeli, ale przypadki graniczne są również wykluczone z testowania, dlatego testowanie modelu odbywa się tylko w przypadkach łatwych. Dzięki temu nawet nie zdajesz sobie sprawy, że model nie działa dobrze w przypadkach granicznych.
Oto dwa artykuły, które napisaliśmy o problemie różniącym się od twojego tym, że w naszej aplikacji również rzeczywistość może mieć „mieszane” klasy (bardziej ogólna wersja twojego problemu: obejmuje to również niepewność w etykietach referencyjnych).
C. Beleites, K. Geiger, M. Kirsch, SB Sobottka, G. Schackert i R. Salzer: Ramanowa spektroskopowa ocena tkanek gwiaździaka: przy użyciu miękkich informacji odniesienia, Anal. Bioanal. Chem., 400 (2011), 2801 - 2816.
C. Beleites, R. Salzer i V. Sergo:
Walidacja miękkich modeli klasyfikacji przy użyciu członkostwa w klasie częściowej: Rozszerzona koncepcja wrażliwości i spółka zastosowana do klasyfikacji Astrocytoma Tissues
Chemom. Intel. Laboratorium. Syst., 122 (2013), 12–22.
Łącza prowadzą do strony projektu pakietu R, który opracowałem w celu wykonania obliczeń wydajności. Istnieją dalsze linki zarówno do oficjalnej strony internetowej, jak i do moich manuskryptów artykułów. A ja nie był używany dotychczas WEKA, rozumiem, że interfejs do R jest dostępny .
względy praktyczne:
libSVM
tuningowi przez walidację krzyżową, że wszystkie kopie każdego punktu danych muszą być przechowywane w tej samej krotnie walidacji krzyżowej. W ten sposóblibSVM
strojenie prawdopodobnie spowodowałoby masywne dopasowanie modelu.nnet::multinom
).źródło
libsvm
w szczególności. Wlibsvm
autorzy dostarczenie alternatywnej wersji każdej uwalniania, w których klasyfikację przykład ważonego jest możliwe, aby uniknąć tego problemu w ogóle. To właśnie takie rzeczy powodują, że ogólnie używam bibliotek algorytmów bezpośrednio, zamiast opakowań takich jak Weka / scipy / ... csie.ntu.edu.tw/~cjlin/libsvmtools/#weights_for_data_instancesJest to jedno z uogólnień klasyfikacji, którym zajmuje się nauczanie częściowo nadzorowane. Jeśli masz pomiar pewności, możesz zastosować metody, które pozwalają na ważenie instancji treningowych. Im wyższa pewność, tym większa odpowiednia waga wystąpienia. Przykłady takich podejść obejmują SVM ważoną instancją i regresję logistyczną.
Jestem pewien, że weka ma implementacje tych algorytmów. Jeśli wszystko inne zawiedzie, próbkuj wiele wystąpień z wystąpień z dużą pewnością. Możesz zastosować to podejście do tradycyjnego SVM lub LR.
Przykład: SVM
Jeśli się nie mylę, weka ma interfejsy do LIBSVM . LIBSVM pozwala na rozwiązanie SVM ważonego klasą we wszystkich jego wydaniach oraz SVM ważonego instancją w specjalnych wersjach każdego wydania. Zakładam, że weka nie obsługuje tego drugiego (czego potrzebujesz).
SVM ważony klasą minimalizuje następującą funkcję celu:
źródło
Trudność problemu zależy w dużej mierze od tego, jak błędne mogą być niepewne etykiety. Jeśli niepewne etykiety są prawidłowe, powiedzmy, w 90% przypadków, prawdopodobnie można uniknąć regresji logistycznej. Z drugiej strony, jeśli etykiety są prawie w połowie błędne, być może trzeba będzie zastosować specjalne techniki. Oto jeden dźgnięcie, które podjąłem przy bardzo podobnym problemie. (Mieliśmy wiele obserwacji na etykietę, ale poza tym konfiguracja jest dość podobna).
źródło
Miałem krótki bieg z rozpoznawaniem i klasyfikacją obrazów.
Losowe lasy to łatwa w użyciu technika. Wdrożyłem go na R, powinien być również dostępny na Weka. Jednak łatwość użycia przewyższa precyzję przewidywania. Jeśli masz wystarczająco duży zestaw treningowy, możesz sklasyfikować wiele etykiet.
Udało się całkiem dobrze rozpoznać odręczne cyfry, ale jeśli twoje zdjęcia są bardziej złożone, tylko próba powie ci, czy dobrze sobie radzi.
źródło