Mam do czynienia z problemem klasyfikacji tekstu. Przeszukiwacz sieciowy indeksuje strony określonej domeny i dla każdej strony chcę dowiedzieć się, czy należy ona do jednej konkretnej klasy, czy nie. Oznacza to, że jeśli nazwiebym tę klasę jako Pozytywna , każda zaindeksowana strona internetowa należy albo do klasy Pozytywnej, albo do klasy Nie-dodatniej .
Mam już duży zestaw stron szkoleniowych dla klasy Positive . Ale jak stworzyć zestaw szkoleniowy dla klasy Nie-Pozytywny, który jest tak reprezentatywny, jak to możliwe? Mam na myśli, że mógłbym zasadniczo użyć każdego z nich do tej klasy. Czy mogę po prostu zebrać dowolne strony, które zdecydowanie nie należą do klasy Positive ? Jestem pewien, że wydajność algorytmu klasyfikacji tekstu (wolę korzystać z algorytmu Naive Bayes) w dużym stopniu zależy od tego, które strony wybiorę dla klasy Nie-Pozytywne .
Co mam więc zrobić? Czy ktoś może mi doradzić? Dziękuję Ci bardzo!
źródło
Odpowiedzi:
EM algorytm Spy rozwiązuje ten problem dokładnie.
Podstawową ideą jest połączenie pozytywnego zestawu z całą masą losowo przeszukanych dokumentów. Początkowo traktujesz wszystkie zindeksowane dokumenty jako klasę negatywną i uczysz się naiwnego klasyfikatora Bayesa na tym zestawie. Teraz niektóre z tych zindeksowanych dokumentów będą faktycznie pozytywne, a Ty możesz zachowawczo ponownie etykietować wszystkie dokumenty, które uzyskały ocenę wyższą niż dokument prawdziwie pozytywny o najniższej ocenie Następnie powtarzaj ten proces, aż się ustabilizuje.
źródło
Oto dobra teza o klasyfikacji jednoklasowej:
Teza ta wprowadza metodę SVDD (ang. Support Vector Data Description), jednoklasową maszynę wektorów wsparcia, która znajduje wokół minimalnych hipersferę wokół danych zamiast hiperpłaszczyzny, która oddziela dane.
Teza ocenia także inne klasyfikatory jednoklasowe.
źródło
Dobre szkolenie wymaga danych, które zapewniają dobre oszacowania prawdopodobieństwa poszczególnych klas. Każdy problem z klasyfikacją obejmuje co najmniej dwie klasy. W twoim przypadku drugą klasą jest każdy, kto nie należy do klasy pozytywnej. Aby stworzyć dobrą granicę decyzyjną za pomocą Bayesa lub innej dobrej metody, najlepiej wykonać tyle danych treningowych losowo wybranych z klasy. Jeśli wybierzesz nieprzypadkowy, możesz uzyskać próbkę, która tak naprawdę nie odzwierciedla kształtu klasowych gęstości / rozkładów warunkowych i może prowadzić do złego wyboru granicy decyzji.
źródło
Zgadzam się z Michaelem.
Jeśli chodzi o twoje pytanie dotyczące losowego wyboru; tak: musisz wybierać losowo z komplementarnego zestawu swoich „pozytywów”. Jeśli istnieje jakieś zamieszanie, że możliwe jest, że twoje „pozytywy” nie są w pełni zdefiniowane jako „czysto pozytywne”, jeśli mogę użyć tego wyrażenia, możesz także spróbować przynajmniej jakiejś dopasowanej definicji pozytywów, abyś mógł kontrola nad tymi zmiennymi, które potencjalnie powodują pewne zanieczyszczenie definicji „dodatniej”. W takim przypadku musisz odpowiednio dopasować te same zmienne po stronie „nie dodatniej”.
źródło
Artykuł, który może być interesujący to:
Który przyjmuje metodę przypisywania tekstu do zbioru autorów i rozszerza go, aby wykorzystać możliwość, że prawdziwego autora nie ma w zestawie kandydackim. Nawet jeśli nie użyjesz metody NSC, pomysły zawarte w artykule mogą być przydatne w zastanowieniu się, jak postępować.
źródło