Zaproponuj zestawy danych szkoleniowych klasyfikatora tekstu

9

Jakich swobodnie dostępnych zestawów danych mogę użyć do szkolenia klasyfikatora tekstu?

Staramy się zwiększyć zaangażowanie użytkowników, polecając mu najbardziej powiązane treści, więc pomyśleliśmy, że jeśli sklasyfikujemy nasze treści w oparciu o predefiniowany zestaw słów, możemy polecić mu angażujące treści, uzyskując jego opinie na temat losowej liczby postów już sklasyfikowanych przed.

Możemy użyć tych informacji, aby polecić mu puls oznaczony tymi klasami. Ale stwierdziliśmy, że jeśli użyjemy predefiniowanego zestawu słów niezwiązanych z naszą treścią, wektor funkcji będzie pełen zer, również kategorie mogą nie mieć związku z naszą treścią. z tych powodów wypróbowaliśmy inne rozwiązanie, które grupuje nasze treści, nie klasyfikując ich.

Dzięki :)

Abdelmawla
źródło
1
Myślę, że konieczne są dodatkowe szczegóły na temat twojego problemu, zanim ktokolwiek będzie mógł polecić zestaw danych.
Neil Slater,
3
W jakim celu? Filtrowanie spamu? Analiza sentymentów? Bez wyraźnego celu bardzo trudno zasugerować zestaw danych.
lsdr
@lsdr Patrząc na odpowiedzi, wydaje się, że pytanie niekoniecznie potrzebuje więcej szczegółów.
Amir Ali Akbari
@AmirAliAkbari Myślę, że przyszli po edycji. Zresztą zrezygnowałem z mojego głosowania.
Rubens
Bardziej odpowiednim miejscem na to pytanie jest opendata.stackexchange.com
sheldonkreger

Odpowiedzi:

14

Niektóre standardowe zestawy danych do klasyfikacji tekstu to grupa 20-News, Reuters (z klasami 8 i 52) i WebKb. Możesz znaleźć je wszystkie tutaj .

Debasis
źródło
Dzięki :), już go wcześniej odwiedziłem, ale okazało się, że jego klasyfikacje są słabe, nie są wystarczająco abstrakcyjne lub mogą nie być związane z moją treścią
Abdelmawla
5

Tam jest kilka zestawów danych dokonanych za darmo UC Irvine bawić się tutaj . Wśród tych zestawów danych znajduje się kilkadziesiąt zestawów danych tekstowych, które mogą pomóc wam w wykonywaniu zadania.

Są to rodzaj ogólnych zestawów danych, więc w zależności od celu nie powinny być wykorzystywane jako jedyne dane do trenowania modeli, w przeciwnym razie model - choć może działać - nie będzie generował wyników wysokiej jakości.

lsdr
źródło
1

Oprócz powyższych sugestii istnieje niezwykle przydatny plik pdf - Benchmarking Kolekcje tekstów do zadań klasyfikacji i grupowania, który zawiera różne zestawy danych wraz z testami porównawczymi w celu przetestowania naszych modeli. Obejmuje to 20ng Collection, Reuters i wiele wyżej sugerowanych zestawów danych. Mam nadzieję, że to pomoże!

Hima Varsha
źródło