Jakich swobodnie dostępnych zestawów danych mogę użyć do szkolenia klasyfikatora tekstu?
Staramy się zwiększyć zaangażowanie użytkowników, polecając mu najbardziej powiązane treści, więc pomyśleliśmy, że jeśli sklasyfikujemy nasze treści w oparciu o predefiniowany zestaw słów, możemy polecić mu angażujące treści, uzyskując jego opinie na temat losowej liczby postów już sklasyfikowanych przed.
Możemy użyć tych informacji, aby polecić mu puls oznaczony tymi klasami. Ale stwierdziliśmy, że jeśli użyjemy predefiniowanego zestawu słów niezwiązanych z naszą treścią, wektor funkcji będzie pełen zer, również kategorie mogą nie mieć związku z naszą treścią. z tych powodów wypróbowaliśmy inne rozwiązanie, które grupuje nasze treści, nie klasyfikując ich.
Dzięki :)
źródło
Odpowiedzi:
Niektóre standardowe zestawy danych do klasyfikacji tekstu to grupa 20-News, Reuters (z klasami 8 i 52) i WebKb. Możesz znaleźć je wszystkie tutaj .
źródło
Jedna z najczęściej używanych kolekcji testów do badań kategoryzacji tekstu (link poniżej). Używałem wiele razy. Życzymy miłej eksploracji :)
http://www.daviddlewis.com/resources/testcollections/reuters21578/ lub http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
źródło
Tam jest kilka zestawów danych dokonanych za darmo UC Irvine bawić się tutaj . Wśród tych zestawów danych znajduje się kilkadziesiąt zestawów danych tekstowych, które mogą pomóc wam w wykonywaniu zadania.
Są to rodzaj ogólnych zestawów danych, więc w zależności od celu nie powinny być wykorzystywane jako jedyne dane do trenowania modeli, w przeciwnym razie model - choć może działać - nie będzie generował wyników wysokiej jakości.
źródło
Oprócz powyższych sugestii istnieje niezwykle przydatny plik pdf - Benchmarking Kolekcje tekstów do zadań klasyfikacji i grupowania, który zawiera różne zestawy danych wraz z testami porównawczymi w celu przetestowania naszych modeli. Obejmuje to 20ng Collection, Reuters i wiele wyżej sugerowanych zestawów danych. Mam nadzieję, że to pomoże!
źródło