Użyj liblinear na dużych danych do analizy semantycznej

17

Używam Libsvm do trenowania danych i przewidywania klasyfikacji problemu analizy semantycznej . Ma jednak problem z wydajnością danych na dużą skalę, ponieważ analiza semantyczna dotyczy problemu n-wymiarowego .

W ubiegłym roku Liblinear został wydany i może rozwiązać wąskie gardło wydajności. Ale to kosztowało zbyt dużo pamięci . Czy MapReduce to jedyny sposób rozwiązania problemu analizy semantycznej dużych zbiorów danych? A może istnieją inne metody, które mogą poprawić wąskie gardło pamięci w Liblinear ?

Maskonur GDI
źródło

Odpowiedzi:

11

Zauważ, że istnieje wczesna wersja LIBLINEAR przeniesiona do Apache Spark . Zobacz komentarze na liście mailowej, aby uzyskać wczesne szczegóły oraz stronę projektu .

Sean Owen
źródło
Dziękuję za odpowiedź. Wygląda inaczej niż SVM. Zbadam to. :)
Maskonur GDI
4
Przypomnienie, że nie zachęcamy do łączenia się poza witryną z odpowiedzią, ponieważ łatwo się psuje, powodując, że przydatne zasoby społecznościowe zamieniają się w ślepy zaułek. Zawsze najlepiej jest umieścić odpowiedź bezpośrednio w swoim poście.
Ana
1
Zgadzam się z tym. W tym momencie i tak ledwo istnieje jako więcej niż to łącze. Dodam link do projektu bazowego.
Sean Owen
10

Możesz sprawdzić ślubny wabbit . Jest dość popularny w nauczaniu na dużą skalę i obejmuje równoległe przepisy.

Z ich strony internetowej:

VW to esencja szybkości w uczeniu maszynowym, z łatwością ucząca się na podstawie zbiorów danych terafeature. Poprzez uczenie równoległe może przekroczyć przepustowość dowolnego interfejsu sieciowego jednej maszyny podczas uczenia liniowego, co jest pierwszym spośród algorytmów uczenia się.

Marc Claesen
źródło
1
Open source i trochę wiki. Wygląda dobrze. Dzięki za Twoją sugestię. :)
Maskonur GDI