Najnowocześniejsze uczenie się przez streaming

25

Ostatnio pracuję z dużymi zestawami danych i znalazłem wiele artykułów na temat metod przesyłania strumieniowego. By wymienić tylko kilka:

Nie udało mi się jednak znaleźć żadnej dokumentacji dotyczącej ich porównania. Każdy artykuł, który czytam, wydaje się przeprowadzać eksperymenty na innym zbiorze danych.

Wiem o sofii-ml, ślubnej wabbit, ale wydaje się, że wdrażają bardzo niewiele metod, w porównaniu do ogromnej liczby istniejących metod!

Czy mniej popularne algorytmy nie są wystarczająco wydajne? Czy jest jakaś praca, która próbuje przejrzeć jak najwięcej metod?

RUser4512
źródło
7
Jeśli nie ma, powinieneś napisać to sam :)
Chris C
1
rozumiesz, że ludzie ze środowisk akademickich muszą pisać artykuły / wymyślać nowe algorytmy i będą wyszukiwać zbiory danych, na których ich algorytm działa najlepiej. Radziłbym tylko upewnić się, że rozumiesz, jak działa jedna biblioteka, taka jak ślubna-wabbit (tj. Wszystkie parametry itp.).
seanv507
1
W rzeczywistości jest odwrotnie! Zrozumiałem, że ludzie wybrali najlepszy zestaw danych i na ogół milczą na temat tego, w jaki sposób zweryfikowali algorytmy (zarówno swoje, jak i konkurujące metody). Raczej szukam wersji strumieniowej jmlr.org/papers/volume15/delgado14a/delgado14a.pdf
RUser4512
1
Naprawdę podoba Ci się link do JMLR. Sam nie znam podobnego porównania algorytmów przesyłania strumieniowego. Prawdopodobnie dlatego, że przesyłanie strumieniowe jest bardziej niszowe, a także ponieważ trudno jest porównywać klasyfikatory dla statycznych zestawów danych, jeszcze bardziej skomplikowane jest dokonanie rzetelnego porównania danych przesyłanych strumieniowo.
stats0007
1
Chociaż nie odpowiadają one konkretnie na twoje pytanie, dwa powiązane zasoby to: Ocena algorytmów uczących się ze strumieni danych Gama i in., W których omawiane są techniki oceny, oraz MOA (Massive Online Analysis) , platforma open source do eksploracji strumieni danych, która obejmuje umiejętność oceny wydajności.
user77876,

Odpowiedzi:

1

Rygorystyczne badanie wielu algorytmów podobnych do papieru Delgado, który połączyłeś, nie jest dostępne, o ile wiem, ale starano się zebrać wyniki dla rodzin algorytmów.

Oto kilka źródeł, które uważam za przydatne (wyłączenie odpowiedzialności: publikuję w tym obszarze, więc prawdopodobnie jestem stronniczy w wyborze):

Niektóre pakiety oprogramowania:

W razie potrzeby mogę dodać więcej informacji i źródeł. Jak powiedzieli inni, w tej dziedzinie można skorzystać z kompleksowej ankiety.

Bar
źródło