Ostatnio pracuję z dużymi zestawami danych i znalazłem wiele artykułów na temat metod przesyłania strumieniowego. By wymienić tylko kilka:
- Follow-the-Regularized-Leader and Mirror Descent: The Equivalence Theorems and L1 Regularization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- Streaming Learning: One-Pass SVMs ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- Pegasos: Primal Estimated sub-GrAdient SOlver for SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- lub tutaj: czy SVM może strumieniowo uczyć się jednego przykładu na raz?
- Streaming Losowe lasy ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
Nie udało mi się jednak znaleźć żadnej dokumentacji dotyczącej ich porównania. Każdy artykuł, który czytam, wydaje się przeprowadzać eksperymenty na innym zbiorze danych.
Wiem o sofii-ml, ślubnej wabbit, ale wydaje się, że wdrażają bardzo niewiele metod, w porównaniu do ogromnej liczby istniejących metod!
Czy mniej popularne algorytmy nie są wystarczająco wydajne? Czy jest jakaś praca, która próbuje przejrzeć jak najwięcej metod?
machine-learning
references
large-data
online
RUser4512
źródło
źródło
Odpowiedzi:
Rygorystyczne badanie wielu algorytmów podobnych do papieru Delgado, który połączyłeś, nie jest dostępne, o ile wiem, ale starano się zebrać wyniki dla rodzin algorytmów.
Oto kilka źródeł, które uważam za przydatne (wyłączenie odpowiedzialności: publikuję w tym obszarze, więc prawdopodobnie jestem stronniczy w wyborze):
Niektóre pakiety oprogramowania:
W razie potrzeby mogę dodać więcej informacji i źródeł. Jak powiedzieli inni, w tej dziedzinie można skorzystać z kompleksowej ankiety.
źródło