Jak podkreślają Jimmy Lin i Chris Dyer w pierwszym rozdziale swojej książki o intensywnym przetwarzaniu tekstu za pomocą MapReduce , w dużych skalach danych, wydajność różnych algorytmów zbiega się tak, że różnice wydajności praktycznie znikają. Oznacza to, że biorąc pod uwagę wystarczająco duży zestaw danych, algorytm, którego chcesz użyć, jest tym, który jest obliczeniowo tańszy. Różnice w wydajności między algorytmami mają znaczenie tylko w mniejszych skalach danych.
To powiedziawszy, ich książka (link powyżej) i Mining of Massive Datasets Ananda Rajaramana, Jure Leskovec i Jeffrey D. Ullman to prawdopodobnie dwie książki, które również chcesz sprawdzić, zwłaszcza, że są one bezpośrednio związane z MapReduce do celów eksploracji danych.
Jeśli masz dostęp do klastra Hadoop, dałbym Sparkowi spojrzenie. https://spark.apache.org/
źródło
Nikt nie wspomniał o następującym artykule - http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (Andrew Ng jest jednym z autorów)
Sam artykuł dotyczy maszyn wielordzeniowych, ale zasadniczo dotyczy przekształcania problemów z uczeniem maszynowym, tak aby pasowały do wzorca zmniejszania mapy, i mogą być używane w klastrze komputerów. (aby zobaczyć, dlaczego ogólnie nie jest to dobry pomysł, możesz przeczytać ten artykuł - http://arxiv.org/pdf/1006.4990v1.pdf . Ma dobry przegląd).
źródło
Skalowanie uczenia maszynowego : podejścia równoległe i rozproszone to świetna książka autorstwa Johna Langforda i in. glin. który omawia równoległe implementacje nadzorowanych i nienadzorowanych algorytmów. Mówi o MapReduce, zestawach drzew decyzyjnych, równoległych środkach K, równoległym SVM, propagacji przekonań i AD-LDA.
https://www.amazon.com/Scaling-Machine-Learning-Distribut-Approaches/dp/0521192242
źródło