Próbuję zrozumieć, w jaki sposób wszystkie komponenty „big data” grają razem w rzeczywistym świecie, np. Hadoop, monogodb / nosql, storm, kafka, ... Wiem, że jest to dość szeroka gama narzędzi używanych do różne typy, ale chciałbym dowiedzieć się więcej o ich interakcji w aplikacjach, np. myślenie maszynowe dla aplikacji, aplikacji internetowej, sklepu internetowego.
Mam vistors / sesję, dane transakcji itp. I przechowuję je; ale jeśli chcę formułować rekomendacje w locie, nie mogę uruchamiać wolnych zadań mapowania / zmniejszania w tym przypadku w jakiejś dużej bazie danych dzienników. Gdzie mogę dowiedzieć się więcej na temat aspektów infrastruktury? Myślę, że mogę korzystać z większości narzędzi samodzielnie, ale podłączanie ich do siebie wydaje się być sztuką samą w sobie.
Czy są dostępne jakieś publiczne przykłady / przypadki użycia itp.? Rozumiem, że poszczególne potoki silnie zależą od przypadku użycia i użytkownika, ale tylko przykłady prawdopodobnie będą dla mnie bardzo przydatne.
Odpowiedzi:
Aby zrozumieć różnorodność sposobów uczenia maszynowego w aplikacjach produkcyjnych, uważam, że warto przyjrzeć się projektom typu open source oraz artykułom / postom na blogach firm opisujących ich infrastrukturę.
Wspólnym tematem tych systemów jest oddzielenie szkolenia modelowego od zastosowania modelu. W systemach produkcyjnych aplikacja modelu musi być szybka, rzędu 100s ms, ale jest większa swoboda w tym, jak często parametry modelu (lub równoważne) muszą być aktualizowane.
Ludzie używają szerokiej gamy rozwiązań do szkolenia modeli i wdrażania:
Zbuduj model, a następnie wyeksportuj i wdróż go za pomocą PMML
Zbuduj model w MapReduce i uzyskaj dostęp do wartości w systemie niestandardowym
Użyj systemu online, który pozwala na ciągłą aktualizację parametrów modelu.
źródło
Jednym z najbardziej szczegółowych i jasnych wyjaśnień dotyczących konfigurowania złożonego potoku analitycznego są ludzie z Twitcha .
Podają szczegółowe motywy każdego z wyborów architektury w zakresie gromadzenia, transportu, koordynacji, przetwarzania, przechowywania i wyszukiwania danych.
Przekonująca lektura! Znajdź to tutaj i tutaj .
źródło
Zarówno Airbnb, jak i Etsy opublikowały niedawno szczegółowe informacje o swoich przepływach pracy.
źródło
Rozdział 1 Praktycznej analizy danych w języku R ( http://www.manning.com/zumel/ ) zawiera świetny podział na proces analizy danych, w tym role zespołów i ich związek z określonymi zadaniami. Książka jest zgodna z modelami przedstawionymi w rozdziale, wskazując, na których etapach / personelu będzie wykonywane to lub inne zadanie.
źródło