Od dłuższego czasu lubię czytać ServerFault i na Hadoop natknąłem się na całkiem sporo tematów. Miałem mały problem z ustaleniem, co robi z globalnego punktu widzenia.
Więc moje pytanie jest dość proste: co to jest Hadoop? Co to robi ? Do czego jest to używane ? Dlaczego kopie tyłek?
Edycja: Jeśli ktoś miałby demonstracje / wyjaśnienia przypadków użycia, w których zastosowano Hadoop, byłoby to fantastyczne.
Odpowiedzi:
Prosto z pyska konia :
Map / Reduce to paradygmat programowania, który został upowszechniony przez Google, w którym zadanie jest podzielone na małe porcje i rozdzielone na dużą liczbę węzłów do przetworzenia (mapa), a następnie wyniki są podsumowane do ostatecznej odpowiedzi (zmniejszenie ). Google i Yahoo używają tego między innymi do swoich technologii wyszukiwarek.
Hadoop to ogólne środowisko do wdrażania tego rodzaju schematu przetwarzania. Co do tego, dlaczego kopie tyłek, głównie dlatego, że zapewnia schludne funkcje, takie jak odporność na awarie i pozwala zgromadzić prawie każdy rodzaj sprzętu do przetwarzania. Skaluje się również bardzo dobrze, pod warunkiem, że Twój problem pasuje do paradygmatu.
Możesz przeczytać o tym wszystko na stronie internetowej .
Jeśli chodzi o niektóre przykłady, Paul podał kilka, ale oto kilka innych, które możesz zrobić, które nie są tak skoncentrowane na Internecie:
a następnie wyniki są podsumowywane w kroku „zmniejszania”.
Zasadniczo model działa bardzo dobrze w przypadku problemu, który można podzielić na podobne dyskretne obliczenia, które są całkowicie niezależne i mogą zostać ponownie połączone w celu uzyskania ostatecznego wyniku.
źródło
Cloudera ma świetne filmy, które wyjaśniają zasady Map Reduce i Hadoop.
http://www.cloudera.com/hadoop-training-basic
Jednym z podstawowych pomysłów MapReduce jest to, że w przypadku dużych zestawów danych będziesz związany na swoich dyskach, więc w Hadoop HDFS daje możliwość podziału rzeczy na wiele węzłów, umożliwiając równoległe przetwarzanie.
Niektóre zastosowania Hadoop będące przedmiotem zainteresowania administratorów systemów często dotyczą przetwarzania dużych zestawów plików dziennika - mogę opublikować tylko jeden link, ale obejmują one: Google powinien znaleźć te:
źródło
Początkowo hadoop został opracowany dla dużej ilości zestawów danych w środowisku OLAP.
Dzięki wprowadzeniu Hbase na hadoop trzcina może być również używana do przetwarzania OLAP. Hadoop to framework ze wszystkimi podskładnikami, takimi jak redukcja map, hdfs, hbase, pig.
Jeśli pierwszy, to artykuł z podstawową hadoopem w Dlaczego Hadoop .
W Hadoop przechowywanie danych w postaci plików, a nie w tabelach, kolumnach.
źródło