Co to jest Hadoop i do czego służy? [Zamknięte]

28

Od dłuższego czasu lubię czytać ServerFault i na Hadoop natknąłem się na całkiem sporo tematów. Miałem mały problem z ustaleniem, co robi z globalnego punktu widzenia.

Więc moje pytanie jest dość proste: co to jest Hadoop? Co to robi ? Do czego jest to używane ? Dlaczego kopie tyłek?

Edycja: Jeśli ktoś miałby demonstracje / wyjaśnienia przypadków użycia, w których zastosowano Hadoop, byłoby to fantastyczne.

Antoine Benkemoun
źródło
Facebook intensywnie korzysta z Hadoop (tak naprawdę Hive, który jest warstwą na Hadoop). Jest to dobry opis na stronie inżynierii Facebooka. facebook.com/note.php?note_id=89508453919
John Meagher
Hadoop to platforma, która upraszcza przetwarzanie dużej ilości danych ( Big data ), dystrybuując klastry danych między węzłami / serwerami i umożliwiając równoległy przebieg procesu. Ten proces / algorytm jest znany jako MapReduce.
Mr_Green

Odpowiedzi:

26

Prosto z pyska konia :

Hadoop to platforma do uruchamiania aplikacji na dużych klastrach zbudowanych ze sprzętu towarowego. Struktura Hadoop w przejrzysty sposób zapewnia aplikacjom zarówno niezawodność, jak i ruch danych. Hadoop implementuje paradygmat obliczeniowy o nazwie Map / Reduce, w którym aplikacja jest podzielona na wiele małych fragmentów pracy, z których każdy może zostać wykonany lub ponownie wykonany na dowolnym węźle w klastrze. Ponadto zapewnia rozproszony system plików (HDFS), który przechowuje dane w węzłach obliczeniowych, zapewniając bardzo wysoką łączną przepustowość w całym klastrze. Zarówno Map / Reduce, jak i rozproszony system plików są zaprojektowane tak, aby awarie węzłów były automatycznie obsługiwane przez środowisko.

Map / Reduce to paradygmat programowania, który został upowszechniony przez Google, w którym zadanie jest podzielone na małe porcje i rozdzielone na dużą liczbę węzłów do przetworzenia (mapa), a następnie wyniki są podsumowane do ostatecznej odpowiedzi (zmniejszenie ). Google i Yahoo używają tego między innymi do swoich technologii wyszukiwarek.

Hadoop to ogólne środowisko do wdrażania tego rodzaju schematu przetwarzania. Co do tego, dlaczego kopie tyłek, głównie dlatego, że zapewnia schludne funkcje, takie jak odporność na awarie i pozwala zgromadzić prawie każdy rodzaj sprzętu do przetwarzania. Skaluje się również bardzo dobrze, pod warunkiem, że Twój problem pasuje do paradygmatu.

Możesz przeczytać o tym wszystko na stronie internetowej .

Jeśli chodzi o niektóre przykłady, Paul podał kilka, ale oto kilka innych, które możesz zrobić, które nie są tak skoncentrowane na Internecie:

  • Renderowanie filmu 3D. Krok „map” rozdziela geometrię dla każdej ramki do innego węzła, węzły renderują ją, a renderowane ramki są ponownie łączone w kroku „zmniejszania”.
  • Obliczanie energii w układzie w modelu molekularnym. Każda ramka trajektorii systemu jest dystrybuowana do węzła na etapie „mapy”. Węzły obliczają energię dla każdej ramki,
    a następnie wyniki są podsumowywane w kroku „zmniejszania”.

Zasadniczo model działa bardzo dobrze w przypadku problemu, który można podzielić na podobne dyskretne obliczenia, które są całkowicie niezależne i mogą zostać ponownie połączone w celu uzyskania ostatecznego wyniku.

Kamil Kisiel
źródło
Dziękuję za Twoją odpowiedź. Więc w zasadzie wymaga aplikacji (PHP? Java?) I rozkłada je i rozsyła pracę między wieloma węzłami? Jeśli chodzi o HDFS, to jest trochę jak OCFS, z wyjątkiem kilku węzłów?
Antoine Benkemoun
Zainteresowany tym także. Chciałbym jednak zobaczyć bardziej konkretne przykłady prawdziwych słów.
Karolis T.
Tego też szukałem :-)
Antoine Benkemoun
10

Cloudera ma świetne filmy, które wyjaśniają zasady Map Reduce i Hadoop.

http://www.cloudera.com/hadoop-training-basic

Jednym z podstawowych pomysłów MapReduce jest to, że w przypadku dużych zestawów danych będziesz związany na swoich dyskach, więc w Hadoop HDFS daje możliwość podziału rzeczy na wiele węzłów, umożliwiając równoległe przetwarzanie.

Niektóre zastosowania Hadoop będące przedmiotem zainteresowania administratorów systemów często dotyczą przetwarzania dużych zestawów plików dziennika - mogę opublikować tylko jeden link, ale obejmują one: Google powinien znaleźć te:

  1. Zapytanie dziennika poczty Rackspace
  2. Analiza dziennika Apache ze świnią - patrz blog Cloudera
  3. Wieśniak! zwalczać spam

źródło
Ładnie
1

Początkowo hadoop został opracowany dla dużej ilości zestawów danych w środowisku OLAP.

Dzięki wprowadzeniu Hbase na hadoop trzcina może być również używana do przetwarzania OLAP. Hadoop to framework ze wszystkimi podskładnikami, takimi jak redukcja map, hdfs, hbase, pig.

Jeśli pierwszy, to artykuł z podstawową hadoopem w Dlaczego Hadoop .

W Hadoop przechowywanie danych w postaci plików, a nie w tabelach, kolumnach.

Deepak
źródło