Prawie wylądowałem na Cassandrze po moich badaniach nad rozwiązaniami do przechowywania danych na dużą skalę. Ale ogólnie mówi się, że Hbase jest lepszym rozwiązaniem do przetwarzania i analizy danych na dużą skalę.
Chociaż oba są tym samym magazynem kluczy / wartości i oba są / mogą działać (ostatnio Cassandra) warstwa Hadoop, to co sprawia, że Hadoop jest lepszym kandydatem, gdy wymagane jest przetwarzanie / analiza dużych danych.
Znalazłem również dobre szczegóły na temat obu na http://ria101.wordpress.com/2010/02/24/hbase-vs-cassandra-why-we-moved/
ale wciąż szukam konkretnych zalet Hbase.
Chociaż jestem bardziej przekonany o Cassandrze ze względu na prostotę dodawania węzłów i bezproblemową replikację oraz brak funkcji punktu awarii. Zachowuje również funkcję dodatkowego indeksu, więc jest to dobry plus.
Powodem używania klastrów hBase 100 węzłów nie jest to, że HBase nie skaluje się do większych rozmiarów. Dzieje się tak, ponieważ łatwiej jest wykonywać aktualizacje oprogramowania hBase / HDFS w sposób ciągły bez wyłączania całej usługi. Innym powodem jest zapobieganie temu, by pojedynczy NameNode był SPOFem dla całej usługi. Ponadto HBase jest używany w różnych usługach (nie tylko w komunikatach FB) i rozsądne jest podejście ograniczające pliki cookie do konfigurowania wielu klastrów HBase w oparciu o podejście 100-węzłowe. Liczba 100 jest ad hoc, nie skupialiśmy się na tym, czy 100 jest optymalne, czy nie.
źródło