Czy ktoś wie, jak Google lub Yahoo wyszukują słowa kluczowe w odniesieniu do bardzo bardzo dużych ilości danych? Jaką bazę danych lub technologie wykorzystują do tego?
Zajmuje to kilka milisekund, ale zindeksowano ponad miliard stron.
database-design
full-text-search
rkosegi
źródło
źródło
Odpowiedzi:
Jestem pewien, że istnieje kombinacja rzeczy:
dużo - dane są dystrybuowane i replikowane w wielu węzłach i różnych centrach danych
źródło
Gołębie .
Sercem technologii wyszukiwania Google jest PigeonRank ™ , system rankingowy stron internetowych opracowany przez założycieli Google Larry'ego Page'a i Sergeya Brina z Uniwersytetu Stanforda:
źródło
Ważne jest, aby pamiętać o kilku sprawach związanych z Google:
Ich DB jest zastrzeżonym BigTable - został zaprojektowany na zamówienie przez GOOGLE, aby dokładnie odpowiadał ich potrzebom
Ich zastrzeżona baza danych jest zbudowana na swoim zastrzeżonym systemie plików - Google File System - został zaprojektowany ponownie przez GOOGLE , aby można go łatwo rozszerzać za pomocą zwykłego sprzętu. Jak wspomniał Aaron w swojej odpowiedzi, mają dużą liczbę średnich serwerów zamiast niewielkiej liczby bardzo potężnych serwerów.
Przechowują poszczególne tabele na wielu komputerach w celu przyspieszenia dostępu - ich oprogramowanie wie, które dane znajdują się na której maszynie, i zamiast przeszukiwać dysk, aby go zlokalizować, mogą przejść bezpośrednio do serwera z odpowiednimi informacjami.
źródło
Google nie korzysta z tradycyjnej technologii relacyjnych baz danych. Opracował własną technologię, redukcję dużego stołu i mapy. Oryginalne prace badawcze są tutaj: Big Table i Map / Reduce . Interesujący jest również posortowany stół ciągów SSTable .
Podobne technologie są obecnie używane w bazach danych Hadoop i NoSQL .
źródło
Przeczytaj „ In the Plex: Steven Levy : Jak Google myśli, działa i kształtuje nasze życie ”. Ta książka jest fascynującą lekturą na temat wszystkich spraw Google i omawia na wysokim poziomie niektóre technologie i inżynierię stojącą za wyszukiwaniem. Aaron podsumowuje to bardzo dobrze w swojej odpowiedzi, a książka Levy'ego poda więcej szczegółów na temat tego, jak to robią.
źródło