Pytania oznaczone «distributed-computing»

376
Wyjaśniając Apache ZooKeeper

Próbuję zrozumieć ZooKeeper, jak to działa i co robi. Czy jest jakaś aplikacja, która jest porównywalna z ZooKeeper? Jeśli wiesz, to jak opisałbyś ZooKeeper laikowi? Próbowałem wiki apache, zookeeper sourceforge ... ale nadal nie mogę się z tym powiązać. Właśnie przeczytałem...

254
Spark - repartition () vs coalesce ()

Według Learning Spark Pamiętaj, że podział danych na partycje jest dość kosztowną operacją. Spark ma również zoptymalizowaną wersję repartition()wywołania, coalesce()która pozwala uniknąć przenoszenia danych, ale tylko wtedy, gdy zmniejsza się liczbę partycji RDD. Jedną różnicą, którą dostaję,...

127
Oblicz medianę miliarda liczb

Jeśli masz miliard liczb i sto komputerów, jaki jest najlepszy sposób na zlokalizowanie mediany tych liczb? Jedno rozwiązanie, które mam, to: Podziel zestaw równo między komputery. Sortuj je. Znajdź mediany dla każdego zestawu. Sortuj zestawy według środkowych. Połącz dwa zestawy naraz, od...