Mam sieć magazynową 15 TB, a teraz jestem w stanie obniżyć się do około 2,5 TB (ze względu na dużą liczbę duplikatów). Próbowałem wielu skanerów, ale odniosłem niewielki sukces, ostatecznie wszystkie uległy awarii z powodu ogromnej ilości danych. Czy jest jakiś program, o którym wiesz, że będzie w stanie obsłużyć te duże obciążenia. Nie obchodzi mnie platforma, na której działa.
Dziękuję Ci.
Odpowiedzi:
Jeśli jeszcze tego nie zrobiłeś, możesz obejść swój problem, wbijając więcej pamięci RAM do komputera, na którym działa zduplikowany detektor (zakładając, że nie jest on już wyczerpany). Możesz również obejść problem, dzieląc pozostałe pliki na podzbiory i skanując pary tych podzbiorów, aż spróbujesz każdej kombinacji. Jednak na dłuższą metę może to nie być problemem najlepiej rozwiązanym dzięki programowi z duplikatem detektora, który trzeba okresowo uruchamiać.
Powinieneś zajrzeć do serwera plików za pomocą deduplikacja danych . W skrócie, spowoduje to automatyczne przechowywanie tylko 1 fizycznej kopii każdego pliku, przy czym każda „kopia” jest dowiązana do pojedynczego pliku fizycznego. (Niektóre systemy używają deduplikacji na poziomie bloków zamiast deduplikacji na poziomie plików, ale koncepcja jest taka sama).
Nowsze zaawansowane systemy plików, takie jak ZFS , BTRFS , i lessfs mieć wsparcie deduplikacji, podobnie jak OpenDedup system operacyjny serwera plików. Jeden lub więcej z tych systemów plików może być już dostępnych na serwerach Linux. Windows Storage Server również ma deduplikację. Jeśli masz trochę pieniędzy na ten problem, niektóre komercyjne rozwiązania SAN / NAS mają możliwość deduplikacji.
Pamiętaj jednak, że deduplikacja niekoniecznie pomoże w małych, nieco zmodyfikowanych wersjach tych samych plików. Jeśli ludzie zaśmiecają twoje serwery wieloma wersjami swoich plików w całym miejscu, powinieneś spróbować nakłonić je do lepszego uporządkowania swoich plików i używania systemu kontroli wersji - który zapisuje tylko oryginalny plik i łańcuch przyrostowych różnic.
Aktualizacja:
64 GB powinno wystarczyć na buforowanie co najmniej 1 miliarda wpisów ścieżki pliku sumy kontrolnej w pamięci fizycznej, przy założeniu 128-bitowych sum kontrolnych i średnich metadanych (ścieżka systemu plików, rozmiar pliku, data itp.) Nie więcej niż 52 bajty. Oczywiście system operacyjny zacznie stronicować w pewnym momencie, ale program nie powinien ulec awarii - to znaczy, zakładając, że sam duplikat plików jest aplikacją 64-bitową.
Jeśli wyszukiwarka plików powielonych jest tylko programem 32-bitowym (lub jeśli jest to skrypt działający na interpreterze 32-bitowym), liczba plików, które można przetworzyć, może być znacznie mniejsza, jeśli PAE nie jest włączone: więcej o 63 mln (4 GB / (128 bitów + 52 bajty)), przy takich samych założeniach jak wcześniej. Jeśli masz ponad 63 miliony plików, używasz większej sumy kontrolnej lub jeśli średnie metadane buforowane przez program są większe niż 52 bajty, prawdopodobnie musisz znaleźć 64-bitowy duplikat plików. Oprócz programów sugerowanych przez mgorven (które zakładam, że są dostępne w wersji 64-bitowej lub przynajmniej można je łatwo skompilować), istnieje 64-bitowa wersja DupFiles dostępne dla Windows.
źródło
Czy próbowałeś rdfind , fdupes i znaleźć z fslint ?
źródło