Duplicate File Scanner

2

Mam sieć magazynową 15 TB, a teraz jestem w stanie obniżyć się do około 2,5 TB (ze względu na dużą liczbę duplikatów). Próbowałem wielu skanerów, ale odniosłem niewielki sukces, ostatecznie wszystkie uległy awarii z powodu ogromnej ilości danych. Czy jest jakiś program, o którym wiesz, że będzie w stanie obsłużyć te duże obciążenia. Nie obchodzi mnie platforma, na której działa.

Dziękuję Ci.

Reid
źródło
To zależy. Na przykład, jeśli masz kopię systemu Windows Server 2008 R2 (nie pamiętam, czy potrzebujesz konkretnego SKU, przepraszam!), To ma on pewne elementy zarządzania plikami, które mogą generować dokładnie takie raporty. Gdybym musiał się z sobą połączyć, prawdopodobnie zrobiłbym coś strasznego z Perlem i skrótami, serializując skróty do plików opartych na oh, nie znam liter alfabetu czy czegoś takiego. Bedzie fajnie.
Mark Allen
Mam system Windows Server 2008 R2, jednak nie korzystałem z niego od jakiegoś czasu, po tym, jak przeszliśmy na serwery Linux. Czy masz zamiar to zrobić?
Reid
1
Jaki program ma robić z duplikatami?
Der Hochstapler
1
Powiedziałbym, że zacznijmy od znalezienia ich. Po tym czasie będę musiał wymyślić jakiś sposób (skrypt napisany samodzielnie), aby porównać wszystkie metadane, a następnie wykonać kopię zapasową plików na niektóre kopie zapasowe HD, a następnie usunąć je z serwerów.
Reid
2
Jakie programy wypróbowałeś bez powodzenia?
Scott McClenning

Odpowiedzi:

2

Jeśli jeszcze tego nie zrobiłeś, możesz obejść swój problem, wbijając więcej pamięci RAM do komputera, na którym działa zduplikowany detektor (zakładając, że nie jest on już wyczerpany). Możesz również obejść problem, dzieląc pozostałe pliki na podzbiory i skanując pary tych podzbiorów, aż spróbujesz każdej kombinacji. Jednak na dłuższą metę może to nie być problemem najlepiej rozwiązanym dzięki programowi z duplikatem detektora, który trzeba okresowo uruchamiać.

Powinieneś zajrzeć do serwera plików za pomocą deduplikacja danych . W skrócie, spowoduje to automatyczne przechowywanie tylko 1 fizycznej kopii każdego pliku, przy czym każda „kopia” jest dowiązana do pojedynczego pliku fizycznego. (Niektóre systemy używają deduplikacji na poziomie bloków zamiast deduplikacji na poziomie plików, ale koncepcja jest taka sama).

Nowsze zaawansowane systemy plików, takie jak ZFS , BTRFS , i lessfs mieć wsparcie deduplikacji, podobnie jak OpenDedup system operacyjny serwera plików. Jeden lub więcej z tych systemów plików może być już dostępnych na serwerach Linux. Windows Storage Server również ma deduplikację. Jeśli masz trochę pieniędzy na ten problem, niektóre komercyjne rozwiązania SAN / NAS mają możliwość deduplikacji.

Pamiętaj jednak, że deduplikacja niekoniecznie pomoże w małych, nieco zmodyfikowanych wersjach tych samych plików. Jeśli ludzie zaśmiecają twoje serwery wieloma wersjami swoich plików w całym miejscu, powinieneś spróbować nakłonić je do lepszego uporządkowania swoich plików i używania systemu kontroli wersji - który zapisuje tylko oryginalny plik i łańcuch przyrostowych różnic.

Aktualizacja:

64 GB powinno wystarczyć na buforowanie co najmniej 1 miliarda wpisów ścieżki pliku sumy kontrolnej w pamięci fizycznej, przy założeniu 128-bitowych sum kontrolnych i średnich metadanych (ścieżka systemu plików, rozmiar pliku, data itp.) Nie więcej niż 52 bajty. Oczywiście system operacyjny zacznie stronicować w pewnym momencie, ale program nie powinien ulec awarii - to znaczy, zakładając, że sam duplikat plików jest aplikacją 64-bitową.

Jeśli wyszukiwarka plików powielonych jest tylko programem 32-bitowym (lub jeśli jest to skrypt działający na interpreterze 32-bitowym), liczba plików, które można przetworzyć, może być znacznie mniejsza, jeśli PAE nie jest włączone: więcej o 63 mln (4 GB / (128 bitów + 52 bajty)), przy takich samych założeniach jak wcześniej. Jeśli masz ponad 63 miliony plików, używasz większej sumy kontrolnej lub jeśli średnie metadane buforowane przez program są większe niż 52 bajty, prawdopodobnie musisz znaleźć 64-bitowy duplikat plików. Oprócz programów sugerowanych przez mgorven (które zakładam, że są dostępne w wersji 64-bitowej lub przynajmniej można je łatwo skompilować), istnieje 64-bitowa wersja DupFiles dostępne dla Windows.

rob
źródło
Pomyślałbym, że 64 GB DDR3 było wystarczająco dobre ... Mamy nasze serwery pamięci masowej dublowane, więc inna witryna, używając RSync. Mój problem polega głównie na tym, że inni ludzie wykonują kopie dużych prezentacji lub innych plików do tworzenia kopii zapasowych lub w inny sposób. Po tym, jak przestrzeń zaczęła się ograniczać, przeszkoliliśmy naszych pracowników, aby „sprzątali lepiej”, ale w międzyczasie szkoda już się skończyła.
Reid
Dzięki za informację. Skonfigurowanie serwera plików z obsługą deduplikacji i po prostu przeniesienie plików, które skutecznie scalą wszystkie duplikaty i automatycznie zaadresują przypadki, w których użytkownicy wykonują kopie swoich plików. To może nie być praktyczne teraz, ale powinieneś rozważyć to przy następnym rozszerzeniu pamięci. Pomyślałem o innym problemie, który może, ale nie musi, dotyczyć awarii duplikatów plików i dodać go do mojej odpowiedzi.
rob
2

Czy próbowałeś rdfind , fdupes i znaleźć z fslint ?

mgorven
źródło
Findup jest jedynym na twojej liście, którego próbowałem, ale spróbuję z lekką instalacją linuxa na wirtualnym klastrze. Dziękuję Ci.
Reid
To starożytny post, ale proszę rozważyć rozszerzenie odpowiedzi. Samo wskazanie produktu nie jest uważane za odpowiedź według obecnych standardów, ponieważ nie wskazuje niczego na temat tego, dlaczego jest to dobre rozwiązanie lub jak osiągnąć rozwiązanie. Dobre wskazówki dotyczące rekomendowania oprogramowania tutaj . Dzięki.
fixer1234