Deduplikacja na poziomie bloku w systemie Linux

10

NetApp zapewnia deduplikację na poziomie bloku (ASIS). Czy znasz system plików (nawet oparty na FUSE) w systemie Linux (lub OpenSolaris, * BSD), który zapewnia taką samą funkcjonalność?

(Nie interesuje mnie fałszywa deduplikacja, taka jak linki twarde).

Benoit
źródło

Odpowiedzi:

6

Sprawdź system plików lessFS, deduplikacja danych dla systemu Linux. Nadal jest w fazie beta, ale możesz go wypróbować:

http://www.lessfs.com/

Pozdrowienia,

MV

MV
źródło
Świetny ! To wciąż wersja beta, ale na pewno coś na początek.
Benoît
7

Deduplikacja nadchodzi do ZFS na OpenSolaris, ale ta funkcja nie jest obecnie dostępna.

Został prototypowany przez Jeffa Bonwicka i Billa Moore'a ostatniej zimy i pracują nad jego integracją tego lata. Powinien być dostępny w następnej wersji OpenSolaris lub wcześniej, jeśli chcesz bawić się z gałęzią programistów.

3dinfluence
źródło
Zobacz odpowiedź @ jlliagre - jest już dostępna.
James Moore,
4

Dla osób, które mogą nie być zaznajomione z deduplikacją danych, jest to technika, w której dane są analizowane na poziomie pliku (lub bloku, jak sądzę) i gdzie identyczne pliki / bloki w całym systemie plików są zastępowane mniejszym tokenem. Powoduje to znaczne zmniejszenie efektywnego rozmiaru dysku. Można to uznać za formę kopiowania na piśmie . Przeczytaj na niej stronę wiki .

W systemie Linux nie ma systemu plików, o którym słyszałem, że mógłby to zrobić na poziomie deduplikacji, pliku lub bloku. Taka bestia byłaby przydatna, choć dość intensywnie obciążająca procesor.

Matt Simmons
źródło
4

Deduplikacja jest teraz dostępna w ZFS na OpenSolaris (kompilacja 128a i nowsze).

jlliagre
źródło
2

Rok później, ale oto rozwiązanie dla OpenBSD o nazwie Epitome: http://www.peereboom.us/epitome/ . Pod warunkiem, że jest to liberalne licencjonowanie, może równie dobrze dostać się do jądra Linuksa.


źródło
1

Właśnie opublikowałem projekt, nad którym pracowałem, który zawiera wbudowaną deduplikację. Jeśli jesteś zainteresowany, możesz na to spojrzeć tutaj . Opiera się na bezpieczniku i działa na systemie Linux.


źródło
0

Nie znam żadnych darmowych implementacji deduplikacji dla Linuksa. Widziałem niektórych dostawców pamięci masowych, którzy zalecają korzystanie z systemu HSM (hierarchiczne zarządzanie pamięcią masową) z VTL (Virtual Storage Library), która nie działa.

Możesz również rozważyć system podobny do Occariny , który nie jest przejrzysty, ale może zapewnić lepsze wyniki niż deduplikacja.

James
źródło
0

więc ... brak wiadomości o deduplikacji w systemie Linux? opendedup może być wyborem, ale biorąc pod uwagę platformę Java, na której działa, nie chcę mieć bólów głowy. Próbowałem tak, ale ta maszyna Java i reszta nie radzą sobie dobrze z moimi potrzebami w zakresie czasu przechowywania i bezpieczeństwa.


źródło
0

Opcja deduplikacji jest dostępna w systemie Linux na systemach plików BTRFS i ZFS. BTRFS jest natywnie rozwijany pod Linuksem i ma narzędzie do deduplikacji off-line. Nie myślę „offline”, musisz umount fs. Offline oznacza, że ​​aktywnie zapisywane dane nie są deduplikowane. Ale później uruchomisz narzędzie do deduplikacji myśli zapisanych teraz. Właściwie prawdopodobnie narzędzie jest w fazie beta. Innym sposobem jest wewnątrz ZFS. Dostępny jako BEZPIECZNIK i natywnie: http://zfsonlinux.org/ . To robi deduplikację online, niestety to spowolnienie pisze, ponieważ wszystko musi być obliczone w locie. Możesz online wyłączyć i na to zachowanie. Po wyłączeniu deduplikacji wszystkie deduplikowane dane będą nadal przechowywane jako deduplikowane. Nowe zapisy będą przechowywane jako „zduplikowane”. Jeśli chcesz deduplikować te dane w przyszłości, musisz włączyć deduplikację i przepisać wszystkie „zduplikowane” pliki.

Zobacz dokument dostępny na stronie. Aby przyspieszyć zapisy i odczyty, możesz dodać szybsze urządzenia do puli pamięci (szczególnie dyski SDD lub może szybsze flashowanie USB, zwracaj uwagę na niezawodność urządzenia).

Znik
źródło
-2

DRBD właśnie to robi i robi to naprawdę dobrze! Może zrobić Master / Slave lub Master / Master :-)

Antoine Benkemoun
źródło
Czy możesz wskazać mi dokument deduplikacji? Nie mogę go znaleźć na drbd.org/home/feature-list .
Benoît,
Myślę, że Antoine miał na myśli „powielanie”, co nie jest tym, czego szukałeś, wiem
Matt Simmons,
o mój Boże, jaka jest różnica między duplikacją a deduplikacją?
Antoine Benkemoun
W komentarzu zamieściłem szybkie wyjaśnienie, ale zasadniczo duplikacja wysyła dane do innego hosta, gdzie jako deduplikacja eliminuje identyczne informacje w całym systemie plików, zwiększając efektywne wolne miejsce
Matt Simmons