Jak podejrzewałem, jest oparty na podsystemie VSS ( źródle ), co wyjaśnia również jego asynchroniczną naturę. Fragmenty odszyfrowane są przechowywane w \System Volume Information\Dedup\ChunkStore\*
, z ustawieniami w \System Volume Information\Dedup\Settings\*
. Ma to znaczący wpływ na to, w jaki sposób oprogramowanie do tworzenia kopii zapasowych współdziała z takimi woluminami, co wyjaśniono w powiązanym artykule (w skrócie: bez obsługi deduplikacji twoje kopie zapasowe będą miały taki sam rozmiar, jak zawsze, przy pomocy deduplikacji będziesz tylko tworzyć kopie zapasowe znacznie mniejszy sklep dedupe).
Jeśli chodzi o zastosowane metody, najlepsze, co mogłem znaleźć, to artykuł badawczy opublikowany przez badacza Microsoft w 2011 r. ( Źródło , pełny tekst ) na konferencji Usenix FAST11. Sekcja 3.3 poświęcona jest deduplikacji w pamięci podstawowej . Wydaje się prawdopodobne, że te dane zostały wykorzystane przy opracowywaniu funkcji deduplikacji NTFS. Ten cytat został wykorzystany:
Algorytm kanoniczny dla bloków treści o zmiennej wielkości to Rabin Fingerprints [25].
W dokumencie jest wiele danych do przeszukania, ale złożoność używanego zestawu narzędzi, w połączeniu z funkcjami, które znamy już w 2012 r., Zdecydowanie sugerują, że do opracowania tych funkcji wykorzystano rozumowanie w dokumencie. Nie wiem na pewno bez artykułów msdn, ale jest to tak blisko, jak na razie możemy się spodziewać.
Porównania wydajności z ZFS będą musiały poczekać, aż testy porównawcze skończą.