Rozumiem, że metody kompresji można podzielić na dwa główne zestawy:
- światowy
- lokalny
Pierwszy zestaw działa niezależnie od przetwarzanych danych, tzn. Nie opierają się na żadnej charakterystyce danych, a zatem nie muszą wykonywać żadnego przetwarzania wstępnego w żadnej części zestawu danych (przed samą kompresją). Z drugiej strony lokalne metody analizują dane, wyodrębniając informacje, które zwykle poprawiają stopień kompresji.
Czytając o niektórych z tych metod, zauważyłem, że metoda jednoargumentowa nie jest uniwersalna , co mnie zaskoczyło, ponieważ myślałem, że „globalność” i „uniwersalność” odnoszą się do tego samego. Jednolita metoda nie opiera się na charakterystyce danych w celu uzyskania ich kodowania (tj. Jest to metoda globalna), a zatem powinna być globalna / uniwersalna, prawda?
Moje podstawowe pytania:
- Jaka jest różnica między metodami uniwersalnymi a globalnymi?
- Czy te synonimy klasyfikacji nie są synonimami?
źródło
Odpowiedzi:
Rozważ następujący fragment danych:
1010010110100101
Uniwersalny - są to ogólne algorytmy kompresji, które są niezależne od danych. Surowa wersja kodowania długości przebiegu mieściłaby się w tej kategorii. Zaletą jest to, że bardzo szybko kompresuje i dekompresuje. Minusem jest to, że może być bardzo nieskuteczne w zależności od danych do skompresowania.
1111111111111111 -> 16 1 (szczęśliwy przypadek)
1010010110100101 -> 1010010110100101 (nieszczęśliwy przypadek)
Lokalny - ta metoda uwzględnia mniejsze segmenty o stałej długości, powiedzmy 4, szuka wzorców i je kompresuje. Na przykład. Te dane zawierają tylko te dwa typy wzorców - 1010 i 0101. Wzorce te mogą być reprezentowane jako 0 i 1 s, a ogólne dane będą tabelą reprezentującą odwzorowania i czymś w rodzaju 0101. Może to skutkować znacznie mniejszą liczbą skompresowany rozmiar.
1010010110100101 -> 1010 0101 1010 0101 -> 0101 (0 = 1010,1 = 0101)
Globalny - ta metoda sprawdzałaby całe dane i znajdowałaby optymalne / znacznie lepsze wzorce do kompresji danych. Przykładowe dane zawierają tylko jeden wzorzec 10100101 i reprezentują go jako 00 wraz z tabelą odwzorowań. Ma to potencjał uzyskania najmniejszego możliwego rozmiaru skompresowanego, ale jest również najcięższe obliczeniowo.
1010010110100101 -> 10100101 10100101 -> 00 (0 = 10100101)
źródło