Z tego, co rozumiem, DCT ma połowę wielkości bin jako DFT o tym samym rozmiarze N. DFT zawiera również informacje o fazie, ale często nie jest to potrzebne, gdy pożądane jest tylko widmo wielkości.
- Czy można zastosować DCT, aby zapewnić widmo wielkości o podwójnej gęstości (połowa odstępu między binami) w DFT, czy też utracono by informacje poza fazą?
- Co powiesz na 50% pokrycie?
Odpowiedzi:
Tak, DCT może być użyte do zapewnienia widma wielkości o podwójnej gęstości. Nie do końca rozumiem nakładanie się, ale zakładam, że skoro DCT obejmuje mniej, pomyślałeś, że będzie to pokrywać się. Aby udzielić właściwej odpowiedzi na pytanie, pozwólcie, że dokonam szybkiej oceny wykorzystania DCT w głównie przetwarzaniu obrazu.
Najpierw musimy poczynić pewne założenia. Aby korzystać z DCT, musisz mieć prawdziwy sygnał. Jest to z definicji. Podczas gdy mówisz, DCT ma połowę wielkości bin w porównaniu do DFT w rozmiarze N, zakładasz, że sygnał jest sygnałem niskiej częstotliwości. W przeciwnym razie nie tak bardzo.
W przypadku użycia DCT w kompresji, ponieważ DFT obrazu będzie symetryczny, generuje nadmiarową informację (wystarczy jedno lustro boczne, aby odtworzyć sygnał). Dlatego jądro DCT jest używane do tworzenia gęstszych informacji w porównaniu do DFT. Dotyczy to również sygnałów audio o niskiej częstotliwości, można z nich korzystać w ten sam sposób. Chociaż jest gęstszy, współczynniki stają się większe, ponieważ jądro DCT obejmuje obie strony (rzeczywistą i urojoną część) sygnału.
Specjalizuję się w przetwarzaniu obrazów, więc próbowałem zmapować koncepcje i objaśnienia DCT i DFT w przetwarzaniu obrazów. Jedną różnicą między obrazem a dźwiękiem mogą być jednak rozmiary. W przetwarzaniu obrazu znasz rozmiary (wiersz i kolumny dla FFT i innych celów przetwarzania). Myślę, że trzeba jakoś podzielić wektor danych audio, aby móc dalej przetwarzać. Bez znajomości danych może to być kłopotliwe (nie jestem pewien).
Oto zdjęcie zrobione z sieci, ale nie zapisałem go tam, gdzie je wziąłem, może być wikipedia .;
Jak widać, przetworzony obraz jest reprezentowany w DCT przez spektrum wielkości bez problemu. W bardziej zwarty i gęstszy sposób i spójrz na wielkość współczynników. Jest większy niż dwa razy DFT. DFT jest symetryczny, możesz po prostu podzielić go na dwa. Jedna część jest zbędna. I jeszcze jedno, DCT może przechowywać informacje nie tylko o połowie DFT, ale prawie o jedną czwartą DFT. Tak jest na ogół w przypadku DCT w przypadku DFT w obrazach.
źródło
Z tego pytania rozumiem, że myślisz o przeprowadzeniu przetwarzania lokalnego, blokowego, w formie przesuwnego Fouriera lub spektrogramu.
Jeśli mówimy o widmie wielkości, to oczywiście część fazy (czy to argument złożonego współczynnika Fouriera, czy znak współczynnika DCT) i tak zostanie utracony .
Oczywiście można podłączyć wiele jąder w zamian za okienkową transformatę Fouriera w formule krótkoterminowej Fouriera wyłącznie do analizy. Różne rasy DCT, ich nakładające się wersje (LOT, MDCT), o dobrych właściwościach ortogonalnych i okiennych, można nawet odwrócić (synteza).
W audio często stosuje się (niezłożone) wersje DCT lub nakładające się do analizy, wykrywania początku i wysokości dźwięku (ślepa separacja źródła), na przykład zestaw narzędzi STFT , MDCT i inwersji Matlab autorstwa A. Liutkus. Dużą czas analizy częstotliwości Toolbox (LTFAT) posiada także:
Nie znam dobrze dźwięku. Jednak nakładanie się 50% lub 75% jest bardzo częste i bardzo niewiele osób korzysta z innych ustawień. Jednak bardzo często stosuje się co najmniej dwa rozmiary okien , długi jeden z części stacjonarnej, krótki dla stanu przejściowego, aby pomóc przezwyciężyć ograniczenie częstotliwościowe „jednego okna”.
źródło