Czy można zastosować DCT dla widma wielkości dźwięku zamiast DFT?

13

Z tego, co rozumiem, DCT ma połowę wielkości bin jako DFT o tym samym rozmiarze N. DFT zawiera również informacje o fazie, ale często nie jest to potrzebne, gdy pożądane jest tylko widmo wielkości.

  • Czy można zastosować DCT, aby zapewnić widmo wielkości o podwójnej gęstości (połowa odstępu między binami) w DFT, czy też utracono by informacje poza fazą?
  • Co powiesz na 50% pokrycie?
Jakub
źródło
4
Uważam, że DCT zawiera również informacje o fazie, po prostu nie używa liczb zespolonych. „Prawdziwa FFT” wykorzystuje również połowę pamięci i połowę czasu obliczeniowego dla tej samej informacji, odrzucając identyczne ujemne częstotliwości. „prawdziwa część FFT o podwójnej długości jest taka sama jak DCT, z wyjątkiem przesunięcia fazowego o połowę próbki w funkcjach sinusoidalnych”
endolith
Rzeczywiście, co najmniej znak współczynnika można uznać za fazę ubogiego człowieka
Laurent Duval,

Odpowiedzi:

3

Tak, DCT może być użyte do zapewnienia widma wielkości o podwójnej gęstości. Nie do końca rozumiem nakładanie się, ale zakładam, że skoro DCT obejmuje mniej, pomyślałeś, że będzie to pokrywać się. Aby udzielić właściwej odpowiedzi na pytanie, pozwólcie, że dokonam szybkiej oceny wykorzystania DCT w głównie przetwarzaniu obrazu.

Najpierw musimy poczynić pewne założenia. Aby korzystać z DCT, musisz mieć prawdziwy sygnał. Jest to z definicji. Podczas gdy mówisz, DCT ma połowę wielkości bin w porównaniu do DFT w rozmiarze N, zakładasz, że sygnał jest sygnałem niskiej częstotliwości. W przeciwnym razie nie tak bardzo.

W przypadku użycia DCT w kompresji, ponieważ DFT obrazu będzie symetryczny, generuje nadmiarową informację (wystarczy jedno lustro boczne, aby odtworzyć sygnał). Dlatego jądro DCT jest używane do tworzenia gęstszych informacji w porównaniu do DFT. Dotyczy to również sygnałów audio o niskiej częstotliwości, można z nich korzystać w ten sam sposób. Chociaż jest gęstszy, współczynniki stają się większe, ponieważ jądro DCT obejmuje obie strony (rzeczywistą i urojoną część) sygnału.

Specjalizuję się w przetwarzaniu obrazów, więc próbowałem zmapować koncepcje i objaśnienia DCT i DFT w przetwarzaniu obrazów. Jedną różnicą między obrazem a dźwiękiem mogą być jednak rozmiary. W przetwarzaniu obrazu znasz rozmiary (wiersz i kolumny dla FFT i innych celów przetwarzania). Myślę, że trzeba jakoś podzielić wektor danych audio, aby móc dalej przetwarzać. Bez znajomości danych może to być kłopotliwe (nie jestem pewien).

Oto zdjęcie zrobione z sieci, ale nie zapisałem go tam, gdzie je wziąłem, może być wikipedia .;

Przetwarzanie obrazu

Jak widać, przetworzony obraz jest reprezentowany w DCT przez spektrum wielkości bez problemu. W bardziej zwarty i gęstszy sposób i spójrz na wielkość współczynników. Jest większy niż dwa razy DFT. DFT jest symetryczny, możesz po prostu podzielić go na dwa. Jedna część jest zbędna. I jeszcze jedno, DCT może przechowywać informacje nie tylko o połowie DFT, ale prawie o jedną czwartą DFT. Tak jest na ogół w przypadku DCT w przypadku DFT w obrazach.

Hefajstos
źródło
Czy FFT nie można podzielić na czwarte, ponieważ jest nadmiarowe zarówno w wymiarach X, jak i Y?
endolith,
Dlaczego wygląda na to, że FFT zawiera więcej informacji, a DCT zawiera więcej zer?
endolith,
Pierwsze pytanie, nie do końca rozumiem, co rozumiesz przez wymiary X i Y? Drugie pytanie dotyczy różnicy w jądrach. Nie wygląda na to, że DCT zawiera więcej zer, w rzeczywistości zawiera więcej zer niż normalna transformata Fouriera (DFT). Wynika to z ich różnicy w jądrach.
Hefajstos
Mam na myśli, że obraz jest prawdziwym sygnałem, więc FFT zawiera zbędne informacje. Ujemna połowa FFT jest tylko zwierciadłem dodatniej połowy, w obu wymiarach.
endolith
0
  • Co powiesz na 50% pokrycie?

Z tego pytania rozumiem, że myślisz o przeprowadzeniu przetwarzania lokalnego, blokowego, w formie przesuwnego Fouriera lub spektrogramu.

  • Czy można zastosować DCT, aby zapewnić widmo wielkości o podwójnej gęstości (połowa odstępu między binami) w DFT, czy też utracono by informacje poza fazą?

Jeśli mówimy o widmie wielkości, to oczywiście część fazy (czy to argument złożonego współczynnika Fouriera, czy znak współczynnika DCT) i tak zostanie utracony .

Oczywiście można podłączyć wiele jąder w zamian za okienkową transformatę Fouriera w formule krótkoterminowej Fouriera wyłącznie do analizy. Różne rasy DCT, ich nakładające się wersje (LOT, MDCT), o dobrych właściwościach ortogonalnych i okiennych, można nawet odwrócić (synteza).

W audio często stosuje się (niezłożone) wersje DCT lub nakładające się do analizy, wykrywania początku i wysokości dźwięku (ślepa separacja źródła), na przykład zestaw narzędzi STFT , MDCT i inwersji Matlab autorstwa A. Liutkus. Dużą czas analizy częstotliwości Toolbox (LTFAT) posiada także:

  • Szybkie transformaty TF z liniową skalą czasowo-częstotliwościową: Gabor (STFT), Wilson i MDCT z okienkiem
  • Rzadka regresja w domenie Gabor i WMDCT

Nie znam dobrze dźwięku. Jednak nakładanie się 50% lub 75% jest bardzo częste i bardzo niewiele osób korzysta z innych ustawień. Jednak bardzo często stosuje się co najmniej dwa rozmiary okien , długi jeden z części stacjonarnej, krótki dla stanu przejściowego, aby pomóc przezwyciężyć ograniczenie częstotliwościowe „jednego okna”.

Laurent Duval
źródło