Jak zrozumieć splotową sieć głębokich przekonań do klasyfikacji audio?

11

W „ Konwolucyjnych sieciach głębokiego przekonania dla skalowalnego, bez nadzoru uczenia się reprezentacji hierarchicznych ” Lee i in. al. ( PDF ) Proponowane są konwergentne DBN. Oceniana jest również metoda klasyfikacji obrazów. Brzmi to logicznie, ponieważ istnieją naturalne lokalne funkcje obrazu, takie jak małe rogi i krawędzie itp.

W „ Nienadzorowanym uczeniu się funkcji klasyfikacji dźwięków przy użyciu sieci głębokich przekonań splotowych ” Lee i in. glin. ta metoda jest stosowana do audio w różnych typach klasyfikacji. Identyfikacja mówcy, identyfikacja płci, klasyfikacja telefonu, a także klasyfikacja gatunków / wykonawców.

Jak interpretować splotową część tej sieci jako audio, tak jak można to wytłumaczyć dla obrazów jako krawędzie?

Peter Smit
źródło
Kto ma kod papieru?

Odpowiedzi:

9

Aplikacja audio jest jednowymiarowym uproszczeniem dwuwymiarowego problemu klasyfikacji obrazu. Fonem (na przykład) jest analogiem audio funkcji obrazu, takiej jak krawędź lub okrąg. W obu przypadkach cechy te mają istotną lokalizację: charakteryzują się wartościami w stosunkowo niewielkim sąsiedztwie lokalizacji obrazu lub momentu mowy. Zwoje są kontrolowaną, regularną formą ważonego uśredniania wartości w lokalnych dzielnicach. Z tego wynika nadzieja, że splotowa forma DBN może z powodzeniem identyfikować i wyróżniać istotne cechy.

Whuber
źródło
1

W przypadku zastosowania konwergentnego RBM do danych audio, autorzy najpierw wzięli krótkoterminową transformację Fouriera, a następnie zdefiniowali pasma energii w widmie. Następnie zastosowali splotowe RBM na tym przekształconym dźwięku.

użytkownik1915348
źródło