Próbuję wykryć i sklasyfikować dźwięki bez mowy. Obecnie używam serii ruchomych nakładających się widm mocy z dźwięków treningowych jako funkcji, których szukam.
Kiedy analizuję, po prostu obliczam tę samą liczbę nakładających się widm, aby liczba funkcji była taka sama. W tej chwili wydajność nie jest zbyt dobra, może wykryć tylko ciszę kontra brak ciszy.
Jakie są techniki wykrywania tego typu sygnału? Jedną z moich obaw jest to, że dla dźwięków o różnych długościach w dziedzinie czasu powstałyby różne długości wektorów cech, które więc nie mogę użyć tego samego klasyfikatora, utknąłem na tym.