Maksymalne opóźnienie audio, zanim odtwarzacz zauważy?
38
Biorąc pod uwagę pewne zdarzenie w grze, jakie jest maksymalne opóźnienie w wytwarzaniu dźwięku, aby odtwarzacz prawidłowo powiązał dźwięk z tym wydarzeniem (i nie dostrzega opóźnienia)?
Niewiele. Myślę, że musi to być mniej niż 1/10 sekundy. Chociaż osobiście mógłbym to zauważyć, gdyby było więcej niż kilka klatek przy 60 FPS.
Almo
Nie zapominaj, że w większości przypadków renderowane wyjście będzie miało również pewne opóźnienie, z których część będzie pochodzić z monitora. Wyświetlenie wyniku z odtwarzacza na ekranie może potrwać ponad 100 ms. Zobacz anandtech.com/show/2803
Adam
1
Czas gry na instrumencie to około 20 milisekund, a słuchacz - około 80 milisekund. To tylko moje osobiste doświadczenie, twój przebieg może się różnić.
rwols
Bardziej niż jakikolwiek konkretny czas potrzebujesz spójności. Dopóki wszystko ma takie samo opóźnienie, możesz być w granicach rozsądku. Jeśli wszystko opóźnia się o 100 ms, możesz tego nie zauważyć, ale jeśli niektóre dźwięki są prawie natychmiastowe, a reszta to 100 ms lub coś pomiędzy nimi, zauważysz.
0xFADE
Jeśli jesteś w jakikolwiek sposób zainteresowany jakimś realistycznym zachowaniem, możesz rozważyć opóźnienie wydarzeń odległych od słuchacza jako coś pozytywnego.
Darkwings,
Odpowiedzi:
48
Poniższy wynik obliczono dla synchronizacji warg, która jest uważana za „najbardziej zauważalny błąd synchronizacji audio-wideo ” .
W przypadku aplikacji telewizyjnych dźwięk powinien prowadzić wideo o nie więcej niż 15 milisekund, a dźwięk powinien opóźniać wideo o nie więcej niż 45 milisekund. W przypadku filmu za akceptowalną synchronizację warg uważa się nie więcej niż 22 milisekundy w dowolnym kierunku.
Wyniki eksperymentu wykazały, że średni próg wiodący audio dla detekcji synchronizacji audio / wideo wynosił 185,19 ms, przy standardowym odchyleniu 42,32 ms
Na pierwszy rzut oka wydaje się luźny: +90 ms do -185 ms jako „Okno akceptacji”
i
Niewykrywalny od -100 ms do +25 ms
Wykrywalny przy -125 ms i +45 ms
Staje się nie do przyjęcia przy -185 ms i +90 ms
(- Dźwięk opóźniony, + Dźwięk zaawansowany)
Podsumowując
Wyniki nie są tak odległe od siebie. Wydaje się, że maksymalne dopuszczalne opóźnienie wynosi około 150 ms, czyli 9 klatek przy 60 klatkach na sekundę.
„Jeśli masz opóźnienie, powinno to być opóźnione wideo”. wydaje się, że należy to odwrócić, artykuł ATSC wyraźnie stwierdza, że ludzie oczekują / tolerują dźwięk, który wydarza się nieco po wizycie (ponieważ w rzeczywistości dźwięk opóźnia wzrok o ok. 1 ms na stopę odległości), ale nie kojarzą właściwie zdarzeń jeśli zdarzenie wideo nastąpi po dźwięku.
Peteris
Masz rację, całkowicie źle zrozumiałem. Dziękuję Ci. (Zredagowałem)
Heckel
1
Mogę ci powiedzieć z własnego doświadczenia, że to nawet różni się między uszami tej samej osoby. Mam rzadką chorobę przedsionkową, która faktycznie powoduje, że mój mózg przetwarza stymulację słuchową w lewym uchu, mierzalnie opóźnionym w stosunku do prawego ucha. W zły dzień powoduje to zawroty głowy, ale przez większość czasu jest to do przyjęcia. Tak, to jest bardzo subiektywne.
Andon M. Coleman
Gdzie dostajesz 150ms? Twoje źródła średnio wynoszą około 45ms.
Miles Rout
Wikipedia mówi 45ms, ale niekoniecznie jest to najbardziej wiarygodne źródło. Drugie źródło mówi 185,19 ms, a trzecie 125ms, aż stanie się zauważalne. Czy możesz podać źródło, które pomoże mi zrozumieć, gdzie się mylę?
Heckel
9
To zależy od wydarzenia
Poczucie, że powiedzmy, że eksplozja, którą widzisz i słyszysz, jest pojedynczym zdarzeniem, będzie miała tolerancje opisane w innych odpowiedziach - nie więcej niż ~ 50 ms; niektórzy ludzie mogą być bardziej wrażliwi (np. muzycy), dlatego sugeruję celowanie w 30ms lub nie więcej niż 2 klatki w 60fps.
Uważam, że postrzegana odległość powinna wpływać na te tolerancje. Ludzie oczekują, że odległe dźwięki będą nieco opóźnione, ponieważ w rzeczywistości dźwięk opóźnia się o około 1 ms na każdą stopę odległości. Eksplozja na zmniejszonej „mapie” gry RTS może mieć większą tolerancję na opóźnienie dźwięku niż gracz strzelający z własnej broni w FPS.
Specjalistyczne przypadki, takie jak właściwe wyczucie gry muzycznej / rytmicznej, mogą wymagać znacznie ostrzejszych tolerancji, 15-20 ms lub nawet niższych - na przykład, jeśli gracz słyszy zarówno „akcję wejściową”, jak śpiewanie do mikrofonu lub uderzanie plastikowy instrument, a także dźwięk generowany przez system dla tego samego zdarzenia, wówczas opóźnienie 50 ms spowoduje dziwne miksowanie dźwięków „oryginalnych” i „odtwarzanych”.
Ponadto pamiętaj o opóźnieniu między początkiem pliku audio a „zdarzeniem” w tym pliku audio - w wielu klipach audio „zdarzenie” nie będzie na krawędzi, możesz usłyszeć odgłos błyskawicy uderzenie tam, gdzie „uderzenie” ma miejsce po 200 ms od początku, co byłoby oczywiste dla wszystkich, i prawie wszystkie pliki dźwiękowe, nawet uderzenie w bęben, będą miały pewne opóźnienie.
Nie mierz średnich - spójrz na najgorszy przypadek
Wzrok i słuch są głęboko związane z ludzką percepcją i jeśli jedno z nich jąka się w stosunku do drugiego, będzie to zauważalne. Nie jest w porządku, jeśli przez większość czasu jest bardzo szybki, ale czasami występuje opóźnienie o 0,2 sekundy, gdy coś się ładuje - ludzie zauważą takie sytuacje. To dlatego dźwięk często jest odtwarzany w osobnym wątku, odizolowany od innych działań i po prostu otrzymuje szybkie powiadomienia o tym, które wstępnie załadowane klipy powinny być odtwarzane.
Każda sytuacja, w której odtwarzacz powoduje dźwięk (gry muzyczne, pistolety w FPS), będzie wymagała bardzo małego opóźnienia, ponieważ gracz wysłał impuls, aby to zrobić w tym momencie, tak jak w przypadku muzyka słyszącego opóźnienie instrumentu, będzie szczególnie świadomy bardzo małych opóźnień. Inżynierowie dźwięku martwią się opóźnieniami nagrywania poniżej 5 mS rujnują „groove”
Journal of American Academy of Audiology
stwierdza, że ludzie (nie tylko muzycy), gdy słuchają własnego głosu z opóźnieniem, są świadomi opóźnień tak krótkich jak 3mSec, a opóźnienie dłuższe niż 10 mSec budziło zastrzeżenia przez 90% czasu.
Ludzie wykorzystują opóźnienie czasowe między uszami do uzyskania informacji kierunkowych, dlatego muszą być w stanie przetwarzać i wyodrębniać informacje z opóźnień poniżej 1 m
Cytowane powyżej 185,19 ms jest nieistotne, ponieważ odnosi się do wiodącego błędu dźwięku, a w każdym razie do tego, co ludzie uznali za akceptowalne, gdy biernie oglądają film, a nie aktywnie uczestniczą w grze.
Przyjęta tutaj odpowiedź dotyczy głównie percepcji synchronizacji dźwięku podczas biernego oglądania wideo. W takich przypadkach publiczność nie może łatwo określić dokładnie, kiedy dźwięk powinien być odtwarzany, chyba że uczestniczy w znakach ostrzegawczych w filmie. Oznacza to, że mają ograniczone oczekiwania na dźwięk.
Istnieją dwa ważne przypadki w grach, w których to założenie o niskim oczekiwaniu nie obowiązuje:
Kiedy sam odtwarzacz spowodował dźwięk (jak wskazuje SamB), więc od momentu, gdy zamierzają nacisnąć przycisk, wiedzą dokładnie, kiedy spodziewają się usłyszeć dźwięk.
Kiedy dźwięk ma wylądować na okresowym takcie , jak w grach muzycznych lub cokolwiek z tykającym timerem / licznikiem, ten rytm pozwala graczowi przewidzieć następny dźwięk i zauważyć, że gra się po czasie.
Pavageau opowiada się za wykorzystaniem zwrotnego dźwięku niskiego poziomu, aby uzyskać tego rodzaju precyzję klatek podrzędnych, jeśli chcesz mieć mocno rytmiczną rozgrywkę tej odmiany.
W przypadku gier, które wymagają od osoby reagowania na sygnały dźwiękowe, każda milisekunda, w której dźwięk jest opóźniany, spowoduje również opóźnienie reakcji osoby. Ktoś, kto po prostu ogląda film lub przerywnik filmowy, może nie zauważyć zbyt wiele, jeśli audio i wideo nie są dokładnie zsynchronizowane, ale często jest ważne, a czasem bardzo ważne, aby audio było zsynchronizowane z tym, co powinien robić odtwarzacz .
Teoretycznie wszystko powyżej 50 ms może być zauważalne, jeśli chodzi o skojarzenie ze zdjęciami, w 25 ms możesz zacząć słyszeć dźwięk i jego opóźnienie jako dwa oddzielne dźwięki, więc powiedziałbym, że zdecydowanie zalecam pozostanie poniżej 50 ms, a jeśli może nawet pozostać na poziomie od 5 do 15 ms, byłoby naprawdę miło.
Ta odpowiedź nie dodaje żadnych nowych porad, które nie są jeszcze obecne w istniejących odpowiedziach, więc grozi, że odejdzie jako wtyczka lub reklama danych kontaktowych Twojej firmy. StackExchange nie jest przeznaczony do promowania usług, więc zalecam usunięcie tej części (ludzie mogą cię nadal wyszukać według Twojej nazwy użytkownika) i dodanie bardziej szczegółowych informacji na temat tego, dlaczego zalecasz określone czasy poza tymi, które są zawarte w istniejących odpowiedziach.
DMGregory
Żadna z odpowiedzi, które widzieliśmy, nie była dla nas odpowiednia, jesteśmy zespołem inżynierów dźwięku, a akustyka jest pierwszą rzeczą, której się nauczyliśmy. niektóre odpowiedzi mówiły ponad 100 ms inne, gdzie mówienie -100 i + 85, jak to w ogóle odpowiedź? -50ms lub + 50ms to wciąż 50ms różnicy pomiędzy akcją i dźwiękiem. staramy się pomóc tylko wtedy, gdy podanie e-maila jest obraźliwe, usuniemy go.
X-Raysounds
Zobacz na przykład odpowiedź Peterisa sprzed 3 lat, która daje taką samą bezwzględną górną granicę wynoszącą 50 ms i zaleca niższą wartość, jak ta odpowiedź, lub odniesienie do wykładu Mathieu Pavageau zalecającego 5ms jako idealny cel. Wydaje się, że obejmuje to całą gamę treści zawartych w tej odpowiedzi, chyba że chcesz rozszerzyć zalecenia? Na przykład, jeśli istnieją szczegóły z linku Wikipedii, które uważasz za istotne, dobrą praktyką jest przynajmniej ich podsumowanie w tekście odpowiedzi (na wypadek, gdyby połączona strona uległa zmianie w przyszłości).
DMGregory
Ach, przepraszam za to, że nie przeczytaliśmy wszystkich odpowiedzi, po prostu pomijamy kilka, a potem powiedzieliśmy to, co wiemy i egzekwujemy to za pomocą linku wikipedia, wciąż jesteśmy nowicjuszami na forum, staramy się pomóc w dźwięku powiązane problemy, ale nie znaleźliśmy wiele haha
X-Raysounds
Bez obaw. Coaching nowych użytkowników jest jednym z powodów, dla których te komentarze istnieją. :) Dość szybko zrozumiesz odpowiedzi StackExchange - oznacza to po prostu myślenie o nich jako o długoterminowych zasobach referencyjnych, a nie o odpowiedziach na forum.
Odpowiedzi:
Poniższy wynik obliczono dla synchronizacji warg, która jest uważana za „najbardziej zauważalny błąd synchronizacji audio-wideo ” .
Wikipedia mówi
Laboratorium Mediów i Acoustics skrócie mówi
ATSC mówi
i
Podsumowując
Wyniki nie są tak odległe od siebie. Wydaje się, że maksymalne dopuszczalne opóźnienie wynosi około 150 ms, czyli 9 klatek przy 60 klatkach na sekundę.
źródło
To zależy od wydarzenia
Poczucie, że powiedzmy, że eksplozja, którą widzisz i słyszysz, jest pojedynczym zdarzeniem, będzie miała tolerancje opisane w innych odpowiedziach - nie więcej niż ~ 50 ms; niektórzy ludzie mogą być bardziej wrażliwi (np. muzycy), dlatego sugeruję celowanie w 30ms lub nie więcej niż 2 klatki w 60fps.
Uważam, że postrzegana odległość powinna wpływać na te tolerancje. Ludzie oczekują, że odległe dźwięki będą nieco opóźnione, ponieważ w rzeczywistości dźwięk opóźnia się o około 1 ms na każdą stopę odległości. Eksplozja na zmniejszonej „mapie” gry RTS może mieć większą tolerancję na opóźnienie dźwięku niż gracz strzelający z własnej broni w FPS.
Specjalistyczne przypadki, takie jak właściwe wyczucie gry muzycznej / rytmicznej, mogą wymagać znacznie ostrzejszych tolerancji, 15-20 ms lub nawet niższych - na przykład, jeśli gracz słyszy zarówno „akcję wejściową”, jak śpiewanie do mikrofonu lub uderzanie plastikowy instrument, a także dźwięk generowany przez system dla tego samego zdarzenia, wówczas opóźnienie 50 ms spowoduje dziwne miksowanie dźwięków „oryginalnych” i „odtwarzanych”.
Ponadto pamiętaj o opóźnieniu między początkiem pliku audio a „zdarzeniem” w tym pliku audio - w wielu klipach audio „zdarzenie” nie będzie na krawędzi, możesz usłyszeć odgłos błyskawicy uderzenie tam, gdzie „uderzenie” ma miejsce po 200 ms od początku, co byłoby oczywiste dla wszystkich, i prawie wszystkie pliki dźwiękowe, nawet uderzenie w bęben, będą miały pewne opóźnienie.
Nie mierz średnich - spójrz na najgorszy przypadek
Wzrok i słuch są głęboko związane z ludzką percepcją i jeśli jedno z nich jąka się w stosunku do drugiego, będzie to zauważalne. Nie jest w porządku, jeśli przez większość czasu jest bardzo szybki, ale czasami występuje opóźnienie o 0,2 sekundy, gdy coś się ładuje - ludzie zauważą takie sytuacje. To dlatego dźwięk często jest odtwarzany w osobnym wątku, odizolowany od innych działań i po prostu otrzymuje szybkie powiadomienia o tym, które wstępnie załadowane klipy powinny być odtwarzane.
źródło
Każda sytuacja, w której odtwarzacz powoduje dźwięk (gry muzyczne, pistolety w FPS), będzie wymagała bardzo małego opóźnienia, ponieważ gracz wysłał impuls, aby to zrobić w tym momencie, tak jak w przypadku muzyka słyszącego opóźnienie instrumentu, będzie szczególnie świadomy bardzo małych opóźnień. Inżynierowie dźwięku martwią się opóźnieniami nagrywania poniżej 5 mS rujnują „groove”
Journal of American Academy of Audiology stwierdza, że ludzie (nie tylko muzycy), gdy słuchają własnego głosu z opóźnieniem, są świadomi opóźnień tak krótkich jak 3mSec, a opóźnienie dłuższe niż 10 mSec budziło zastrzeżenia przez 90% czasu.
Ludzie wykorzystują opóźnienie czasowe między uszami do uzyskania informacji kierunkowych, dlatego muszą być w stanie przetwarzać i wyodrębniać informacje z opóźnień poniżej 1 m
Cytowane powyżej 185,19 ms jest nieistotne, ponieważ odnosi się do wiodącego błędu dźwięku, a w każdym razie do tego, co ludzie uznali za akceptowalne, gdy biernie oglądają film, a nie aktywnie uczestniczą w grze.
źródło
Przyjęta tutaj odpowiedź dotyczy głównie percepcji synchronizacji dźwięku podczas biernego oglądania wideo. W takich przypadkach publiczność nie może łatwo określić dokładnie, kiedy dźwięk powinien być odtwarzany, chyba że uczestniczy w znakach ostrzegawczych w filmie. Oznacza to, że mają ograniczone oczekiwania na dźwięk.
Istnieją dwa ważne przypadki w grach, w których to założenie o niskim oczekiwaniu nie obowiązuje:
Kiedy sam odtwarzacz spowodował dźwięk (jak wskazuje SamB), więc od momentu, gdy zamierzają nacisnąć przycisk, wiedzą dokładnie, kiedy spodziewają się usłyszeć dźwięk.
Kiedy dźwięk ma wylądować na okresowym takcie , jak w grach muzycznych lub cokolwiek z tykającym timerem / licznikiem, ten rytm pozwala graczowi przewidzieć następny dźwięk i zauważyć, że gra się po czasie.
W tym wykładzie z GDC 2013 Mathieu Pavageau argumentuje, że gracze mogą dostrzec różnice w precyzji synchronizacji powyżej około 5 ms , o wiele mniej wybaczające niż sugerowałyby to przykłady z synchronizacji warg. Sprawdź sekcje „Przykłady postrzegania czasu” i „Przykład gier Ubisoft”, aby usłyszeć to na własne oczy. Możesz usłyszeć, że menu Rayman Origins nie brzmi „opóźnione” per se po zsynchronizowaniu w ciągu 16 ms (klatka wideo), ale po zsynchronizowaniu w ciągu 5 ms brzmi zauważalnie lepiej i mocniej.
Pavageau opowiada się za wykorzystaniem zwrotnego dźwięku niskiego poziomu, aby uzyskać tego rodzaju precyzję klatek podrzędnych, jeśli chcesz mieć mocno rytmiczną rozgrywkę tej odmiany.
źródło
W przypadku gier, które wymagają od osoby reagowania na sygnały dźwiękowe, każda milisekunda, w której dźwięk jest opóźniany, spowoduje również opóźnienie reakcji osoby. Ktoś, kto po prostu ogląda film lub przerywnik filmowy, może nie zauważyć zbyt wiele, jeśli audio i wideo nie są dokładnie zsynchronizowane, ale często jest ważne, a czasem bardzo ważne, aby audio było zsynchronizowane z tym, co powinien robić odtwarzacz .
źródło
Teoretycznie wszystko powyżej 50 ms może być zauważalne, jeśli chodzi o skojarzenie ze zdjęciami, w 25 ms możesz zacząć słyszeć dźwięk i jego opóźnienie jako dwa oddzielne dźwięki, więc powiedziałbym, że zdecydowanie zalecam pozostanie poniżej 50 ms, a jeśli może nawet pozostać na poziomie od 5 do 15 ms, byłoby naprawdę miło.
Mam nadzieję, że to Ci pomoże!
https://en.wikipedia.org/wiki/Delayed_Auditory_Feedback
źródło