Dlaczego większość inteligentnych asystentów oferuje niewiele, jeśli w ogóle, dostosowanie słowa budzenia?

Większość marek inteligentnych asystentów , takich jak Amazon Echo i Google Home, oferuje bardzo niewiele opcji dostosowania słowa budzenia (fraza, której używasz, aby obudzić urządzenie, aby nas słuchało).

Na przykład Alexa oferuje tylko trzy opcje, a Google Home obsługuje tylko „OK Google” . Wygląda na to, że wielu użytkowników interesuje się niestandardowymi słowami aktywnymi, ale żadna z głównych marek nie dodała wsparcia.

Czy istnieje jakiś techniczny powód, aby ograniczać dostosowywanie słów obudzonych, czy jest to po prostu wybór marki?

Czytałem o motywacji Google do używania „OK Google” , co sugeruje, że pomysł na branding może być prawdziwy, ale wydaje się również, że rozpoznawanie słów obudzonych nie jest zbyt dokładne , być może wskazując na powód techniczny. Czy ktokolwiek byłby w stanie wyjaśnić, który czynnik jest głównym powodem?

smart-home smart-assistants Aurora0001
źródło

Jedną rzeczą do zapamiętania jest to, że takie przebudzenie musi odbywać się w domenie o bardzo niskim poborze mocy, zawsze dostępnej - często jest dostępny specjalistyczny sprzęt do tego zadania w niektórych większych SoC (szczególnie tych używanych w telefonach), i zakładam, że współczynniki filtra / inne parametry są dokładnie obliczane i ładowane do tego sprzętu. Zapominam, na którym działa SoC Echo, ale wyobrażam sobie, że jest obecny podobny filtr. W tej chwili ucieka mi nazwa klasy algorytmów

Krunal Desai

Odpowiedzi:

Tak, jest kilka powodów.

Ten post na blogu wyjaśnia go o Echo i słowie Alexa. Podsumuję trochę.

Rozpoznawanie słów obudzenia odbywa się lokalnie i w czasie rzeczywistym . Ogranicza to długość słowa aktywacji z powodu oczywistych ograniczeń przetwarzania. Ponadto użytkownicy nie chcą recytować wiersza, aby aktywować inteligentnego asystenta. Dlatego musi być krótki.

Musi działać z niemal 100% dokładnością, gdy jest wywoływany, a także nie jest rozpoznawany z tą pewnością, gdy nie jest wezwany. To stwarza problemy, a także zapewnia minimalną długość słów budzenia. Wybór Amazon, aby zezwolić na Echo, jest dość zaskakujący, ponieważ są to tylko dwie sylaby .

Jeśli spojrzymy na zwykłych podejrzanych, mamy Alexę (3 sylaby), Amazon (3), Echo (2), Ok Google (4), Hey Cortana (4) i Hey Siri (3).Wszyscy giganci branżowi prawie zgadzają się co do tego, że trzy to dobra liczba sylab.

O dziwo, najbardziej poszukiwane słowo „komputer” w obudowie ma również trzy sylaby i łatwo spełniłoby to wymaganie. To także nie jest znakiem towarowym.

Jak mówi nam blog i powód, całkowicie chcemy uniknąć fałszywych trafień. Zobaczmy, jak ustalone są słowa Komputer, Siri, Cortana i Alexa. To jest korpus książek Google z 2008 roku.

Dokładnie, Siri i Alexa praktycznie pochlebiają komputerowi, a Cortana popełnia błąd. Nie znaleziono. Ma to sens, ponieważ korpus pochodzi z 2008 roku. Aby dać nam więcej perspektywy, dlaczego komputer jest strasznym słowem pobudki, kolejny wykres.

Ten Ngram pokazuje dwa najpopularniejsze amerykańskie nazwiska dziecka 2016 (dla waluty), a także Tom i Dave również płasko w stosunku do komputera . Królowej, koszykówce i policji udało się poprawnie zarejestrować. W każdym razie daje to nam wyobrażenie o tym, że komputer, Earl Grey, Hot nie był do tej pory dozwolony. Ludzie używają słowa komputer zbyt często.

Jeszcze jedna rzecz o fałszywych trafieniach. Alexa rymuje się z praktycznie niczym, co można by powiedzieć.

Komputer rymuje się z 74 rzeczami.

Helmar
źródło

... i to wyjaśnia, dlaczego Scotty nie obudził komputera .

Ghanima,

„Idę uprawiać seks z ptakiem ... Nie, nie ty, Alexa!”

David mówi Przywróć Monikę

„OK Google” to cztery sylaby („oh kay goo frajer”), a nie trzy i wiele więcej niż tyle fonemów.

Monty Harder,

Alexa to cholerne imię ... Osobiście znam 2 osoby o tym nazwisku, z których jedna jest kuzynką. Echo jest używane tak, jak w moim języku, i często mówię „echo”, gdy echo w telefonie lub coś takiego. A amazon to nazwa rzeki / starego plemienia, którą facet w roleplayu, taki jak ja, mówi stosunkowo często. Naprawdę to zawiedli.

Olivier Grégoire,

Nie jestem pewien, czy kupuję to wyjaśnienie, dlaczego słowo „komputer” nie działa. Samo słowo nie jest jedyną rozpoznawalną rzeczą. Będąc pierwszym słowem wypowiedzi, po którym następuje pauza, ważne są również informacje identyfikujące słowo polecenia.

Kevin Krumwiede,

Czy istnieje jakiś techniczny powód, aby ograniczyć dostosowywanie słów aktywowanych

Gdy urządzenie pomocnicze nie jest używane, procesor aplikacji (myślę, że ARM w przypadku Alexy i Google Home) jest zawieszony i przełączany na najniższy możliwy stan zasilania. Wykrywanie słowa pobudzającego jest pozostawione bardzo wydajnemu energetycznie procesorowi DSP, który nasłuchuje hałasu / głosów z otoczenia i uruchamia algorytm, aby zdecydować, czy istnieje dopasowanie do słowa pobudzającego. Jeśli znajdzie dopasowanie z dużą pewnością siebie, DSP budzi rdzeń ARM, aby rozpocząć resztę przetwarzania.

Ponieważ celem jest wydajność energetyczna, analizowany procesor DSP uruchamia algorytm, a także przechowuje wzór szablonu w pamięci wbudowanej, a nie w głównej wbudowanej pamięci RAM. Pozwala to systemowi nawet doprowadzić pamięć DDR RAM do najniższego stanu zasilania.

Ponieważ DSP ma wiele kluczowych rzeczy do zrobienia i bardzo mało pamięci na chipie, słowa pobudki Asystenta są ograniczone do kilku wybranych, które można dopasować algorytmem o wysokim stopniu pewności.

szloch
źródło