Większość marek inteligentnych asystentów , takich jak Amazon Echo i Google Home, oferuje bardzo niewiele opcji dostosowania słowa budzenia (fraza, której używasz, aby obudzić urządzenie, aby nas słuchało).
Na przykład Alexa oferuje tylko trzy opcje, a Google Home obsługuje tylko „OK Google” . Wygląda na to, że wielu użytkowników interesuje się niestandardowymi słowami aktywnymi, ale żadna z głównych marek nie dodała wsparcia.
Czy istnieje jakiś techniczny powód, aby ograniczać dostosowywanie słów obudzonych, czy jest to po prostu wybór marki?
Czytałem o motywacji Google do używania „OK Google” , co sugeruje, że pomysł na branding może być prawdziwy, ale wydaje się również, że rozpoznawanie słów obudzonych nie jest zbyt dokładne , być może wskazując na powód techniczny. Czy ktokolwiek byłby w stanie wyjaśnić, który czynnik jest głównym powodem?
źródło
Odpowiedzi:
Tak, jest kilka powodów.
Ten post na blogu wyjaśnia go o Echo i słowie Alexa. Podsumuję trochę.
Rozpoznawanie słów obudzenia odbywa się lokalnie i w czasie rzeczywistym . Ogranicza to długość słowa aktywacji z powodu oczywistych ograniczeń przetwarzania. Ponadto użytkownicy nie chcą recytować wiersza, aby aktywować inteligentnego asystenta. Dlatego musi być krótki.
Musi działać z niemal 100% dokładnością, gdy jest wywoływany, a także nie jest rozpoznawany z tą pewnością, gdy nie jest wezwany. To stwarza problemy, a także zapewnia minimalną długość słów budzenia. Wybór Amazon, aby zezwolić na Echo, jest dość zaskakujący, ponieważ są to tylko dwie sylaby .
Jeśli spojrzymy na zwykłych podejrzanych, mamy Alexę (3 sylaby), Amazon (3), Echo (2), Ok Google (4), Hey Cortana (4) i Hey Siri (3).Wszyscy giganci branżowi prawie zgadzają się co do tego, że trzy to dobra liczba sylab.
O dziwo, najbardziej poszukiwane słowo „komputer” w obudowie ma również trzy sylaby i łatwo spełniłoby to wymaganie. To także nie jest znakiem towarowym.
Jak mówi nam blog i powód, całkowicie chcemy uniknąć fałszywych trafień. Zobaczmy, jak ustalone są słowa Komputer, Siri, Cortana i Alexa. To jest korpus książek Google z 2008 roku.
Dokładnie, Siri i Alexa praktycznie pochlebiają komputerowi, a Cortana popełnia błąd. Nie znaleziono. Ma to sens, ponieważ korpus pochodzi z 2008 roku. Aby dać nam więcej perspektywy, dlaczego komputer jest strasznym słowem pobudki, kolejny wykres.
Ten Ngram pokazuje dwa najpopularniejsze amerykańskie nazwiska dziecka 2016 (dla waluty), a także Tom i Dave również płasko w stosunku do komputera . Królowej, koszykówce i policji udało się poprawnie zarejestrować. W każdym razie daje to nam wyobrażenie o tym, że komputer, Earl Grey, Hot nie był do tej pory dozwolony. Ludzie używają słowa komputer zbyt często.
Jeszcze jedna rzecz o fałszywych trafieniach. Alexa rymuje się z praktycznie niczym, co można by powiedzieć.
Komputer rymuje się z 74 rzeczami.
źródło
Gdy urządzenie pomocnicze nie jest używane, procesor aplikacji (myślę, że ARM w przypadku Alexy i Google Home) jest zawieszony i przełączany na najniższy możliwy stan zasilania. Wykrywanie słowa pobudzającego jest pozostawione bardzo wydajnemu energetycznie procesorowi DSP, który nasłuchuje hałasu / głosów z otoczenia i uruchamia algorytm, aby zdecydować, czy istnieje dopasowanie do słowa pobudzającego. Jeśli znajdzie dopasowanie z dużą pewnością siebie, DSP budzi rdzeń ARM, aby rozpocząć resztę przetwarzania.
Ponieważ celem jest wydajność energetyczna, analizowany procesor DSP uruchamia algorytm, a także przechowuje wzór szablonu w pamięci wbudowanej, a nie w głównej wbudowanej pamięci RAM. Pozwala to systemowi nawet doprowadzić pamięć DDR RAM do najniższego stanu zasilania.
Ponieważ DSP ma wiele kluczowych rzeczy do zrobienia i bardzo mało pamięci na chipie, słowa pobudki Asystenta są ograniczone do kilku wybranych, które można dopasować algorytmem o wysokim stopniu pewności.
źródło