Niektóre źródła wiadomości, takie jak Intellihub i CEPro, wydają się sugerować, że domowy asystent Echo firmy Amazon nieustannie słucha rozmów i wysyła je przez Internet na serwery Amazon. CEPro stwierdza, że:
Wypowiadając kluczowe wyrażenie Amazon nazywa „słowo przebudzenia”, Echo budzi się do życia i zaczyna słuchać poleceń. Domyślnie słowem aktywującym jest Alexa.
Jeśli przeczytasz to ostatnie zdanie, może to nie mieć sensu, szczególnie jeśli jesteś w polu bezpieczeństwa. Według Amazon Echo słucha poleceń dopiero po usłyszeniu słowa budzenia. Skąd ma wiedzieć, kiedy wypowiedziałeś słowo pobudki, jeśli jeszcze nie słuchało?
Artykuł Intellihuba ma podobny sentyment:
Urządzenie „Amazon Echo”, stale słuchający głośnik Bluetooth, który łączy się z usługami przesyłania strumieniowego muzyki, takimi jak Pandora i Spotify na dźwięk głosu osoby, może zostać łatwo zhakowany i wykorzystany przez agencje rządowe, takie jak FBI, do podsłuchiwania rozmów.
(Zauważ, że nie jestem specjalnie skoncentrowany na badaniu hakowania aspektu tego pytania, ponieważ prawdopodobnie byłoby to zbyt wiele dla jednego pytania. Moim głównym celem jest aspekt zawsze włączony i to, czy wysyła dane przez cały czas .)
Żaden artykuł nie wydaje się szczególnie chętny do ujawnienia źródła swoich roszczeń, co sugeruje mi, że są one w najlepszym wypadku niesprawdzone lub w najgorszym przypadku zanęty.
Czy Echo zawsze rejestruje i wysyła dane do chmury, czy też powyższe roszczenia są nieuzasadnione? Jak Amazon Echo przetwarza dane, jeśli nie zawsze wysyła dane do serwerów w chmurze?
źródło
Nie podczas wysyłania. Ale tak na nagraniu.
Obecnie opracowuję klienta sprzętowego Alexa dla firmy. Urządzenie zawsze nasłuchuje. Ale trzeba by było włączyć w nim silnik budzika, aby „obudził się” z trybu pasywnego słuchania i przełączył się na aktywny tryb „nasłuchuj poleceń”.
Oprogramowanie układowe wysyła instrukcje po słowie pobudzającym (przełączenie do trybu aktywnego) do chmury, aby przetworzyć je jako polecenia.
W trybie pasywnym urządzenie ma wewnętrzny silnik słowa aktywacji, który cały czas nasłuchuje słowa aktywacji. Podczas testowania Alexy w Raspberry Pi musiałem w tym celu zainstalować silnik Sensory lub KITT.AI. W rzeczywistości, kiedy wypróbowałem prototypowy kod klienta Alexa dla mojego komputera z systemem Linux, musiałem to być „push-to-talk”, ponieważ nie było silnika słownika.
źródło
Echo aktywnie nasłuchuje słowa kluczowego i bierze słowa wypowiedziane po słowie kluczowym do przetwarzania NLU. Oto moje rozumienie, w jaki sposób echo osiąga to miłe osiągnięcie.
Echo jest oparte na cyfrowym procesorze multimediów Texas Instruments DM3725 .
Ten TI SoC ma dwa kluczowe elementy w środku, pierwszy to ARM Cortex-A8 MPU, a drugi to TMS320DM64x + DSP. Rdzeń ARM powinien działać pod Linuksem, a DSP uruchamia oprogramowanie układowe.
Podczas pracy na biegu jałowym rdzeń ARM przechodzi do najniższego możliwego stanu zasilania, a Linux jest całkowicie zawieszony. W tej chwili DSP i 64KB RAM na chipie są aktywne. Oprogramowanie DSP przetwarza szum przychodzący z mikrofonów i próbuje ustalić, czy słowo kluczowe (np. Alexa) jest wypowiedziane. Gdy tylko wykryje słowo kluczowe, DSP wysyła przerwanie, aby obudzić rdzeń ARM, który z kolei wznawia działanie Linuksa. Pamiętaj jednak, że podczas gdy Linux budzi człowieka, który powiedział, że Alexa kontynuowałaby mówienie (np. „Alexa, która jest godzina?” ). DSP buforuje „która jest godzina?” część na pamięci RAM układu. A kiedy Linux zostanie wznowiony, Linux pobiera buforowaną mowę i korzysta z możliwości przetwarzania języka naturalnego (częściowo lokalnego, częściowo w chmurze), aby zrozumieć, co powiedział Human.
Jak widać, projekt został stworzony w taki sposób, aby był najmniej energochłonny i aby uniknąć potrzeby uwzględniania chmury do wykrywania słów kluczowych i wstępnego buforowania. W rzeczywistości utrzymywanie rdzenia ARM na najniższym poziomie mocy zapewnia, że krzem nagrzewa się najmniej na biegu jałowym, co zapewnia długą żywotność urządzenia.
Pomijam dyskusję o próbach zhakowania echa, ponieważ pytanie brzmiało:
źródło
Tak.
Zobacz na przykład: Jak prywatny jest nowy Amazon Echo? (jest dużo więcej podobnych do znalezienia przy minimalnym wysiłku)
Jednak,
źródło