W jaki sposób Chrome wie, w jakim języku znajduje się strona?

9

Właśnie otworzyłem stronę internetową w Google Chrome i mówi: „Ta strona jest w języku japońskim, czy chcesz ją przetłumaczyć?”.

Prośba o tłumaczenie prawdopodobnie przesyła zawartość do Google, ale w jaki sposób identyfikuje się język? Czy odbywa się to lokalnie, w przeglądarce? Czy może to także wysłać stronę do Google? Jeśli tak, to czy nie powinienem najpierw zostać poproszony o pozwolenie? Sama strona nie zawiera żadnych znaczników wskazujących język i jest wewnętrzną stroną intranetową, więc nie jestem wcale pewien, czy Google powinien mieć dostęp do jej treści.

Thilo
źródło
Pytanie Dlaczego Chrome nieprawidłowo określa stronę w innym języku i oferuje tłumaczenie? na StackOverflow daje więcej informacji na ten temat, szczególnie zaakceptowana odpowiedź z Emile
Owen Blacker

Odpowiedzi:

9

Przeglądarka Chrome może zidentyfikować lub przynajmniej odgadnąć język strony, patrząc na kilka czynników na stronie:

Można to zrobić lokalnie bez dalszego połączenia z Internetem lub raportowania do Google.

Tłumaczenie treści na pewno wyśle ​​zawartość strony na serwery Google w celu przetłumaczenia.

s01ipsist
źródło
Kiedyś przeglądałem plik XML w Chrome i powiedział mi, że przeglądam stronę w ... jakimś europejskim języku, być może belgijskim? Sugerowałoby to, że zachodzi pewna analiza tekstu i poszła trochę źle w moim przypadku. Nie rozumiem, dlaczego angielski kod XML miałby kodowanie, które wskazywałoby na język belgijski. Ale tak, ponieważ coś w rodzaju japońskiego kodowanie byłoby martwą gratką.
Cam Jackson
W jaki sposób UTF-8 jest gratką dla Japończyków?
Thilo
@CamJackson Jestem pewien, że nie sugerował belgijskiego ... Może to holenderski i chrom znalazł jedną literę „ij”
Peter Smit
1
Nie jest to całkowicie kodowanie stron. Mam bloga (w języku angielskim), który otrzymuje przyzwoitą ilość spamu w rosyjskim komentarzu. Często, gdy przeglądam moje wiadro spamu, Chrome prosi mnie o przetłumaczenie strony. Oczywiście (dla mnie) sprawdzanie zawartości i uruchamianie za pomocą treści „inny język” przekracza pewien procentowy próg.
ale
1
@Thilo, to nie jest UTF-8, który pokazuje, że jest japoński, ale jeśli duży procent znaków na stronie pochodzi z japońskiego zakresu Unicode, to masz swoją odpowiedź (automatyczne wykrywanie języka jest zawsze zgadywaniem) . Nie mając oczywistej metody sprawdzania kodowania znaków, nie sądzę, aby tak się stało (a przynajmniej tak wymagania do) wysłać stronę na serwer w celu wykrycia. Widziałeś rozmiar chrome.dll niedawno? To jest ogromne! Ostatnio nie przeglądałem kodu (masywnego), ale bez wątpienia istnieje funkcja lub dwie wbudowane funkcje wykrywania języka (to nie jest takie trudne).
Synetech