Do dzisiaj ja - jako laik AI - jestem zdezorientowany obiecanymi i osiągniętymi ulepszeniami zautomatyzowanego tłumaczenia.
Mam wrażenie, że jest jeszcze bardzo, bardzo daleka droga. Czy też istnieją inne wyjaśnienia, dlaczego automatyczne tłumaczenia (oferowane i dostarczane np. Przez Google) dość prostych artykułów z Wikipedii nadal czytają i brzmią głównie głupio, są mało czytelne, a jedynie bardzo częściowo pomocne i przydatne?
Może to zależeć od osobistych preferencji (dotyczących czytelności, przydatności i użyteczności), ale moje osobiste oczekiwania są bardzo rozczarowane.
Odwrotnie: czy tłumaczenia Google są mimo to czytelne, pomocne i przydatne dla większości użytkowników ?
Czy Google ma powody, by zachować swoje osiągnięcia (i nie pokazywać użytkownikom tego, co mogą najlepiej pokazać)?
Wstępny wynik: Nadal jesteśmy daleko od możliwości rozmawiania ze sztuczną inteligencją na równych prawach i zrozumieniu - tylko na poziomie strun. Dlaczego więc mamy się bać? Ponieważ wiedzą więcej niż my - ale my nie wiemy?
źródło
Odpowiedzi:
Kto twierdził, że tłumaczenie maszynowe jest tak dobre jak ludzki tłumacz? Dla mnie, jako profesjonalnego tłumacza, który zarabia na tłumaczenia od 35 lat, MT oznacza, że moja codzienna produkcja tłumaczeń o jakości ludzkiej wzrosła od 3 do 5 razy, w zależności od złożoności tekstu źródłowego.
Nie mogę się zgodzić, że jakość MT spada wraz z długością wprowadzania języka obcego. Tak było kiedyś w przypadku starych systemów z analizami semantycznymi i gramatycznymi. Nie sądzę, że znam wszystkie stare systemy (znam Systran, tandetne narzędzie firmy Siemens, które było sprzedawane od jednej firmy do drugiej, jak prezent Danaera, XL8, Personal Translator and Translate), ale nawet profesjonalny system w które zainwestowałem 28.000 DM (!!!!) zawiodło.
Na przykład zdanie:
można przetłumaczyć za pomocą kilku narzędzi MT na język niemiecki.
Personal Translator 20 :
Monit :
DeepL :
Google:
Dzisiaj Google zwykle przedstawia mi czytelne, prawie poprawne tłumaczenia, a DeepL jest jeszcze lepszy. Właśnie tego ranka przetłumaczyłem 3500 słów w ciągu 3 godzin, a wynik jest bezbłędny, chociaż tekst źródłowy był pełen błędów (napisany przez Chińczyków).
źródło
Tłumaczenia Google mogą być przydatne, zwłaszcza jeśli wiesz, że tłumaczenia nie są idealne i jeśli chcesz mieć początkowe wyobrażenie o znaczeniu tekstu (którego tłumaczenia Google może czasami wprowadzać w błąd lub być niepoprawne). Nie polecam tłumacza Google'a (ani żadnego innego tłumacza innego niż człowiek), aby wykonać poważne tłumaczenie, chyba że jest to prawdopodobnie wspólne zdanie lub słowo, nie zawiera bardzo długich tekstów i nieformalnego języka (lub slangu), tłumaczenia obejmują Język angielski lub nie masz dostępu do tłumacza.
Tłumacz Google używa obecnie neuronowego systemu tłumaczenia maszynowego . Aby ocenić ten model (i podobne modele), użyto metryki BLEU (skala od do , gdzie odpowiada standardowemu tłumaczeniu ludzkiego złota) i oceny równoległe (człowiek ocenia tłumaczenia). Jeśli używasz tylko metryki BLEU, tłumaczenia maszynowe są dość słabe (ale metryka BLEU również nie jest idealną metryką oceny, ponieważ często występuje więcej niż jedno tłumaczenie danego zdania). Jednak GNMT zmniejsza liczbę błędów tłumaczenia w porównaniu do tłumaczenia maszynowego opartego na frazach (PBMT) .0 100 100
W artykule Making AI AI znów ma sens , autorzy omawiają również trudność zadania tłumaczenia (które uważa się za problem z AI-zupełnością ). Wspominają również o transformatorze (innym najnowocześniejszym modelu tłumaczenia maszynowego), który osiąga dość słabe wyniki (oceniane za pomocą metryki BLEU).
Podsumowując, tłumaczenie maszynowe jest trudnym problemem, a obecne systemy tłumaczenia maszynowego zdecydowanie nie działają tak dobrze, jak profesjonalny tłumacz ludzki.
źródło
Zadałeś sporo pytań, na niektóre z nich nie można ostatecznie odpowiedzieć. Aby dać wgląd w jakość (i jego historię) tłumaczeń maszynowych, chciałbym odnieść się do Christophera Manninga do jego „testu porównawczego jednego zdania” przedstawionego w jego wykładzie . Zawiera jeden przykład z chińskiego na angielski, który jest porównywany z danymi wyjściowymi Tłumacza Google. Prawidłowe tłumaczenie dla tego przykładu to:
Tłumacz Google zwrócił następujące tłumaczenia.
Czy Google zachowuje lub „ukrywa” swoje najlepsze wyniki: Wątpię. Jest wielu znakomitych badaczy zajmujących się przetwarzaniem języka naturalnego (NLP). Gdyby Google miał „największe osiągnięcie” w tłumaczeniu, naukowcy odkryliby to wcześniej czy później. (Dlaczego Google i tak miałby ukrywać swoje „największe osiągnięcie”? Wydaje się, że widzą korzyści płynące z otwartego oprogramowania, patrz Transformer [1] lub BERT [2])
NB. Aby uzyskać zaktualizowaną listę najnowocześniejszych algorytmów w NLP, zobacz tabelę wyników SQuAD2.0 .
[1] Vaswani, Ashish i in. „Uwaga jest wszystkim, czego potrzebujesz”. Postępy w systemach przetwarzania informacji neuronowych. 2017 r.
[2] Devlin, Jacob i in. „Bert: Wstępne szkolenie głębokich dwukierunkowych transformatorów do rozumienia języka”. nadruk arXiv arXiv: 1810.04805 (2018).
źródło
In 1519, 600 Spaniards landed in Mexico to conquer the Aztec empire of millions of people, and they first met two-thirds of their soldiers.
To naprawdę zależy od pary języków i tematu zawartości. Najlepiej jest tłumaczyć tłumaczenie na angielski z dowolnego innego języka. Tłumaczenie na popularne języki i z nich działa lepiej, na przykład tłumaczenie z angielskiego na rumuński jest gorsze niż z angielskiego na rosyjski. Ale tłumaczenie z angielskiego na rosyjski lub rumuński jest lepsze niż tłumaczenie z rosyjskiego na rumuński. A tłumaczenie rumuńskiego na angielski jest lepsze niż tłumaczenie z angielskiego na rumuński.
Ale jeśli jesteś przyzwyczajony do pracy z tłumaczami i dobrze znasz języki, błędy w tłumaczeniu i temat, łatwo zrozumieć, co powinno tam być. I w tym momencie czasami łatwiej jest odczytać coś przetłumaczonego na swój język ojczysty w celu szybkiego skanowania niż czytać w drugim języku.
Mniej popularne języki (w przypadku tłumaczeń niekoniecznie w liczbie mówców) są znacznie bliższe dosłownym tłumaczeniom tylko nieznacznie lepiej niż to, co osobiście zrobiłbyś przy użyciu słownika dla dwóch nieznanych języków.
źródło
Tak, są one nieco pomocne i pozwalają na szybsze tłumaczenie.
Może nie wiem. Jeśli szukasz informacji, Google robi naprawdę okropne głupie rzeczy, takie jak uczenie się na podstawie wypowiedzi użytkowników w Internecie, przyjmowanie nieodpowiednich danych jako zaufanych zestawów danych wejściowych.
źródło
Przepraszamy za brak pisania po angielsku. Dostosowane tłumaczenie znajduje się tutaj:
Aby dać zainteresowanym ludziom pojęcie o jakości MT (DeepL), zapoznaj się z tym przykładem z tekstu, nad którym pracowałem dziś rano (6300 słów, rozpoczęło się o 9 rano, dostawa dziś około 13 i wciąż znajduję czas na ten post). Pracowałem nad tym zdaniem (201 słów), kiedy zamieściłem swój komentarz.
DeepL zwraca to:
Dostosowanie tego akapitu zajęło mi około 5–10 minut.
Jako tłumacz wiem, że nie mogę polegać na tłumaczeniu maszynowym, ale z czasem poznałem specyfikę i możliwości różnych systemów i wiem na co zwrócić uwagę.
MT bardzo mi pomaga w pracy.
źródło
To będzie nie tyle odpowiedź, ile komentarz.
Jakość zależy od kilku rzeczy, w tym (jak powiedział Aaron powyżej) 1) pary języków i 2) tematu, ale także 3) rodzajów i 4) stylu oryginału oraz 5) ilości równoległego tekstu trenować system MT.
Aby przygotować scenę, praktycznie wszystkie MT w dzisiejszych czasach oparte są na tekstach równoległych, to znaczy w dwóch różnych językach, przy czym jeden prawdopodobnie jest tłumaczeniem drugiego (lub oba są tłumaczeniem jakiegoś trzeciego języka); i potencjalnie wykorzystanie słowników (być może wspomaganych procesami morfologicznymi) jako backoff, gdy równoległe teksty nie zawierają konkretnych słów.
Co więcej, jak powiedzieli inni, system MT w żaden sposób nie rozumie tekstów, które tłumaczy; po prostu widzi ciągi znaków i ciągi słów złożone z znaków, i szuka podobnych ciągów i sekwencji w tekstach, które wcześniej tłumaczył. (Ok, jest to nieco bardziej skomplikowane i próbowano uzyskać semantykę w systemach obliczeniowych, ale na razie są to głównie łańcuchy.)
1) Języki się różnią. Niektóre języki mają wiele morfologii, co oznacza, że robią to za pomocą jednego słowa, a inne za pomocą kilku słów. Prostym przykładem byłoby hiszpańskie „cantaremos” = angielskie „będziemy śpiewać”. I jeden język może robić rzeczy, z którymi drugi język nawet się nie przejmuje, jak nieformalne / formalne (tu / usted) rozróżnienie w języku hiszpańskim, którego angielski nie ma odpowiednika. Albo jeden język może robić rzeczy z morfologią, co inny język robi z porządkiem słów. Lub skrypt używany przez język może nawet nie oznaczać granic słów (chiński i kilka innych). Im bardziej różne są te dwa języki, tym trudniej będzie tłumaczyć system MT między nimi. Pierwsze eksperymenty w statystycznym MT przeprowadzono między językiem francuskim a angielskim,
2) Temat: Jeśli masz równoległe teksty w Biblii (co jest prawdą w przypadku prawie każdej pary języków pisanych) i trenujesz z nich swój system MT, nie oczekuj, że spisuje się dobrze w tekstach inżynieryjnych. (Cóż, Biblia i tak jest stosunkowo niewielką ilością tekstu, jak na standardy szkolenia systemów MT, ale udawaj :-).) Słownictwo Biblii różni się bardzo od tekstów inżynieryjnych, podobnie jak częstotliwość różnych gramatyki konstrukcje. (Gramatyka jest zasadniczo taka sama, ale na przykład w języku angielskim masz o wiele więcej pasywnego głosu i więcej złożonych rzeczowników w tekstach naukowych i inżynieryjnych).
3) Genera: Jeśli tekst równoległy jest w całości deklaratywny (powiedzmy, np. Instrukcje ciągnika), próba użycia wynikowego systemu MT w oknie dialogowym nie przyniesie dobrych wyników.
4) Styl: Think Hilary vs. Donald; erudyta kontra popularność. Trening z jednej strony nie przyniesie dobrych rezultatów z drugiej. Podobnie szkolimy system MT w zakresie powieści dla dorosłych i używamy go w książkach dla dzieci.
5) Para językowa: angielski ma wiele tekstów, a szanse na znalezienie tekstów w innym języku, które są równoległe do danego tekstu angielskiego, są znacznie większe niż szanse na znalezienie równoległych tekstów, powiedzmy, w języku rosyjskim i igbo. (To powiedziawszy, mogą istnieć wyjątki, takie jak języki Indii.) W ogólnym ujęciu, im więcej takich równoległych tekstów musisz trenować system MT, tym lepsze wyniki.
Podsumowując, język jest skomplikowany (dlatego go uwielbiam - jestem lingwistą). Nic więc dziwnego, że systemy MT nie zawsze działają dobrze.
BTW, ludzcy tłumacze też nie zawsze radzą sobie tak dobrze. Dziesięć lub dwa lata temu dostawałem tłumaczenia dokumentów od ludzkich tłumaczy na angielski, które miały być wykorzystane jako materiały szkoleniowe dla systemów MT. Niektóre tłumaczenia były trudne do zrozumienia, aw niektórych przypadkach, gdy otrzymaliśmy tłumaczenia od dwóch (lub więcej) ludzkich tłumaczy, trudno było uwierzyć, że tłumacze czytali te same dokumenty.
I wreszcie (prawie) nigdy nie ma tylko jednego poprawnego tłumaczenia; istnieje wiele sposobów tłumaczenia fragmentu, które mogą być mniej lub bardziej dobre, w zależności od tego, jakie cechy (poprawność gramatyczna, styl, spójność użycia, ...) chcesz. Nie ma łatwej miary „dokładności”.
źródło
Co zaskakujące, wszystkie pozostałe odpowiedzi są bardzo niejasne i starają się podejść do tego z ludzkiego tłumacza POV. Przejdźmy do inżyniera ML.
Podczas tworzenia narzędzia do tłumaczenia jednym z pierwszych pytań, które powinniśmy wziąć pod uwagę, jest: „W jaki sposób mierzymy, że nasze narzędzie działa?” .
O to właśnie prosi OP.
To nie jest łatwe zadanie (niektóre inne odpowiedzi wyjaśniają dlaczego). Istnieje artykuł w Wikipedii, który wymienia różne sposoby oceny wyników tłumaczenia maszynowego - istnieją zarówno wyniki ludzkie, jak i automatyczne (takie jak BLEU , NIST , LEPOR ).
Wraz z rozwojem technik sieci neuronowych wyniki te znacznie się poprawiły.
Tłumaczenie to złożony problem. Istnieje wiele rzeczy, które mogą pójść dobrze (lub źle), a komputerowy system tłumaczący często ignoruje niektóre subtelności, które wyróżniają się jako ludzki mówca.
Myślę, że jeśli mamy myśleć o przyszłości, możemy polegać na kilku rzeczach:
Podsumowując, ten złożony problem, choć nie rozwiązany, z pewnością jest na dobrej drodze i pozwala uzyskać imponujące wyniki dla dobrze zbadanych par językowych.
źródło
Gdyby tak było, to to, co powstrzymywaliby, byłoby niesamowite . Google publikuje wiele mocnych artykułów na temat przetwarzania języka naturalnego, w tym takie, które osiągają najnowsze wyniki lub dokonują znaczących przełomów koncepcyjnych . Wydali także bardzo przydatne zestawy danych i narzędzia . Google jest jedną z niewielu firm, która nie tylko wykorzystuje najnowocześniejsze badania, ale aktywnie uczestniczy w literaturze.
Tłumaczenie maszynowe to tylko trudny problem. Dobry ludzki tłumacz musi biegle władać obydwoma językami, aby dobrze wykonywać swoją pracę. Każdy język będzie miał swoje własne idiomy i znaczenia nieliteralne lub zależne od kontekstu. Praca ze słownikiem dwujęzycznym przyniosłaby straszne wyniki (dla człowieka lub komputera), dlatego musimy trenować nasze modele na istniejących korpusach, które istnieją w wielu językach, aby dowiedzieć się, w jaki sposób używane są słowa (nb ręcznie skompilowane zdanie tabele tłumaczeń mogą być używane jako funkcje ; po prostu nie mogą być całą historią). W przypadku niektórych par językowych korpusy równoległe są obfite (np. W przypadku języków UE mamy pełne postępowanie Parlamentu Europejskiego). W przypadku innych par dane treningowe są znacznie rzadsze. I nawet jeśli mamy dane szkoleniowe, będą istnieć rzadziej używane słowa i frazy, które nie pojawiają się wystarczająco często, aby się ich nauczyć.
Był to jeszcze większy problem, ponieważ synonimy były trudne do wyjaśnienia. Gdyby nasze dane treningowe zawierały zdania dla „Pies złapał piłkę”, ale nie „Szczeniak złapał piłkę”, mielibyśmy małe prawdopodobieństwo drugiego zdania. Rzeczywiście konieczne byłoby znaczne wygładzenie, aby zapobiec zeru prawdopodobieństwa w wielu takich przypadkach.
Pojawienie się neuronowych modeli językowych w ciągu ostatnich 15 lat ogromnie pomogło w rozwiązaniu tego problemu, umożliwiając odwzorowanie słów na rzeczywistą przestrzeń semantyczną przed poznaniem związków między słowami. Pozwala to na naukę modeli, w których słowa, które są blisko siebie znaczące, są również blisko siebie w przestrzeni semantycznej, a zatem zamiana słowa na jego synonim nie wpłynie znacząco na prawdopodobieństwo zdania zawierającego. word2vecjest modelem, który bardzo dobrze to ilustruje; pokazało, że możesz np. wziąć wektor semantyczny dla „króla”, odjąć wektor dla „mężczyzny”, dodać wektor dla „kobiety” i stwierdzić, że najbliższym słowem dla powstałego wektora była „królowa”. Gdy badania nad modelami języka neuronowego rozpoczęły się na dobre, zaczęliśmy dostrzegać natychmiastowe i masywne spadki zakłopotania (tj. Jak bardzo modele były pomieszane przez tekst naturalny) i widzimy odpowiedni wzrost wyniku BLEU (tj. Jakości tłumaczenia) teraz, gdy te modele językowe są integrowane z systemami tłumaczenia maszynowego.
Tłumaczenia maszynowe wciąż nie są tak dobre, jak tłumaczenia ludzkie, i być może nie będą tak dobre, dopóki nie rozwalimy w pełni rozumnej sztucznej inteligencji. Ale dobrzy tłumacze są kosztowni, podczas gdy każdy z dostępem do Internetu ma do dyspozycji tłumaczy maszynowych. Nie chodzi o to, czy tłumaczenie ludzkie jest lepsze, ale o to, jak bardzo maszyna zbliża się do tego poziomu jakości. Ta luka kurczy się i wciąż maleje.
źródło