Jaka jest rzeczywista jakość tłumaczeń maszynowych?

27

Do dzisiaj ja - jako laik AI - jestem zdezorientowany obiecanymi i osiągniętymi ulepszeniami zautomatyzowanego tłumaczenia.

Mam wrażenie, że jest jeszcze bardzo, bardzo daleka droga. Czy też istnieją inne wyjaśnienia, dlaczego automatyczne tłumaczenia (oferowane i dostarczane np. Przez Google) dość prostych artykułów z Wikipedii nadal czytają i brzmią głównie głupio, są mało czytelne, a jedynie bardzo częściowo pomocne i przydatne?

Może to zależeć od osobistych preferencji (dotyczących czytelności, przydatności i użyteczności), ale moje osobiste oczekiwania są bardzo rozczarowane.

Odwrotnie: czy tłumaczenia Google są mimo to czytelne, pomocne i przydatne dla większości użytkowników ?

Czy Google ma powody, by zachować swoje osiągnięcia (i nie pokazywać użytkownikom tego, co mogą najlepiej pokazać)?


Wstępny wynik: Nadal jesteśmy daleko od możliwości rozmawiania ze sztuczną inteligencją na równych prawach i zrozumieniu - tylko na poziomie strun. Dlaczego więc mamy się bać? Ponieważ wiedzą więcej niż my - ale my nie wiemy?

Hans-Peter Stricker
źródło
2
Tłumaczenie maszynowe jest trudnym problemem, zwłaszcza że współczesne techniki nie próbują zrozumieć tekstu do tłumaczenia. To działa mniej więcej w wielu przypadkach, ale może również spektakularnie zawieść. Osobiście uważam, że - mając to na uwadze - większość tłumaczeń jest pomocna i nie mam powodu, by sądzić, że firmy MT się powstrzymują. Być może niektóre aplikacje specyficzne dla domeny, które są bardziej wrażliwe z handlowego punktu widzenia, ale ogólnie nie są ogólne.
Oliver Mason
@OliverMason: „nowoczesne techniki nie próbują zrozumieć tekstu, który ma zostać przetłumaczony” - czy to jest istota, którą należy powiedzieć? Tak muszę rozumieć wyniki MT? Dość smutne. (Pewna sprzeczność ze strony społeczności AI byłaby bardzo mile widziana!)
Hans-Peter Stricker
1
@ Hans-PeterStricker: Cóż, tak naprawdę wszystko zaczęło się, gdy Fred Jelinek zauważył, że zwolnienie językoznawców sprawiło, że jego rozpoznawanie mowy było bardziej dokładne. Od tego czasu różne formy uczenia maszynowego wyprzedziły sztuczną inteligencję opartą na regułach, a teraz nie mamy najmniejszego pojęcia, jak większość systemów AI „naprawdę działa” - chyba że na poziomie stochastycznym.
Kevin
2
@ Hans-PeterStricker Myślenie o nowoczesnym systemie sztucznej inteligencji jako o „zrozumieniu” nie jest zbyt pomocne. Pomyśl o tym bardziej jak o systemie, który pobiera zestaw danych wejściowych i tworzy zestaw danych wyjściowych. Dane wejściowe mogą być tekstem angielskim, a dane wyjściowe tekstem hiszpańskim. System „nauczył się” z całej gamy tekstów angielskich i ich odpowiedników w języku hiszpańskim. Czy to znaczy, że rozumie angielski lub hiszpański? To bardziej filozoficzne pytanie. Liczy się praktycznie to, że potrafi konwertować angielski na hiszpański z pewnym stopniem niezawodności.
Josh Eller
Zostało to lekko poruszone w odpowiedziach, ale myślę, że warto wskazać, że odpowiedź zależy w dużej mierze od par językowych, o których mówisz. Jakość powiedzenia, angielski <-> hiszpański, jest znacznie wyższa niż angielski <-> japoński.
mbrig

Odpowiedzi:

21

Kto twierdził, że tłumaczenie maszynowe jest tak dobre jak ludzki tłumacz? Dla mnie, jako profesjonalnego tłumacza, który zarabia na tłumaczenia od 35 lat, MT oznacza, że ​​moja codzienna produkcja tłumaczeń o jakości ludzkiej wzrosła od 3 do 5 razy, w zależności od złożoności tekstu źródłowego.

Nie mogę się zgodzić, że jakość MT spada wraz z długością wprowadzania języka obcego. Tak było kiedyś w przypadku starych systemów z analizami semantycznymi i gramatycznymi. Nie sądzę, że znam wszystkie stare systemy (znam Systran, tandetne narzędzie firmy Siemens, które było sprzedawane od jednej firmy do drugiej, jak prezent Danaera, XL8, Personal Translator and Translate), ale nawet profesjonalny system w które zainwestowałem 28.000 DM (!!!!) zawiodło.

Na przykład zdanie:

W ten gorący letni dzień musiałem pracować i to było bolesne w tyłek.

można przetłumaczyć za pomocą kilku narzędzi MT na język niemiecki.

Personal Translator 20 :

Auf diesem heißen Sommertag musste ich arbeiten, und es war ein Schmerz im Esel.

Monit :

Die die heißen Sommertag musste ich arbeiten, und es war ein Schmerz im Esel.

DeepL :

Die die heißen Sommertag musste ich arbeiten und es war eine Qual.

Google:

Die die heißen Sommertag musste ich arbeiten und es war ein Schmerz im Arsch.

Dzisiaj Google zwykle przedstawia mi czytelne, prawie poprawne tłumaczenia, a DeepL jest jeszcze lepszy. Właśnie tego ranka przetłumaczyłem 3500 słów w ciągu 3 godzin, a wynik jest bezbłędny, chociaż tekst źródłowy był pełen błędów (napisany przez Chińczyków).

Herbert
źródło
4
Dla tych z nas, którzy nie biegle władają językiem niemieckim, nie jest jasne, która z tych alternatyw jest dobra i zła. Wiem, że „Esel” oznacza „tyłek (zwierzę)”, a „Arsch” oznacza „tyłek (część ciała)”. Nie wiem, co znaczy „Qual” ani czy „ein Schmerz im Arsch” jest do przyjęcia.
Stig Hemmer
3
„Schmerz im Esel” jest komiczne (i błędne). „Arsch” to dość potoczne słowo, którego nie użyłbyś w pisanym języku niemieckim. „Qual” to „ból”, więc IMHO jest lepszym wyborem, choć niezupełnie dokładnym, ponieważ zdanie wyraża raczej irytację niż faktyczny ból.
Oliver Mason
1
@OliverMason Qual to dobre tłumaczenie: dict.leo.org/englisch-deutsch/qual
yunzen
4
@OliverMason Jestem native speaker Niemiecki i traktują go jako figurę całkiem dobrze
yunzen
5
@OliverMason „ból w dupie” to idiom. „Schmerz im Arsch” nie jest: nikt tego nie mówi. „Qual” jest dokładnym tłumaczeniem angielskiego idiomu, który w przeciwieństwie do tego, co powiedziałeś, rzadko oznacza rzeczywisty ból fizyczny (i podobnie, „Qual” może być zarówno dosłowny, jak i przenośny). Bez dalszego kontekstu tłumaczenie DeepL wydaje się idealne.
Konrad Rudolph
7

Tłumaczenia Google mogą być przydatne, zwłaszcza jeśli wiesz, że tłumaczenia nie są idealne i jeśli chcesz mieć początkowe wyobrażenie o znaczeniu tekstu (którego tłumaczenia Google może czasami wprowadzać w błąd lub być niepoprawne). Nie polecam tłumacza Google'a (ani żadnego innego tłumacza innego niż człowiek), aby wykonać poważne tłumaczenie, chyba że jest to prawdopodobnie wspólne zdanie lub słowo, nie zawiera bardzo długich tekstów i nieformalnego języka (lub slangu), tłumaczenia obejmują Język angielski lub nie masz dostępu do tłumacza.

Tłumacz Google używa obecnie neuronowego systemu tłumaczenia maszynowego . Aby ocenić ten model (i podobne modele), użyto metryki BLEU (skala od do , gdzie odpowiada standardowemu tłumaczeniu ludzkiego złota) i oceny równoległe (człowiek ocenia tłumaczenia). Jeśli używasz tylko metryki BLEU, tłumaczenia maszynowe są dość słabe (ale metryka BLEU również nie jest idealną metryką oceny, ponieważ często występuje więcej niż jedno tłumaczenie danego zdania). Jednak GNMT zmniejsza liczbę błędów tłumaczenia w porównaniu do tłumaczenia maszynowego opartego na frazach (PBMT) .0100100

W artykule Making AI AI znów ma sens , autorzy omawiają również trudność zadania tłumaczenia (które uważa się za problem z AI-zupełnością ). Wspominają również o transformatorze (innym najnowocześniejszym modelu tłumaczenia maszynowego), który osiąga dość słabe wyniki (oceniane za pomocą metryki BLEU).

Podsumowując, tłumaczenie maszynowe jest trudnym problemem, a obecne systemy tłumaczenia maszynowego zdecydowanie nie działają tak dobrze, jak profesjonalny tłumacz ludzki.

nbro
źródło
Wynik 100 BLEU nie oznacza tłumaczenia standardowego dla ludzkiego złota, oznacza to, że dokładnie pasuje do tłumaczenia referencyjnego. Ponieważ zwykle istnieje wiele sposobów tłumaczenia zdania, nawet tłumaczenie ludzkie zwykle nie ma 100 BLEU, ale więcej niż 50-60.
justhalf
@ justhalf Przeczytaj ponownie moją odpowiedź.
nbro
1
Dziękuję za odpowiedź i przepraszam, jeśli mój poprzedni komentarz był niegrzeczny. W moim poprzednim komentarzu stwierdziłem, że niedokładne jest sprawianie wrażenia, że ​​tłumaczenie ludzkie dostanie 100 punktów BLEU, co wydaje się, że twoja obecna odpowiedź robi.
justhalf
@ justhalf Właśnie powiedziałem, że odpowiada ludzkiemu „złotemu standardowi” tłumaczeniu. Jednak stwierdzam również, że metryka NIEBIESKA nie jest doskonała, ponieważ często występuje więcej niż jedno tłumaczenie danego tekstu. 100
nbro
5

Zadałeś sporo pytań, na niektóre z nich nie można ostatecznie odpowiedzieć. Aby dać wgląd w jakość (i jego historię) tłumaczeń maszynowych, chciałbym odnieść się do Christophera Manninga do jego „testu porównawczego jednego zdania” przedstawionego w jego wykładzie . Zawiera jeden przykład z chińskiego na angielski, który jest porównywany z danymi wyjściowymi Tłumacza Google. Prawidłowe tłumaczenie dla tego przykładu to:

W 1519 roku sześciuset Hiszpanów wylądowało w Meksyku, aby podbić imperium Azteków z populacją kilku milionów. W pierwszym starciu stracili dwie trzecie swoich żołnierzy.

Tłumacz Google zwrócił następujące tłumaczenia.

2009 1519 600 Hiszpanów wylądowało w Meksyku, miliony ludzi, aby podbić imperium Azteków, pierwsze dwie trzecie żołnierzy przeciwko ich stracie.

2011 1519 600 Hiszpanów wylądowało w Meksyku, miliony ludzi, aby podbić imperium Azteków, początkowa strata żołnierzy, dwie trzecie ich spotkań.

2013 1519 600 Hiszpanów wylądowało w Meksyku, aby podbić imperium Azteków, setki milionów ludzi, początkowa utrata konfrontacji żołnierzy dwie trzecie.

2015 1519 600 Hiszpanów wylądowało w Meksyku, miliony ludzi, by podbić imperium Azteków, pierwsze dwie trzecie strat żołnierzy, których zderzyli.

2017 W 1519 r. 600 Hiszpanów wylądowało w Meksyku, aby podbić miliony ludzi imperium Azteków, w pierwszej konfrontacji zabili dwie trzecie.

Czy Google zachowuje lub „ukrywa” swoje najlepsze wyniki: Wątpię. Jest wielu znakomitych badaczy zajmujących się przetwarzaniem języka naturalnego (NLP). Gdyby Google miał „największe osiągnięcie” w tłumaczeniu, naukowcy odkryliby to wcześniej czy później. (Dlaczego Google i tak miałby ukrywać swoje „największe osiągnięcie”? Wydaje się, że widzą korzyści płynące z otwartego oprogramowania, patrz Transformer [1] lub BERT [2])

NB. Aby uzyskać zaktualizowaną listę najnowocześniejszych algorytmów w NLP, zobacz tabelę wyników SQuAD2.0 .

[1] Vaswani, Ashish i in. „Uwaga jest wszystkim, czego potrzebujesz”. Postępy w systemach przetwarzania informacji neuronowych. 2017 r.

[2] Devlin, Jacob i in. „Bert: Wstępne szkolenie głębokich dwukierunkowych transformatorów do rozumienia języka”. nadruk arXiv arXiv: 1810.04805 (2018).

RikH
źródło
Wielkie dzięki za link do „dobrze wynagradzanych naukowców”. Uwzględnienie rekompensat zawsze pomaga lepiej zrozumieć sytuację (nawet jeśli nie wiem, co miałeś na myśli, ustawiając ten link).
Hans-Peter Stricker
Argument też nie był zbyt solidny. Usunąłem link i próbowałem poprawić argument. Czytałem wiele artykułów NLP i jestem całkiem pewny swoich ustaleń, ale trudno znaleźć poparcie dla tego argumentu.
RikH
Daj mi znać o swoich ustaleniach (jeśli nie masz nic przeciwko). Mój adres e-mail można znaleźć na stronie mojego profilu.
Hans-Peter Stricker
1
2019 :In 1519, 600 Spaniards landed in Mexico to conquer the Aztec empire of millions of people, and they first met two-thirds of their soldiers.
Dan M.
4

To naprawdę zależy od pary języków i tematu zawartości. Najlepiej jest tłumaczyć tłumaczenie na angielski z dowolnego innego języka. Tłumaczenie na popularne języki i z nich działa lepiej, na przykład tłumaczenie z angielskiego na rumuński jest gorsze niż z angielskiego na rosyjski. Ale tłumaczenie z angielskiego na rosyjski lub rumuński jest lepsze niż tłumaczenie z rosyjskiego na rumuński. A tłumaczenie rumuńskiego na angielski jest lepsze niż tłumaczenie z angielskiego na rumuński.

Ale jeśli jesteś przyzwyczajony do pracy z tłumaczami i dobrze znasz języki, błędy w tłumaczeniu i temat, łatwo zrozumieć, co powinno tam być. I w tym momencie czasami łatwiej jest odczytać coś przetłumaczonego na swój język ojczysty w celu szybkiego skanowania niż czytać w drugim języku.

Mniej popularne języki (w przypadku tłumaczeń niekoniecznie w liczbie mówców) są znacznie bliższe dosłownym tłumaczeniom tylko nieznacznie lepiej niż to, co osobiście zrobiłbyś przy użyciu słownika dla dwóch nieznanych języków.

Aaron Harun
źródło
2

Czy się mylę, a mimo to tłumaczenia Google są czytelne, pomocne i przydatne dla większości użytkowników?

Tak, są one nieco pomocne i pozwalają na szybsze tłumaczenie.

Czy Google ma powody, by zachować swoje największe osiągnięcia (i nie pokazywać użytkownikom tego, co mogą najlepiej pokazać)?

Może nie wiem. Jeśli szukasz informacji, Google robi naprawdę okropne głupie rzeczy, takie jak uczenie się na podstawie wypowiedzi użytkowników w Internecie, przyjmowanie nieodpowiednich danych jako zaufanych zestawów danych wejściowych.

użytkownik8426627
źródło
2

Przepraszamy za brak pisania po angielsku. Dostosowane tłumaczenie znajduje się tutaj:

Aby dać zainteresowanym ludziom pojęcie o jakości MT (DeepL), zapoznaj się z tym przykładem z tekstu, nad którym pracowałem dziś rano (6300 słów, rozpoczęło się o 9 rano, dostawa dziś około 13 i wciąż znajduję czas na ten post). Pracowałem nad tym zdaniem (201 słów), kiedy zamieściłem swój komentarz.

lub wszelkie procesy, które są uruchamiane lub aktywowane, gdy użytkownik nie jest zalogowany w tej Witrynie, lub które w inny sposób zakłócają prawidłowe działanie lub nakładają nieuzasadnione obciążenie infrastruktury tej Witryny; lub (e) używać ręcznego lub zautomatyzowanego oprogramowania, urządzeń lub innych procesów do „indeksowania”, „drapania” lub „pająka” dowolnej strony tej witryny; lub (f) Dekompilacja, inżynieria wsteczna lub w inny sposób próba uzyskania kodu źródłowego tej witryny. ”

DeepL zwraca to:

Sie versichern, garantieren und verpflichten sich gegenüber ABC, dass Sie dies nicht tun werden: (a) betrügerische, missbräuchliche oder anderweitig nielegalna Aktivitäten durchzuführen, die Anlass für die Beendigung Ihres Rechts auf Zufen an der Zünen od auf Zün den der Zugen oder (b) Mitteilungen oder Aufforderungen, die dazu bestimmt sind oder sind, Passwörter, Konten oder private Informationen von anderen Nutzern dieser Strona internetowa jest używana, używana przez pocztę oder zu übertragen oder posten oder zu posten oder zu übertragen; oder c) die Sicherheit eines Computernetzwerks verletzen, Passwörter oder Sicherheitsverschlüsselungscodes knacken, illegales Material (einschließlich Material, das als bedrohlich oder obszön angesehen werden kann) übertragen oder speenegenenenenenenenenenenenen die ausdrücklich verboten sind; oder (d) Mailliste, Listenserver oder jede andere Form von Auto-Responder oder "Spam" auf dieser Witryna internetowa oder Prozesse, die ausgeführt werden oder aktiviert werden, während Sie nicht auf dieser Strona internetowa angemeldet sind, oder die anderweitigememememenenen Belastung der Infrastruktur dieser Strona internetowa stören; oder (e) manuelle oder automatisierte Software, Geräte oder andere Prozesse verwenden, um eine Seite dieser Website zu "crawlen", zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Strona internetowa zu erhalten. die ausgeführt werden oder aktiviert werden, während Sie nicht auf dieser Strona internetowa angemeldet sind, oder die anderweitig das ordnungsgemäße Funktionieren oder eine unangemessene Belastung der Infrastruktur dieser Strona internetowa; oder (e) manuelle oder automatisierte Software, Geräte oder andere Prozesse verwenden, um eine Seite dieser Website zu "crawlen", zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Strona internetowa zu erhalten. die ausgeführt werden oder aktiviert werden, während Sie nicht auf dieser Strona internetowa angemeldet sind, oder die anderweitig das ordnungsgemäße Funktionieren oder eine unangemessene Belastung der Infrastruktur dieser Strona internetowa; oder (e) manuelle oder automatisierte Software, Geräte oder andere Prozesse verwenden, um eine Seite dieser Website zu "crawlen", zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Strona internetowa zu erhalten. zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Strona internetowa zu erhalten. zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Strona internetowa zu erhalten.

Dostosowanie tego akapitu zajęło mi około 5–10 minut.

Jako tłumacz wiem, że nie mogę polegać na tłumaczeniu maszynowym, ale z czasem poznałem specyfikę i możliwości różnych systemów i wiem na co zwrócić uwagę.

MT bardzo mi pomaga w pracy.

Herbert
źródło
2
Zauważ, że teksty prawne dają lepsze automatyczne tłumaczenia, ponieważ w tym obszarze jest mnóstwo tekstów wielojęzycznych.
Quora Feans
1

To będzie nie tyle odpowiedź, ile komentarz.

Jakość zależy od kilku rzeczy, w tym (jak powiedział Aaron powyżej) 1) pary języków i 2) tematu, ale także 3) rodzajów i 4) stylu oryginału oraz 5) ilości równoległego tekstu trenować system MT.

Aby przygotować scenę, praktycznie wszystkie MT w dzisiejszych czasach oparte są na tekstach równoległych, to znaczy w dwóch różnych językach, przy czym jeden prawdopodobnie jest tłumaczeniem drugiego (lub oba są tłumaczeniem jakiegoś trzeciego języka); i potencjalnie wykorzystanie słowników (być może wspomaganych procesami morfologicznymi) jako backoff, gdy równoległe teksty nie zawierają konkretnych słów.

Co więcej, jak powiedzieli inni, system MT w żaden sposób nie rozumie tekstów, które tłumaczy; po prostu widzi ciągi znaków i ciągi słów złożone z znaków, i szuka podobnych ciągów i sekwencji w tekstach, które wcześniej tłumaczył. (Ok, jest to nieco bardziej skomplikowane i próbowano uzyskać semantykę w systemach obliczeniowych, ale na razie są to głównie łańcuchy.)

1) Języki się różnią. Niektóre języki mają wiele morfologii, co oznacza, że ​​robią to za pomocą jednego słowa, a inne za pomocą kilku słów. Prostym przykładem byłoby hiszpańskie „cantaremos” = angielskie „będziemy śpiewać”. I jeden język może robić rzeczy, z którymi drugi język nawet się nie przejmuje, jak nieformalne / formalne (tu / usted) rozróżnienie w języku hiszpańskim, którego angielski nie ma odpowiednika. Albo jeden język może robić rzeczy z morfologią, co inny język robi z porządkiem słów. Lub skrypt używany przez język może nawet nie oznaczać granic słów (chiński i kilka innych). Im bardziej różne są te dwa języki, tym trudniej będzie tłumaczyć system MT między nimi. Pierwsze eksperymenty w statystycznym MT przeprowadzono między językiem francuskim a angielskim,

2) Temat: Jeśli masz równoległe teksty w Biblii (co jest prawdą w przypadku prawie każdej pary języków pisanych) i trenujesz z nich swój system MT, nie oczekuj, że spisuje się dobrze w tekstach inżynieryjnych. (Cóż, Biblia i tak jest stosunkowo niewielką ilością tekstu, jak na standardy szkolenia systemów MT, ale udawaj :-).) Słownictwo Biblii różni się bardzo od tekstów inżynieryjnych, podobnie jak częstotliwość różnych gramatyki konstrukcje. (Gramatyka jest zasadniczo taka sama, ale na przykład w języku angielskim masz o wiele więcej pasywnego głosu i więcej złożonych rzeczowników w tekstach naukowych i inżynieryjnych).

3) Genera: Jeśli tekst równoległy jest w całości deklaratywny (powiedzmy, np. Instrukcje ciągnika), próba użycia wynikowego systemu MT w oknie dialogowym nie przyniesie dobrych wyników.

4) Styl: Think Hilary vs. Donald; erudyta kontra popularność. Trening z jednej strony nie przyniesie dobrych rezultatów z drugiej. Podobnie szkolimy system MT w zakresie powieści dla dorosłych i używamy go w książkach dla dzieci.

5) Para językowa: angielski ma wiele tekstów, a szanse na znalezienie tekstów w innym języku, które są równoległe do danego tekstu angielskiego, są znacznie większe niż szanse na znalezienie równoległych tekstów, powiedzmy, w języku rosyjskim i igbo. (To powiedziawszy, mogą istnieć wyjątki, takie jak języki Indii.) W ogólnym ujęciu, im więcej takich równoległych tekstów musisz trenować system MT, tym lepsze wyniki.

Podsumowując, język jest skomplikowany (dlatego go uwielbiam - jestem lingwistą). Nic więc dziwnego, że systemy MT nie zawsze działają dobrze.

BTW, ludzcy tłumacze też nie zawsze radzą sobie tak dobrze. Dziesięć lub dwa lata temu dostawałem tłumaczenia dokumentów od ludzkich tłumaczy na angielski, które miały być wykorzystane jako materiały szkoleniowe dla systemów MT. Niektóre tłumaczenia były trudne do zrozumienia, aw niektórych przypadkach, gdy otrzymaliśmy tłumaczenia od dwóch (lub więcej) ludzkich tłumaczy, trudno było uwierzyć, że tłumacze czytali te same dokumenty.

I wreszcie (prawie) nigdy nie ma tylko jednego poprawnego tłumaczenia; istnieje wiele sposobów tłumaczenia fragmentu, które mogą być mniej lub bardziej dobre, w zależności od tego, jakie cechy (poprawność gramatyczna, styl, spójność użycia, ...) chcesz. Nie ma łatwej miary „dokładności”.

Mike Maxwell
źródło
1

Co zaskakujące, wszystkie pozostałe odpowiedzi są bardzo niejasne i starają się podejść do tego z ludzkiego tłumacza POV. Przejdźmy do inżyniera ML.

Podczas tworzenia narzędzia do tłumaczenia jednym z pierwszych pytań, które powinniśmy wziąć pod uwagę, jest: „W jaki sposób mierzymy, że nasze narzędzie działa?” .

O to właśnie prosi OP.

To nie jest łatwe zadanie (niektóre inne odpowiedzi wyjaśniają dlaczego). Istnieje artykuł w Wikipedii, który wymienia różne sposoby oceny wyników tłumaczenia maszynowego - istnieją zarówno wyniki ludzkie, jak i automatyczne (takie jak BLEU , NIST , LEPOR ).

Wraz z rozwojem technik sieci neuronowych wyniki te znacznie się poprawiły.

Tłumaczenie to złożony problem. Istnieje wiele rzeczy, które mogą pójść dobrze (lub źle), a komputerowy system tłumaczący często ignoruje niektóre subtelności, które wyróżniają się jako ludzki mówca.

Myślę, że jeśli mamy myśleć o przyszłości, możemy polegać na kilku rzeczach:

  • Nasze techniki stają się coraz lepsze, szerzej znane i testowane. Poprawi to dokładność na dłuższą metę.
  • Opracowujemy nowe techniki, które mogą uwzględniać zmienne wcześniej ignorowane lub po prostu wykonywać lepszą pracę.
  • Wiele obecnie istniejących modeli tłumaczenia jest często „ponownie wykorzystywanych” do tłumaczenia innych języków (na przykład spróbuj przetłumaczyć „JEDEN” z polskiego na chiński (tradycyjny) za pomocą Google Translator - skończysz na „ONE”, co jest dowodem na to fakt, że Google tłumaczy z polskiego na angielski, a następnie z angielskiego na chiński). To oczywiście nie jest dobre podejście - stracisz trochę informacji w tym procesie - ale nadal działa, więc firmy takie jak Google używają go w językach, w których nie ma wystarczającej siły roboczej lub danych. Z czasem pojawią się bardziej wyspecjalizowane modele, które poprawią sytuację.
  • Ponadto, jak stwierdzono w poprzednim punkcie, coraz więcej danych pomoże jedynie poprawić tłumaczenie maszynowe.

Podsumowując, ten złożony problem, choć nie rozwiązany, z pewnością jest na dobrej drodze i pozwala uzyskać imponujące wyniki dla dobrze zbadanych par językowych.

MatthewRock
źródło
„Zaskakująco wszystkie inne odpowiedzi ...”, nie wszystkie inne odpowiedzi. Powiedziałbym „Niektóre inne odpowiedzi” lub „Większość innych odpowiedzi”.
nbro
0

„Czy Google ma powody, by zachować swoje osiągnięcia (i nie pokazywać użytkownikom tego, co mogą najlepiej pokazać)”

Gdyby tak było, to to, co powstrzymywaliby, byłoby niesamowite . Google publikuje wiele mocnych artykułów na temat przetwarzania języka naturalnego, w tym takie, które osiągają najnowsze wyniki lub dokonują znaczących przełomów koncepcyjnych . Wydali także bardzo przydatne zestawy danych i narzędzia . Google jest jedną z niewielu firm, która nie tylko wykorzystuje najnowocześniejsze badania, ale aktywnie uczestniczy w literaturze.

Tłumaczenie maszynowe to tylko trudny problem. Dobry ludzki tłumacz musi biegle władać obydwoma językami, aby dobrze wykonywać swoją pracę. Każdy język będzie miał swoje własne idiomy i znaczenia nieliteralne lub zależne od kontekstu. Praca ze słownikiem dwujęzycznym przyniosłaby straszne wyniki (dla człowieka lub komputera), dlatego musimy trenować nasze modele na istniejących korpusach, które istnieją w wielu językach, aby dowiedzieć się, w jaki sposób używane są słowa (nb ręcznie skompilowane zdanie tabele tłumaczeń mogą być używane jako funkcje ; po prostu nie mogą być całą historią). W przypadku niektórych par językowych korpusy równoległe są obfite (np. W przypadku języków UE mamy pełne postępowanie Parlamentu Europejskiego). W przypadku innych par dane treningowe są znacznie rzadsze. I nawet jeśli mamy dane szkoleniowe, będą istnieć rzadziej używane słowa i frazy, które nie pojawiają się wystarczająco często, aby się ich nauczyć.

Był to jeszcze większy problem, ponieważ synonimy były trudne do wyjaśnienia. Gdyby nasze dane treningowe zawierały zdania dla „Pies złapał piłkę”, ale nie „Szczeniak złapał piłkę”, mielibyśmy małe prawdopodobieństwo drugiego zdania. Rzeczywiście konieczne byłoby znaczne wygładzenie, aby zapobiec zeru prawdopodobieństwa w wielu takich przypadkach.

Pojawienie się neuronowych modeli językowych w ciągu ostatnich 15 lat ogromnie pomogło w rozwiązaniu tego problemu, umożliwiając odwzorowanie słów na rzeczywistą przestrzeń semantyczną przed poznaniem związków między słowami. Pozwala to na naukę modeli, w których słowa, które są blisko siebie znaczące, są również blisko siebie w przestrzeni semantycznej, a zatem zamiana słowa na jego synonim nie wpłynie znacząco na prawdopodobieństwo zdania zawierającego. word2vecjest modelem, który bardzo dobrze to ilustruje; pokazało, że możesz np. wziąć wektor semantyczny dla „króla”, odjąć wektor dla „mężczyzny”, dodać wektor dla „kobiety” i stwierdzić, że najbliższym słowem dla powstałego wektora była „królowa”. Gdy badania nad modelami języka neuronowego rozpoczęły się na dobre, zaczęliśmy dostrzegać natychmiastowe i masywne spadki zakłopotania (tj. Jak bardzo modele były pomieszane przez tekst naturalny) i widzimy odpowiedni wzrost wyniku BLEU (tj. Jakości tłumaczenia) teraz, gdy te modele językowe są integrowane z systemami tłumaczenia maszynowego.

Tłumaczenia maszynowe wciąż nie są tak dobre, jak tłumaczenia ludzkie, i być może nie będą tak dobre, dopóki nie rozwalimy w pełni rozumnej sztucznej inteligencji. Ale dobrzy tłumacze są kosztowni, podczas gdy każdy z dostępem do Internetu ma do dyspozycji tłumaczy maszynowych. Nie chodzi o to, czy tłumaczenie ludzkie jest lepsze, ale o to, jak bardzo maszyna zbliża się do tego poziomu jakości. Ta luka kurczy się i wciąż maleje.

Promień
źródło
Nie podoba mi się to podejście - ale to kwestia gustu i opinii. Robienie bez tłumaczenia „uczonego / rozumnego / rozumienia” tylko dlatego, że „tłumacze ludzcy są drogi” sprawia mi smutek. Na czym zatem polega tłumaczenie?
Hans-Peter Stricker
@ Hans-PeterStricker Tłumaczenie polega na możliwości komunikowania się z ludźmi, z którymi nie znasz wspólnego języka. Tłumaczenie maszynowe jest obecnie na tyle dobre, że pozwala nam to zrobić dość dobrze, chociaż tłumaczenia wynikowe są często nie gramatyczne lub brzmią jak język ojczysty. (ciąg dalszy ...)
Ray
W zależności od tego, co rozumiesz przez „uczony / savant / rozumienie”, możemy już to robić. Takie właśnie jest mapowanie na wektor semantyczny; słowa są osadzone w przestrzeni wektorowej, która reprezentuje ich podstawowe znaczenie. Papier Sutskever, który połączyłem (jako „konceptualny”), faktycznie dokonuje tłumaczenia, mapując całe zdanie na wektor semantyczny, a następnie przekształcając ten wektor w zdanie w języku docelowym. Tak więc na pewno dzieje się tam coś w rodzaju „zrozumienia”. (ciąg dalszy ...)
Ray
Istnieją również modele, które uczą się podstawowej składni (tj. Struktury zdania), i pracowano nad integracją jej z modelami neuronowymi, chociaż w tej chwili wydają się modele, które uczą się, na które części zdania powinni zwrócić uwagę w danym momencie aby być bardziej skutecznym w radzeniu sobie z tego rodzaju rzeczami niż jawne modele składniowe. (ciąg dalszy ...)
Ray
Jeśli nie uważasz, że tego rodzaju „rozumienie” liczy się jako Prawdziwe Zrozumienie, to co by się liczyło poza AI, które przejdzie Test Turinga, tj. W pełni rozumne? Zauważ, że nigdy nie mówiłem, że nie jesteśmy w stanie stworzyć w pełni inteligentnego AI (nie mogłem powiedzieć, ile to zajmie; to nie moja część pola. Ale nie mam wątpliwości, że w końcu się tam dostaniemy). Ale modele, które tu opisuję, są tym, z czego korzystamy teraz i działają dość dobrze, umożliwiając komunikację. Badania nad AI polegają na uzyskiwaniu coraz lepszych wersji „wystarczająco dobrego”
Ray