Przejdź do treści

newsy

ICU z maszyny

Intento jest tym graczem na rynku MT, który nie koncentruje się na budowaniu własnych silników, tylko na dostarczaniu narzędzi ułatwiających używanie MT różnich firm. Ostatnio zaproponowali rozwiązanie wspomagające tłumaczenie maszynowe stringów w notacji ICU, o których newsletter Intento wspomina w sposób lekko niepokojący:

Considering that professional translators will find themselves confused by the ICU format, this is a massive step towards raising the level of your MT past even the gold standard of human translation.

Niepokoi nie tyle sugestia, że MT może być lepsze od tłumacza, co implikacja, że teksty bardzo nieprzyjazne do tłumaczenia profesjonalnego mogą być zrobione przez maszynę równie dobrze, bo tłumacz i tak się w nich nie połapie…

MT w Tradosie

Cukier jest w puszcze po herbacie z napisem “sól”.

Nowy silnik NMT, RWS Language Weaver, jest już dostępny w Tradosie – dla niepoznaki wciąż pod opcją SDL Language Cloud 🙂 Użytkownicy Studio mogą go wypróbować bezpłatnie – z desktopowej wersji Tradosa 2021 lub 2019, z Trados Live lub bezpośrednio z przeglądarki. Do skorzystania z MT trzeba zalogować się na konto (zwane SDL ID lub SDL Language Cloud).

Jeśli macie już ulubioną wtyczkę do MT, na przykład DeepL czy Google, to można testowo podłączyć na jakiś czas Language Weavera jako drugi silnik.

Dostosowanie MT za pomocą glosariusza jest dostępne tylko w wersji płatnej, a trening na własnych pamięciach – w wersji Enterprise.

Responsive MT – na razie nowy buzzword

Pięknie dziękuję niezawodnej Annie Kotarskiej za zwrócenie uwagi na nowy trend!

Arle Lommel z CSA Research wprowadza do gry nowe hasło: Responsive MT. Co to ma być? Ano takie MT, które wykrywa tematykę i dostosowuje się do niej (i to na poziomie segmentu), rozpoznaje kontekst (szeroko poza zakresem segmentu) i dostosowuje się do informacji zwrotnych od klienta (takich jak nowe pamięci treningowe czy poprawki z postedycji). O krawatach na razie ani słowa 🙂

Dlaczego piszę o tym z odrobiną ironii? Bo AD 2021 bariery w rozwoju NMT są znacznie częściej organizacyjne niż technologiczne: ochrona danych wrażliwych i własności intelektualnej (oraz inne, mniej racjonalne przesłanki) nie zachęcają tłumaczy, LSP czy korporacji do dostarczania maszynie danych innych niż niezbędne do wykonania surowego tłumaczenia. Tymczasem Responsive MT będzie wymagało udostępnienia swoich pamięci, informacji o projekcie i poprawek z postedycji. Ciekawa jestem rozwiązań formalnych, które pomogą przekroczyć te bariery.

Kiedy MT jest posłuszne

Czego można spodziewać się po MT dotrenowanym pamięcią z dziedziny, w której pracujemy? A na ile MT może zaadaptować się do poprawek, jakie wprowadzamy poprawiając jego kolejne podpowiedzi?

Eksperyment z adaptującym się narzędziem do tłumaczenia maszynowego ModernMT został przeprowadzony przez Anonimową Tłumaczkę na platformie SDL Trados Studio 2017 w trzech fazach z wykorzystaniem tzw. tekstu „miękkiego” z obszaru nauk humanistycznych, w tłumaczeniu z języka polskiego na angielski:

  • Faza 0 (ok. 18 tys. znaków ze spacjami) – podpięty silnik ModernMT bez żadnych dodatkowych zasobów.
  • Faza 1 (ok. 22 tys. znaków ze spacjami) – podpięty silnik ModernMT z pamięcią  bazującą na wcześniej przetłumaczonych tekstach dotyczących tej samej tematyki (ok. 500 tys. znaków ze spacjami), ustawioną do wykorzystania przez silnik MT, lecz bez aktualizacji.
  • Faza 2 (ok. 60 tys. znaków ze spacjami) – podpięty silnik ModernMT z tą samą pamięcią, ustawioną do wykorzystania oraz aktualizacji przez silnik MT.

Faza 1 – silnik MT korzysta z pamięci

\W fazie 1 w stosunku do fazy 0 nastąpiła odczuwalna poprawa w zakresie doboru słownictwa. Klient miał określone wymagania co do nazewnictwa – faza 0 wymagała ze strony Tłumaczki w większości przypadków ręcznego wprowadzania poprawek, natomiast w fazie 1 silnik ModernMT dobierał właściwe określenia w ok. połowie przypadków.

Przykład terminologiczny (Faza 1):

Przykład stylistyczny (Faza 1):

Faza 2 – silnik MT korzysta z pamięci i z poprawek

Poprawa stała się jeszcze bardziej dostrzegalna w fazie 2 – terminologia była właściwie dobierana w ponad połowie przypadków, poza tym tłumaczenie maszynowe zaczęło naśladować styl Tłumaczki, co przejawiało się w używaniu charakterystycznych wyrażeń, które Tłumaczka wcześniej wprowadzała  ręcznie.

Przykład terminologiczny (Faza 2):

Przykład stylistyczny (Faza 2):

Tłumaczenie maszynowe wymagało stałego nadzoru, ponieważ można było zaobserwować ewidentne „spadki formy” i powrót do poprawianych przez Tłumaczkę wersji. Można jednak z dużą dozą pewności stwierdzić, że w fazie 2 liczba zastosowanych form poprawnych wśród obserwowanych sformułowań przeważała nad liczbą form niepoprawnych.

Tłumaczka nie odnotowała zauważalnego zwiększenia szybkości tłumaczenia w kolejnych fazach (prawdopodobnie ze względu na charakter tekstu szybkość tłumaczenia utrzymywała się na stałym poziomie 9 tys. znaków ze spacjami na godzinę), jednak szczególnie w fazie 2 dało się dostrzec zwiększoną „lekkość” tłumaczenia – praca nad nim stała się wyraźnie łatwiejsza.

Warto zwrócić uwagę, że stała szybkość tłumaczenia odnosi się do wcześniejszej pracy z nietrenowanym MT (ModernMT, wcześniej DeepL), a nie do pracy bez żadnych podpowiedzi z MT.

MT Summit 2021

Za miesiąc konferencja MT Summit 2021, 5 dni online w strefie czasowej wschodniego wybrzeża USA. W programie między innymi:

  • The 4th Workshop on Technologies for MT of Low Resource Languages
  • 1st International Workshop on Automatic Translation for Signed and Spoken Languages
  • Theory and Practice for research in Post-editese
  • Understanding and Improving Context Usage in Context-aware Translation
  • Bad to the Bone: Predicting the Impact of Source on MT 🙂

Intento: “The pt was given abx”

Firma Intento oferuje nowe narzędzie poprawiające jakość MT: glosariusz skrótów podłączany przed wpuszczeniem tekstu do maszyny, który rozwija je, zanim tekst trafi do maszyny. Proponowane obszary zastosowania to m.in. sklepy internetowe i inne obszary obsługi klienta, a przede wszystkim – teksty medyczne: elektroniczny odpowiednik pisma lekarskiego 🙂

Porównanie MT dostępnych przez API (i wtyczki)

Bardzo przystępne porównanie MT dostępnych przez API (w tym wtyczki do CAT-ów), stan na 19 marca 2021, opublikowała firma ModelFront. Czytelne zestawienie dostępnych języków, możliwości dostosowania MT do własnej dziedziny, cen i ochrony danych. W kolumnie “Context” wieje pustką 🙂

Z publikacji dowiemy się też o aktualnie dostępnych darmowych silnikach NMT “do samodzielnego złożenia”, a oprócz tego – jakie języki zostały niedawno dodane. DeepL na przykład włączył dosłownie przed momentem język czeski (i parę innych języków Europy Środkowej, tak że polski przestał być uprzywilejowany), a Microsoft obsługuje m.in. język tigrinia.

eTranslation: 2 miejsce w WMT20 dla polskiego; arabski i speech-to-text

Unijny system eTranslation zajął drugie miejsce w konkurencji silników MT dla pary angielski -> polski, stanowiącej część Fifth Conference of Machine Translation (WMT20). Wynik jest bardzo dobry, biorąc pod uwagę, że w konkurencji brały udział m.in. silniki z Tilde czy praskiego Uniwersytetu Karola (ale nie znajdziemy tam niektórych systemów komercyjnych, jak DeepL czy Google).

Ocena, na podstawie której porównywano systemy, jest oceną ludzką, a do treningu oraz tłumaczenia użyte zostały teksty prasowe. Więcej informacji o wynikach eTranslation w tym rankingu znajdziemy na stronach Connecting Europe Facility oraz w materiałach konferencyjnych.

A najświeższe wieści o eTranslation to dodanie arabskiego do listy języków obsługiwanych oraz dodanie funkcji Speech-to-Text.

Język japoński w eTranslation

Jak informuje biuletyn ELRC, od stycznia możemy – za pomocą bezpłatnego publicznego serwisu eTranslation – tłumaczyć maszynowo język japoński. Możemy jako obywatele UE (na użytek prywatny, jako freelancerzy lub MŚP) – poddani korony brytyjskiej niestety utracili już dostęp do tego systemu 🙁

Inne nowości w eTranslation to, jak pisze Anna Kotarska, m.in. aktualizacje MT dla języka formalnego “dzięki nowej porcji danych, aby silniki lepiej radziły sobie z terminologią związaną z trwającym kryzysem zdrowotnym”.

Więcej informacji znajdziemy na unijnych stronach o narzędziach językowych.

Opcja niemiecka

Na potrzeby prezydencji Niemiec w UE powstał portal o nazwie EU Council Presidency Translator, spinający MT z eTranslation, DeepL i Tilde, a obsługujący języki Europy. Portal nie wydaje się rozwiązaniem szczególnie nowatorskim technologicznie, bo tłumacząc w nim tekst, wybieramy z góry, który silnik ma być użyty. Bardziej imponująca jest współpraca firm komercyjnych i sektora publicznego nad wspólnym celem – dostarczeniem obywatelom jak najlepszej oferty darmowego tłumaczenia maszynowego.