Przejdź do treści

Nowości o MT

eTranslation w memoQ

Dawno temu, w odległej galaktyce… a konkretnie – w październiku 2020, po unijnej konferencji dotyczącej eTranslation (“Tools and services for multilingual Europe”), Anna Kotarska namówiła mnie do zapytania producentów dwóch popularnych CAT-ów o wtyczki umożliwiające korzystanie z eTranslation w tych narzędziach.

Wiosną 2022 w memoQ 9.10 pojawiła się nowa wtyczka do tłumaczeń maszynowych, umożliwiająca korzystanie z unijnego systemu eTranslation – dostępnego bezpłatnie dla sektora publicznego, placówek naukowych oraz małych i średnich firm, do których zaliczają się tłumacze freelancerzy. Narzędzie wymaga zalogowania się przez EU Login, takie samo, przez jakie wchodzi się do eTranslation z przeglądarki.

Wtyczka została dodana już kilka tygodni temu, ale z początku nie działała poprawnie – proszę się nie zniechęcać, jeśli przy pierwszej próbie “nie zaskoczy” lub będzie generować tłumaczenia z opóźnieniem 🙂

Pierwsze wrażenia z tłumaczenia w parze angielski > polski? Silnik eTranslation nieźle sprawdza się przy tekście formalnym, na przykład takim jak poniższy. Warto rozważyć jego użycie dla wszelkich pism urzędowych, oficjalnych informacji dla mediów, aktów prawnych itp.

Gorzej wypada tekst marketinowy, ale przyznam, że z nim nie radzi sobie zbyt dobrze ani DeepL, ani ModernMT:

Tekst techniczy również wypada średnio, a co gorsza – obsługa znaczników (inline tags) jest jeszcze do poprawienia: eTranslation nawet nie próbuje wstawić ich we właściwe miejsca, co potrafi zrobić wiele innych silników dostępnych z CAT-a – DeepL, ModernMT czy (zazwyczaj) Amazon:

A co się stało z prośbą o wtyczkę do drugiego CAT-a? Obawiam się, że utknęła na etapie sprawdzania “ale o co chodzi?” 🙁

MT dla języka ukraińskiego

Zebrałam na szybko znane mi ogólnodostępne, bezpłatne silniki MT z językiem ukraińskim – do codziennej komunikacji, do szkoły, szpitala czy urzędu. Warto sprawdzać inne opcje niż Google Translate, zwłaszcza jeśli Google nie tłumaczy wystarczająco dobrze lub jeśli wymagana jest ochrona prywatności tłumaczonego tekstu.

W uzupełnianiu strony na bieżąco pomaga Anna Kotarska – dziękuję!!!

Narzędzia komercyjne ogólnodostępne (bezpłatne)

  • Aktualizacja 10 września 2022: w tym tygodniu DeepL dodał język ukraiński, na razie z niewielkimi tylko ograniczeniami w porównaniu np. z polskim. Zasady ochrony i niegromadzenia danych zgodnie z ogólną polityką DeepLa.
  • Google Translate – wszyscy znają i umieją używać. Uwaga: wersja bezpłatna (z przeglądarki) nie zapewnia ochrony tłumaczonych treści, a dane są przetwarzane i gromadzone na serwerze w USA.
  • Microsoft Bing – nieco mniej znany, ale też łatwo dostępny. Zastrzeżenie co do ochrony treści takie samo jak dla Google Translate.
  • ModernMT – ciekawa opcja alternatywna względem dla Google i Microsoftu, warta sprawdzenia tak ze względu na jakość, jak i ochronę prywatności tłumaczonego tekstu, który jest przetwarzany w obrębie UE, zgodnie z zasadami GDPR (RODO) i, według deklaracji firmy, nie jest gromadzony.
  • Tilde MT – druga opcja europejska, dodana w marcu 2022 w ramach pomocy dla ukraińskich uchodźców w Europie. Przetwarzanie tekstu na serwerach w UE, zgodnie z GDPR, deklaracja o niegromadzeniu.
  • Yandex Translator – ten serwis ma prawdopodobnie jeden z najlepszych na świecie korpusów języka ukraińskiego, ale nie wiadomo, jak długo będzie działał. Treści są przetwarzanie na serwerze w Rosji, co w przypadku dokumentów poufnych może nie być akceptowalne.

Narzędzia naukowo-badawcze (również bezpłatne)

  • Bergamot translator – projekt z grantu UE Horizon 2020; języka polskiego nie ma, jest m.in. niemiecki i angielski.
  • OPUS-MT – projekt Uniwersytetu w Helsinkach, ograniczenia językowe podobne do powyższych.
  • UFAL translator for Czech – Ukrainian – projekt Uniwersytetu Karola w Pradze, w przygotowaniu para z j. polskim.

Zbiór zasobów językowych do przetwarzania języka ukraińskiego można znaleźć na stronie Helsinki-NLP/UkrainianLT.

Narzędzia specjalne (też są bezpłatne)

  • Intento oferuje bezpłatny dostęp do narzędzia Translation Portal with Character Recognition dla uchodźców z Ukrainy (tłumaczenie tekstu, skanów i zdjęć). Narzędzie wymaga rejestracji na stronie https://inten.to i wysłania maila na adres support@inten.to z tematem UKRAINE. Zasady ochrony prywatności danych są zapewne dostępne po nawiązaniu kontaktu z Intento.
  • eTranslation – serwis językowy Komisji Europejskiej – dodał w marcu 2022 ukraiński do listy obsługiwanych języków. W eTranslation można tłumaczyć tekst z przeglądarki lub całe dokumenty. Tłumaczone treści podlegają ochronie i nie są gromadzone ani udostępniane. Narzędzie wymaga założenia bezpłatnego konta EU Login.

Poprawianie MT przez korpus tematyczny (3)

TAUS po raz trzeci – czyli kolejny raport o poprawianiu MT przez zastosowanie korpusów TAUS z wybranych dziedzin. Tym razem na scenę wkroczył Amazon (AWS) – i podszedł do sprawy bardzo poważnie, trenując wybrane silniki MT na korpusach TAUS z dziedziny sklepów internetowych, medyczno-farmaceutycznej i finansowej. W opublikowanym raporcie TAUS i Amazon pokazują wzrost jakości MT o średnio 15% wg miary BLEU. Wynik jest więc tylko nieznacznie gorszy od poprzednich prób wykonanych przez firmy Systran (+18%) i Pangeanic (+22%).

Współpraca TAUS i Amazona nie kończy się na raporcie:

  • Amazon wprowadza do swojej oferty korpusy TAUS jako dane do treningu MT.
  • TAUS oferuje tematyczne silniki MT Amazona dla poszczególnych par językowych, podając spodziewaną poprawę jakości MT (BLEU) zgodnie z wynikami raportu.

Podobnie jak w poprzednich raportach, TAUS opiera ocenę MT wyłącznie na BLEU – nie podaje korelacji tej miary z wydajnością pracy postedytorów (co pozwalałoby wstępnie policzyć stawki za PE) ani z oceną odbiorców końcowych (co z kolei pomogłoby określić użyteczność trenowanego MT bez weryfikacji).

Jak zrobić to, czego robić nie należy

Nie chciałabym tu promować “lokalizacji” stron przez podłączenie Google Translate, ale jakby kolega pytał, to instrukcja trafiła do w3schools 😉
Powiedzcie też koledze, żeby przynajmniej sprawdził, czy inny silnik tłumaczeń maszynowch niż Google nie posłuży mu lepiej – na przykład DeepL, eTranslation, Tilde czy Yandex.

Lekko niepokojące szkolenie z MTPE

Firma Memsource zorganizowała 4-godzinne, bezpłatne szkolenie z efektywnego MTPE, stanowiące zarazem część projektu badawczego, jaki prowadzą Lucía Guerrero Romeo i Viveta Gene. Kilka aspektów szkolenia uznałabym za bardzo przydatne:

  • “Szkolenie stanowiskowe” uczestników – praktyczne ćwiczenia z postedycji MT w narzędziu CAT (Memsource).
  • Wskazanie technik i funkcji narzędzia CAT, które pomagają zwiększyć wydajność pracy postedytora; prawidłowe zastosowanie tych technik (np. odfiltrowanie i obrabianie oddzielnie segmentów z pamięci i segmentów z MT tylko wtedy, kiedy kontekst całego dokumentu nie jest istotny).
  • Przedstawienie typowych błędów MT, na które warto zwrócić uwagę.
  • Porównanie wydajności postedycji, wykonanej przez uczestników na próbkach, po “szkoleniu stanowiskowym”.

Dlaczego jednak uważam to szkolenie za nieco niepokojące?

  • Błędy krytyczne, gdzie MT zmienia sens tekstu, zostały wymienione po prostu jako jeden z typów błędów – gdzieś między nieuzgodnionym rodzajem a niepoprawną interpunkcją. Zabrakło wskazówek, jak te krytyczne błędy wychwytywać.
  • Za jedyne kryterium skuteczności “szkolenia stanowiskowego” – nota bene, spełnione – został uznany wzrost wydajności postedycji. Nie wiadomo, czy nie spadła przy tym jakość finalnego tłumaczenia.

Pisanie pod maszynę

Jak pisać, żeby Neural MT sobie z tym poradziło? Centrum Tłumaczeń dla organów Unii Europejskiej publikuje broszurę z praktycznymi poradami, do pobrania bezpłatnie ze strony. Przykładowo:

  • używamy spójnej terminologii,
  • nie szalejemy z zaimkami,
  • unikamy TEKSTU WIELKIMI LITERAMI.

Poleca Anna Kotarska.

A od strony technicznej? Kilka porad znajdziemy na stronie firmy ModelFront, na przykład:

  • elementy odpowiedzialne za wygląd tekstu oddzielamy od tekstu,
  • wyróżniamy elementy nietłumaczalne w rodzaju nazw czy elementów interfejsu,
  • nie tniemy zdań na kawałki.

Poleca Adam Bittlingmayer.

Klucza daj tłumaczowi

Żeby podłączyć MT do narzędzia CAT, potrzebujemy klucza API. I tu rysują się dwa warianty:

  1. Dostarczanie MT jest głównym zajęciem naszego dostawcy, więc dbanie o wygodę tłumaczy (i innych jednostek korzystających z MT przez API) ma u dostawcy wysoki priorytet. Tutaj pozyskanie klucza jest proste, by nie rzec – banalne. Do tej grupy należy na przykład DeepL czy ModernMT.
  2. Dostarczanie MT jest jedną z wielu usług, jakie nasz dostawca świadczy w sieci, można wręcz nieraz domniemywać, że słupek “tłumaczenia maszynowe” ma u niego grubość linii na wykresie struktury przychodów. W tym przypadku pozyskanie klucza API jest trudne, bardzo trudne albo boleśnie upierdliwe. Do tej grupy zaliczyłabym Amazona (AWS), Microsoft (Bing) oraz Google.

Jak żyć? Naprzeciw tłumaczom w potrzebie wychodzi dokumentacja, jaką opracował Marcin Basiak w ramach projektu na studiach podyplomowych z komunikacji technicznej (Akademia Vistula). Polecam uwadze rozdział How to obtain API keys for MT plugins. Autor planuje aktualizacje treści, rozszerzenie o innych dostawców MT oraz zmiany strony formalnej dokumentu 🙂

MT a tasiemce prawne

Tilde i Hieronymus zaprezentowały system tłumaczeń maszynowych, który przetwarza dokumenty prawne w Szwajcarii. Wśród typowych wyzwań i rozwiązań, takich jak ochrona danych, ilość zasobów do treningu czy preferowana terminologia, znalazła się ciekawostka: długość zdań w tekstach prawnych. O ile w innych zastosowaniach przetwarzanie tekstów przed i po maszynie często obejmuje łączenie krótkich segmentów w logiczne całości, a potem ich rozdzielanie (tak dzieje się np. przy automatycznym tłumaczeniu napisów do filmów), o tyle dla tekstów prawnych wskazane okazało się raczej dzielenie zdań na mniejsze logiczne całości, bardziej strawne dla MT. Taka specyfika 🙂

Jesienne raporty

Pojawiły się raporty Memsource i Intento o stanie oraz ofercie tłumaczeń maszynowych w drugiej połowie 2021. Dane do raportu Memsource pochodzą z projektów postedycyjnych wykonanych przez Memsource dla różnych klientów, natomiast dane Intento są oparte na korpusie TAUS (jako tekstach źródłowych i tłumaczeniach referencyjnych). To, co łączy oba te raporty, to metoda oceny MT: porównanie propozycji z maszyny z tłumaczeniem ludzkim (Intento zresztą bada kilka miar – BERT, COMET i PRISM). Podobne są również wnioski: najlepsze MT zależy od pary językowej i dziedziny zastosowania.

Do czego zatem mogą przydać się takie raporty?

  • Do wstępnego wybrania 3-4 silników, które przetestujemy na swoich treściach i pod konkretne zastosowanie (do postedycji lub do publikowania MT “na surowo”, jeśli zastosowanie na to pozwala).
  • Do znalezienia mniej znanych silników MT dla mniej popularnych par językowych lub dziedzin tłumaczenia.

Memsource o parze angielski-włoski:

There is however no “perfect” engine that would consistently translate better than its competitors for this language pair. If users wanted to ensure that they were always getting the optimal MT quality, they would have to use at least three separate engines.

Intento ogólnie o wynikach swego badania:

19 MT engines are among the statistically significant leaders for 7 industry sectors and 13 language pairs. 9 MT engines provide minimal coverage for all language pairs and industries, 1-4 per industry sector.

Obsługa tagów dla dowolnego MT

Intento reklamuje swoje rozwiązanie wspomagające tłumaczenie maszynowe treści, które nie są wolne od tagów. Rozwiązanie “Smart Tag Handling” jest zewnętrzne wględem silników MT – ma działać z dowolnym. Zostało przetestowane dla znaczników HTML (wyniki na załączonym wykresie) i dla tagów inline. Można by się tu więc spodziewać rozwiązania celowanego w lokalizację oprogramowania, tymczasem pierwszym rynkiem docelowym ma być maszynowe wspomaganie tłumaczenia napisów do filmów!

STH wygląda na warte sprawdzenia dla firm, które mają do tłumaczenia sporo mocno otagowanych treści i które borykają się z tym problemem, że silnik MT, który najlepiej radzi sobie z językiem i merytoryką, słabo obsługuje znaczniki.

“We are planning to evaluate ROI (cost and TAT decrease) for AVT with one of our customers, we’ll keep you posted 😊”

Prezentacja pochodzi z tegorocznej konferencji MT Summit 2020-2021.