etranslation

Z postedycją na bieżąco

W Lingua Legis 29(2021) ukazał się artykuł prof. Łucji Biel porządkujący zagadnienia i procesy z dziedziny MT oraz postedycji. Artykuł z całego serca polecam i z przyjemnością włączę go do materiałów referencyjnych na warsztatach z MT, bo jest w nim niemal wszystko, co wiedzieć należy, zebrane w jednym miejscu i z odsyłaczami do źródeł – w większości nie starszych niż 5 lat, co w MT oznacza “z naszej ery” 🙂

Co szczególnie pozytywnie zwróciło moją uwagę:

  • Słuszne wskazanie, że wpływ technologii na tłumaczy (i tłumaczenie) nie zaczął się od MT – swoje zrobiły już CAT-y, prowokując do skupiania się raczej na zdaniach niż akapitach.
  • Staranne rozgraniczenie między typami tłumaczenia zależnie od stopnia automatyzacji i z odniesieniem do norm ISO (ciekawostka: PKN nie planuje wdrożyć ISO-18587).
  • Stwierdzenie faktu, że tłumaczenia profesjonalne to obecnie niewielki procent wszytkich tłumaczeń – wolumen surowego MT jest znacznie, znacznie większy niż tłumaczeń profesjonalnych, czy to wspomaganych maszynowo, czy nie.
  • Rzetelna analiza jasnych i ciemnych stron postedycji dla tłumacza profesjonalnego, dobry opis procesu postedycji.
  • Bezcenne wprost wzmiankowanie preedycji, czyli prawidłowego przygotowania tekstu dla maszyny (krok tym ważniejszy, im więcej języków docelowych).

Czego zabrakło:

  • Żeby nie tworzyć legend “gender ex machina” – warto wyjaśnić, skąd bierze się językowa reprezentacja płci w tłumaczeniach maszynowych (z korpusu).
  • W rozważaniach etycznych – symetrycznie do nieuprawnionego użycia MT przez tłumaczy – trzeba wspomnieć o złej praktyce biur tłumaczeń, które kamuflują postedycję jako korektę. Postedycja wymaga od tłumacza większego wysiłku i nie można zlecać jej ani w terminie, ani w cenie korekty.
  • Oprócz cytatów z DeepL i eTranslation, a także wzmianek o silnikach Google oraz Yandex, przydadzą się odsyłacze do bardziej kompletnych źródeł wiedzy o dostępnych na rynku MT, np. do raportów Intento.
  • Artykuł wspomina o MT uczącym się z poprawek tłumacza, ale wspomina dość pobieżnie, w dwóch różnych miejscach i odwołując się do SDL Adaptive MT, które jest trochę jak Yeti. Warto wymienić raczej rozwiązania dostępne dla polskich tłumaczy, np. ModernMT czy Tilde.
  • Rozdział o rozliczeniach nie wspomina metody obliczania stawki za słowo przez skorelowanie jej z wydajnością pracy tłumaczy, które wydaje się jedynym uzasadnionym modelem obniżania cen względem tłumaczenia od zera. Metodę tę opisuje m.in. praca Acoladu przedstawiona na EAMT 2020.

Zagadka na koniec

Artykuł nie ustrzegł się przed pułapką, którą można spotkać w wielu innych opracowaniach dotyczących PE i która otwiera mroczny aspekt rynku postedycji (a czasem w ogóle podważa sens oferowania tej usługi):

W rozdziale “Rozliczanie postedycji” czytamy:

Dla lekkiej postedycji przyjmuje się normę rzędu 800-1400 słów (ok. 3,5-6 stron rozliczeniowych) na godzinę, dla pełnej postedycji od 500 do 1000 słów (ok. 2-4,5 strony) na godzinę. Są to więc normy co najmniej dwukrotnie wyższe niż dla tłumaczenia, choć szybkość postedycji oczywiście zależy od wielu czynników — jakości tłumaczenia maszynowego, typu tekstu czy stopnia jego złożoności językowej i tematycznej.

Ale przecież w rozdziale “Zalety postedycji dla tłumaczy” stwierdzono:

Jednak należy podkreślić, że badania przynoszą bardzo różne i niekiedy sprzeczne wyniki dotyczące zwiększenia wydajności i szybkości tłumaczenia, gdyż zależy to od jakości surowego tłumaczenia maszynowego. Co do zasady, wzrost jest dość skromny — zazwyczaj na poziomie kilku lub kilkunastu procent.

Rozdział “Rozliczanie postedycji” mierzy gdzieś pośrodku:

Stawki za postedycję zazwyczaj wynoszą od 50% do 90% stawek za tłumaczenie, przy czym dolna granica dotyczy lekkiej postedycji, górna — pełnej postedycji.

Więc jak jest w rzeczywistości? Czy postedycja przyspiesza nas o 5, 15, czy 50 procent i czy przekłada się to rzetelnie na stawki za słowo w tej usłudze? Odpowiedź pozostawiam domyślności Czytelników…

Jak się dobrać do eTranslation

Z serwisu eTranslation mogą korzystać europejskie administracje publiczne, władze lokalne i regionalne, małe i średnie przedsiębiorstwa, tłumacze zewnętrzni instytucji UE, uczelnie, organizacje pozarządowe, a także podmioty wdrażające projekty w ramach programu „Cyfrowa Europa”.

Informacja pochodzi ze strony eTranslation

Jak pisałam wcześniej, w memoQ 9.10 pojawiła się wtyczka pozwalająca korzystać z unijnego MT – eTranslation – podczas gdy analogiczny pomysł w Tradosie utknął na etapie “Mojsze, co to są charty?”. Nie oznacza to jednak, że użytkownicy Tradosa nie mogą korzystać z eTranslation ani że muszą używać tego MT poza CAT-em!

Jak skorzystać z eTranslation w Tradosie:

  1. Zaloguj się do eTranslation z przeglądarki – potrzebujesz bezpłatnego konta EU Login
  2. Przejdź na kartę Translate documents
  3. Wrzuć na stronę dokument do tłumaczenia
  4. Wybierz, z jakiego języka i na jaki język ma być tłumaczenie
  5. Rozwiń sekcję Advanced options
  6. Wybierz dziedzinę (tematykę) lub pozostaw wartość domyślną General Text
  7. Dla pola Output format wybierz wartość TMX (tags)
  8. Zaznacz opcję E-mail me my translation, jeśli chcesz dostać wynik tłumaczenia mailem
  9. Naciśnij przycisk Translate document

Wynikiem tłumaczenia będzie pamięć w formacie TMX, którą pobierasz ze strony lub dostajesz mailem. Pamięć tę możesz zaimportować do Tradosa (proponuję nazwać eTranslation Cośtam) i podłączyć jako kolejną pamięć w projekcie, jaki tłumaczysz.

Dzięki temu, że eTranslation poprawnie oznacza segmenty w pamięci TMX jako przetłumaczone maszynowo, Trados podpowiada je z oznaczeniem AT (“automatic translation”), po czym można odróżnić je od segmentów ze zwykłej pamięci.

Bonus:

Z tego samego mechanizmu można skorzystać w memoQ, jeśli wtyczka działa leniwie i niechętnie (co czasem jej się zdarza), a tłumaczenie przez stronę hula. Nie wiem jeszcze tylko, jak skłonić memoQ do pokazywania segmentów z tego TMX-a jako maszynowe 🙂

eTranslation w memoQ

Dawno temu, w odległej galaktyce… a konkretnie – w październiku 2020, po unijnej konferencji dotyczącej eTranslation (“Tools and services for multilingual Europe”), Anna Kotarska namówiła mnie do zapytania producentów dwóch popularnych CAT-ów o wtyczki umożliwiające korzystanie z eTranslation w tych narzędziach.

Wiosną 2022 w memoQ 9.10 pojawiła się nowa wtyczka do tłumaczeń maszynowych, umożliwiająca korzystanie z unijnego systemu eTranslation – dostępnego bezpłatnie dla sektora publicznego, placówek naukowych oraz małych i średnich firm, do których zaliczają się tłumacze freelancerzy. Narzędzie wymaga zalogowania się przez EU Login, takie samo, przez jakie wchodzi się do eTranslation z przeglądarki.

Wtyczka została dodana już kilka tygodni temu, ale z początku nie działała poprawnie – proszę się nie zniechęcać, jeśli przy pierwszej próbie “nie zaskoczy” lub będzie generować tłumaczenia z opóźnieniem 🙂

Pierwsze wrażenia z tłumaczenia w parze angielski > polski? Silnik eTranslation nieźle sprawdza się przy tekście formalnym, na przykład takim jak poniższy. Warto rozważyć jego użycie dla wszelkich pism urzędowych, oficjalnych informacji dla mediów, aktów prawnych itp.

Gorzej wypada tekst marketinowy, ale przyznam, że z nim nie radzi sobie zbyt dobrze ani DeepL, ani ModernMT:

Tekst techniczy również wypada średnio, a co gorsza – obsługa znaczników (inline tags) jest jeszcze do poprawienia: eTranslation nawet nie próbuje wstawić ich we właściwe miejsca, co potrafi zrobić wiele innych silników dostępnych z CAT-a – DeepL, ModernMT czy (zazwyczaj) Amazon:

A co się stało z prośbą o wtyczkę do drugiego CAT-a? Obawiam się, że utknęła na etapie sprawdzania “ale o co chodzi?” 🙁

MT dla języka ukraińskiego

Zebrałam na szybko znane mi ogólnodostępne, bezpłatne silniki MT z językiem ukraińskim – do codziennej komunikacji, do szkoły, szpitala czy urzędu. Warto sprawdzać inne opcje niż Google Translate, zwłaszcza jeśli Google nie tłumaczy wystarczająco dobrze lub jeśli wymagana jest ochrona prywatności tłumaczonego tekstu.

W uzupełnianiu strony na bieżąco pomaga Anna Kotarska – dziękuję!!!

Narzędzia komercyjne ogólnodostępne (bezpłatne)

  • Aktualizacja 10 września 2022: w tym tygodniu DeepL dodał język ukraiński, na razie z niewielkimi tylko ograniczeniami w porównaniu np. z polskim. Zasady ochrony i niegromadzenia danych zgodnie z ogólną polityką DeepLa.
  • Google Translate – wszyscy znają i umieją używać. Uwaga: wersja bezpłatna (z przeglądarki) nie zapewnia ochrony tłumaczonych treści, a dane są przetwarzane i gromadzone na serwerze w USA.
  • Microsoft Bing – nieco mniej znany, ale też łatwo dostępny. Zastrzeżenie co do ochrony treści takie samo jak dla Google Translate.
  • ModernMT – ciekawa opcja alternatywna względem dla Google i Microsoftu, warta sprawdzenia tak ze względu na jakość, jak i ochronę prywatności tłumaczonego tekstu, który jest przetwarzany w obrębie UE, zgodnie z zasadami GDPR (RODO) i, według deklaracji firmy, nie jest gromadzony.
  • Tilde MT – druga opcja europejska, dodana w marcu 2022 w ramach pomocy dla ukraińskich uchodźców w Europie. Przetwarzanie tekstu na serwerach w UE, zgodnie z GDPR, deklaracja o niegromadzeniu.
  • Yandex Translator – ten serwis ma prawdopodobnie jeden z najlepszych na świecie korpusów języka ukraińskiego, ale nie wiadomo, jak długo będzie działał. Treści są przetwarzanie na serwerze w Rosji, co w przypadku dokumentów poufnych może nie być akceptowalne.

Narzędzia naukowo-badawcze (również bezpłatne)

  • Bergamot translator – projekt z grantu UE Horizon 2020; języka polskiego nie ma, jest m.in. niemiecki i angielski.
  • OPUS-MT – projekt Uniwersytetu w Helsinkach, ograniczenia językowe podobne do powyższych.
  • UFAL translator for Czech – Ukrainian – projekt Uniwersytetu Karola w Pradze, w przygotowaniu para z j. polskim.

Zbiór zasobów językowych do przetwarzania języka ukraińskiego można znaleźć na stronie Helsinki-NLP/UkrainianLT.

Narzędzia specjalne (też są bezpłatne)

  • Intento oferuje bezpłatny dostęp do narzędzia Translation Portal with Character Recognition dla uchodźców z Ukrainy (tłumaczenie tekstu, skanów i zdjęć). Narzędzie wymaga rejestracji na stronie https://inten.to i wysłania maila na adres support@inten.to z tematem UKRAINE. Zasady ochrony prywatności danych są zapewne dostępne po nawiązaniu kontaktu z Intento.
  • eTranslation – serwis językowy Komisji Europejskiej – dodał w marcu 2022 ukraiński do listy obsługiwanych języków. W eTranslation można tłumaczyć tekst z przeglądarki lub całe dokumenty. Tłumaczone treści podlegają ochronie i nie są gromadzone ani udostępniane. Narzędzie wymaga założenia bezpłatnego konta EU Login.

eTranslation: 2 miejsce w WMT20 dla polskiego; arabski i speech-to-text

Unijny system eTranslation zajął drugie miejsce w konkurencji silników MT dla pary angielski -> polski, stanowiącej część Fifth Conference of Machine Translation (WMT20). Wynik jest bardzo dobry, biorąc pod uwagę, że w konkurencji brały udział m.in. silniki z Tilde czy praskiego Uniwersytetu Karola (ale nie znajdziemy tam niektórych systemów komercyjnych, jak DeepL czy Google).

Ocena, na podstawie której porównywano systemy, jest oceną ludzką, a do treningu oraz tłumaczenia użyte zostały teksty prasowe. Więcej informacji o wynikach eTranslation w tym rankingu znajdziemy na stronach Connecting Europe Facility oraz w materiałach konferencyjnych.

A najświeższe wieści o eTranslation to dodanie arabskiego do listy języków obsługiwanych oraz dodanie funkcji Speech-to-Text.

Język japoński w eTranslation

Jak informuje biuletyn ELRC, od stycznia możemy – za pomocą bezpłatnego publicznego serwisu eTranslation – tłumaczyć maszynowo język japoński. Możemy jako obywatele UE (na użytek prywatny, jako freelancerzy lub MŚP) – poddani korony brytyjskiej niestety utracili już dostęp do tego systemu 🙁

Inne nowości w eTranslation to, jak pisze Anna Kotarska, m.in. aktualizacje MT dla języka formalnego “dzięki nowej porcji danych, aby silniki lepiej radziły sobie z terminologią związaną z trwającym kryzysem zdrowotnym”.

Więcej informacji znajdziemy na unijnych stronach o narzędziach językowych.

Użyteczność eTranslation w tłumaczeniu na polski

Na konferencji EAMT 2020 została zaprezentowana praca dr Karoliny Stefaniak, reprezentującej Dyrekcję Generalną ds. Tłumaczeń Pisemnych Komisji Europejskiej, na temat użyteczności eTranslation w tłumaczeniach unijnych na język polski. Jak podstawowe kryterium użyteczności przyjęty został czas postedycji w porównaniu z czasem tłumaczenia od zera. Badania czasu wykazują umiarkowane korzyści z używania MT (eTranslation) – rzędu kilkunastu procent. Co ciekawe, korelacja między liczbą wprowadzanych poprawek a szybkością pracy jest słaba. Badanie wskazuje też błędy MT typowe dla unijnych tekstów prawnych i pary angielski-polski. Całe opracowanie jest dostępne w materiałach konferencyjnych.

Opcja niemiecka

Na potrzeby prezydencji Niemiec w UE powstał portal o nazwie EU Council Presidency Translator, spinający MT z eTranslation, DeepL i Tilde, a obsługujący języki Europy. Portal nie wydaje się rozwiązaniem szczególnie nowatorskim technologicznie, bo tłumacząc w nim tekst, wybieramy z góry, który silnik ma być użyty. Bardziej imponująca jest współpraca firm komercyjnych i sektora publicznego nad wspólnym celem – dostarczeniem obywatelom jak najlepszej oferty darmowego tłumaczenia maszynowego.

Wtyczka Google? A może eTranslation?

Można dyskutować, czy tłumaczenie stron, aplikacji lub treści przez wtyczkę do tłumaczeń maszynowych to właściwe podejście (czasami tak, zwłaszcza jeśli zapewni się postedycję lub testowanie finalnego produktu). Z całą pewnością warto wiedzieć, że API do Google Translate nie jest tu jedyną opcją, a API do DeepL nie jest jedyną alternatywą 🙂 W Europie, na potrzeby sektora publicznego lub MŚP, warto zbadać możliwość integracji z eTranslation – zwłaszcza jeśli tłumaczone treści zahaczają o język formalny/urzędowy, akty prawne UE itp.

2nd CEF eTranslation Conference

2nd CEF eTranslation Conference to darmowa 1-dniowa konferencja online, na której można zapoznać się z eTranslation – europejskim systemem tłumaczeń maszynowych – i jego zastosowaniem w usługach publicznych, w pracy tłumaczy i biur tłumaczeń oraz dla dowolnych małych i średnich firm z całej Unii Europejskiej.