Przejdź do treści

Nowości o MT

“Klucza daj tłumaczowi” w nowej odsłonie

Wiadomość w sam raz na Hieronimki: dokumentacja, w której Marcin Basiak opisuje krok po kroku, jak podłączać popularne silniki MT do popularnych CAT-ów, została szczęśliwie zmigrowana do portalu machinetranslate.org. Jeśli ktoś chce ją uzupełnić – na przykład opisać najnowszą wersję memoQ, podłączanie Google v3 lub pracę z MT w Acrossie, Memsource czy XTM – to może w każdej chwili dołączyć do zespołu 🙂

A portal machinetranslate.org polecam uwadze jako całość: szybko rozwijane, przystępne kompendium wiedzy o MT.

European Language Resources Coordination Workshop Warszawa 2022

Jak pozyskać duże i dobre zasoby językowe dla polskiego, żeby można było rozwijać eTranslation, a także inne technologie językowe, np. systemy do anonimizacji treści, klasyfikowania lub streszczania dokumentów itd.? Przedstawiam króciutkie notatki z dyskusji panelowej w ramach warsztatów ELRC, które zorganizowała Anna Kotarska. Organizacyjnie i formalnie poniższe pomysły to póki co / nadal wishful thinking, ale technicznie te rzeczy są jak najbardziej wykonalne, co więcej, niektóre jednostki już udowodniły, że #dasię:

  • W administracji publicznej – wprowadzić wymóg dostarczania pamięci tłumaczeń razem z każdym zleconym tłumaczeniem (zostawiając margines bezpieczeństwa dla zadań typu “przekoszony skan z muchą z łotewskiego na polski 15 stron z dziś na jutro poświadczone”).
  • W placówkach naukowych – zmienić zasadę udostępniania zasobów (np. prac naukowych, włącznie z magisterskimi) z “udostępniamy tylko to, co chcemy” na “nie udostępniamy tylko tego, czego nie możemy” 🙂

Machine Translation Marathon Praha 2022

“Maratony MT” to bardzo praktyczne konferencje: nie uświadczy się tam marketingu rynkowych produktów MT, tylko prezentacje projektów naukowo-badawczych, często w toku, przy czym badacze są i ze środowisk komercyjnych, i akademickich. Do tego popołudniami toczą się mini-projekty, które posuwają naprzód rozwiązywanie konkretnych problemów. Do tego postery z projektów bardziej niszowych (np. sieć neuronowa oceniająca jakość tłumaczenia poezji, uwzględniająca – oprócz dokładności tłumaczenia – rymy i rytm). Do tego dużo czasu (i kawy) na dyskusje w kuluarach. Do tego Praga, bo gospodarzem tegorocznego MTM był Uniwersytet Karola, a cała impreza jest bezpłatna. Wady? Bardzo wysoki poziom naukowy i techniczny, bez wektorów i logarytmów ani rusz!

A co zwróciło moją uwagę od strony praktycznej:

  1. Środowiska komercyjne (Google, Microsoft) i naukowe (WMT) zgodnie przyjęły Multidimensional Quality Metric za standard oceny MT przez ludzi – zastępując zbyt uproszczoną ocenę segmentów w skali od 0 do 5. MQM polega na klasyfikacji błędów (sens, terminologia, gramatyka itd.) oraz ich ważności (krytyczny, poważny, taki sobie) – czyli jest metodą doskonale znaną tłumaczom i weryfikatorom, a przy tym pozwalającą ocenić przydatność MT do danego zastosowania (czasem ważniejszy jest płynny język i przecinki, a kiedy indziej dokładność i terminologia).
  2. 90% prac naukowych z dziedziny MT i tak stosuje wyłącznie miary automatyczne, ale są prowadzone badania sprawdzające, jakie miary najlepiej pokrywają się z oceną przez ludzi. W skrócie: COMET > BERT >> BLEU.
  3. Kierunki prac naukowo-badawczych określiłabym jako “the usual suspects”:
    • kontekst, najlepiej całego dokumentu, a jak nie, to chociaż poprzednie i następne zdanie (są nowości, nie ma przełomu, ale przynajmniej wszyscy przyznają, że bez tego ani rusz);
    • automatyczne przewidywanie jakości MT, czy to w formie “samooceny” przez silnik, czy też oddzielnej sieci neuronowej do oceniania propozycji maszynowych (dobrym pomysłem jest używanie danych z MQM do trenowania systemów automatycznego oceniania);
    • modele wielojęzyczne, zwłaszcza w kontekście “podciągania” MT dla języków o słabo dostępnych zasobach treningowych (islandzki) przez zgrupowanie z językami o dużych zasobach (niemiecki).

Raport Intento 2022

Normally, we run multiple evaluations for our clients using various language pairs and domains, and observe different MT system rankings than those provided in this report

Firma Intento opublikowała właśnie tegoroczny raport z rynku MT, prezentujący stan z lipca 2022. Raport jest do pobrania bezpłatnie i przedstawia porównanie 31 silników dla 11 par językowych (polski się nie załapał, jest za to ukraiński) oraz 9 dziedzin, a do tego sporo informacji o trendach rynkowych (silniki tematyczne, pamięci/glosariusze, obsługa rzadszych języków). Można przy okazji poznać nieco metodologii – próbki tekstu liczą po 500 segmentów, a miarą automatyczną najlepiej skorelowaną z oceną człowieka okazuje się COMET. W przygotowaniu zasobów brała tym razem udział firma e2f.

Jeśli szukamy najlepszego silnika bez ustalonej dziedziny (tematyki) lub dla wielu różnych dziedzin, co bywa normalną praktyką np. w biurach tłumaczeń, to wyniki przedstawia załączony obrazek (DeepL i Google wygrywają). Jeśli działamy w konkretnej dziedzinie (takiej jak tłumaczenia prawne, medyczne lub literackie), to trzeba zagłębić się w raport nieco mocniej – biorąc również pod uwagę zastrzeżenie autorów raportu, że optymalne MT dla danego rodzaju tekstu i pary językowej może być jeszcze inne, niż wynika z raportu! Warto np. zauważyć, że cały raport opiera się na tłumaczeniu tekstu bez znaczników – jeśli mamy “na warsztacie” materiał, gdzie znaczniki są koniecznością (np. przy lokalizacji oprogramowania czy stron internetowych), to trzeba sprawdzić, jak dane MT sobie z nimi radzi.

Co nowego u DeepLa

DeepL pozostaje jednym z najbardziej lubianych silników MT w parach z językiem polskim. Dlaczego i czy zawsze – tym zajmiemy się innym razem; dziś krótki przegląd nowości i rzeczy, na które warto zwrócić uwagę.

  1. Funkcja dodawania własnego glosariusza objęła niedawno język polski. Tłumacze, którzy ją już testują, donoszą, że DeepL nienajgorzej radzi sobie z przypadkami, rodzajami i liczbami.
  2. DeepL z przeglądarki – tłumacząc fragmenty tekstu lub całe dokumenty – ewidentnie próbuje rozpoznawać kontekst: może nie w zakresie całego tekstu, ale akapitu lub kilku sąsiadujących zdań. Funkcja ta nie zadziała, póki co, poprzez API – czyli na przykład z narzędzia CAT, gdzie tekst tłumaczony jest segment po segmencie i maszyna nie ma szansy “zobaczyć” go szerzej. Niektórzy eksperymentują z segmentacją akapitami lub też z wysyłaniem do MT kilku segmentów naraz z pominięciem wtyczki.
  3. Skoro jesteśmy przy kontekście: DeepL, tak jak każdy inny silnik (oraz tłumacze profesjonalni), nie zdziała cudu przy bardzo krótkich segmentach, które mogą mieć wiele znaczeń. Jeśli tłumaczymy z przeglądarki i możemy zmieniać tekst źródłowy, to warto dodać kontekst, który ujednoznaczni tekst źródłowy. I tak na przykład “March” tłumaczony na angielski to “Marzec”, ale już “Long March” to “Długi Marsz”, a dla “March on” DeepL podaje tłumaczenia alternatywne i z marcem, i z marszem.
  4. Jeśli mamy tłumaczyć na język inny niż polski czy angielski, na przykład na czeski, a angielskim władamy dość dobrze, to tłumaczmy raczej z angielskiego na czeski niż z polskiego na czeski. Owszem, czeski i polski mają wiele wspólnego – niestety najprawdopodobniej DeepL będzie tłumaczyć polski > angielski > czeski, a to oznacza możliwość przekłamań na obu etapach. Wpisując oryginał w miarę poprawnie po angielsku, eliminujemy przynajmniej etap pierwszy.

MT i postedycja a prawa autorskie

W szóstym odcinku podcastu “Porozmawiajmy o tłumaczeniach“, jaki prowadzi Wojciech Wołoszyk (prawnik-lingwista, prezes IURIDICO), gościem był dr Damian Flisak, radca prawny, tłumacz przysięgły języka niemieckiego, specjalista prawa najnowszych technologii. Panowie omówili kilka zagadnień bardzo istotnych przy pracy z MT oraz przy wykonywaniu postedycji:

  • Surowe tłumaczenie maszynowe nie stanowi oryginalnego utworu i nie podlega prawu autorskiemu…
  • …ale po postedycji – o ile nie ma ona charakteru kosmetycznego – staje się utworem tłumacza w takim samym znaczeniu, jak tłumaczenie wykonane przy pomocy innych narzędzi (np. edytora czy narzędzia CAT).
  • Ochrona własności intelektualnej, danych osobowych itd. w przypadku tłumaczenia maszynowego zależy od tego, co jest zapisane w warunkach korzystania z usług danego dostawcy MT i dla danego sposobu korzystania z tych usług (wersja ogólnodostępna vs. wersja spersonalizowana – często płatna). W skrócie: czytać umowę, co powtarzam na warsztatach z MT do znudzenia i jeszcze trochę!
  • Kwestia używania MT przez tłumaczy powinna być uregulowana w ich umowie z klientem. Jeśli natomiast takiego uregulowania nie ma, to – przy zachowaniu powyższych zasad ochrony treści – nie można przyjąć a priori, że tłumaczom z MT korzystać nie wolno, o ile finalne tłumaczenie jest jakościowo zgodne z oczekiwaniami klienta.

Inne, niemaszynowe zagadnienia poruszone w rozmowie to m.in.:

  • Czy tłumaczenie menu w barze mlecznym jest utworem?
  • Tłumacze na okładki!!!
  • Do kogo należy pamięć tłumaczeń i czy dwa takie same teksty można przetłumaczyć tak samo 🙂

Z postedycją na bieżąco

W Lingua Legis 29(2021) ukazał się artykuł prof. Łucji Biel porządkujący zagadnienia i procesy z dziedziny MT oraz postedycji. Artykuł z całego serca polecam i z przyjemnością włączę go do materiałów referencyjnych na warsztatach z MT, bo jest w nim niemal wszystko, co wiedzieć należy, zebrane w jednym miejscu i z odsyłaczami do źródeł – w większości nie starszych niż 5 lat, co w MT oznacza “z naszej ery” 🙂

Co szczególnie pozytywnie zwróciło moją uwagę:

  • Słuszne wskazanie, że wpływ technologii na tłumaczy (i tłumaczenie) nie zaczął się od MT – swoje zrobiły już CAT-y, prowokując do skupiania się raczej na zdaniach niż akapitach.
  • Staranne rozgraniczenie między typami tłumaczenia zależnie od stopnia automatyzacji i z odniesieniem do norm ISO (ciekawostka: PKN nie planuje wdrożyć ISO-18587).
  • Stwierdzenie faktu, że tłumaczenia profesjonalne to obecnie niewielki procent wszytkich tłumaczeń – wolumen surowego MT jest znacznie, znacznie większy niż tłumaczeń profesjonalnych, czy to wspomaganych maszynowo, czy nie.
  • Rzetelna analiza jasnych i ciemnych stron postedycji dla tłumacza profesjonalnego, dobry opis procesu postedycji.
  • Bezcenne wprost wzmiankowanie preedycji, czyli prawidłowego przygotowania tekstu dla maszyny (krok tym ważniejszy, im więcej języków docelowych).

Czego zabrakło:

  • Żeby nie tworzyć legend “gender ex machina” – warto wyjaśnić, skąd bierze się językowa reprezentacja płci w tłumaczeniach maszynowych (z korpusu).
  • W rozważaniach etycznych – symetrycznie do nieuprawnionego użycia MT przez tłumaczy – trzeba wspomnieć o złej praktyce biur tłumaczeń, które kamuflują postedycję jako korektę. Postedycja wymaga od tłumacza większego wysiłku i nie można zlecać jej ani w terminie, ani w cenie korekty.
  • Oprócz cytatów z DeepL i eTranslation, a także wzmianek o silnikach Google oraz Yandex, przydadzą się odsyłacze do bardziej kompletnych źródeł wiedzy o dostępnych na rynku MT, np. do raportów Intento.
  • Artykuł wspomina o MT uczącym się z poprawek tłumacza, ale wspomina dość pobieżnie, w dwóch różnych miejscach i odwołując się do SDL Adaptive MT, które jest trochę jak Yeti. Warto wymienić raczej rozwiązania dostępne dla polskich tłumaczy, np. ModernMT czy Tilde.
  • Rozdział o rozliczeniach nie wspomina metody obliczania stawki za słowo przez skorelowanie jej z wydajnością pracy tłumaczy, które wydaje się jedynym uzasadnionym modelem obniżania cen względem tłumaczenia od zera. Metodę tę opisuje m.in. praca Acoladu przedstawiona na EAMT 2020.

Zagadka na koniec

Artykuł nie ustrzegł się przed pułapką, którą można spotkać w wielu innych opracowaniach dotyczących PE i która otwiera mroczny aspekt rynku postedycji (a czasem w ogóle podważa sens oferowania tej usługi):

W rozdziale “Rozliczanie postedycji” czytamy:

Dla lekkiej postedycji przyjmuje się normę rzędu 800-1400 słów (ok. 3,5-6 stron rozliczeniowych) na godzinę, dla pełnej postedycji od 500 do 1000 słów (ok. 2-4,5 strony) na godzinę. Są to więc normy co najmniej dwukrotnie wyższe niż dla tłumaczenia, choć szybkość postedycji oczywiście zależy od wielu czynników — jakości tłumaczenia maszynowego, typu tekstu czy stopnia jego złożoności językowej i tematycznej.

Ale przecież w rozdziale “Zalety postedycji dla tłumaczy” stwierdzono:

Jednak należy podkreślić, że badania przynoszą bardzo różne i niekiedy sprzeczne wyniki dotyczące zwiększenia wydajności i szybkości tłumaczenia, gdyż zależy to od jakości surowego tłumaczenia maszynowego. Co do zasady, wzrost jest dość skromny — zazwyczaj na poziomie kilku lub kilkunastu procent.

Rozdział “Rozliczanie postedycji” mierzy gdzieś pośrodku:

Stawki za postedycję zazwyczaj wynoszą od 50% do 90% stawek za tłumaczenie, przy czym dolna granica dotyczy lekkiej postedycji, górna — pełnej postedycji.

Więc jak jest w rzeczywistości? Czy postedycja przyspiesza nas o 5, 15, czy 50 procent i czy przekłada się to rzetelnie na stawki za słowo w tej usłudze? Odpowiedź pozostawiam domyślności Czytelników…

Jak się dobrać do eTranslation

Z serwisu eTranslation mogą korzystać europejskie administracje publiczne, władze lokalne i regionalne, małe i średnie przedsiębiorstwa, tłumacze zewnętrzni instytucji UE, uczelnie, organizacje pozarządowe, a także podmioty wdrażające projekty w ramach programu „Cyfrowa Europa”.

Informacja pochodzi ze strony eTranslation

Jak pisałam wcześniej, w memoQ 9.10 pojawiła się wtyczka pozwalająca korzystać z unijnego MT – eTranslation – podczas gdy analogiczny pomysł w Tradosie utknął na etapie “Mojsze, co to są charty?”. Nie oznacza to jednak, że użytkownicy Tradosa nie mogą korzystać z eTranslation ani że muszą używać tego MT poza CAT-em!

Jak skorzystać z eTranslation w Tradosie:

  1. Zaloguj się do eTranslation z przeglądarki – potrzebujesz bezpłatnego konta EU Login
  2. Przejdź na kartę Translate documents
  3. Wrzuć na stronę dokument do tłumaczenia
  4. Wybierz, z jakiego języka i na jaki język ma być tłumaczenie
  5. Rozwiń sekcję Advanced options
  6. Wybierz dziedzinę (tematykę) lub pozostaw wartość domyślną General Text
  7. Dla pola Output format wybierz wartość TMX (tags)
  8. Zaznacz opcję E-mail me my translation, jeśli chcesz dostać wynik tłumaczenia mailem
  9. Naciśnij przycisk Translate document

Wynikiem tłumaczenia będzie pamięć w formacie TMX, którą pobierasz ze strony lub dostajesz mailem. Pamięć tę możesz zaimportować do Tradosa (proponuję nazwać eTranslation Cośtam) i podłączyć jako kolejną pamięć w projekcie, jaki tłumaczysz.

Dzięki temu, że eTranslation poprawnie oznacza segmenty w pamięci TMX jako przetłumaczone maszynowo, Trados podpowiada je z oznaczeniem AT (“automatic translation”), po czym można odróżnić je od segmentów ze zwykłej pamięci.

Bonus:

Z tego samego mechanizmu można skorzystać w memoQ, jeśli wtyczka działa leniwie i niechętnie (co czasem jej się zdarza), a tłumaczenie przez stronę hula. Nie wiem jeszcze tylko, jak skłonić memoQ do pokazywania segmentów z tego TMX-a jako maszynowe 🙂

DeepL ma turecki

Lista języków obsługiwanych przez DeepL wydłuża się powoli, ale konsekwentnie; ostatnio dodali turecki, a z mniej oczywistych – indonezyjski. Czekamy na ukraiński!

Co duże firmy robią z MT

You understand the machine translation is not perfect. The dirty little secret is that you understand that human translation is not perfect.

Dyskusja panelowa “Modern Enterprise Use Cases for Machine Translation”, zorganizowana przez Memsource z przedstawicielami Lengoo, ex-Microsoftu, Tripadvisora i Welocalize, przyniosła parę spotrzeżeń, które nie zawsze zostają wypowiedziane tak wyraźnie:

  • Jeśli powstanie treści nie kosztuje firmę wiele, to na tłumaczenie tych treści też niechętnie się wydaje – dlatego są pierwsze w kolejce do MT bez postedycji: komentarze z zewnątrz, dyskusje serwisowe, bazy wiedzy itd.
  • Przy MT bez PE ważniejsze od automatycznych miar jakości okazują się miary biznesowe – np. czy strona zlokalizowana ma więcej kliknięć / działań użytkowników niż strona w oryginale.
  • Przewidywanie jakości MT nadal raczkuje, ale nieustannie przewija się koncepcja: najpierw – przy postedycji – zmierzyć, które teksty źródłowe wymagają najwięcej poprawek; potem – MT bez PE – sprawdzać, czy nowy oryginał jest podobny do tekstów mocno poprawianych (> nie puszczać bez PE), czy mniej poprawianych (> można spróbować).