jakość

ISO ex machina

Ciekawe, czy uda się wdrożyć wróżenie jakości MT, które będzie dobrze skorelowane z faktyczną jakością MT ocenioną przez człowieka – czyli tekst postedytowany (zgodnie z wróżbą “tu trzeba”) i tekst niepostedytowany (zgodnie z wróżbą “nie trzeba”) będą nie do odróżnienia przez korektę/redakcję, zwłaszcza pod względem merytorycznym. Koncepcję objaśnia Adam Bittlingmayer, dyrektor firmy ModelFront zajmującej się – a jakże – wróżeniem jakości MT, w artykule dla tcworld.info:

“A quality prediction score should correlate with the decision of a professional human translator to edit or not edit a segment in a given translation workflow. (…) The most important question is whether humans can even tell the difference between the final output of the new process and the old process.

Przyznam, że chciałabym, żeby rozwój MTPE poszedł w kierunku “porządna postedycja za porządne stawki albo publikujemy surowe MT”, a nie w stronę dalszego obniżania stawek za PE i podnoszenia oczekiwanej wydajności postedycji, bo zbliżamy się chyba do granicy możliwości człowieka w zakresie przetwarzania informacji; dalej będzie już tylko pozorowanie sprawdzania, nieetycznie nie tylko z powodu przerzucania odpowiedzialności na tłumaczy, ale przede wszystkim ze względu na wprowadzanie konsumentów w błąd, że tłumaczenie jest zgodne merytorycznie z oryginałem i że ktoś za to odpowiada. A ponieważ postedytorami bywamy, a konsumentami jesteśmy – chciałabym jeszcze tylko przepisu, np. normy ISO, który wymusi oznaczanie wszelkich publikowanych tekstów jako “raw MT”, jeśli postedycji nie było, przy czym postedycja powinna być zdefiniowana jako pełna w rozumieniu normy ISO 18587 (“to obtain a product comparable to a product obtained by human translation”), a koncepcja “light PE” należy czym prędzej wyprowadzić za stodołę i zastrzelić.

MT Summit 2021

Za miesiąc konferencja MT Summit 2021, 5 dni online w strefie czasowej wschodniego wybrzeża USA. W programie między innymi:

  • The 4th Workshop on Technologies for MT of Low Resource Languages
  • 1st International Workshop on Automatic Translation for Signed and Spoken Languages
  • Theory and Practice for research in Post-editese
  • Understanding and Improving Context Usage in Context-aware Translation
  • Bad to the Bone: Predicting the Impact of Source on MT 🙂

MT w przestrzeni publicznej (Japonii)

Jak donosi The Guardian, a wyszperała Diana Jankowiak, w Japonii powstała grupa robocza lingwistek, która pracuje nad ograniczeniem wasei-eigo – marnego angielskiego tłumaczonego z japońskiego – w oficjalnych dokumentach, ogłoszeniach i komunikatach. Celem tego działania jest stworzenie komunikacji bardziej przyjaznej dla turystów (z myślą m.in. o olimpiadzie) i bardziej bezpiecznej dla osób z zaganicy w sytuacjach kryzysowych, takich jak trzęsienie ziemi. Jedną z metod poprawiania angielskich treści jest oczywiście weryfikowanie MT i niedopuszczanie maszynowej “surówki” np. na miejskich stronach WWW. Celowo uproszczone czy dosłowne tłumaczenie na angielski ma jednak swoją rolę w japońskim marketingu – nie jest to raczej zamach na All your base are belong to us.

Jakiego rodzaju jest gender?

Dlaczego MT częściej proponuje rodzaj męski? Bo tak ma w danych treningowych. Czy da się coś z tym zrobić? Tak, prace trwają. Polecam uwadze krótkie opracowanie Intento – rodzaj znajdziemy na slajdach 21-27, poza tym styl formalny/nieformalny i kwestie ochrony danych.

Konferencja EAMT 2020 z wirtualnej Lizbony

Tegoroczna konferencja European Association of Machine Translation to, jak zwykle, coś w rodzaju maszynowego pokazu mody: pozwala zapoznać się nie tyle z rozwiązaniami już istniejącymi na rynku (tych lepiej szukać na konferencjach branży tłumaczeniowej i lokalizacyjnej), co z projektami, które “będzie się nosiło” w następnym sezonie. Oczywiście na tym etapie nie wiadomo, które modele wejdą do masowej produkcji, a które pozostaną gadżetami dla branżowych celebrytów – ale warto znać trendy.

Dostępny jest program z krótkimi streszczeniami wideo większości prezentacji i posterów, a także doroczna publikacja prac naukowych.

Raport Intento 2020

Firma Intento po raz kolejny oferuje darmowy raport o MT, porównujący jakość (w zestawieniu z tłumaczeniem ludzkim – żadnych czarów), koszty, dostępność API, obsługiwane języki. W tym roku danych do porównania dostarczał TAUS. Poza twardymi danymi dla poszczególnych par językowych można się z tego raportu dowiedzieć o nowych i mniej znanych graczach na rynku MT.

W czym jesteśmy lepsi od maszyn

Na czym polega przewaga człowieka nad silnikiem tłumaczenia maszynowego? Człowiek rozumie. Krótkie rozważania o zastosowaniu MT jako “leniwego edytora tekstu”, kiedy wiemy dokładnie, co chcemy napisać.

Prognozowanie jakości MT (2)

Podobnie jak LangTec QUEST, Memsource Translate pomaga oszacować czas i koszt postedycji oraz przede wszystkim dobrać optymalne MT do danego tekstu (tematyki i pary językowej) – a wszystko to w oparciu o dane z poprzednich postedycji, czyli bez tłumacza ani rusz! O ile QUEST opiera się raczej na projektach konkretnego klienta, o tyle Memsource Translate bazuje na uśrednionych danych z wielu projektów, dlatego dostępne jest również dla freelancerów, którzy nie dysponują dużą ilością danych z wcześniejszych projektów PE. Dla równowagi, lista MT porównywanych przez Memsource Translate jest ograniczona do najpopularniejszych.

Prognozowanie jakości MT (1)

Wstępna ocena jakości tłumaczenia maszynowego, zanim zajmie się nim postedytor (i bez tłuaczeń referencyjnych), to usługa bardzo pożądana, nad którą pracują różne jednostki badawcze i komercyjne. Owszem, są już rozwiązania w tej dziedzinie, ale ich korelacja z tym, co potem zrobią tłumacze, nie przekonuje. Pojawiła się tymczasem pokrewna usługa: przewidywanie użyteczności danego MT dla danego tekstu źródłowego na podstawie obserwacji zebranych z wcześniejszej postedycji podobnych tekstów w tej samej parze językowej. Jedno z takich rozwiązań to QUEST firmy LangTec, o którym Christopher Reid opowiadał na KTLC2020.