Nowości o MT

Kiedy MT jest posłuszne

Czego można spodziewać się po MT dotrenowanym pamięcią z dziedziny, w której pracujemy? A na ile MT może zaadaptować się do poprawek, jakie wprowadzamy poprawiając jego kolejne podpowiedzi?

Eksperyment z adaptującym się narzędziem do tłumaczenia maszynowego ModernMT został przeprowadzony przez Anonimową Tłumaczkę na platformie SDL Trados Studio 2017 w trzech fazach z wykorzystaniem tzw. tekstu „miękkiego” z obszaru nauk humanistycznych, w tłumaczeniu z języka polskiego na angielski:

  • Faza 0 (ok. 18 tys. znaków ze spacjami) – podpięty silnik ModernMT bez żadnych dodatkowych zasobów.
  • Faza 1 (ok. 22 tys. znaków ze spacjami) – podpięty silnik ModernMT z pamięcią  bazującą na wcześniej przetłumaczonych tekstach dotyczących tej samej tematyki (ok. 500 tys. znaków ze spacjami), ustawioną do wykorzystania przez silnik MT, lecz bez aktualizacji.
  • Faza 2 (ok. 60 tys. znaków ze spacjami) – podpięty silnik ModernMT z tą samą pamięcią, ustawioną do wykorzystania oraz aktualizacji przez silnik MT.

Faza 1 – silnik MT korzysta z pamięci

\W fazie 1 w stosunku do fazy 0 nastąpiła odczuwalna poprawa w zakresie doboru słownictwa. Klient miał określone wymagania co do nazewnictwa – faza 0 wymagała ze strony Tłumaczki w większości przypadków ręcznego wprowadzania poprawek, natomiast w fazie 1 silnik ModernMT dobierał właściwe określenia w ok. połowie przypadków.

Przykład terminologiczny (Faza 1):

Przykład stylistyczny (Faza 1):

Faza 2 – silnik MT korzysta z pamięci i z poprawek

Poprawa stała się jeszcze bardziej dostrzegalna w fazie 2 – terminologia była właściwie dobierana w ponad połowie przypadków, poza tym tłumaczenie maszynowe zaczęło naśladować styl Tłumaczki, co przejawiało się w używaniu charakterystycznych wyrażeń, które Tłumaczka wcześniej wprowadzała  ręcznie.

Przykład terminologiczny (Faza 2):

Przykład stylistyczny (Faza 2):

Tłumaczenie maszynowe wymagało stałego nadzoru, ponieważ można było zaobserwować ewidentne „spadki formy” i powrót do poprawianych przez Tłumaczkę wersji. Można jednak z dużą dozą pewności stwierdzić, że w fazie 2 liczba zastosowanych form poprawnych wśród obserwowanych sformułowań przeważała nad liczbą form niepoprawnych.

Tłumaczka nie odnotowała zauważalnego zwiększenia szybkości tłumaczenia w kolejnych fazach (prawdopodobnie ze względu na charakter tekstu szybkość tłumaczenia utrzymywała się na stałym poziomie 9 tys. znaków ze spacjami na godzinę), jednak szczególnie w fazie 2 dało się dostrzec zwiększoną „lekkość” tłumaczenia – praca nad nim stała się wyraźnie łatwiejsza.

Warto zwrócić uwagę, że stała szybkość tłumaczenia odnosi się do wcześniejszej pracy z nietrenowanym MT (ModernMT, wcześniej DeepL), a nie do pracy bez żadnych podpowiedzi z MT.

MT Summit 2021

Za miesiąc konferencja MT Summit 2021, 5 dni online w strefie czasowej wschodniego wybrzeża USA. W programie między innymi:

  • The 4th Workshop on Technologies for MT of Low Resource Languages
  • 1st International Workshop on Automatic Translation for Signed and Spoken Languages
  • Theory and Practice for research in Post-editese
  • Understanding and Improving Context Usage in Context-aware Translation
  • Bad to the Bone: Predicting the Impact of Source on MT 🙂

Poprawianie MT przez korpus tematyczny (2)

Pojawił się kolejny raport opisujący użycie przez Pangeanic korpusu tematycznego dostarczonego przez TAUS, aby uzyskać lepsze MT na tematy COVID-owe. Dla 5 par językowych odnotowano średnią poprawę jakości o 22% wg miary automatycznej BLEU – natomiast wyniki są rozrzucone w ciekawy sposób:

  • najlepiej wypada para angielski > rosyjski (50% poprawy), najgorzej – angielski > polski (8%), choć można by się spodziewać, że dwie tradycjnie trudne pary angielski > słowiański osiągną podobny wynik;
  • o ile para angielski > chiński notuje wysoką poprawę (26%), o tyle angielski > hiszpański – niewielką (9%), więc z kolei dwie “łatwe” pary wypadły ze sporym rozrzutem.

Można spekulować, że takie nieoczywiste wyniki są związane z różną jakością bazowych korpusów dla poszczególnych par językowych.

Raport zawiera też analizę przykładów tłumaczenia i wskazuje, w jaki sposób korpus tematyczny poprawia terminologię i ogólną jakość tłumaczenia na temat COVID-19. Brak natomiast większej analizy nowego MT tematycznego w ocenie tłumaczy-postedytorów lub odbiorców bezpośrednich, czy też danych o wydajności postedycji.

O wdrażaniu MT przez biura

For a little amount of money you can get everything translated (…) and then narrow down the quality requirements.”

Pod koniec maja 2021 jeden z webinarów MEMSOURCE był w zasadzie dyskusją panelową poświęconą wdrażaniu MT przez biura: jak wybierać MT do projektów, a projekty do MT; jak nauczyć się efektywnie postedytować; jak mierzyć opłacalność; jak mówić o MT z klientami, a jak z tłumaczami.

Obserwacje godne uwagi:

  • MT nie przyniesie oczekiwanych oszczędności przy mikroprojektach ani przy tekstach źródłowych z błędami;
  • regularny trening MT opłaca się tylko przy odpowiednio dużym wolumenie tłumaczeń;
  • powyżej pewnego progu odległości edycyjnej nie obserwuje się już większego wzrostu wydajności postedycji.

Obserwacje nieco kontrowersyjne:

  • “light post-editing” jest nadal zamawiane jako usługa eliminowania błędów krytycznych;
  • profesjonalny tłumacz nie będzie na siłę wprowadzać poprawek, nawet jeśli ma płacone wg odległości edycyjnej;
  • płatności godzinowe za postedycję są tak naprawdę przeliczonymi płatnościami według liczby słów.

MT dla początkujących (klientów)

Firma Andovar publikuje króciutką ściągawkę dla firm, które chcą zacząć korzystać z tłumaczeń maszynowych. W siedmiu krokach pokazuje, co trzeba wziąć pod uwagę po stronie projektów, zespołu i narzędzi; jakie są pułapki prawne; co może dać trening MT oraz dlaczego zawsze warto notować, jak wypadły poszczególne projekty “z maszyną”.

Bardzo przydatna rzecz na początek dla biur, które dopiero przymierzają się do przygody z MT. Może też przydać się do urealnienia oczekiwań klienta, który okazjonalnie tłumaczy proste teksty za pomocą DeepL czy Google i ma nieco zbyt optymistyczne przekonanie o realiach pracy z MT 🙂

Intento: “The pt was given abx”

Firma Intento oferuje nowe narzędzie poprawiające jakość MT: glosariusz skrótów podłączany przed wpuszczeniem tekstu do maszyny, który rozwija je, zanim tekst trafi do maszyny. Proponowane obszary zastosowania to m.in. sklepy internetowe i inne obszary obsługi klienta, a przede wszystkim – teksty medyczne: elektroniczny odpowiednik pisma lekarskiego 🙂

Porównanie MT dostępnych przez API (i wtyczki)

Bardzo przystępne porównanie MT dostępnych przez API (w tym wtyczki do CAT-ów), stan na 19 marca 2021, opublikowała firma ModelFront. Czytelne zestawienie dostępnych języków, możliwości dostosowania MT do własnej dziedziny, cen i ochrony danych. W kolumnie “Context” wieje pustką 🙂

Z publikacji dowiemy się też o aktualnie dostępnych darmowych silnikach NMT “do samodzielnego złożenia”, a oprócz tego – jakie języki zostały niedawno dodane. DeepL na przykład włączył dosłownie przed momentem język czeski (i parę innych języków Europy Środkowej, tak że polski przestał być uprzywilejowany), a Microsoft obsługuje m.in. język tigrinia.

Dyskusja o stawkach za postedycję

W ramach serii webinarów firmy Memsource na temat MT odbyła się niedawno bardzo ciekawa dyskusja pt. “Pricing Models for MT Post-Editing“. Znajdziemy tu większość gorących tematów, związanych ze stawkami za MTPE AD 2021, np.:

  • czy lepsze są stawki za słowo, godzinowe czy za usługę (i dlaczego słowo na razie wygrywa),
  • jak skłonić klienta do przysłania tekstu źródłowego o sensownej jakości (nowe zastosowanie SLA),
  • kiedy możemy liczyć na przewidywanie jakości MT (jeszcze nie),
  • czy rozróżnianie wielu poziomów MTPE ma sens (już nie),
  • czy powstanie standard rynkowy wyceny MTPE (to zależy).

Poprawianie MT przez korpus tematyczny (1)

Dostępny jest krótki raport opisujący użycie przez Systran korpusu tematycznego dostarczonego przez TAUS, aby uzyskać lepsze MT na tematy COVID-owe. Dla 12 par językowych odnotowano średnią poprawę jakości o 18% wg miary automatycznej BLEU. W raporcie brak informacji, jak nowe MT tematyczne wypadło w ocenie tłumaczy-postedytorów lub odbiorców bezpośrednich.

Porozmawiajamy o tłumaczeniach maszynowych

Na przełomie lutego i marca 2021 miałam zaszczyt wystąpić w trzeciej edycji podcastu “Porozmawiajmy o tłumaczeniach“, jaki prowadzi Wojciech Wołoszyk (prawnik-lingwista, prezes IURIDICO). W ciągu nieco ponad godziny poruszyliśmy takie kwestie, jak:

  • rola tłumacza względem NMT,
  • sposób powstawania współczesnych tłumaczeń maszynowych,
  • ryzyka związane z użyciem tej technologii (jakościowe, prawne i psychologiczne),
  • obliczanie stawek za postedycję,
  • wybór właściwego narzędzia MT do danego zadania,
  • specyfika unijnego silnika eTranslation.