trening

Kiedy MT jest posłuszne

Czego można spodziewać się po MT dotrenowanym pamięcią z dziedziny, w której pracujemy? A na ile MT może zaadaptować się do poprawek, jakie wprowadzamy poprawiając jego kolejne podpowiedzi?

Eksperyment z adaptującym się narzędziem do tłumaczenia maszynowego ModernMT został przeprowadzony przez Anonimową Tłumaczkę na platformie SDL Trados Studio 2017 w trzech fazach z wykorzystaniem tzw. tekstu „miękkiego” z obszaru nauk humanistycznych, w tłumaczeniu z języka polskiego na angielski:

  • Faza 0 (ok. 18 tys. znaków ze spacjami) – podpięty silnik ModernMT bez żadnych dodatkowych zasobów.
  • Faza 1 (ok. 22 tys. znaków ze spacjami) – podpięty silnik ModernMT z pamięcią  bazującą na wcześniej przetłumaczonych tekstach dotyczących tej samej tematyki (ok. 500 tys. znaków ze spacjami), ustawioną do wykorzystania przez silnik MT, lecz bez aktualizacji.
  • Faza 2 (ok. 60 tys. znaków ze spacjami) – podpięty silnik ModernMT z tą samą pamięcią, ustawioną do wykorzystania oraz aktualizacji przez silnik MT.

Faza 1 – silnik MT korzysta z pamięci

\W fazie 1 w stosunku do fazy 0 nastąpiła odczuwalna poprawa w zakresie doboru słownictwa. Klient miał określone wymagania co do nazewnictwa – faza 0 wymagała ze strony Tłumaczki w większości przypadków ręcznego wprowadzania poprawek, natomiast w fazie 1 silnik ModernMT dobierał właściwe określenia w ok. połowie przypadków.

Przykład terminologiczny (Faza 1):

Przykład stylistyczny (Faza 1):

Faza 2 – silnik MT korzysta z pamięci i z poprawek

Poprawa stała się jeszcze bardziej dostrzegalna w fazie 2 – terminologia była właściwie dobierana w ponad połowie przypadków, poza tym tłumaczenie maszynowe zaczęło naśladować styl Tłumaczki, co przejawiało się w używaniu charakterystycznych wyrażeń, które Tłumaczka wcześniej wprowadzała  ręcznie.

Przykład terminologiczny (Faza 2):

Przykład stylistyczny (Faza 2):

Tłumaczenie maszynowe wymagało stałego nadzoru, ponieważ można było zaobserwować ewidentne „spadki formy” i powrót do poprawianych przez Tłumaczkę wersji. Można jednak z dużą dozą pewności stwierdzić, że w fazie 2 liczba zastosowanych form poprawnych wśród obserwowanych sformułowań przeważała nad liczbą form niepoprawnych.

Tłumaczka nie odnotowała zauważalnego zwiększenia szybkości tłumaczenia w kolejnych fazach (prawdopodobnie ze względu na charakter tekstu szybkość tłumaczenia utrzymywała się na stałym poziomie 9 tys. znaków ze spacjami na godzinę), jednak szczególnie w fazie 2 dało się dostrzec zwiększoną „lekkość” tłumaczenia – praca nad nim stała się wyraźnie łatwiejsza.

Warto zwrócić uwagę, że stała szybkość tłumaczenia odnosi się do wcześniejszej pracy z nietrenowanym MT (ModernMT, wcześniej DeepL), a nie do pracy bez żadnych podpowiedzi z MT.

Porównanie MT dostępnych przez API (i wtyczki)

Bardzo przystępne porównanie MT dostępnych przez API (w tym wtyczki do CAT-ów), stan na 19 marca 2021, opublikowała firma ModelFront. Czytelne zestawienie dostępnych języków, możliwości dostosowania MT do własnej dziedziny, cen i ochrony danych. W kolumnie “Context” wieje pustką 🙂

Z publikacji dowiemy się też o aktualnie dostępnych darmowych silnikach NMT “do samodzielnego złożenia”, a oprócz tego – jakie języki zostały niedawno dodane. DeepL na przykład włączył dosłownie przed momentem język czeski (i parę innych języków Europy Środkowej, tak że polski przestał być uprzywilejowany), a Microsoft obsługuje m.in. język tigrinia.

Open for Good: darmowe dane treningowe dla AI

25 listopada 2020 startuje Open for Good: inicjatywa mająca na celu zbieranie danych treningowych dla różnych rozwiązań AI, przede wszystkim z terenów Afryki i Azji. Zebrane dane mają być ogólnodostępne i darmowe, mają też być zlokalizowane – co w tym przypadku niekoniecznie oznacza tłumaczenie: przede wszystkim zbieranie informacji na właściwym terenie i z lokalnych źródeł. Dane obejmują np. informacje głosowe czy geograficzne, ale w dużej mierze tekst – co będzie oznaczało nowy potencjał do rozwoju tłumaczeń maszynowych dla języków, dla których brak dziś korpusów do treningu MT.