pangeanic

Poprawianie MT przez korpus tematyczny (2)

Pojawił się kolejny raport opisujący użycie przez Pangeanic korpusu tematycznego dostarczonego przez TAUS, aby uzyskać lepsze MT na tematy COVID-owe. Dla 5 par językowych odnotowano średnią poprawę jakości o 22% wg miary automatycznej BLEU – natomiast wyniki są rozrzucone w ciekawy sposób:

  • najlepiej wypada para angielski > rosyjski (50% poprawy), najgorzej – angielski > polski (8%), choć można by się spodziewać, że dwie tradycjnie trudne pary angielski > słowiański osiągną podobny wynik;
  • o ile para angielski > chiński notuje wysoką poprawę (26%), o tyle angielski > hiszpański – niewielką (9%), więc z kolei dwie “łatwe” pary wypadły ze sporym rozrzutem.

Można spekulować, że takie nieoczywiste wyniki są związane z różną jakością bazowych korpusów dla poszczególnych par językowych.

Raport zawiera też analizę przykładów tłumaczenia i wskazuje, w jaki sposób korpus tematyczny poprawia terminologię i ogólną jakość tłumaczenia na temat COVID-19. Brak natomiast większej analizy nowego MT tematycznego w ocenie tłumaczy-postedytorów lub odbiorców bezpośrednich, czy też danych o wydajności postedycji.

Skutek uboczny adaptacji MT

Na webinarium “Deep Adaptive in MT – closing the gap with human parity” Manuel Herranz i Mercedes Garcia, reprezentujący firmę Pangeanic, opowiadali o tłumaczeniach maszynowych adaptowanych do zastosowania. Interesującym aspektem było pokazanie nieoczywistego skutku ubocznego takiej adaptacji: MT staje się lepsze – tak w ocenie automatycznej, jak i w ocenie przez tłumaczy – w dziedzinie, do której jest adaptowane, ale nieco pogarsza się jego jakość w dziedzinie ogólnej.