Poprawianie MT przez korpus tematyczny (2)

Pojawił się kolejny raport opisujący użycie przez Pangeanic korpusu tematycznego dostarczonego przez TAUS, aby uzyskać lepsze MT na tematy COVID-owe. Dla 5 par językowych odnotowano średnią poprawę jakości o 22% wg miary automatycznej BLEU – natomiast wyniki są rozrzucone w ciekawy sposób:

  • najlepiej wypada para angielski > rosyjski (50% poprawy), najgorzej – angielski > polski (8%), choć można by się spodziewać, że dwie tradycjnie trudne pary angielski > słowiański osiągną podobny wynik;
  • o ile para angielski > chiński notuje wysoką poprawę (26%), o tyle angielski > hiszpański – niewielką (9%), więc z kolei dwie “łatwe” pary wypadły ze sporym rozrzutem.

Można spekulować, że takie nieoczywiste wyniki są związane z różną jakością bazowych korpusów dla poszczególnych par językowych.

Raport zawiera też analizę przykładów tłumaczenia i wskazuje, w jaki sposób korpus tematyczny poprawia terminologię i ogólną jakość tłumaczenia na temat COVID-19. Brak natomiast większej analizy nowego MT tematycznego w ocenie tłumaczy-postedytorów lub odbiorców bezpośrednich, czy też danych o wydajności postedycji.