Poprawianie MT przez korpus tematyczny (2)
Pojawił się kolejny raport opisujący użycie przez Pangeanic korpusu tematycznego dostarczonego przez TAUS, aby uzyskać lepsze MT na tematy COVID-owe. Dla 5 par językowych odnotowano średnią poprawę jakości o 22% wg miary automatycznej BLEU – natomiast wyniki są rozrzucone w ciekawy sposób:
- najlepiej wypada para angielski > rosyjski (50% poprawy), najgorzej – angielski > polski (8%), choć można by się spodziewać, że dwie tradycjnie trudne pary angielski > słowiański osiągną podobny wynik;
- o ile para angielski > chiński notuje wysoką poprawę (26%), o tyle angielski > hiszpański – niewielką (9%), więc z kolei dwie “łatwe” pary wypadły ze sporym rozrzutem.
Można spekulować, że takie nieoczywiste wyniki są związane z różną jakością bazowych korpusów dla poszczególnych par językowych.
Raport zawiera też analizę przykładów tłumaczenia i wskazuje, w jaki sposób korpus tematyczny poprawia terminologię i ogólną jakość tłumaczenia na temat COVID-19. Brak natomiast większej analizy nowego MT tematycznego w ocenie tłumaczy-postedytorów lub odbiorców bezpośrednich, czy też danych o wydajności postedycji.