taus

Poprawianie MT przez korpus tematyczny (3)

TAUS po raz trzeci – czyli kolejny raport o poprawianiu MT przez zastosowanie korpusów TAUS z wybranych dziedzin. Tym razem na scenę wkroczył Amazon (AWS) – i podszedł do sprawy bardzo poważnie, trenując wybrane silniki MT na korpusach TAUS z dziedziny sklepów internetowych, medyczno-farmaceutycznej i finansowej. W opublikowanym raporcie TAUS i Amazon pokazują wzrost jakości MT o średnio 15% wg miary BLEU. Wynik jest więc tylko nieznacznie gorszy od poprzednich prób wykonanych przez firmy Systran (+18%) i Pangeanic (+22%).

Współpraca TAUS i Amazona nie kończy się na raporcie:

  • Amazon wprowadza do swojej oferty korpusy TAUS jako dane do treningu MT.
  • TAUS oferuje tematyczne silniki MT Amazona dla poszczególnych par językowych, podając spodziewaną poprawę jakości MT (BLEU) zgodnie z wynikami raportu.

Podobnie jak w poprzednich raportach, TAUS opiera ocenę MT wyłącznie na BLEU – nie podaje korelacji tej miary z wydajnością pracy postedytorów (co pozwalałoby wstępnie policzyć stawki za PE) ani z oceną odbiorców końcowych (co z kolei pomogłoby określić użyteczność trenowanego MT bez weryfikacji).

Poprawianie MT przez korpus tematyczny (2)

Pojawił się kolejny raport opisujący użycie przez Pangeanic korpusu tematycznego dostarczonego przez TAUS, aby uzyskać lepsze MT na tematy COVID-owe. Dla 5 par językowych odnotowano średnią poprawę jakości o 22% wg miary automatycznej BLEU – natomiast wyniki są rozrzucone w ciekawy sposób:

  • najlepiej wypada para angielski > rosyjski (50% poprawy), najgorzej – angielski > polski (8%), choć można by się spodziewać, że dwie tradycjnie trudne pary angielski > słowiański osiągną podobny wynik;
  • o ile para angielski > chiński notuje wysoką poprawę (26%), o tyle angielski > hiszpański – niewielką (9%), więc z kolei dwie “łatwe” pary wypadły ze sporym rozrzutem.

Można spekulować, że takie nieoczywiste wyniki są związane z różną jakością bazowych korpusów dla poszczególnych par językowych.

Raport zawiera też analizę przykładów tłumaczenia i wskazuje, w jaki sposób korpus tematyczny poprawia terminologię i ogólną jakość tłumaczenia na temat COVID-19. Brak natomiast większej analizy nowego MT tematycznego w ocenie tłumaczy-postedytorów lub odbiorców bezpośrednich, czy też danych o wydajności postedycji.

Poprawianie MT przez korpus tematyczny (1)

Dostępny jest krótki raport opisujący użycie przez Systran korpusu tematycznego dostarczonego przez TAUS, aby uzyskać lepsze MT na tematy COVID-owe. Dla 12 par językowych odnotowano średnią poprawę jakości o 18% wg miary automatycznej BLEU. W raporcie brak informacji, jak nowe MT tematyczne wypadło w ocenie tłumaczy-postedytorów lub odbiorców bezpośrednich.

Raport Intento 2020

Firma Intento po raz kolejny oferuje darmowy raport o MT, porównujący jakość (w zestawieniu z tłumaczeniem ludzkim – żadnych czarów), koszty, dostępność API, obsługiwane języki. W tym roku danych do porównania dostarczał TAUS. Poza twardymi danymi dla poszczególnych par językowych można się z tego raportu dowiedzieć o nowych i mniej znanych graczach na rynku MT.

TAUS Program 2021

Tydzień webinarów! Wczoraj Omniscien, dziś eTranslation, a jutro – TAUS Program 2021, czyli nowości na rynku dużych (ale to naprawdę dużych) danych językowych.