mt

Użyteczność eTranslation w tłumaczeniu na polski

Na konferencji EAMT 2020 została zaprezentowana praca dr Karoliny Stefaniak, reprezentującej Dyrekcję Generalną ds. Tłumaczeń Pisemnych Komisji Europejskiej, na temat użyteczności eTranslation w tłumaczeniach unijnych na język polski. Jak podstawowe kryterium użyteczności przyjęty został czas postedycji w porównaniu z czasem tłumaczenia od zera. Badania czasu wykazują umiarkowane korzyści z używania MT (eTranslation) – rzędu kilkunastu procent. Co ciekawe, korelacja między liczbą wprowadzanych poprawek a szybkością pracy jest słaba. Badanie wskazuje też błędy MT typowe dla unijnych tekstów prawnych i pary angielski-polski. Całe opracowanie jest dostępne w materiałach konferencyjnych.

Wycena postedycji

Jedna z ciekawszych sesji na konferencji EAMT 2020 była literalnie ostatnia w programie: przedstawiciele firmy acolad postanowili (odważyli się?) podzielić praktyką obliczania stawek za postedycję. Praktyka jest godna polecenia i opiera się na założeniu, że stawkę za słowo można – względem tłumaczenia – obniżyć mniej więcej o tyle, o ile MT przyspieszy pracę tłumaczy w porównaniu z tłumaczeniem od zera. Wyniki są badane dla próbki o wielkości co najmniej 5000 słów, a stawka dotyczy zawsze konkretnej dziedziny i pary językowej. Szczegóły można znaleźć w materiałach konferencyjnych.

MT ze zmienną terminologią

Dopasowanie terminologii w MT do dziedziny, klienta lub projektu pozostaje funkcją bardzo pożądaną na rynku. Oferuje ją część dostawców MT. Tymczasem firma SAP ma taki proces wdrożony na potrzeby swego (ogromnego) działu lokalizacji oprogramowania – w tym przypadku terminologię dopasowuje się do projektu. Niewątpliwym atutem SAP-a jest tu posiadanie i własnych zasobów terminologicznych, i własnego systemu NMT 🙂 Opracowanie na ten temat zostało nagrodzone jako najlepsza publikacja na konferencji EAMT 2020 i jest dostępne wraz z resztą materiałów konferencyjnych.

Jak porównywać MT z tłumaczami

Na fali publikacji o MT tworzącym tłumaczenia nie do odróżnienia od ludzkich, tudzież drugiej fali prac podważających te twierdzenia, powstał bardzo przyzwoity zestaw dobrych praktyk przy porównywaniu MT z człowiekiem. Warto zwracać uwagę m.in. na te aspekty:

  • kto tłumaczył (amatorzy czy zawodowcy)
  • kto porównuje (amatorzy czy zawodowcy) – i dla jakich odbiorców tekst ma być przeznaczony
  • czy w porównaniu uwzględniony jest kontekst (np. cały dokument)
  • jaki był tekst źródłowy (z MT, z tłumaczenia czy pierwotnie napisany w danym języku).

Podczas prezentacji na EAMT 2020 profesor Antonio Toral zauważył przewrotnie, że większość odbiorców MT nie jest profesjonalnymi tłumaczami, więc czy ocena przez profesjonalistów jest w pełni adekwatna do ich potrzeb…? Mój ulubiony cytat z konferencyjnej dyskusji to “Just because something is better, doesn’t mean it’s correct” 🙂

Opcja niemiecka

Na potrzeby prezydencji Niemiec w UE powstał portal o nazwie EU Council Presidency Translator, spinający MT z eTranslation, DeepL i Tilde, a obsługujący języki Europy. Portal nie wydaje się rozwiązaniem szczególnie nowatorskim technologicznie, bo tłumacząc w nim tekst, wybieramy z góry, który silnik ma być użyty. Bardziej imponująca jest współpraca firm komercyjnych i sektora publicznego nad wspólnym celem – dostarczeniem obywatelom jak najlepszej oferty darmowego tłumaczenia maszynowego.

Przyszłość tłumaczenia książek? Hm…

Konstantin Savenkov, szef Intento, zwrócił uwagę na bardzo ciekawy projekt wydawnictwa Individuum: “A World Without Work” Daniela Susskinda został wstępnie przetłumaczony na język rosyjski za pomocą Yandex NMT i postedytowany; akapity pozostawione bez zmian są wyróżnione w tekście książki. Szerszy opis tego projektu jest dostępny po rosyjsku – i tu uwaga dla niecyrylicznych: Yandex naprawdę dobrze tłumaczy z rosyjskiego na angielski lub polski (na ogół lepiej niż Google, DeepL czy eTranslation).

Komunikacja w kryzysie

Informacja na podstawie notatki Anny Kotarskiej na LinkedIn

9 grudnia 2020 odbył się warsztat „Crisis Response – Language Tools to the Rescue”, podczas którego prof. Nicola Ferro przedstawił międzynarodowy projekt Multilingual Information Access wspierany przez Komisję Europejską, w który zaangażowane są European Language Resource Association oraz European Language Resource Coordination (ELRC).

Projekt obejmuje 3 rodzaje operacji na tekście:
✔️ wielojęzyczne wyszukiwanie semantyczne
✔️ ekstrakcja informacji
✔️ tłumaczenie maszynowe

Wśród obsługiwanych języków nie ma języka polskiego, ponieważ żadna z krajowych instytucji czy zespół nie zgłosił zainteresowania udziałem w inicjatywie (jest za to np. zespół ukraiński), ale wciąż można dołączyć.

Konferencja EAMT 2020 z wirtualnej Lizbony

Tegoroczna konferencja European Association of Machine Translation to, jak zwykle, coś w rodzaju maszynowego pokazu mody: pozwala zapoznać się nie tyle z rozwiązaniami już istniejącymi na rynku (tych lepiej szukać na konferencjach branży tłumaczeniowej i lokalizacyjnej), co z projektami, które “będzie się nosiło” w następnym sezonie. Oczywiście na tym etapie nie wiadomo, które modele wejdą do masowej produkcji, a które pozostaną gadżetami dla branżowych celebrytów – ale warto znać trendy.

Dostępny jest program z krótkimi streszczeniami wideo większości prezentacji i posterów, a także doroczna publikacja prac naukowych.

Raport Intento 2020

Firma Intento po raz kolejny oferuje darmowy raport o MT, porównujący jakość (w zestawieniu z tłumaczeniem ludzkim – żadnych czarów), koszty, dostępność API, obsługiwane języki. W tym roku danych do porównania dostarczał TAUS. Poza twardymi danymi dla poszczególnych par językowych można się z tego raportu dowiedzieć o nowych i mniej znanych graczach na rynku MT.

BP20 Workshop Week 2-6/11/2020

W ramach cyklu warsztatów BP20 Workshop Week będę miała przyjemność opowiedzieć, w jaki sposób tłumacz może ocenić jakość MT za pomocą raportów dostępnych w popularnych CAT-ach. Będzie też mowa o innych metodach “prognozowania jakości” MT (oraz dlaczego piszę to określenie w cudzysłowie).