cat

Wróżenie jakości MT

Industry does not repeat, but it rhymes

Dobry, choć bez wątpienia lanserski wywiad na linii memoQ – ModelFront o prognozowaniu jakości MT, z którego można dowiedzieć się, jak to działa:

  • na podstawie danych z już wykonanych postedycji oblicza się % segmentów niezmienianych – jeśli jest wysoki, to warto przejść do następnego kroku;
  • na podstawie zmian wykonanych w postedycji trenowany jest silnik, który dla nowych segmentów maszynowych szacuje, czy trzeba je będzie poprawiać i jak bardzo;
  • dla każdego projektu i dodanego w nim MT będzie można przewidzieć, czy trzeba postedytować koniecznie i bezwarunkowo, czy też można postedycję odpuścić 🙂

Założeniem ModelFrontu jest wyeliminowanie żmudnej postedycji wszędzie tam, gdzie wnosi ona bardzo mało poprawek (a przy tym w zastosowaniach, gdzie nieuchronne przy tym podejściu, acz nieliczne błędy nie niosą ze sobą wielkiego ryzyka). Dla postedytorów mają pozostać zadania o wysokiej wartości dodanej.

Rozwiązanie ModelFrontu jest dostępne na razie dla kilku TMS-ów (w tym memoQ), ale firma planuje rozszerzanie tej listy.

…Ciekawe, czy takie narzędzia do wróżenia jakości MT będą używane zgodnie z założeniem, czy – niestety – do przycinania stawek za PE zgodnie z zasadą “wy udawajcie że sprawdzacie, my będziemy udawać że płacimy” 🙁

AI w narzędziach CAT?

A teraz szybko, zanim dotrze do nas, że to bez sensu!

Dwa popularne CAT-y reprezentują w tej chwili dwa różne podejścia do AI:

Trados dorobił się wtyczki OpenAI, która działa i konfiguruje się trochę inaczej niż znane już wtyczki MT. Jej niewątpliwą zaletą jest możliwość definiowania własnych zapytań (promptów), które pozwalają generować z ChatGPT tłumaczenia zwracające się do odbiorcy w liczbie pojedynczej, mnogiej albo neutralnie. Aby skorzystać z tej funkcji, trzeba mieć wykupiony dostęp do OpenAI i podać klucz API.

MemoQ wprowadził funkcję AIQE, czyli szacowanie jakości segmentów maszynowych (z dowolnej wtyczki MT) za pomocą dużego modelu językowego. Do wyboru jest TAUS albo ModelFront, do których również trzeba nabyć oddzielne klucze API.

Zaletą obu tych rozwiązań jest wprowadzenie najnowszych technologii językowych do CAT-ów. Wadą – ograniczenie przetwarzania do segmentu, czyli odcięcie jednej z największych zalet, jakie prezentują narzędzia AI oparte na dużych modelach językowych (LLM): potrafią one pracować na dokumencie jako całości, a w każdym razie na sporej jego części.

Ciekawe, kto z producentów CAT-ów pierwszy umożliwi pełniejsze wykorzystanie LLM do pracy na całym tekście, np. w takich zastosowaniach:

  • wychwycenie kluczowej terminologii z tekstu źródłowego;
  • sprawdzenie tekstu źródłowego i zaproponowanie poprawek (gramatyka, spójność, styl);
  • przeredagowanie tekstu wynikowego w zadanym kierunku (formalny/nieformalny, zdania krótkie/długie);
  • automatyczna kontrola jakości tłumaczenia według zadanych parametrów.

O części z tych zastosowań mówią praktycy z branży lokalizacyjnej na webinarze Intento “GPT in Localization“, wspominając też o możliwości generowania tekstu w wielu językach naraz – wszędzie tam, gdzie GPT potrafi wygenerować wystarczająco dobry tekst oryginalny (angielski), a surowe tłumaczenie maszynowe niekoniecznie spełnia wymagania jakościowe.

…Tyle że oczywiście nie da się ufać GPT w 100%, że czegoś nie nazmyśla 🙂

Co nowego u DeepLa

DeepL pozostaje jednym z najbardziej lubianych silników MT w parach z językiem polskim. Dlaczego i czy zawsze – tym zajmiemy się innym razem; dziś krótki przegląd nowości i rzeczy, na które warto zwrócić uwagę.

  1. Funkcja dodawania własnego glosariusza objęła niedawno język polski. Tłumacze, którzy ją już testują, donoszą, że DeepL nienajgorzej radzi sobie z przypadkami, rodzajami i liczbami.
  2. DeepL z przeglądarki – tłumacząc fragmenty tekstu lub całe dokumenty – ewidentnie próbuje rozpoznawać kontekst: może nie w zakresie całego tekstu, ale akapitu lub kilku sąsiadujących zdań. Funkcja ta nie zadziała, póki co, poprzez API – czyli na przykład z narzędzia CAT, gdzie tekst tłumaczony jest segment po segmencie i maszyna nie ma szansy “zobaczyć” go szerzej. Niektórzy eksperymentują z segmentacją akapitami lub też z wysyłaniem do MT kilku segmentów naraz z pominięciem wtyczki.
  3. Skoro jesteśmy przy kontekście: DeepL, tak jak każdy inny silnik (oraz tłumacze profesjonalni), nie zdziała cudu przy bardzo krótkich segmentach, które mogą mieć wiele znaczeń. Jeśli tłumaczymy z przeglądarki i możemy zmieniać tekst źródłowy, to warto dodać kontekst, który ujednoznaczni tekst źródłowy. I tak na przykład “March” tłumaczony na angielski to “Marzec”, ale już “Long March” to “Długi Marsz”, a dla “March on” DeepL podaje tłumaczenia alternatywne i z marcem, i z marszem.
  4. Jeśli mamy tłumaczyć na język inny niż polski czy angielski, na przykład na czeski, a angielskim władamy dość dobrze, to tłumaczmy raczej z angielskiego na czeski niż z polskiego na czeski. Owszem, czeski i polski mają wiele wspólnego – niestety najprawdopodobniej DeepL będzie tłumaczyć polski > angielski > czeski, a to oznacza możliwość przekłamań na obu etapach. Wpisując oryginał w miarę poprawnie po angielsku, eliminujemy przynajmniej etap pierwszy.

Lekko niepokojące szkolenie z MTPE

Firma Memsource zorganizowała 4-godzinne, bezpłatne szkolenie z efektywnego MTPE, stanowiące zarazem część projektu badawczego, jaki prowadzą Lucía Guerrero Romeo i Viveta Gene. Kilka aspektów szkolenia uznałabym za bardzo przydatne:

  • “Szkolenie stanowiskowe” uczestników – praktyczne ćwiczenia z postedycji MT w narzędziu CAT (Memsource).
  • Wskazanie technik i funkcji narzędzia CAT, które pomagają zwiększyć wydajność pracy postedytora; prawidłowe zastosowanie tych technik (np. odfiltrowanie i obrabianie oddzielnie segmentów z pamięci i segmentów z MT tylko wtedy, kiedy kontekst całego dokumentu nie jest istotny).
  • Przedstawienie typowych błędów MT, na które warto zwrócić uwagę.
  • Porównanie wydajności postedycji, wykonanej przez uczestników na próbkach, po “szkoleniu stanowiskowym”.

Dlaczego jednak uważam to szkolenie za nieco niepokojące?

  • Błędy krytyczne, gdzie MT zmienia sens tekstu, zostały wymienione po prostu jako jeden z typów błędów – gdzieś między nieuzgodnionym rodzajem a niepoprawną interpunkcją. Zabrakło wskazówek, jak te krytyczne błędy wychwytywać.
  • Za jedyne kryterium skuteczności “szkolenia stanowiskowego” – nota bene, spełnione – został uznany wzrost wydajności postedycji. Nie wiadomo, czy nie spadła przy tym jakość finalnego tłumaczenia.

Klucza daj tłumaczowi

Żeby podłączyć MT do narzędzia CAT, potrzebujemy klucza API. I tu rysują się dwa warianty:

  1. Dostarczanie MT jest głównym zajęciem naszego dostawcy, więc dbanie o wygodę tłumaczy (i innych jednostek korzystających z MT przez API) ma u dostawcy wysoki priorytet. Tutaj pozyskanie klucza jest proste, by nie rzec – banalne. Do tej grupy należy na przykład DeepL czy ModernMT.
  2. Dostarczanie MT jest jedną z wielu usług, jakie nasz dostawca świadczy w sieci, można wręcz nieraz domniemywać, że słupek “tłumaczenia maszynowe” ma u niego grubość linii na wykresie struktury przychodów. W tym przypadku pozyskanie klucza API jest trudne, bardzo trudne albo boleśnie upierdliwe. Do tej grupy zaliczyłabym Amazona (AWS), Microsoft (Bing) oraz Google.

Jak żyć? Naprzeciw tłumaczom w potrzebie wychodzi dokumentacja, jaką opracował Marcin Basiak w ramach projektu na studiach podyplomowych z komunikacji technicznej (Akademia Vistula). Polecam uwadze rozdział How to obtain API keys for MT plugins. Autor planuje aktualizacje treści, rozszerzenie o innych dostawców MT oraz zmiany strony formalnej dokumentu 🙂

Porównanie MT dostępnych przez API (i wtyczki)

Bardzo przystępne porównanie MT dostępnych przez API (w tym wtyczki do CAT-ów), stan na 19 marca 2021, opublikowała firma ModelFront. Czytelne zestawienie dostępnych języków, możliwości dostosowania MT do własnej dziedziny, cen i ochrony danych. W kolumnie “Context” wieje pustką 🙂

Z publikacji dowiemy się też o aktualnie dostępnych darmowych silnikach NMT “do samodzielnego złożenia”, a oprócz tego – jakie języki zostały niedawno dodane. DeepL na przykład włączył dosłownie przed momentem język czeski (i parę innych języków Europy Środkowej, tak że polski przestał być uprzywilejowany), a Microsoft obsługuje m.in. język tigrinia.

Zapytaj mentorkę

19 lutego 2021 miałam przyjemność wziąć udział w jednej z sesji mentoringu dla tłumaczy, jakie prowadzi Virginia Katsimpiri. Rozmawiałyśmy na następujące tematy:

  • jak zaczęłam pracę w tłumaczeniach i lokalizacji,
  • dlaczego tłumaczenia maszynowe i postedycja to istotna sprawa dla tłumaczy w roku 2021,
  • jak te usługi wyglądają od strony technicznej (w narzędziu CAT),
  • jak ocenić, czy cena za MT PE jest dobra (za pomocą kartki, ołówka i zegara!),
  • czego można używać oprócz Google Translate 🙂

Nagranie jest dostępne na YouTube.

Warsztaty z MT w nowej odsłonie

13 stycznia 2021 we współpracy z Localize.pl przygotowuję warsztaty z MT odświeżone o nowości z 2020. Nowe ćwiczenia w CAT-ach, praktyczne zastosowanie wybranych opracowań z EAMT2020, odpowiedzi na najczęściej zadawane pytania. Zapraszam również uczestników poprzednich edycji!

BP20 Workshop Week 2-6/11/2020

W ramach cyklu warsztatów BP20 Workshop Week będę miała przyjemność opowiedzieć, w jaki sposób tłumacz może ocenić jakość MT za pomocą raportów dostępnych w popularnych CAT-ach. Będzie też mowa o innych metodach “prognozowania jakości” MT (oraz dlaczego piszę to określenie w cudzysłowie).