Jeśli tekst jest generowany przez AI, to po co MT? Lepiej od razu generować w x językach!
Webinar Intento The Enterprise Machine Translation Playbook 2022/2023 daje wgląd w zastosowanie MT przez duże międzynarodowe firmy, takie jak AstraZeneca, NetApp czy Nike. Najciekawszą częścią są perspektywy na najbliższą przyszłość, dotyczące zastosowania AI poza samym tłumaczeniem (bo np. do tworzenia lub poprawiania treści źródłowych) i poza działem tłumaczeń (również np. w HR czy marketingu).
A więc automatyzacja umożliwia:
Poprawianie tekstu źródłowego, np. wymuszanie struktury w dokumentacji (cel – lista kroków).
Parafrazowanie maszynowe jako sposób na bardziej jednoznaczne źródło dla MT!
A w sumie, skoro AI pisze, to może od razu w wielu językach???
…ale trzeba pamiętać również, że:
Tekst napisany/streszczony AI może być dobry dla wyszukiwarek, ale zły do czytania przez ludzi 🙁
Wyeliminowanie człowieka nie jest możliwe w krytycznych zastosowaniach (farmacja, medycyna).
Gładki tekst czyta się dobrze, ale co z sensem? Postedytor niezmiennie musi patrzeć na źródło (a redakcja tekstu wygenerowanego przez AI musi znać założenia merytoryczne).
Jeśli ktoś nie ma czasu na cały 2-godzinny webinar, to polecam obejrzeć 19-minutowy wstęp, w którym Konstantin Savenkov przedstawia “Ideas that worked in 2022 & Ideas that may work in 2023”, albo przeczytać jego streszczenie. Prywatnie przedkładam rzemieślniczo-słowiańską rzeczowość nad menedżersko-amerykańską płynność wypowiedzi…
Intento przedstawia model wykorzystania MT jako narzędzia do komunikacji wewnętrznej w firmach. Celem takiego rozwiązania jest ułatwienie globalizacji (co w tym przypadku oznacza swobodne zatrudnianie osób z całego świata), a jednocześnie poprawienie komunikacji między pracownikami i efektywności szkoleń, co wiąże się ze zmniejszeniem liczby błędów i wypadków przy pracy. Z praktyki firm międzynarodowych wynika, że profesjonalne przetłumaczenie 100% materiałów wewnętrznych nie jest możliwe (ani czasowo, ani finansowo) – zatem Intento proponuje wprowadzenie MT tam, gdzie do tej pory królował język firmy-matki (zwykle angielski).
Intento deklaruje łatwe integrowanie swego rozwiązania z systemami istniejącymi w firmie: z jednej strony – bazami wiedzy czy narzędziami do zarządzania (np. Salesforce, Jira…), z drugiej – systemami TMS i narzędziami CAT (XTM, Trados…).
Do oceny jakości tłumaczenia, a w efekcie – do wybierania materiałów, które należy przenieść z poziomu “MT” na poziom “tłumaczenie profesjonalne” – służą w tym modelu dwa czynniki: popularność tłumaczenia danego zasobu (jak często pracownicy sięgają np. po daną stronę w swoim języku) oraz liczba explicite zgłoszonych błędów tłumaczenia.
W szóstym odcinku podcastu “Porozmawiajmy o tłumaczeniach“, jaki prowadzi Wojciech Wołoszyk (prawnik-lingwista, prezes IURIDICO), gościem był dr Damian Flisak, radca prawny, tłumacz przysięgły języka niemieckiego, specjalista prawa najnowszych technologii. Panowie omówili kilka zagadnień bardzo istotnych przy pracy z MT oraz przy wykonywaniu postedycji:
Surowe tłumaczenie maszynowe nie stanowi oryginalnego utworu i nie podlega prawu autorskiemu…
…ale po postedycji – o ile nie ma ona charakteru kosmetycznego – staje się utworem tłumacza w takim samym znaczeniu, jak tłumaczenie wykonane przy pomocy innych narzędzi (np. edytora czy narzędzia CAT).
Ochrona własności intelektualnej, danych osobowych itd. w przypadku tłumaczenia maszynowego zależy od tego, co jest zapisane w warunkach korzystania z usług danego dostawcy MT i dla danego sposobu korzystania z tych usług (wersja ogólnodostępna vs. wersja spersonalizowana – często płatna). W skrócie: czytać umowę, co powtarzam na warsztatach z MT do znudzenia i jeszcze trochę!
Kwestia używania MT przez tłumaczy powinna być uregulowana w ich umowie z klientem. Jeśli natomiast takiego uregulowania nie ma, to – przy zachowaniu powyższych zasad ochrony treści – nie można przyjąć a priori, że tłumaczom z MT korzystać nie wolno, o ile finalne tłumaczenie jest jakościowo zgodne z oczekiwaniami klienta.
Inne, niemaszynowe zagadnienia poruszone w rozmowie to m.in.:
Czy tłumaczenie menu w barze mlecznym jest utworem?
Tłumacze na okładki!!!
Do kogo należy pamięć tłumaczeń i czy dwa takie same teksty można przetłumaczyć tak samo 🙂
W Lingua Legis 29(2021) ukazał się artykuł prof. Łucji Biel porządkujący zagadnienia i procesy z dziedziny MT oraz postedycji. Artykuł z całego serca polecam i z przyjemnością włączę go do materiałów referencyjnych na warsztatach z MT, bo jest w nim niemal wszystko, co wiedzieć należy, zebrane w jednym miejscu i z odsyłaczami do źródeł – w większości nie starszych niż 5 lat, co w MT oznacza “z naszej ery” 🙂
Co szczególnie pozytywnie zwróciło moją uwagę:
Słuszne wskazanie, że wpływ technologii na tłumaczy (i tłumaczenie) nie zaczął się od MT – swoje zrobiły już CAT-y, prowokując do skupiania się raczej na zdaniach niż akapitach.
Staranne rozgraniczenie między typami tłumaczenia zależnie od stopnia automatyzacji i z odniesieniem do norm ISO (ciekawostka: PKN nie planuje wdrożyć ISO-18587).
Stwierdzenie faktu, że tłumaczenia profesjonalne to obecnie niewielki procent wszytkich tłumaczeń – wolumen surowego MT jest znacznie, znacznie większy niż tłumaczeń profesjonalnych, czy to wspomaganych maszynowo, czy nie.
Rzetelna analiza jasnych i ciemnych stron postedycji dla tłumacza profesjonalnego, dobry opis procesu postedycji.
Bezcenne wprost wzmiankowanie preedycji, czyli prawidłowego przygotowania tekstu dla maszyny (krok tym ważniejszy, im więcej języków docelowych).
Czego zabrakło:
Żeby nie tworzyć legend “gender ex machina” – warto wyjaśnić, skąd bierze się językowa reprezentacja płci w tłumaczeniach maszynowych (z korpusu).
W rozważaniach etycznych – symetrycznie do nieuprawnionego użycia MT przez tłumaczy – trzeba wspomnieć o złej praktyce biur tłumaczeń, które kamuflują postedycję jako korektę. Postedycja wymaga od tłumacza większego wysiłku i nie można zlecać jej ani w terminie, ani w cenie korekty.
Oprócz cytatów z DeepL i eTranslation, a także wzmianek o silnikach Google oraz Yandex, przydadzą się odsyłacze do bardziej kompletnych źródeł wiedzy o dostępnych na rynku MT, np. do raportów Intento.
Artykuł wspomina o MT uczącym się z poprawek tłumacza, ale wspomina dość pobieżnie, w dwóch różnych miejscach i odwołując się do SDL Adaptive MT, które jest trochę jak Yeti. Warto wymienić raczej rozwiązania dostępne dla polskich tłumaczy, np. ModernMT czy Tilde.
Rozdział o rozliczeniach nie wspomina metody obliczania stawki za słowo przez skorelowanie jej z wydajnością pracy tłumaczy, które wydaje się jedynym uzasadnionym modelem obniżania cen względem tłumaczenia od zera. Metodę tę opisuje m.in. praca Acoladu przedstawiona na EAMT 2020.
Zagadka na koniec
Artykuł nie ustrzegł się przed pułapką, którą można spotkać w wielu innych opracowaniach dotyczących PE i która otwiera mroczny aspekt rynku postedycji (a czasem w ogóle podważa sens oferowania tej usługi):
W rozdziale “Rozliczanie postedycji” czytamy:
Dla lekkiej postedycji przyjmuje się normę rzędu 800-1400 słów (ok. 3,5-6 stron rozliczeniowych) na godzinę, dla pełnej postedycji od 500 do 1000 słów (ok. 2-4,5 strony) na godzinę. Są to więc normy co najmniej dwukrotnie wyższe niż dla tłumaczenia, choć szybkość postedycji oczywiście zależy od wielu czynników — jakości tłumaczenia maszynowego, typu tekstu czy stopnia jego złożoności językowej i tematycznej.
Ale przecież w rozdziale “Zalety postedycji dla tłumaczy” stwierdzono:
Jednak należy podkreślić, że badania przynoszą bardzo różne i niekiedy sprzeczne wyniki dotyczące zwiększenia wydajności i szybkości tłumaczenia, gdyż zależy to od jakości surowego tłumaczenia maszynowego. Co do zasady, wzrost jest dość skromny — zazwyczaj na poziomie kilku lub kilkunastu procent.
Stawki za postedycję zazwyczaj wynoszą od 50% do 90% stawek za tłumaczenie, przy czym dolna granica dotyczy lekkiej postedycji, górna — pełnej postedycji.
Więc jak jest w rzeczywistości? Czy postedycja przyspiesza nas o 5, 15, czy 50 procent i czy przekłada się to rzetelnie na stawki za słowo w tej usłudze? Odpowiedź pozostawiam domyślności Czytelników…
Z serwisu eTranslation mogą korzystać europejskie administracje publiczne, władze lokalne i regionalne, małe i średnie przedsiębiorstwa, tłumacze zewnętrzni instytucji UE, uczelnie, organizacje pozarządowe, a także podmioty wdrażające projekty w ramach programu „Cyfrowa Europa”.
Informacja pochodzi ze strony eTranslation
Jak pisałam wcześniej, w memoQ 9.10 pojawiła się wtyczka pozwalająca korzystać z unijnego MT – eTranslation – podczas gdy analogiczny pomysł w Tradosie utknął na etapie “Mojsze, co to są charty?”. Nie oznacza to jednak, że użytkownicy Tradosa nie mogą korzystać z eTranslation ani że muszą używać tego MT poza CAT-em!
Jak skorzystać z eTranslation w Tradosie:
Zaloguj się do eTranslation z przeglądarki – potrzebujesz bezpłatnego konta EU Login
Przejdź na kartę Translate documents
Wrzuć na stronę dokument do tłumaczenia
Wybierz, z jakiego języka i na jaki język ma być tłumaczenie
Rozwiń sekcję Advanced options
Wybierz dziedzinę (tematykę) lub pozostaw wartość domyślną General Text
Dla pola Output format wybierz wartość TMX (tags)
Zaznacz opcję E-mail me my translation, jeśli chcesz dostać wynik tłumaczenia mailem
Naciśnij przycisk Translate document
Wynikiem tłumaczenia będzie pamięć w formacie TMX, którą pobierasz ze strony lub dostajesz mailem. Pamięć tę możesz zaimportować do Tradosa (proponuję nazwać eTranslation Cośtam) i podłączyć jako kolejną pamięć w projekcie, jaki tłumaczysz.
Dzięki temu, że eTranslation poprawnie oznacza segmenty w pamięci TMX jako przetłumaczone maszynowo, Trados podpowiada je z oznaczeniem AT (“automatic translation”), po czym można odróżnić je od segmentów ze zwykłej pamięci.
Bonus:
Z tego samego mechanizmu można skorzystać w memoQ, jeśli wtyczka działa leniwie i niechętnie (co czasem jej się zdarza), a tłumaczenie przez stronę hula. Nie wiem jeszcze tylko, jak skłonić memoQ do pokazywania segmentów z tego TMX-a jako maszynowe 🙂
You understand the machine translation is not perfect. The dirty little secret is that you understand that human translation is not perfect.
Dyskusja panelowa “Modern Enterprise Use Cases for Machine Translation”, zorganizowana przez Memsource z przedstawicielami Lengoo, ex-Microsoftu, Tripadvisora i Welocalize, przyniosła parę spotrzeżeń, które nie zawsze zostają wypowiedziane tak wyraźnie:
Jeśli powstanie treści nie kosztuje firmę wiele, to na tłumaczenie tych treści też niechętnie się wydaje – dlatego są pierwsze w kolejce do MT bez postedycji: komentarze z zewnątrz, dyskusje serwisowe, bazy wiedzy itd.
Przy MT bez PE ważniejsze od automatycznych miar jakości okazują się miary biznesowe – np. czy strona zlokalizowana ma więcej kliknięć / działań użytkowników niż strona w oryginale.
Przewidywanie jakości MT nadal raczkuje, ale nieustannie przewija się koncepcja: najpierw – przy postedycji – zmierzyć, które teksty źródłowe wymagają najwięcej poprawek; potem – MT bez PE – sprawdzać, czy nowy oryginał jest podobny do tekstów mocno poprawianych (> nie puszczać bez PE), czy mniej poprawianych (> można spróbować).
Firma Memsource zorganizowała 4-godzinne, bezpłatne szkolenie z efektywnego MTPE, stanowiące zarazem część projektu badawczego, jaki prowadzą Lucía Guerrero Romeo i Viveta Gene. Kilka aspektów szkolenia uznałabym za bardzo przydatne:
“Szkolenie stanowiskowe” uczestników – praktyczne ćwiczenia z postedycji MT w narzędziu CAT (Memsource).
Wskazanie technik i funkcji narzędzia CAT, które pomagają zwiększyć wydajność pracy postedytora; prawidłowe zastosowanie tych technik (np. odfiltrowanie i obrabianie oddzielnie segmentów z pamięci i segmentów z MT tylko wtedy, kiedy kontekst całego dokumentu nie jest istotny).
Przedstawienie typowych błędów MT, na które warto zwrócić uwagę.
Porównanie wydajności postedycji, wykonanej przez uczestników na próbkach, po “szkoleniu stanowiskowym”.
Dlaczego jednak uważam to szkolenie za nieco niepokojące?
Błędy krytyczne, gdzie MT zmienia sens tekstu, zostały wymienione po prostu jako jeden z typów błędów – gdzieś między nieuzgodnionym rodzajem a niepoprawną interpunkcją. Zabrakło wskazówek, jak te krytyczne błędy wychwytywać.
Za jedyne kryterium skuteczności “szkolenia stanowiskowego” – nota bene, spełnione – został uznany wzrost wydajności postedycji. Nie wiadomo, czy nie spadła przy tym jakość finalnego tłumaczenia.
Pięknie dziękuję niezawodnej Annie Kotarskiej za zwrócenie uwagi na nowy trend!
Arle Lommel z CSA Research wprowadza do gry nowe hasło: Responsive MT. Co to ma być? Ano takie MT, które wykrywa tematykę i dostosowuje się do niej (i to na poziomie segmentu), rozpoznaje kontekst (szeroko poza zakresem segmentu) i dostosowuje się do informacji zwrotnych od klienta (takich jak nowe pamięci treningowe czy poprawki z postedycji). O krawatach na razie ani słowa 🙂
Dlaczego piszę o tym z odrobiną ironii? Bo AD 2021 bariery w rozwoju NMT są znacznie częściej organizacyjne niż technologiczne: ochrona danych wrażliwych i własności intelektualnej (oraz inne, mniej racjonalne przesłanki) nie zachęcają tłumaczy, LSP czy korporacji do dostarczania maszynie danych innych niż niezbędne do wykonania surowego tłumaczenia. Tymczasem Responsive MT będzie wymagało udostępnienia swoich pamięci, informacji o projekcie i poprawek z postedycji. Ciekawa jestem rozwiązań formalnych, które pomogą przekroczyć te bariery.
Czego można spodziewać się po MT dotrenowanym pamięcią z dziedziny, w której pracujemy? A na ile MT może zaadaptować się do poprawek, jakie wprowadzamy poprawiając jego kolejne podpowiedzi?
Eksperyment z adaptującym się narzędziem do tłumaczenia maszynowego ModernMT został przeprowadzony przez Anonimową Tłumaczkę na platformie SDL Trados Studio 2017 w trzech fazach z wykorzystaniem tzw. tekstu „miękkiego” z obszaru nauk humanistycznych, w tłumaczeniu z języka polskiego na angielski:
Faza 0 (ok. 18 tys. znaków ze spacjami) – podpięty silnik ModernMT bez żadnych dodatkowych zasobów.
Faza 1 (ok. 22 tys. znaków ze spacjami) – podpięty silnik ModernMT z pamięcią bazującą na wcześniej przetłumaczonych tekstach dotyczących tej samej tematyki (ok. 500 tys. znaków ze spacjami), ustawioną do wykorzystania przez silnik MT, lecz bez aktualizacji.
Faza 2 (ok. 60 tys. znaków ze spacjami) – podpięty silnik ModernMT z tą samą pamięcią, ustawioną do wykorzystania oraz aktualizacji przez silnik MT.
Faza 1 – silnik MT korzysta z pamięci
\W fazie 1 w stosunku do fazy 0 nastąpiła odczuwalna poprawa w zakresie doboru słownictwa. Klient miał określone wymagania co do nazewnictwa – faza 0 wymagała ze strony Tłumaczki w większości przypadków ręcznego wprowadzania poprawek, natomiast w fazie 1 silnik ModernMT dobierał właściwe określenia w ok. połowie przypadków.
Przykład terminologiczny (Faza 1):
Słowem często używanym w źródle było słowo panna. W fazie 0 silnik ModernMT tłumaczył to słowo na różne sposoby, przykładowo jako virgin czy maid, co Tłumaczka wielokrotnie zmieniała na maiden. Po zastosowaniu pamięci, w której występowała wyłącznie forma maiden, silnik ModernMT przeszedł na wersję maiden.
Przykład stylistyczny (Faza 1):
Ze społecznego punktu widzenia sprawa nie była jednak tak prosta i oczywista, zważywszy na stosunkowo późny wiek zawierania małżeństw.
MT: From a social point of view, however, the issue was not so simple and obvious, given the relatively late age of entering into marriages.
W fazie 0 tłumaczenie maszynowe bardzo często używanego w tekście źródłowym wyrażenia zawrzeć małżeństwo brzmiało conclude a marriage, co Tłumaczka wielokrotnie zmieniała na enter into a marriage/enter into marriages. Po zastosowaniu pamięci, w której występowała wyłącznie forma enter into a marriage/enter into marriages, silnik ModernMT zaczął dość konsekwentnie (aczkolwiek mniej konsekwentnie niż w fazie 2) używać sformułowania z enter into.
Faza 2 – silnik MT korzysta z pamięci i z poprawek
Poprawa stała się jeszcze bardziej dostrzegalna w fazie 2 – terminologia była właściwie dobierana w ponad połowie przypadków, poza tym tłumaczenie maszynowe zaczęło naśladować styl Tłumaczki, co przejawiało się w używaniu charakterystycznych wyrażeń, które Tłumaczka wcześniej wprowadzała ręcznie.
Przykład terminologiczny (Faza 2):
Jednym z wyrazów używanych w źródle było słowo testator, początkowo tłumaczone przez ModernMT jako tester (poprawne tłumaczenie to również testator). Po kilku (ok. 10) poprawkach ręcznych silnik ModernMT przeszedł na wersję tetator, a następnie już na poprawne tłumaczenie testator.
Przykład stylistyczny (Faza 2):
Charakter bazy nie pozwala jednak jednoznacznie określić ich udziału…
MT: However, the nature of the database does not make it possible to clearly determine their share…
Poprzednie tłumaczenie maszynowe nie pozwala brzmiało: does not allow for, co było przez Tłumaczkę konsekwentnie zmieniane na does not make it possible to. W fazie 2 silnik ModernMT „podchwycił” sformułowanie does not make it possible to.
Tłumaczenie maszynowe wymagało stałego nadzoru, ponieważ można było zaobserwować ewidentne „spadki formy” i powrót do poprawianych przez Tłumaczkę wersji. Można jednak z dużą dozą pewności stwierdzić, że w fazie 2 liczba zastosowanych form poprawnych wśród obserwowanych sformułowań przeważała nad liczbą form niepoprawnych.
Tłumaczka nie odnotowała zauważalnego zwiększenia szybkości tłumaczenia w kolejnych fazach (prawdopodobnie ze względu na charakter tekstu szybkość tłumaczenia utrzymywała się na stałym poziomie 9 tys. znaków ze spacjami na godzinę), jednak szczególnie w fazie 2 dało się dostrzec zwiększoną „lekkość” tłumaczenia – praca nad nim stała się wyraźnie łatwiejsza.
Warto zwrócić uwagę, że stała szybkość tłumaczenia odnosi się do wcześniejszej pracy z nietrenowanym MT (ModernMT, wcześniej DeepL), a nie do pracy bez żadnych podpowiedzi z MT.
“For a little amount of money you can get everything translated (…) and then narrow down the quality requirements.”
Pod koniec maja 2021 jeden z webinarów MEMSOURCE był w zasadzie dyskusją panelową poświęconą wdrażaniu MT przez biura: jak wybierać MT do projektów, a projekty do MT; jak nauczyć się efektywnie postedytować; jak mierzyć opłacalność; jak mówić o MT z klientami, a jak z tłumaczami.
Obserwacje godne uwagi:
MT nie przyniesie oczekiwanych oszczędności przy mikroprojektach ani przy tekstach źródłowych z błędami;
regularny trening MT opłaca się tylko przy odpowiednio dużym wolumenie tłumaczeń;
powyżej pewnego progu odległości edycyjnej nie obserwuje się już większego wzrostu wydajności postedycji.
Obserwacje nieco kontrowersyjne:
“light post-editing” jest nadal zamawiane jako usługa eliminowania błędów krytycznych;
profesjonalny tłumacz nie będzie na siłę wprowadzać poprawek, nawet jeśli ma płacone wg odległości edycyjnej;
płatności godzinowe za postedycję są tak naprawdę przeliczonymi płatnościami według liczby słów.
Strona używa plików cookie. Zakładam, że Ci to nie przeszkadza, ale zawsze możesz zmienić ustawienia.OK
Prywatność i ciastka
Ogólne zasady ochrony prywatności
Ta strona wykorzystuje pliki cookie. Pliki cookie niezbędne do działania strony są przechowywane w przeglądarce użytkownika i konieczne, aby strona działała prawidłowo. Wykorzystujemy też pliki cookie stron trzecich, które pomagają nam analizować sposób, w jaki użytkownicy korzystają ze strony. Takie pliki cookie są zapisywane w przeglądarce użytkownika tyko za jego zgodą. Użytkownik może z nich zrezygnować, ale może to wpłynąć na funkcjonalność strony.
Pliki cookie, które nie są niezbędne do działania strony i służą do gromadzenia danych osobowych przez funkcje analityki lub inne osadzone treści. Użytkownik strony musi zgodzić się na ich stosowanie