intento

AI, MT, a czy ktoś to czyta…?

Jeśli tekst jest generowany przez AI, to po co MT? Lepiej od razu generować w x językach!

Webinar Intento The Enterprise Machine Translation Playbook 2022/2023 daje wgląd w zastosowanie MT przez duże międzynarodowe firmy, takie jak AstraZeneca, NetApp czy Nike. Najciekawszą częścią są perspektywy na najbliższą przyszłość, dotyczące zastosowania AI poza samym tłumaczeniem (bo np. do tworzenia lub poprawiania treści źródłowych) i poza działem tłumaczeń (również np. w HR czy marketingu).

A więc automatyzacja umożliwia:

  • Poprawianie tekstu źródłowego, np. wymuszanie struktury w dokumentacji (cel – lista kroków).
  • Parafrazowanie maszynowe jako sposób na bardziej jednoznaczne źródło dla MT!
  • A w sumie, skoro AI pisze, to może od razu w wielu językach???

…ale trzeba pamiętać również, że:

  • Tekst napisany/streszczony AI może być dobry dla wyszukiwarek, ale zły do czytania przez ludzi 🙁
  • Wyeliminowanie człowieka nie jest możliwe w krytycznych zastosowaniach (farmacja, medycyna).
  • Gładki tekst czyta się dobrze, ale co z sensem? Postedytor niezmiennie musi patrzeć na źródło (a redakcja tekstu wygenerowanego przez AI musi znać założenia merytoryczne).

Jeśli ktoś nie ma czasu na cały 2-godzinny webinar, to polecam obejrzeć 19-minutowy wstęp, w którym Konstantin Savenkov przedstawia “Ideas that worked in 2022 & Ideas that may work in 2023”, albo przeczytać jego streszczenie. Prywatnie przedkładam rzemieślniczo-słowiańską rzeczowość nad menedżersko-amerykańską płynność wypowiedzi…

MT do komunikacji wewnętrznej

Intento przedstawia model wykorzystania MT jako narzędzia do komunikacji wewnętrznej w firmach. Celem takiego rozwiązania jest ułatwienie globalizacji (co w tym przypadku oznacza swobodne zatrudnianie osób z całego świata), a jednocześnie poprawienie komunikacji między pracownikami i efektywności szkoleń, co wiąże się ze zmniejszeniem liczby błędów i wypadków przy pracy. Z praktyki firm międzynarodowych wynika, że profesjonalne przetłumaczenie 100% materiałów wewnętrznych nie jest możliwe (ani czasowo, ani finansowo) – zatem Intento proponuje wprowadzenie MT tam, gdzie do tej pory królował język firmy-matki (zwykle angielski).

Intento deklaruje łatwe integrowanie swego rozwiązania z systemami istniejącymi w firmie: z jednej strony – bazami wiedzy czy narzędziami do zarządzania (np. Salesforce, Jira…), z drugiej – systemami TMS i narzędziami CAT (XTM, Trados…).

Do oceny jakości tłumaczenia, a w efekcie – do wybierania materiałów, które należy przenieść z poziomu “MT” na poziom “tłumaczenie profesjonalne” – służą w tym modelu dwa czynniki: popularność tłumaczenia danego zasobu (jak często pracownicy sięgają np. po daną stronę w swoim języku) oraz liczba explicite zgłoszonych błędów tłumaczenia.

MT dla języka ukraińskiego

Zebrałam na szybko znane mi ogólnodostępne, bezpłatne silniki MT z językiem ukraińskim – do codziennej komunikacji, do szkoły, szpitala czy urzędu. Warto sprawdzać inne opcje niż Google Translate, zwłaszcza jeśli Google nie tłumaczy wystarczająco dobrze lub jeśli wymagana jest ochrona prywatności tłumaczonego tekstu.

W uzupełnianiu strony na bieżąco pomaga Anna Kotarska – dziękuję!!!

Narzędzia komercyjne ogólnodostępne (bezpłatne)

  • Aktualizacja 10 września 2022: w tym tygodniu DeepL dodał język ukraiński, na razie z niewielkimi tylko ograniczeniami w porównaniu np. z polskim. Zasady ochrony i niegromadzenia danych zgodnie z ogólną polityką DeepLa.
  • Google Translate – wszyscy znają i umieją używać. Uwaga: wersja bezpłatna (z przeglądarki) nie zapewnia ochrony tłumaczonych treści, a dane są przetwarzane i gromadzone na serwerze w USA.
  • Microsoft Bing – nieco mniej znany, ale też łatwo dostępny. Zastrzeżenie co do ochrony treści takie samo jak dla Google Translate.
  • ModernMT – ciekawa opcja alternatywna względem dla Google i Microsoftu, warta sprawdzenia tak ze względu na jakość, jak i ochronę prywatności tłumaczonego tekstu, który jest przetwarzany w obrębie UE, zgodnie z zasadami GDPR (RODO) i, według deklaracji firmy, nie jest gromadzony.
  • Tilde MT – druga opcja europejska, dodana w marcu 2022 w ramach pomocy dla ukraińskich uchodźców w Europie. Przetwarzanie tekstu na serwerach w UE, zgodnie z GDPR, deklaracja o niegromadzeniu.
  • Yandex Translator – ten serwis ma prawdopodobnie jeden z najlepszych na świecie korpusów języka ukraińskiego, ale nie wiadomo, jak długo będzie działał. Treści są przetwarzanie na serwerze w Rosji, co w przypadku dokumentów poufnych może nie być akceptowalne.

Narzędzia naukowo-badawcze (również bezpłatne)

  • Bergamot translator – projekt z grantu UE Horizon 2020; języka polskiego nie ma, jest m.in. niemiecki i angielski.
  • OPUS-MT – projekt Uniwersytetu w Helsinkach, ograniczenia językowe podobne do powyższych.
  • UFAL translator for Czech – Ukrainian – projekt Uniwersytetu Karola w Pradze, w przygotowaniu para z j. polskim.

Zbiór zasobów językowych do przetwarzania języka ukraińskiego można znaleźć na stronie Helsinki-NLP/UkrainianLT.

Narzędzia specjalne (też są bezpłatne)

  • Intento oferuje bezpłatny dostęp do narzędzia Translation Portal with Character Recognition dla uchodźców z Ukrainy (tłumaczenie tekstu, skanów i zdjęć). Narzędzie wymaga rejestracji na stronie https://inten.to i wysłania maila na adres support@inten.to z tematem UKRAINE. Zasady ochrony prywatności danych są zapewne dostępne po nawiązaniu kontaktu z Intento.
  • eTranslation – serwis językowy Komisji Europejskiej – dodał w marcu 2022 ukraiński do listy obsługiwanych języków. W eTranslation można tłumaczyć tekst z przeglądarki lub całe dokumenty. Tłumaczone treści podlegają ochronie i nie są gromadzone ani udostępniane. Narzędzie wymaga założenia bezpłatnego konta EU Login.

Jesienne raporty

Pojawiły się raporty Memsource i Intento o stanie oraz ofercie tłumaczeń maszynowych w drugiej połowie 2021. Dane do raportu Memsource pochodzą z projektów postedycyjnych wykonanych przez Memsource dla różnych klientów, natomiast dane Intento są oparte na korpusie TAUS (jako tekstach źródłowych i tłumaczeniach referencyjnych). To, co łączy oba te raporty, to metoda oceny MT: porównanie propozycji z maszyny z tłumaczeniem ludzkim (Intento zresztą bada kilka miar – BERT, COMET i PRISM). Podobne są również wnioski: najlepsze MT zależy od pary językowej i dziedziny zastosowania.

Do czego zatem mogą przydać się takie raporty?

  • Do wstępnego wybrania 3-4 silników, które przetestujemy na swoich treściach i pod konkretne zastosowanie (do postedycji lub do publikowania MT “na surowo”, jeśli zastosowanie na to pozwala).
  • Do znalezienia mniej znanych silników MT dla mniej popularnych par językowych lub dziedzin tłumaczenia.

Memsource o parze angielski-włoski:

There is however no “perfect” engine that would consistently translate better than its competitors for this language pair. If users wanted to ensure that they were always getting the optimal MT quality, they would have to use at least three separate engines.

Intento ogólnie o wynikach swego badania:

19 MT engines are among the statistically significant leaders for 7 industry sectors and 13 language pairs. 9 MT engines provide minimal coverage for all language pairs and industries, 1-4 per industry sector.

Obsługa tagów dla dowolnego MT

Intento reklamuje swoje rozwiązanie wspomagające tłumaczenie maszynowe treści, które nie są wolne od tagów. Rozwiązanie “Smart Tag Handling” jest zewnętrzne wględem silników MT – ma działać z dowolnym. Zostało przetestowane dla znaczników HTML (wyniki na załączonym wykresie) i dla tagów inline. Można by się tu więc spodziewać rozwiązania celowanego w lokalizację oprogramowania, tymczasem pierwszym rynkiem docelowym ma być maszynowe wspomaganie tłumaczenia napisów do filmów!

STH wygląda na warte sprawdzenia dla firm, które mają do tłumaczenia sporo mocno otagowanych treści i które borykają się z tym problemem, że silnik MT, który najlepiej radzi sobie z językiem i merytoryką, słabo obsługuje znaczniki.

“We are planning to evaluate ROI (cost and TAT decrease) for AVT with one of our customers, we’ll keep you posted 😊”

Prezentacja pochodzi z tegorocznej konferencji MT Summit 2020-2021.

ICU z maszyny

Intento jest tym graczem na rynku MT, który nie koncentruje się na budowaniu własnych silników, tylko na dostarczaniu narzędzi ułatwiających używanie MT różnich firm. Ostatnio zaproponowali rozwiązanie wspomagające tłumaczenie maszynowe stringów w notacji ICU, o których newsletter Intento wspomina w sposób lekko niepokojący:

Considering that professional translators will find themselves confused by the ICU format, this is a massive step towards raising the level of your MT past even the gold standard of human translation.

Niepokoi nie tyle sugestia, że MT może być lepsze od tłumacza, co implikacja, że teksty bardzo nieprzyjazne do tłumaczenia profesjonalnego mogą być zrobione przez maszynę równie dobrze, bo tłumacz i tak się w nich nie połapie…

Intento: “The pt was given abx”

Firma Intento oferuje nowe narzędzie poprawiające jakość MT: glosariusz skrótów podłączany przed wpuszczeniem tekstu do maszyny, który rozwija je, zanim tekst trafi do maszyny. Proponowane obszary zastosowania to m.in. sklepy internetowe i inne obszary obsługi klienta, a przede wszystkim – teksty medyczne: elektroniczny odpowiednik pisma lekarskiego 🙂