newsy

AI: skąd bierze, dokąd publikuje

Podczas gdy rozważania o roli generatywnego AI w dziejach świata wahają się od zachwytów po wieszczenie katastrofy (a gdzieś pośrodku jest postawa “meh, mielenie nudy”) – warto przyjrzeć się dwóm zagadnieniom:

  • skąd brane są treści, na których trenowany jest dany model językowy – np. czy zawsze możemy licencjonować tekst, kod lub obraz, który AI dla nas wygenerowało?
  • jak rozpoznać treści, które powstały przy użyciu generatywnego AI – np. kiedy jako konsument mamy gwarancję, że poprawność danego materiału została zweryfikowana przez człowieka?

Dwa podejścia do tych zagadnień proponują:

AI, MT, a czy ktoś to czyta…?

Jeśli tekst jest generowany przez AI, to po co MT? Lepiej od razu generować w x językach!

Webinar Intento The Enterprise Machine Translation Playbook 2022/2023 daje wgląd w zastosowanie MT przez duże międzynarodowe firmy, takie jak AstraZeneca, NetApp czy Nike. Najciekawszą częścią są perspektywy na najbliższą przyszłość, dotyczące zastosowania AI poza samym tłumaczeniem (bo np. do tworzenia lub poprawiania treści źródłowych) i poza działem tłumaczeń (również np. w HR czy marketingu).

A więc automatyzacja umożliwia:

  • Poprawianie tekstu źródłowego, np. wymuszanie struktury w dokumentacji (cel – lista kroków).
  • Parafrazowanie maszynowe jako sposób na bardziej jednoznaczne źródło dla MT!
  • A w sumie, skoro AI pisze, to może od razu w wielu językach???

…ale trzeba pamiętać również, że:

  • Tekst napisany/streszczony AI może być dobry dla wyszukiwarek, ale zły do czytania przez ludzi 🙁
  • Wyeliminowanie człowieka nie jest możliwe w krytycznych zastosowaniach (farmacja, medycyna).
  • Gładki tekst czyta się dobrze, ale co z sensem? Postedytor niezmiennie musi patrzeć na źródło (a redakcja tekstu wygenerowanego przez AI musi znać założenia merytoryczne).

Jeśli ktoś nie ma czasu na cały 2-godzinny webinar, to polecam obejrzeć 19-minutowy wstęp, w którym Konstantin Savenkov przedstawia “Ideas that worked in 2022 & Ideas that may work in 2023”, albo przeczytać jego streszczenie. Prywatnie przedkładam rzemieślniczo-słowiańską rzeczowość nad menedżersko-amerykańską płynność wypowiedzi…

MT do komunikacji wewnętrznej

Intento przedstawia model wykorzystania MT jako narzędzia do komunikacji wewnętrznej w firmach. Celem takiego rozwiązania jest ułatwienie globalizacji (co w tym przypadku oznacza swobodne zatrudnianie osób z całego świata), a jednocześnie poprawienie komunikacji między pracownikami i efektywności szkoleń, co wiąże się ze zmniejszeniem liczby błędów i wypadków przy pracy. Z praktyki firm międzynarodowych wynika, że profesjonalne przetłumaczenie 100% materiałów wewnętrznych nie jest możliwe (ani czasowo, ani finansowo) – zatem Intento proponuje wprowadzenie MT tam, gdzie do tej pory królował język firmy-matki (zwykle angielski).

Intento deklaruje łatwe integrowanie swego rozwiązania z systemami istniejącymi w firmie: z jednej strony – bazami wiedzy czy narzędziami do zarządzania (np. Salesforce, Jira…), z drugiej – systemami TMS i narzędziami CAT (XTM, Trados…).

Do oceny jakości tłumaczenia, a w efekcie – do wybierania materiałów, które należy przenieść z poziomu “MT” na poziom “tłumaczenie profesjonalne” – służą w tym modelu dwa czynniki: popularność tłumaczenia danego zasobu (jak często pracownicy sięgają np. po daną stronę w swoim języku) oraz liczba explicite zgłoszonych błędów tłumaczenia.

Raport Intento 2022

Normally, we run multiple evaluations for our clients using various language pairs and domains, and observe different MT system rankings than those provided in this report

Firma Intento opublikowała właśnie tegoroczny raport z rynku MT, prezentujący stan z lipca 2022. Raport jest do pobrania bezpłatnie i przedstawia porównanie 31 silników dla 11 par językowych (polski się nie załapał, jest za to ukraiński) oraz 9 dziedzin, a do tego sporo informacji o trendach rynkowych (silniki tematyczne, pamięci/glosariusze, obsługa rzadszych języków). Można przy okazji poznać nieco metodologii – próbki tekstu liczą po 500 segmentów, a miarą automatyczną najlepiej skorelowaną z oceną człowieka okazuje się COMET. W przygotowaniu zasobów brała tym razem udział firma e2f.

Jeśli szukamy najlepszego silnika bez ustalonej dziedziny (tematyki) lub dla wielu różnych dziedzin, co bywa normalną praktyką np. w biurach tłumaczeń, to wyniki przedstawia załączony obrazek (DeepL i Google wygrywają). Jeśli działamy w konkretnej dziedzinie (takiej jak tłumaczenia prawne, medyczne lub literackie), to trzeba zagłębić się w raport nieco mocniej – biorąc również pod uwagę zastrzeżenie autorów raportu, że optymalne MT dla danego rodzaju tekstu i pary językowej może być jeszcze inne, niż wynika z raportu! Warto np. zauważyć, że cały raport opiera się na tłumaczeniu tekstu bez znaczników – jeśli mamy “na warsztacie” materiał, gdzie znaczniki są koniecznością (np. przy lokalizacji oprogramowania czy stron internetowych), to trzeba sprawdzić, jak dane MT sobie z nimi radzi.

Co nowego u DeepLa

DeepL pozostaje jednym z najbardziej lubianych silników MT w parach z językiem polskim. Dlaczego i czy zawsze – tym zajmiemy się innym razem; dziś krótki przegląd nowości i rzeczy, na które warto zwrócić uwagę.

  1. Funkcja dodawania własnego glosariusza objęła niedawno język polski. Tłumacze, którzy ją już testują, donoszą, że DeepL nienajgorzej radzi sobie z przypadkami, rodzajami i liczbami.
  2. DeepL z przeglądarki – tłumacząc fragmenty tekstu lub całe dokumenty – ewidentnie próbuje rozpoznawać kontekst: może nie w zakresie całego tekstu, ale akapitu lub kilku sąsiadujących zdań. Funkcja ta nie zadziała, póki co, poprzez API – czyli na przykład z narzędzia CAT, gdzie tekst tłumaczony jest segment po segmencie i maszyna nie ma szansy “zobaczyć” go szerzej. Niektórzy eksperymentują z segmentacją akapitami lub też z wysyłaniem do MT kilku segmentów naraz z pominięciem wtyczki.
  3. Skoro jesteśmy przy kontekście: DeepL, tak jak każdy inny silnik (oraz tłumacze profesjonalni), nie zdziała cudu przy bardzo krótkich segmentach, które mogą mieć wiele znaczeń. Jeśli tłumaczymy z przeglądarki i możemy zmieniać tekst źródłowy, to warto dodać kontekst, który ujednoznaczni tekst źródłowy. I tak na przykład “March” tłumaczony na angielski to “Marzec”, ale już “Long March” to “Długi Marsz”, a dla “March on” DeepL podaje tłumaczenia alternatywne i z marcem, i z marszem.
  4. Jeśli mamy tłumaczyć na język inny niż polski czy angielski, na przykład na czeski, a angielskim władamy dość dobrze, to tłumaczmy raczej z angielskiego na czeski niż z polskiego na czeski. Owszem, czeski i polski mają wiele wspólnego – niestety najprawdopodobniej DeepL będzie tłumaczyć polski > angielski > czeski, a to oznacza możliwość przekłamań na obu etapach. Wpisując oryginał w miarę poprawnie po angielsku, eliminujemy przynajmniej etap pierwszy.

DeepL ma turecki

Lista języków obsługiwanych przez DeepL wydłuża się powoli, ale konsekwentnie; ostatnio dodali turecki, a z mniej oczywistych – indonezyjski. Czekamy na ukraiński!

eTranslation w memoQ

Dawno temu, w odległej galaktyce… a konkretnie – w październiku 2020, po unijnej konferencji dotyczącej eTranslation (“Tools and services for multilingual Europe”), Anna Kotarska namówiła mnie do zapytania producentów dwóch popularnych CAT-ów o wtyczki umożliwiające korzystanie z eTranslation w tych narzędziach.

Wiosną 2022 w memoQ 9.10 pojawiła się nowa wtyczka do tłumaczeń maszynowych, umożliwiająca korzystanie z unijnego systemu eTranslation – dostępnego bezpłatnie dla sektora publicznego, placówek naukowych oraz małych i średnich firm, do których zaliczają się tłumacze freelancerzy. Narzędzie wymaga zalogowania się przez EU Login, takie samo, przez jakie wchodzi się do eTranslation z przeglądarki.

Wtyczka została dodana już kilka tygodni temu, ale z początku nie działała poprawnie – proszę się nie zniechęcać, jeśli przy pierwszej próbie “nie zaskoczy” lub będzie generować tłumaczenia z opóźnieniem 🙂

Pierwsze wrażenia z tłumaczenia w parze angielski > polski? Silnik eTranslation nieźle sprawdza się przy tekście formalnym, na przykład takim jak poniższy. Warto rozważyć jego użycie dla wszelkich pism urzędowych, oficjalnych informacji dla mediów, aktów prawnych itp.

Gorzej wypada tekst marketinowy, ale przyznam, że z nim nie radzi sobie zbyt dobrze ani DeepL, ani ModernMT:

Tekst techniczy również wypada średnio, a co gorsza – obsługa znaczników (inline tags) jest jeszcze do poprawienia: eTranslation nawet nie próbuje wstawić ich we właściwe miejsca, co potrafi zrobić wiele innych silników dostępnych z CAT-a – DeepL, ModernMT czy (zazwyczaj) Amazon:

A co się stało z prośbą o wtyczkę do drugiego CAT-a? Obawiam się, że utknęła na etapie sprawdzania “ale o co chodzi?” 🙁

MT dla języka ukraińskiego

Zebrałam na szybko znane mi ogólnodostępne, bezpłatne silniki MT z językiem ukraińskim – do codziennej komunikacji, do szkoły, szpitala czy urzędu. Warto sprawdzać inne opcje niż Google Translate, zwłaszcza jeśli Google nie tłumaczy wystarczająco dobrze lub jeśli wymagana jest ochrona prywatności tłumaczonego tekstu.

W uzupełnianiu strony na bieżąco pomaga Anna Kotarska – dziękuję!!!

Narzędzia komercyjne ogólnodostępne (bezpłatne)

  • Aktualizacja 10 września 2022: w tym tygodniu DeepL dodał język ukraiński, na razie z niewielkimi tylko ograniczeniami w porównaniu np. z polskim. Zasady ochrony i niegromadzenia danych zgodnie z ogólną polityką DeepLa.
  • Google Translate – wszyscy znają i umieją używać. Uwaga: wersja bezpłatna (z przeglądarki) nie zapewnia ochrony tłumaczonych treści, a dane są przetwarzane i gromadzone na serwerze w USA.
  • Microsoft Bing – nieco mniej znany, ale też łatwo dostępny. Zastrzeżenie co do ochrony treści takie samo jak dla Google Translate.
  • ModernMT – ciekawa opcja alternatywna względem dla Google i Microsoftu, warta sprawdzenia tak ze względu na jakość, jak i ochronę prywatności tłumaczonego tekstu, który jest przetwarzany w obrębie UE, zgodnie z zasadami GDPR (RODO) i, według deklaracji firmy, nie jest gromadzony.
  • Tilde MT – druga opcja europejska, dodana w marcu 2022 w ramach pomocy dla ukraińskich uchodźców w Europie. Przetwarzanie tekstu na serwerach w UE, zgodnie z GDPR, deklaracja o niegromadzeniu.
  • Yandex Translator – ten serwis ma prawdopodobnie jeden z najlepszych na świecie korpusów języka ukraińskiego, ale nie wiadomo, jak długo będzie działał. Treści są przetwarzanie na serwerze w Rosji, co w przypadku dokumentów poufnych może nie być akceptowalne.

Narzędzia naukowo-badawcze (również bezpłatne)

  • Bergamot translator – projekt z grantu UE Horizon 2020; języka polskiego nie ma, jest m.in. niemiecki i angielski.
  • OPUS-MT – projekt Uniwersytetu w Helsinkach, ograniczenia językowe podobne do powyższych.
  • UFAL translator for Czech – Ukrainian – projekt Uniwersytetu Karola w Pradze, w przygotowaniu para z j. polskim.

Zbiór zasobów językowych do przetwarzania języka ukraińskiego można znaleźć na stronie Helsinki-NLP/UkrainianLT.

Narzędzia specjalne (też są bezpłatne)

  • Intento oferuje bezpłatny dostęp do narzędzia Translation Portal with Character Recognition dla uchodźców z Ukrainy (tłumaczenie tekstu, skanów i zdjęć). Narzędzie wymaga rejestracji na stronie https://inten.to i wysłania maila na adres support@inten.to z tematem UKRAINE. Zasady ochrony prywatności danych są zapewne dostępne po nawiązaniu kontaktu z Intento.
  • eTranslation – serwis językowy Komisji Europejskiej – dodał w marcu 2022 ukraiński do listy obsługiwanych języków. W eTranslation można tłumaczyć tekst z przeglądarki lub całe dokumenty. Tłumaczone treści podlegają ochronie i nie są gromadzone ani udostępniane. Narzędzie wymaga założenia bezpłatnego konta EU Login.

Jesienne raporty

Pojawiły się raporty Memsource i Intento o stanie oraz ofercie tłumaczeń maszynowych w drugiej połowie 2021. Dane do raportu Memsource pochodzą z projektów postedycyjnych wykonanych przez Memsource dla różnych klientów, natomiast dane Intento są oparte na korpusie TAUS (jako tekstach źródłowych i tłumaczeniach referencyjnych). To, co łączy oba te raporty, to metoda oceny MT: porównanie propozycji z maszyny z tłumaczeniem ludzkim (Intento zresztą bada kilka miar – BERT, COMET i PRISM). Podobne są również wnioski: najlepsze MT zależy od pary językowej i dziedziny zastosowania.

Do czego zatem mogą przydać się takie raporty?

  • Do wstępnego wybrania 3-4 silników, które przetestujemy na swoich treściach i pod konkretne zastosowanie (do postedycji lub do publikowania MT “na surowo”, jeśli zastosowanie na to pozwala).
  • Do znalezienia mniej znanych silników MT dla mniej popularnych par językowych lub dziedzin tłumaczenia.

Memsource o parze angielski-włoski:

There is however no “perfect” engine that would consistently translate better than its competitors for this language pair. If users wanted to ensure that they were always getting the optimal MT quality, they would have to use at least three separate engines.

Intento ogólnie o wynikach swego badania:

19 MT engines are among the statistically significant leaders for 7 industry sectors and 13 language pairs. 9 MT engines provide minimal coverage for all language pairs and industries, 1-4 per industry sector.

Obsługa tagów dla dowolnego MT

Intento reklamuje swoje rozwiązanie wspomagające tłumaczenie maszynowe treści, które nie są wolne od tagów. Rozwiązanie “Smart Tag Handling” jest zewnętrzne wględem silników MT – ma działać z dowolnym. Zostało przetestowane dla znaczników HTML (wyniki na załączonym wykresie) i dla tagów inline. Można by się tu więc spodziewać rozwiązania celowanego w lokalizację oprogramowania, tymczasem pierwszym rynkiem docelowym ma być maszynowe wspomaganie tłumaczenia napisów do filmów!

STH wygląda na warte sprawdzenia dla firm, które mają do tłumaczenia sporo mocno otagowanych treści i które borykają się z tym problemem, że silnik MT, który najlepiej radzi sobie z językiem i merytoryką, słabo obsługuje znaczniki.

“We are planning to evaluate ROI (cost and TAT decrease) for AVT with one of our customers, we’ll keep you posted 😊”

Prezentacja pochodzi z tegorocznej konferencji MT Summit 2020-2021.