narzędzia

Glosariusz DeepL w CAT-ach

DeepL: robi funkcję glosariusza do MT prostą jak irlandzka dzida bojowa
memoQ: robi obsługę glosariusza DeepL równie prostą, wczytujesz słowniczek z pliku CSV i jedziesz
RWS: robi obsługę glosariusza DeepL w Tradosie tak skomplikowaną, że wymaga dokumentacji, a i tak w pierwszej chwili trudno się w niej połapać, sądząc po reakcjach na forum (oraz wciąż ma parę bugów, które zgłosiłam w beta testach, ale nie powiem które to – niech każdy ma swój kawałek rozrywki 🙂

W każdym razie: glosariusz do DeepLa w Tradosie już jest, w podtłumaczaniu działa jak złoto, odmienia przez przypadki itd.

Uwaga 1: tylko do (od?) Tradosa 2022.
Uwaga 2: glosariusz na stronie DeepL i glosariusz do CAT-a to dwa różne glosariusze, tak to DeepL zorganizował. Można eksportować i importować, formatem wymiany jest podstawowy CSV.
Instalacja stąd: https://appstore.rws.com/Plugin/24
Dokumentacja tu: https://community.rws.com/…/deepl-translation-provider
A z burzliwą historią powstawania można się zapoznać (lub coś w niej od siebie pomarudzić) tutaj: https://community.rws.com/…/deepl-plugin…/159430

ISO ex machina

Ciekawe, czy uda się wdrożyć wróżenie jakości MT, które będzie dobrze skorelowane z faktyczną jakością MT ocenioną przez człowieka – czyli tekst postedytowany (zgodnie z wróżbą “tu trzeba”) i tekst niepostedytowany (zgodnie z wróżbą “nie trzeba”) będą nie do odróżnienia przez korektę/redakcję, zwłaszcza pod względem merytorycznym. Koncepcję objaśnia Adam Bittlingmayer, dyrektor firmy ModelFront zajmującej się – a jakże – wróżeniem jakości MT, w artykule dla tcworld.info:

“A quality prediction score should correlate with the decision of a professional human translator to edit or not edit a segment in a given translation workflow. (…) The most important question is whether humans can even tell the difference between the final output of the new process and the old process.

Przyznam, że chciałabym, żeby rozwój MTPE poszedł w kierunku “porządna postedycja za porządne stawki albo publikujemy surowe MT”, a nie w stronę dalszego obniżania stawek za PE i podnoszenia oczekiwanej wydajności postedycji, bo zbliżamy się chyba do granicy możliwości człowieka w zakresie przetwarzania informacji; dalej będzie już tylko pozorowanie sprawdzania, nieetycznie nie tylko z powodu przerzucania odpowiedzialności na tłumaczy, ale przede wszystkim ze względu na wprowadzanie konsumentów w błąd, że tłumaczenie jest zgodne merytorycznie z oryginałem i że ktoś za to odpowiada. A ponieważ postedytorami bywamy, a konsumentami jesteśmy – chciałabym jeszcze tylko przepisu, np. normy ISO, który wymusi oznaczanie wszelkich publikowanych tekstów jako “raw MT”, jeśli postedycji nie było, przy czym postedycja powinna być zdefiniowana jako pełna w rozumieniu normy ISO 18587 (“to obtain a product comparable to a product obtained by human translation”), a koncepcja “light PE” należy czym prędzej wyprowadzić za stodołę i zastrzelić.

Wróżenie jakości MT

Industry does not repeat, but it rhymes

Dobry, choć bez wątpienia lanserski wywiad na linii memoQ – ModelFront o prognozowaniu jakości MT, z którego można dowiedzieć się, jak to działa:

  • na podstawie danych z już wykonanych postedycji oblicza się % segmentów niezmienianych – jeśli jest wysoki, to warto przejść do następnego kroku;
  • na podstawie zmian wykonanych w postedycji trenowany jest silnik, który dla nowych segmentów maszynowych szacuje, czy trzeba je będzie poprawiać i jak bardzo;
  • dla każdego projektu i dodanego w nim MT będzie można przewidzieć, czy trzeba postedytować koniecznie i bezwarunkowo, czy też można postedycję odpuścić 🙂

Założeniem ModelFrontu jest wyeliminowanie żmudnej postedycji wszędzie tam, gdzie wnosi ona bardzo mało poprawek (a przy tym w zastosowaniach, gdzie nieuchronne przy tym podejściu, acz nieliczne błędy nie niosą ze sobą wielkiego ryzyka). Dla postedytorów mają pozostać zadania o wysokiej wartości dodanej.

Rozwiązanie ModelFrontu jest dostępne na razie dla kilku TMS-ów (w tym memoQ), ale firma planuje rozszerzanie tej listy.

…Ciekawe, czy takie narzędzia do wróżenia jakości MT będą używane zgodnie z założeniem, czy – niestety – do przycinania stawek za PE zgodnie z zasadą “wy udawajcie że sprawdzacie, my będziemy udawać że płacimy” 🙁

AI w narzędziach CAT?

A teraz szybko, zanim dotrze do nas, że to bez sensu!

Dwa popularne CAT-y reprezentują w tej chwili dwa różne podejścia do AI:

Trados dorobił się wtyczki OpenAI, która działa i konfiguruje się trochę inaczej niż znane już wtyczki MT. Jej niewątpliwą zaletą jest możliwość definiowania własnych zapytań (promptów), które pozwalają generować z ChatGPT tłumaczenia zwracające się do odbiorcy w liczbie pojedynczej, mnogiej albo neutralnie. Aby skorzystać z tej funkcji, trzeba mieć wykupiony dostęp do OpenAI i podać klucz API.

MemoQ wprowadził funkcję AIQE, czyli szacowanie jakości segmentów maszynowych (z dowolnej wtyczki MT) za pomocą dużego modelu językowego. Do wyboru jest TAUS albo ModelFront, do których również trzeba nabyć oddzielne klucze API.

Zaletą obu tych rozwiązań jest wprowadzenie najnowszych technologii językowych do CAT-ów. Wadą – ograniczenie przetwarzania do segmentu, czyli odcięcie jednej z największych zalet, jakie prezentują narzędzia AI oparte na dużych modelach językowych (LLM): potrafią one pracować na dokumencie jako całości, a w każdym razie na sporej jego części.

Ciekawe, kto z producentów CAT-ów pierwszy umożliwi pełniejsze wykorzystanie LLM do pracy na całym tekście, np. w takich zastosowaniach:

  • wychwycenie kluczowej terminologii z tekstu źródłowego;
  • sprawdzenie tekstu źródłowego i zaproponowanie poprawek (gramatyka, spójność, styl);
  • przeredagowanie tekstu wynikowego w zadanym kierunku (formalny/nieformalny, zdania krótkie/długie);
  • automatyczna kontrola jakości tłumaczenia według zadanych parametrów.

O części z tych zastosowań mówią praktycy z branży lokalizacyjnej na webinarze Intento “GPT in Localization“, wspominając też o możliwości generowania tekstu w wielu językach naraz – wszędzie tam, gdzie GPT potrafi wygenerować wystarczająco dobry tekst oryginalny (angielski), a surowe tłumaczenie maszynowe niekoniecznie spełnia wymagania jakościowe.

…Tyle że oczywiście nie da się ufać GPT w 100%, że czegoś nie nazmyśla 🙂

ChatGPT, hype GPT: zasoby

Translation exists when it is more convenient than creating the content from scratch – tak Marco Trombetti odniósł się do kwestii, czy ChatGPT zastąpi tłumaczy, w świetnym wstępie do minikonferencji online “ChatGPT in Localization”, zorganizowanej 1 marca 2023 przez Custom.MT. Artykułów i prelekcji o ChatGPT przybywa lawinowo; dla uporządkowania wiedzy i zastosowań praktycznych zbieram tu odsyłacze, które uważam za przydatne (w danym momencie, bo rzeczy dzieją się szybko!).

OpenAI

Strona OpenAI, gdzie zakłada się konto z dostępem do GPT-3.5 (starsze, szybsze, tańsze) lub GPT-4 (przeciwnie).

GPT w lokalizacji

Porównania tłumaczeń przez GPT z silnikami NMT:

How Does GenAI Compare on a Price Basis?

Different GenAI systems have different pricing models, but CSA Research has serious concerns about the viability and sustainability of current financial models. GenAI providers are currently running their systems at a financial loss in order to bring in customers and build demand that they expect to monetize in the future. Although precise per-word figures are difficult to determine, this strategy shows in our estimates of translation costs using ChatGPT and GPT4 at the published API prices: Chat GPT 3.5 Turbo’s pricing for translation is roughly 1/40 of the price of Google Translate, yet it consumes more energy. GPT-4 ranges from equal in price to about eight times as expensive as Google Translate, depending on the languages and model involved, but it also consumes far more energy. Unless OpenAI can massively improve system optimization – or overcome fundamental laws of physics – these prices will not be sustainable. LSPs or enterprises that build their content strategies on GenAI need to be aware that the financial models cannot last.

Wydarzenia “ChatGPT in Localization”, gdzie na bieżąco omawia się zastosowanie GPT w tłumaczeniach:

A.I. w tłumaczeniach na przykładzie ChatGPT: kurs dla tłumaczy, tłumaczek i biur tłumaczeń

Rozważania o perspektywach AI z grudnia 2022, ale wciąż aktualne 😉

ChatGPT w lokalizacji gier: stan na połowę marca 2023

Ostrożne podejście do GPT z perspektywy TAUS w kwietniu 2023

Inne zastosowania GPT

Chat GPT od zera: kompletny kurs dla początkujących – przykłady użycia AI do nauki i w biznesie

Lance Cummings przygotowuje szkolenie dla pisarek i pisarzy technicznych

Programistycznie

OpenAI GPT-4 API Quick Guide: wprowadzenie do API OpenAI

ChatGPT-translation.py: minimalny kod do tłumaczenia za pomocą ChatGPT

Co nowego u DeepLa

DeepL pozostaje jednym z najbardziej lubianych silników MT w parach z językiem polskim. Dlaczego i czy zawsze – tym zajmiemy się innym razem; dziś krótki przegląd nowości i rzeczy, na które warto zwrócić uwagę.

  1. Funkcja dodawania własnego glosariusza objęła niedawno język polski. Tłumacze, którzy ją już testują, donoszą, że DeepL nienajgorzej radzi sobie z przypadkami, rodzajami i liczbami.
  2. DeepL z przeglądarki – tłumacząc fragmenty tekstu lub całe dokumenty – ewidentnie próbuje rozpoznawać kontekst: może nie w zakresie całego tekstu, ale akapitu lub kilku sąsiadujących zdań. Funkcja ta nie zadziała, póki co, poprzez API – czyli na przykład z narzędzia CAT, gdzie tekst tłumaczony jest segment po segmencie i maszyna nie ma szansy “zobaczyć” go szerzej. Niektórzy eksperymentują z segmentacją akapitami lub też z wysyłaniem do MT kilku segmentów naraz z pominięciem wtyczki.
  3. Skoro jesteśmy przy kontekście: DeepL, tak jak każdy inny silnik (oraz tłumacze profesjonalni), nie zdziała cudu przy bardzo krótkich segmentach, które mogą mieć wiele znaczeń. Jeśli tłumaczymy z przeglądarki i możemy zmieniać tekst źródłowy, to warto dodać kontekst, który ujednoznaczni tekst źródłowy. I tak na przykład “March” tłumaczony na angielski to “Marzec”, ale już “Long March” to “Długi Marsz”, a dla “March on” DeepL podaje tłumaczenia alternatywne i z marcem, i z marszem.
  4. Jeśli mamy tłumaczyć na język inny niż polski czy angielski, na przykład na czeski, a angielskim władamy dość dobrze, to tłumaczmy raczej z angielskiego na czeski niż z polskiego na czeski. Owszem, czeski i polski mają wiele wspólnego – niestety najprawdopodobniej DeepL będzie tłumaczyć polski > angielski > czeski, a to oznacza możliwość przekłamań na obu etapach. Wpisując oryginał w miarę poprawnie po angielsku, eliminujemy przynajmniej etap pierwszy.

Jak się dobrać do eTranslation

Z serwisu eTranslation mogą korzystać europejskie administracje publiczne, władze lokalne i regionalne, małe i średnie przedsiębiorstwa, tłumacze zewnętrzni instytucji UE, uczelnie, organizacje pozarządowe, a także podmioty wdrażające projekty w ramach programu „Cyfrowa Europa”.

Informacja pochodzi ze strony eTranslation

Jak pisałam wcześniej, w memoQ 9.10 pojawiła się wtyczka pozwalająca korzystać z unijnego MT – eTranslation – podczas gdy analogiczny pomysł w Tradosie utknął na etapie “Mojsze, co to są charty?”. Nie oznacza to jednak, że użytkownicy Tradosa nie mogą korzystać z eTranslation ani że muszą używać tego MT poza CAT-em!

Jak skorzystać z eTranslation w Tradosie:

  1. Zaloguj się do eTranslation z przeglądarki – potrzebujesz bezpłatnego konta EU Login
  2. Przejdź na kartę Translate documents
  3. Wrzuć na stronę dokument do tłumaczenia
  4. Wybierz, z jakiego języka i na jaki język ma być tłumaczenie
  5. Rozwiń sekcję Advanced options
  6. Wybierz dziedzinę (tematykę) lub pozostaw wartość domyślną General Text
  7. Dla pola Output format wybierz wartość TMX (tags)
  8. Zaznacz opcję E-mail me my translation, jeśli chcesz dostać wynik tłumaczenia mailem
  9. Naciśnij przycisk Translate document

Wynikiem tłumaczenia będzie pamięć w formacie TMX, którą pobierasz ze strony lub dostajesz mailem. Pamięć tę możesz zaimportować do Tradosa (proponuję nazwać eTranslation Cośtam) i podłączyć jako kolejną pamięć w projekcie, jaki tłumaczysz.

Dzięki temu, że eTranslation poprawnie oznacza segmenty w pamięci TMX jako przetłumaczone maszynowo, Trados podpowiada je z oznaczeniem AT (“automatic translation”), po czym można odróżnić je od segmentów ze zwykłej pamięci.

Bonus:

Z tego samego mechanizmu można skorzystać w memoQ, jeśli wtyczka działa leniwie i niechętnie (co czasem jej się zdarza), a tłumaczenie przez stronę hula. Nie wiem jeszcze tylko, jak skłonić memoQ do pokazywania segmentów z tego TMX-a jako maszynowe 🙂

DeepL ma turecki

Lista języków obsługiwanych przez DeepL wydłuża się powoli, ale konsekwentnie; ostatnio dodali turecki, a z mniej oczywistych – indonezyjski. Czekamy na ukraiński!

eTranslation w memoQ

Dawno temu, w odległej galaktyce… a konkretnie – w październiku 2020, po unijnej konferencji dotyczącej eTranslation (“Tools and services for multilingual Europe”), Anna Kotarska namówiła mnie do zapytania producentów dwóch popularnych CAT-ów o wtyczki umożliwiające korzystanie z eTranslation w tych narzędziach.

Wiosną 2022 w memoQ 9.10 pojawiła się nowa wtyczka do tłumaczeń maszynowych, umożliwiająca korzystanie z unijnego systemu eTranslation – dostępnego bezpłatnie dla sektora publicznego, placówek naukowych oraz małych i średnich firm, do których zaliczają się tłumacze freelancerzy. Narzędzie wymaga zalogowania się przez EU Login, takie samo, przez jakie wchodzi się do eTranslation z przeglądarki.

Wtyczka została dodana już kilka tygodni temu, ale z początku nie działała poprawnie – proszę się nie zniechęcać, jeśli przy pierwszej próbie “nie zaskoczy” lub będzie generować tłumaczenia z opóźnieniem 🙂

Pierwsze wrażenia z tłumaczenia w parze angielski > polski? Silnik eTranslation nieźle sprawdza się przy tekście formalnym, na przykład takim jak poniższy. Warto rozważyć jego użycie dla wszelkich pism urzędowych, oficjalnych informacji dla mediów, aktów prawnych itp.

Gorzej wypada tekst marketinowy, ale przyznam, że z nim nie radzi sobie zbyt dobrze ani DeepL, ani ModernMT:

Tekst techniczy również wypada średnio, a co gorsza – obsługa znaczników (inline tags) jest jeszcze do poprawienia: eTranslation nawet nie próbuje wstawić ich we właściwe miejsca, co potrafi zrobić wiele innych silników dostępnych z CAT-a – DeepL, ModernMT czy (zazwyczaj) Amazon:

A co się stało z prośbą o wtyczkę do drugiego CAT-a? Obawiam się, że utknęła na etapie sprawdzania “ale o co chodzi?” 🙁

MT dla języka ukraińskiego

Zebrałam na szybko znane mi ogólnodostępne, bezpłatne silniki MT z językiem ukraińskim – do codziennej komunikacji, do szkoły, szpitala czy urzędu. Warto sprawdzać inne opcje niż Google Translate, zwłaszcza jeśli Google nie tłumaczy wystarczająco dobrze lub jeśli wymagana jest ochrona prywatności tłumaczonego tekstu.

W uzupełnianiu strony na bieżąco pomaga Anna Kotarska – dziękuję!!!

Narzędzia komercyjne ogólnodostępne (bezpłatne)

  • Aktualizacja 10 września 2022: w tym tygodniu DeepL dodał język ukraiński, na razie z niewielkimi tylko ograniczeniami w porównaniu np. z polskim. Zasady ochrony i niegromadzenia danych zgodnie z ogólną polityką DeepLa.
  • Google Translate – wszyscy znają i umieją używać. Uwaga: wersja bezpłatna (z przeglądarki) nie zapewnia ochrony tłumaczonych treści, a dane są przetwarzane i gromadzone na serwerze w USA.
  • Microsoft Bing – nieco mniej znany, ale też łatwo dostępny. Zastrzeżenie co do ochrony treści takie samo jak dla Google Translate.
  • ModernMT – ciekawa opcja alternatywna względem dla Google i Microsoftu, warta sprawdzenia tak ze względu na jakość, jak i ochronę prywatności tłumaczonego tekstu, który jest przetwarzany w obrębie UE, zgodnie z zasadami GDPR (RODO) i, według deklaracji firmy, nie jest gromadzony.
  • Tilde MT – druga opcja europejska, dodana w marcu 2022 w ramach pomocy dla ukraińskich uchodźców w Europie. Przetwarzanie tekstu na serwerach w UE, zgodnie z GDPR, deklaracja o niegromadzeniu.
  • Yandex Translator – ten serwis ma prawdopodobnie jeden z najlepszych na świecie korpusów języka ukraińskiego, ale nie wiadomo, jak długo będzie działał. Treści są przetwarzanie na serwerze w Rosji, co w przypadku dokumentów poufnych może nie być akceptowalne.

Narzędzia naukowo-badawcze (również bezpłatne)

  • Bergamot translator – projekt z grantu UE Horizon 2020; języka polskiego nie ma, jest m.in. niemiecki i angielski.
  • OPUS-MT – projekt Uniwersytetu w Helsinkach, ograniczenia językowe podobne do powyższych.
  • UFAL translator for Czech – Ukrainian – projekt Uniwersytetu Karola w Pradze, w przygotowaniu para z j. polskim.

Zbiór zasobów językowych do przetwarzania języka ukraińskiego można znaleźć na stronie Helsinki-NLP/UkrainianLT.

Narzędzia specjalne (też są bezpłatne)

  • Intento oferuje bezpłatny dostęp do narzędzia Translation Portal with Character Recognition dla uchodźców z Ukrainy (tłumaczenie tekstu, skanów i zdjęć). Narzędzie wymaga rejestracji na stronie https://inten.to i wysłania maila na adres support@inten.to z tematem UKRAINE. Zasady ochrony prywatności danych są zapewne dostępne po nawiązaniu kontaktu z Intento.
  • eTranslation – serwis językowy Komisji Europejskiej – dodał w marcu 2022 ukraiński do listy obsługiwanych języków. W eTranslation można tłumaczyć tekst z przeglądarki lub całe dokumenty. Tłumaczone treści podlegają ochronie i nie są gromadzone ani udostępniane. Narzędzie wymaga założenia bezpłatnego konta EU Login.