deepl

Glosariusz DeepL w CAT-ach

DeepL: robi funkcję glosariusza do MT prostą jak irlandzka dzida bojowa
memoQ: robi obsługę glosariusza DeepL równie prostą, wczytujesz słowniczek z pliku CSV i jedziesz
RWS: robi obsługę glosariusza DeepL w Tradosie tak skomplikowaną, że wymaga dokumentacji, a i tak w pierwszej chwili trudno się w niej połapać, sądząc po reakcjach na forum (oraz wciąż ma parę bugów, które zgłosiłam w beta testach, ale nie powiem które to – niech każdy ma swój kawałek rozrywki 🙂

W każdym razie: glosariusz do DeepLa w Tradosie już jest, w podtłumaczaniu działa jak złoto, odmienia przez przypadki itd.

Uwaga 1: tylko do (od?) Tradosa 2022.
Uwaga 2: glosariusz na stronie DeepL i glosariusz do CAT-a to dwa różne glosariusze, tak to DeepL zorganizował. Można eksportować i importować, formatem wymiany jest podstawowy CSV.
Instalacja stąd: https://appstore.rws.com/Plugin/24
Dokumentacja tu: https://community.rws.com/…/deepl-translation-provider
A z burzliwą historią powstawania można się zapoznać (lub coś w niej od siebie pomarudzić) tutaj: https://community.rws.com/…/deepl-plugin…/159430

Raport Intento 2022

Normally, we run multiple evaluations for our clients using various language pairs and domains, and observe different MT system rankings than those provided in this report

Firma Intento opublikowała właśnie tegoroczny raport z rynku MT, prezentujący stan z lipca 2022. Raport jest do pobrania bezpłatnie i przedstawia porównanie 31 silników dla 11 par językowych (polski się nie załapał, jest za to ukraiński) oraz 9 dziedzin, a do tego sporo informacji o trendach rynkowych (silniki tematyczne, pamięci/glosariusze, obsługa rzadszych języków). Można przy okazji poznać nieco metodologii – próbki tekstu liczą po 500 segmentów, a miarą automatyczną najlepiej skorelowaną z oceną człowieka okazuje się COMET. W przygotowaniu zasobów brała tym razem udział firma e2f.

Jeśli szukamy najlepszego silnika bez ustalonej dziedziny (tematyki) lub dla wielu różnych dziedzin, co bywa normalną praktyką np. w biurach tłumaczeń, to wyniki przedstawia załączony obrazek (DeepL i Google wygrywają). Jeśli działamy w konkretnej dziedzinie (takiej jak tłumaczenia prawne, medyczne lub literackie), to trzeba zagłębić się w raport nieco mocniej – biorąc również pod uwagę zastrzeżenie autorów raportu, że optymalne MT dla danego rodzaju tekstu i pary językowej może być jeszcze inne, niż wynika z raportu! Warto np. zauważyć, że cały raport opiera się na tłumaczeniu tekstu bez znaczników – jeśli mamy “na warsztacie” materiał, gdzie znaczniki są koniecznością (np. przy lokalizacji oprogramowania czy stron internetowych), to trzeba sprawdzić, jak dane MT sobie z nimi radzi.

Co nowego u DeepLa

DeepL pozostaje jednym z najbardziej lubianych silników MT w parach z językiem polskim. Dlaczego i czy zawsze – tym zajmiemy się innym razem; dziś krótki przegląd nowości i rzeczy, na które warto zwrócić uwagę.

  1. Funkcja dodawania własnego glosariusza objęła niedawno język polski. Tłumacze, którzy ją już testują, donoszą, że DeepL nienajgorzej radzi sobie z przypadkami, rodzajami i liczbami.
  2. DeepL z przeglądarki – tłumacząc fragmenty tekstu lub całe dokumenty – ewidentnie próbuje rozpoznawać kontekst: może nie w zakresie całego tekstu, ale akapitu lub kilku sąsiadujących zdań. Funkcja ta nie zadziała, póki co, poprzez API – czyli na przykład z narzędzia CAT, gdzie tekst tłumaczony jest segment po segmencie i maszyna nie ma szansy “zobaczyć” go szerzej. Niektórzy eksperymentują z segmentacją akapitami lub też z wysyłaniem do MT kilku segmentów naraz z pominięciem wtyczki.
  3. Skoro jesteśmy przy kontekście: DeepL, tak jak każdy inny silnik (oraz tłumacze profesjonalni), nie zdziała cudu przy bardzo krótkich segmentach, które mogą mieć wiele znaczeń. Jeśli tłumaczymy z przeglądarki i możemy zmieniać tekst źródłowy, to warto dodać kontekst, który ujednoznaczni tekst źródłowy. I tak na przykład “March” tłumaczony na angielski to “Marzec”, ale już “Long March” to “Długi Marsz”, a dla “March on” DeepL podaje tłumaczenia alternatywne i z marcem, i z marszem.
  4. Jeśli mamy tłumaczyć na język inny niż polski czy angielski, na przykład na czeski, a angielskim władamy dość dobrze, to tłumaczmy raczej z angielskiego na czeski niż z polskiego na czeski. Owszem, czeski i polski mają wiele wspólnego – niestety najprawdopodobniej DeepL będzie tłumaczyć polski > angielski > czeski, a to oznacza możliwość przekłamań na obu etapach. Wpisując oryginał w miarę poprawnie po angielsku, eliminujemy przynajmniej etap pierwszy.

Z postedycją na bieżąco

W Lingua Legis 29(2021) ukazał się artykuł prof. Łucji Biel porządkujący zagadnienia i procesy z dziedziny MT oraz postedycji. Artykuł z całego serca polecam i z przyjemnością włączę go do materiałów referencyjnych na warsztatach z MT, bo jest w nim niemal wszystko, co wiedzieć należy, zebrane w jednym miejscu i z odsyłaczami do źródeł – w większości nie starszych niż 5 lat, co w MT oznacza “z naszej ery” 🙂

Co szczególnie pozytywnie zwróciło moją uwagę:

  • Słuszne wskazanie, że wpływ technologii na tłumaczy (i tłumaczenie) nie zaczął się od MT – swoje zrobiły już CAT-y, prowokując do skupiania się raczej na zdaniach niż akapitach.
  • Staranne rozgraniczenie między typami tłumaczenia zależnie od stopnia automatyzacji i z odniesieniem do norm ISO (ciekawostka: PKN nie planuje wdrożyć ISO-18587).
  • Stwierdzenie faktu, że tłumaczenia profesjonalne to obecnie niewielki procent wszytkich tłumaczeń – wolumen surowego MT jest znacznie, znacznie większy niż tłumaczeń profesjonalnych, czy to wspomaganych maszynowo, czy nie.
  • Rzetelna analiza jasnych i ciemnych stron postedycji dla tłumacza profesjonalnego, dobry opis procesu postedycji.
  • Bezcenne wprost wzmiankowanie preedycji, czyli prawidłowego przygotowania tekstu dla maszyny (krok tym ważniejszy, im więcej języków docelowych).

Czego zabrakło:

  • Żeby nie tworzyć legend “gender ex machina” – warto wyjaśnić, skąd bierze się językowa reprezentacja płci w tłumaczeniach maszynowych (z korpusu).
  • W rozważaniach etycznych – symetrycznie do nieuprawnionego użycia MT przez tłumaczy – trzeba wspomnieć o złej praktyce biur tłumaczeń, które kamuflują postedycję jako korektę. Postedycja wymaga od tłumacza większego wysiłku i nie można zlecać jej ani w terminie, ani w cenie korekty.
  • Oprócz cytatów z DeepL i eTranslation, a także wzmianek o silnikach Google oraz Yandex, przydadzą się odsyłacze do bardziej kompletnych źródeł wiedzy o dostępnych na rynku MT, np. do raportów Intento.
  • Artykuł wspomina o MT uczącym się z poprawek tłumacza, ale wspomina dość pobieżnie, w dwóch różnych miejscach i odwołując się do SDL Adaptive MT, które jest trochę jak Yeti. Warto wymienić raczej rozwiązania dostępne dla polskich tłumaczy, np. ModernMT czy Tilde.
  • Rozdział o rozliczeniach nie wspomina metody obliczania stawki za słowo przez skorelowanie jej z wydajnością pracy tłumaczy, które wydaje się jedynym uzasadnionym modelem obniżania cen względem tłumaczenia od zera. Metodę tę opisuje m.in. praca Acoladu przedstawiona na EAMT 2020.

Zagadka na koniec

Artykuł nie ustrzegł się przed pułapką, którą można spotkać w wielu innych opracowaniach dotyczących PE i która otwiera mroczny aspekt rynku postedycji (a czasem w ogóle podważa sens oferowania tej usługi):

W rozdziale “Rozliczanie postedycji” czytamy:

Dla lekkiej postedycji przyjmuje się normę rzędu 800-1400 słów (ok. 3,5-6 stron rozliczeniowych) na godzinę, dla pełnej postedycji od 500 do 1000 słów (ok. 2-4,5 strony) na godzinę. Są to więc normy co najmniej dwukrotnie wyższe niż dla tłumaczenia, choć szybkość postedycji oczywiście zależy od wielu czynników — jakości tłumaczenia maszynowego, typu tekstu czy stopnia jego złożoności językowej i tematycznej.

Ale przecież w rozdziale “Zalety postedycji dla tłumaczy” stwierdzono:

Jednak należy podkreślić, że badania przynoszą bardzo różne i niekiedy sprzeczne wyniki dotyczące zwiększenia wydajności i szybkości tłumaczenia, gdyż zależy to od jakości surowego tłumaczenia maszynowego. Co do zasady, wzrost jest dość skromny — zazwyczaj na poziomie kilku lub kilkunastu procent.

Rozdział “Rozliczanie postedycji” mierzy gdzieś pośrodku:

Stawki za postedycję zazwyczaj wynoszą od 50% do 90% stawek za tłumaczenie, przy czym dolna granica dotyczy lekkiej postedycji, górna — pełnej postedycji.

Więc jak jest w rzeczywistości? Czy postedycja przyspiesza nas o 5, 15, czy 50 procent i czy przekłada się to rzetelnie na stawki za słowo w tej usłudze? Odpowiedź pozostawiam domyślności Czytelników…

DeepL ma turecki

Lista języków obsługiwanych przez DeepL wydłuża się powoli, ale konsekwentnie; ostatnio dodali turecki, a z mniej oczywistych – indonezyjski. Czekamy na ukraiński!

MT dla języka ukraińskiego

Zebrałam na szybko znane mi ogólnodostępne, bezpłatne silniki MT z językiem ukraińskim – do codziennej komunikacji, do szkoły, szpitala czy urzędu. Warto sprawdzać inne opcje niż Google Translate, zwłaszcza jeśli Google nie tłumaczy wystarczająco dobrze lub jeśli wymagana jest ochrona prywatności tłumaczonego tekstu.

W uzupełnianiu strony na bieżąco pomaga Anna Kotarska – dziękuję!!!

Narzędzia komercyjne ogólnodostępne (bezpłatne)

  • Aktualizacja 10 września 2022: w tym tygodniu DeepL dodał język ukraiński, na razie z niewielkimi tylko ograniczeniami w porównaniu np. z polskim. Zasady ochrony i niegromadzenia danych zgodnie z ogólną polityką DeepLa.
  • Google Translate – wszyscy znają i umieją używać. Uwaga: wersja bezpłatna (z przeglądarki) nie zapewnia ochrony tłumaczonych treści, a dane są przetwarzane i gromadzone na serwerze w USA.
  • Microsoft Bing – nieco mniej znany, ale też łatwo dostępny. Zastrzeżenie co do ochrony treści takie samo jak dla Google Translate.
  • ModernMT – ciekawa opcja alternatywna względem dla Google i Microsoftu, warta sprawdzenia tak ze względu na jakość, jak i ochronę prywatności tłumaczonego tekstu, który jest przetwarzany w obrębie UE, zgodnie z zasadami GDPR (RODO) i, według deklaracji firmy, nie jest gromadzony.
  • Tilde MT – druga opcja europejska, dodana w marcu 2022 w ramach pomocy dla ukraińskich uchodźców w Europie. Przetwarzanie tekstu na serwerach w UE, zgodnie z GDPR, deklaracja o niegromadzeniu.
  • Yandex Translator – ten serwis ma prawdopodobnie jeden z najlepszych na świecie korpusów języka ukraińskiego, ale nie wiadomo, jak długo będzie działał. Treści są przetwarzanie na serwerze w Rosji, co w przypadku dokumentów poufnych może nie być akceptowalne.

Narzędzia naukowo-badawcze (również bezpłatne)

  • Bergamot translator – projekt z grantu UE Horizon 2020; języka polskiego nie ma, jest m.in. niemiecki i angielski.
  • OPUS-MT – projekt Uniwersytetu w Helsinkach, ograniczenia językowe podobne do powyższych.
  • UFAL translator for Czech – Ukrainian – projekt Uniwersytetu Karola w Pradze, w przygotowaniu para z j. polskim.

Zbiór zasobów językowych do przetwarzania języka ukraińskiego można znaleźć na stronie Helsinki-NLP/UkrainianLT.

Narzędzia specjalne (też są bezpłatne)

  • Intento oferuje bezpłatny dostęp do narzędzia Translation Portal with Character Recognition dla uchodźców z Ukrainy (tłumaczenie tekstu, skanów i zdjęć). Narzędzie wymaga rejestracji na stronie https://inten.to i wysłania maila na adres support@inten.to z tematem UKRAINE. Zasady ochrony prywatności danych są zapewne dostępne po nawiązaniu kontaktu z Intento.
  • eTranslation – serwis językowy Komisji Europejskiej – dodał w marcu 2022 ukraiński do listy obsługiwanych języków. W eTranslation można tłumaczyć tekst z przeglądarki lub całe dokumenty. Tłumaczone treści podlegają ochronie i nie są gromadzone ani udostępniane. Narzędzie wymaga założenia bezpłatnego konta EU Login.

Klucza daj tłumaczowi

Żeby podłączyć MT do narzędzia CAT, potrzebujemy klucza API. I tu rysują się dwa warianty:

  1. Dostarczanie MT jest głównym zajęciem naszego dostawcy, więc dbanie o wygodę tłumaczy (i innych jednostek korzystających z MT przez API) ma u dostawcy wysoki priorytet. Tutaj pozyskanie klucza jest proste, by nie rzec – banalne. Do tej grupy należy na przykład DeepL czy ModernMT.
  2. Dostarczanie MT jest jedną z wielu usług, jakie nasz dostawca świadczy w sieci, można wręcz nieraz domniemywać, że słupek “tłumaczenia maszynowe” ma u niego grubość linii na wykresie struktury przychodów. W tym przypadku pozyskanie klucza API jest trudne, bardzo trudne albo boleśnie upierdliwe. Do tej grupy zaliczyłabym Amazona (AWS), Microsoft (Bing) oraz Google.

Jak żyć? Naprzeciw tłumaczom w potrzebie wychodzi dokumentacja, jaką opracował Marcin Basiak w ramach projektu na studiach podyplomowych z komunikacji technicznej (Akademia Vistula). Polecam uwadze rozdział How to obtain API keys for MT plugins. Autor planuje aktualizacje treści, rozszerzenie o innych dostawców MT oraz zmiany strony formalnej dokumentu 🙂

Jesienne raporty

Pojawiły się raporty Memsource i Intento o stanie oraz ofercie tłumaczeń maszynowych w drugiej połowie 2021. Dane do raportu Memsource pochodzą z projektów postedycyjnych wykonanych przez Memsource dla różnych klientów, natomiast dane Intento są oparte na korpusie TAUS (jako tekstach źródłowych i tłumaczeniach referencyjnych). To, co łączy oba te raporty, to metoda oceny MT: porównanie propozycji z maszyny z tłumaczeniem ludzkim (Intento zresztą bada kilka miar – BERT, COMET i PRISM). Podobne są również wnioski: najlepsze MT zależy od pary językowej i dziedziny zastosowania.

Do czego zatem mogą przydać się takie raporty?

  • Do wstępnego wybrania 3-4 silników, które przetestujemy na swoich treściach i pod konkretne zastosowanie (do postedycji lub do publikowania MT “na surowo”, jeśli zastosowanie na to pozwala).
  • Do znalezienia mniej znanych silników MT dla mniej popularnych par językowych lub dziedzin tłumaczenia.

Memsource o parze angielski-włoski:

There is however no “perfect” engine that would consistently translate better than its competitors for this language pair. If users wanted to ensure that they were always getting the optimal MT quality, they would have to use at least three separate engines.

Intento ogólnie o wynikach swego badania:

19 MT engines are among the statistically significant leaders for 7 industry sectors and 13 language pairs. 9 MT engines provide minimal coverage for all language pairs and industries, 1-4 per industry sector.

MT dla początkujących (klientów)

Firma Andovar publikuje króciutką ściągawkę dla firm, które chcą zacząć korzystać z tłumaczeń maszynowych. W siedmiu krokach pokazuje, co trzeba wziąć pod uwagę po stronie projektów, zespołu i narzędzi; jakie są pułapki prawne; co może dać trening MT oraz dlaczego zawsze warto notować, jak wypadły poszczególne projekty “z maszyną”.

Bardzo przydatna rzecz na początek dla biur, które dopiero przymierzają się do przygody z MT. Może też przydać się do urealnienia oczekiwań klienta, który okazjonalnie tłumaczy proste teksty za pomocą DeepL czy Google i ma nieco zbyt optymistyczne przekonanie o realiach pracy z MT 🙂

Porównanie MT dostępnych przez API (i wtyczki)

Bardzo przystępne porównanie MT dostępnych przez API (w tym wtyczki do CAT-ów), stan na 19 marca 2021, opublikowała firma ModelFront. Czytelne zestawienie dostępnych języków, możliwości dostosowania MT do własnej dziedziny, cen i ochrony danych. W kolumnie “Context” wieje pustką 🙂

Z publikacji dowiemy się też o aktualnie dostępnych darmowych silnikach NMT “do samodzielnego złożenia”, a oprócz tego – jakie języki zostały niedawno dodane. DeepL na przykład włączył dosłownie przed momentem język czeski (i parę innych języków Europy Środkowej, tak że polski przestał być uprzywilejowany), a Microsoft obsługuje m.in. język tigrinia.