google

Raport Intento 2022

Normally, we run multiple evaluations for our clients using various language pairs and domains, and observe different MT system rankings than those provided in this report

Firma Intento opublikowała właśnie tegoroczny raport z rynku MT, prezentujący stan z lipca 2022. Raport jest do pobrania bezpłatnie i przedstawia porównanie 31 silników dla 11 par językowych (polski się nie załapał, jest za to ukraiński) oraz 9 dziedzin, a do tego sporo informacji o trendach rynkowych (silniki tematyczne, pamięci/glosariusze, obsługa rzadszych języków). Można przy okazji poznać nieco metodologii – próbki tekstu liczą po 500 segmentów, a miarą automatyczną najlepiej skorelowaną z oceną człowieka okazuje się COMET. W przygotowaniu zasobów brała tym razem udział firma e2f.

Jeśli szukamy najlepszego silnika bez ustalonej dziedziny (tematyki) lub dla wielu różnych dziedzin, co bywa normalną praktyką np. w biurach tłumaczeń, to wyniki przedstawia załączony obrazek (DeepL i Google wygrywają). Jeśli działamy w konkretnej dziedzinie (takiej jak tłumaczenia prawne, medyczne lub literackie), to trzeba zagłębić się w raport nieco mocniej – biorąc również pod uwagę zastrzeżenie autorów raportu, że optymalne MT dla danego rodzaju tekstu i pary językowej może być jeszcze inne, niż wynika z raportu! Warto np. zauważyć, że cały raport opiera się na tłumaczeniu tekstu bez znaczników – jeśli mamy “na warsztacie” materiał, gdzie znaczniki są koniecznością (np. przy lokalizacji oprogramowania czy stron internetowych), to trzeba sprawdzić, jak dane MT sobie z nimi radzi.

MT dla języka ukraińskiego

Zebrałam na szybko znane mi ogólnodostępne, bezpłatne silniki MT z językiem ukraińskim – do codziennej komunikacji, do szkoły, szpitala czy urzędu. Warto sprawdzać inne opcje niż Google Translate, zwłaszcza jeśli Google nie tłumaczy wystarczająco dobrze lub jeśli wymagana jest ochrona prywatności tłumaczonego tekstu.

W uzupełnianiu strony na bieżąco pomaga Anna Kotarska – dziękuję!!!

Narzędzia komercyjne ogólnodostępne (bezpłatne)

  • Aktualizacja 10 września 2022: w tym tygodniu DeepL dodał język ukraiński, na razie z niewielkimi tylko ograniczeniami w porównaniu np. z polskim. Zasady ochrony i niegromadzenia danych zgodnie z ogólną polityką DeepLa.
  • Google Translate – wszyscy znają i umieją używać. Uwaga: wersja bezpłatna (z przeglądarki) nie zapewnia ochrony tłumaczonych treści, a dane są przetwarzane i gromadzone na serwerze w USA.
  • Microsoft Bing – nieco mniej znany, ale też łatwo dostępny. Zastrzeżenie co do ochrony treści takie samo jak dla Google Translate.
  • ModernMT – ciekawa opcja alternatywna względem dla Google i Microsoftu, warta sprawdzenia tak ze względu na jakość, jak i ochronę prywatności tłumaczonego tekstu, który jest przetwarzany w obrębie UE, zgodnie z zasadami GDPR (RODO) i, według deklaracji firmy, nie jest gromadzony.
  • Tilde MT – druga opcja europejska, dodana w marcu 2022 w ramach pomocy dla ukraińskich uchodźców w Europie. Przetwarzanie tekstu na serwerach w UE, zgodnie z GDPR, deklaracja o niegromadzeniu.
  • Yandex Translator – ten serwis ma prawdopodobnie jeden z najlepszych na świecie korpusów języka ukraińskiego, ale nie wiadomo, jak długo będzie działał. Treści są przetwarzanie na serwerze w Rosji, co w przypadku dokumentów poufnych może nie być akceptowalne.

Narzędzia naukowo-badawcze (również bezpłatne)

  • Bergamot translator – projekt z grantu UE Horizon 2020; języka polskiego nie ma, jest m.in. niemiecki i angielski.
  • OPUS-MT – projekt Uniwersytetu w Helsinkach, ograniczenia językowe podobne do powyższych.
  • UFAL translator for Czech – Ukrainian – projekt Uniwersytetu Karola w Pradze, w przygotowaniu para z j. polskim.

Zbiór zasobów językowych do przetwarzania języka ukraińskiego można znaleźć na stronie Helsinki-NLP/UkrainianLT.

Narzędzia specjalne (też są bezpłatne)

  • Intento oferuje bezpłatny dostęp do narzędzia Translation Portal with Character Recognition dla uchodźców z Ukrainy (tłumaczenie tekstu, skanów i zdjęć). Narzędzie wymaga rejestracji na stronie https://inten.to i wysłania maila na adres support@inten.to z tematem UKRAINE. Zasady ochrony prywatności danych są zapewne dostępne po nawiązaniu kontaktu z Intento.
  • eTranslation – serwis językowy Komisji Europejskiej – dodał w marcu 2022 ukraiński do listy obsługiwanych języków. W eTranslation można tłumaczyć tekst z przeglądarki lub całe dokumenty. Tłumaczone treści podlegają ochronie i nie są gromadzone ani udostępniane. Narzędzie wymaga założenia bezpłatnego konta EU Login.

Jak zrobić to, czego robić nie należy

Nie chciałabym tu promować “lokalizacji” stron przez podłączenie Google Translate, ale jakby kolega pytał, to instrukcja trafiła do w3schools 😉
Powiedzcie też koledze, żeby przynajmniej sprawdził, czy inny silnik tłumaczeń maszynowch niż Google nie posłuży mu lepiej – na przykład DeepL, eTranslation, Tilde czy Yandex.

Klucza daj tłumaczowi

Żeby podłączyć MT do narzędzia CAT, potrzebujemy klucza API. I tu rysują się dwa warianty:

  1. Dostarczanie MT jest głównym zajęciem naszego dostawcy, więc dbanie o wygodę tłumaczy (i innych jednostek korzystających z MT przez API) ma u dostawcy wysoki priorytet. Tutaj pozyskanie klucza jest proste, by nie rzec – banalne. Do tej grupy należy na przykład DeepL czy ModernMT.
  2. Dostarczanie MT jest jedną z wielu usług, jakie nasz dostawca świadczy w sieci, można wręcz nieraz domniemywać, że słupek “tłumaczenia maszynowe” ma u niego grubość linii na wykresie struktury przychodów. W tym przypadku pozyskanie klucza API jest trudne, bardzo trudne albo boleśnie upierdliwe. Do tej grupy zaliczyłabym Amazona (AWS), Microsoft (Bing) oraz Google.

Jak żyć? Naprzeciw tłumaczom w potrzebie wychodzi dokumentacja, jaką opracował Marcin Basiak w ramach projektu na studiach podyplomowych z komunikacji technicznej (Akademia Vistula). Polecam uwadze rozdział How to obtain API keys for MT plugins. Autor planuje aktualizacje treści, rozszerzenie o innych dostawców MT oraz zmiany strony formalnej dokumentu 🙂

MT dla początkujących (klientów)

Firma Andovar publikuje króciutką ściągawkę dla firm, które chcą zacząć korzystać z tłumaczeń maszynowych. W siedmiu krokach pokazuje, co trzeba wziąć pod uwagę po stronie projektów, zespołu i narzędzi; jakie są pułapki prawne; co może dać trening MT oraz dlaczego zawsze warto notować, jak wypadły poszczególne projekty “z maszyną”.

Bardzo przydatna rzecz na początek dla biur, które dopiero przymierzają się do przygody z MT. Może też przydać się do urealnienia oczekiwań klienta, który okazjonalnie tłumaczy proste teksty za pomocą DeepL czy Google i ma nieco zbyt optymistyczne przekonanie o realiach pracy z MT 🙂

Porównanie MT dostępnych przez API (i wtyczki)

Bardzo przystępne porównanie MT dostępnych przez API (w tym wtyczki do CAT-ów), stan na 19 marca 2021, opublikowała firma ModelFront. Czytelne zestawienie dostępnych języków, możliwości dostosowania MT do własnej dziedziny, cen i ochrony danych. W kolumnie “Context” wieje pustką 🙂

Z publikacji dowiemy się też o aktualnie dostępnych darmowych silnikach NMT “do samodzielnego złożenia”, a oprócz tego – jakie języki zostały niedawno dodane. DeepL na przykład włączył dosłownie przed momentem język czeski (i parę innych języków Europy Środkowej, tak że polski przestał być uprzywilejowany), a Microsoft obsługuje m.in. język tigrinia.

Porozmawiajamy o tłumaczeniach maszynowych

Na przełomie lutego i marca 2021 miałam zaszczyt wystąpić w trzeciej edycji podcastu “Porozmawiajmy o tłumaczeniach“, jaki prowadzi Wojciech Wołoszyk (prawnik-lingwista, prezes IURIDICO). W ciągu nieco ponad godziny poruszyliśmy takie kwestie, jak:

  • rola tłumacza względem NMT,
  • sposób powstawania współczesnych tłumaczeń maszynowych,
  • ryzyka związane z użyciem tej technologii (jakościowe, prawne i psychologiczne),
  • obliczanie stawek za postedycję,
  • wybór właściwego narzędzia MT do danego zadania,
  • specyfika unijnego silnika eTranslation.

Zapytaj mentorkę

19 lutego 2021 miałam przyjemność wziąć udział w jednej z sesji mentoringu dla tłumaczy, jakie prowadzi Virginia Katsimpiri. Rozmawiałyśmy na następujące tematy:

  • jak zaczęłam pracę w tłumaczeniach i lokalizacji,
  • dlaczego tłumaczenia maszynowe i postedycja to istotna sprawa dla tłumaczy w roku 2021,
  • jak te usługi wyglądają od strony technicznej (w narzędziu CAT),
  • jak ocenić, czy cena za MT PE jest dobra (za pomocą kartki, ołówka i zegara!),
  • czego można używać oprócz Google Translate 🙂

Nagranie jest dostępne na YouTube.