Przejdź do treści

Nowości o MT

MT ze zmienną terminologią

Dopasowanie terminologii w MT do dziedziny, klienta lub projektu pozostaje funkcją bardzo pożądaną na rynku. Oferuje ją część dostawców MT. Tymczasem firma SAP ma taki proces wdrożony na potrzeby swego (ogromnego) działu lokalizacji oprogramowania – w tym przypadku terminologię dopasowuje się do projektu. Niewątpliwym atutem SAP-a jest tu posiadanie i własnych zasobów terminologicznych, i własnego systemu NMT 🙂 Opracowanie na ten temat zostało nagrodzone jako najlepsza publikacja na konferencji EAMT 2020 i jest dostępne wraz z resztą materiałów konferencyjnych.

Jak porównywać MT z tłumaczami

Na fali publikacji o MT tworzącym tłumaczenia nie do odróżnienia od ludzkich, tudzież drugiej fali prac podważających te twierdzenia, powstał bardzo przyzwoity zestaw dobrych praktyk przy porównywaniu MT z człowiekiem. Warto zwracać uwagę m.in. na te aspekty:

  • kto tłumaczył (amatorzy czy zawodowcy)
  • kto porównuje (amatorzy czy zawodowcy) – i dla jakich odbiorców tekst ma być przeznaczony
  • czy w porównaniu uwzględniony jest kontekst (np. cały dokument)
  • jaki był tekst źródłowy (z MT, z tłumaczenia czy pierwotnie napisany w danym języku).

Podczas prezentacji na EAMT 2020 profesor Antonio Toral zauważył przewrotnie, że większość odbiorców MT nie jest profesjonalnymi tłumaczami, więc czy ocena przez profesjonalistów jest w pełni adekwatna do ich potrzeb…? Mój ulubiony cytat z konferencyjnej dyskusji to “Just because something is better, doesn’t mean it’s correct” 🙂

Opcja niemiecka

Na potrzeby prezydencji Niemiec w UE powstał portal o nazwie EU Council Presidency Translator, spinający MT z eTranslation, DeepL i Tilde, a obsługujący języki Europy. Portal nie wydaje się rozwiązaniem szczególnie nowatorskim technologicznie, bo tłumacząc w nim tekst, wybieramy z góry, który silnik ma być użyty. Bardziej imponująca jest współpraca firm komercyjnych i sektora publicznego nad wspólnym celem – dostarczeniem obywatelom jak najlepszej oferty darmowego tłumaczenia maszynowego.

Przyszłość tłumaczenia książek? Hm…

Konstantin Savenkov, szef Intento, zwrócił uwagę na bardzo ciekawy projekt wydawnictwa Individuum: “A World Without Work” Daniela Susskinda został wstępnie przetłumaczony na język rosyjski za pomocą Yandex NMT i postedytowany; akapity pozostawione bez zmian są wyróżnione w tekście książki. Szerszy opis tego projektu jest dostępny po rosyjsku – i tu uwaga dla niecyrylicznych: Yandex naprawdę dobrze tłumaczy z rosyjskiego na angielski lub polski (na ogół lepiej niż Google, DeepL czy eTranslation).

Komunikacja w kryzysie

Informacja na podstawie notatki Anny Kotarskiej na LinkedIn

9 grudnia 2020 odbył się warsztat „Crisis Response – Language Tools to the Rescue”, podczas którego prof. Nicola Ferro przedstawił międzynarodowy projekt Multilingual Information Access wspierany przez Komisję Europejską, w który zaangażowane są European Language Resource Association oraz European Language Resource Coordination (ELRC).

Projekt obejmuje 3 rodzaje operacji na tekście:
✔️ wielojęzyczne wyszukiwanie semantyczne
✔️ ekstrakcja informacji
✔️ tłumaczenie maszynowe

Wśród obsługiwanych języków nie ma języka polskiego, ponieważ żadna z krajowych instytucji czy zespół nie zgłosił zainteresowania udziałem w inicjatywie (jest za to np. zespół ukraiński), ale wciąż można dołączyć.

Warsztaty z MT w nowej odsłonie

13 stycznia 2021 we współpracy z Localize.pl przygotowuję warsztaty z MT odświeżone o nowości z 2020. Nowe ćwiczenia w CAT-ach, praktyczne zastosowanie wybranych opracowań z EAMT2020, odpowiedzi na najczęściej zadawane pytania. Zapraszam również uczestników poprzednich edycji!

Open for Good: darmowe dane treningowe dla AI

25 listopada 2020 startuje Open for Good: inicjatywa mająca na celu zbieranie danych treningowych dla różnych rozwiązań AI, przede wszystkim z terenów Afryki i Azji. Zebrane dane mają być ogólnodostępne i darmowe, mają też być zlokalizowane – co w tym przypadku niekoniecznie oznacza tłumaczenie: przede wszystkim zbieranie informacji na właściwym terenie i z lokalnych źródeł. Dane obejmują np. informacje głosowe czy geograficzne, ale w dużej mierze tekst – co będzie oznaczało nowy potencjał do rozwoju tłumaczeń maszynowych dla języków, dla których brak dziś korpusów do treningu MT.

MT w przestrzeni publicznej (Japonii)

Jak donosi The Guardian, a wyszperała Diana Jankowiak, w Japonii powstała grupa robocza lingwistek, która pracuje nad ograniczeniem wasei-eigo – marnego angielskiego tłumaczonego z japońskiego – w oficjalnych dokumentach, ogłoszeniach i komunikatach. Celem tego działania jest stworzenie komunikacji bardziej przyjaznej dla turystów (z myślą m.in. o olimpiadzie) i bardziej bezpiecznej dla osób z zaganicy w sytuacjach kryzysowych, takich jak trzęsienie ziemi. Jedną z metod poprawiania angielskich treści jest oczywiście weryfikowanie MT i niedopuszczanie maszynowej “surówki” np. na miejskich stronach WWW. Celowo uproszczone czy dosłowne tłumaczenie na angielski ma jednak swoją rolę w japońskim marketingu – nie jest to raczej zamach na All your base are belong to us.

Jakiego rodzaju jest gender?

Dlaczego MT częściej proponuje rodzaj męski? Bo tak ma w danych treningowych. Czy da się coś z tym zrobić? Tak, prace trwają. Polecam uwadze krótkie opracowanie Intento – rodzaj znajdziemy na slajdach 21-27, poza tym styl formalny/nieformalny i kwestie ochrony danych.

Konferencja EAMT 2020 z wirtualnej Lizbony

Tegoroczna konferencja European Association of Machine Translation to, jak zwykle, coś w rodzaju maszynowego pokazu mody: pozwala zapoznać się nie tyle z rozwiązaniami już istniejącymi na rynku (tych lepiej szukać na konferencjach branży tłumaczeniowej i lokalizacyjnej), co z projektami, które “będzie się nosiło” w następnym sezonie. Oczywiście na tym etapie nie wiadomo, które modele wejdą do masowej produkcji, a które pozostaną gadżetami dla branżowych celebrytów – ale warto znać trendy.

Dostępny jest program z krótkimi streszczeniami wideo większości prezentacji i posterów, a także doroczna publikacja prac naukowych.