Nowości o MT

Open for Good: darmowe dane treningowe dla AI

25 listopada 2020 startuje Open for Good: inicjatywa mająca na celu zbieranie danych treningowych dla różnych rozwiązań AI, przede wszystkim z terenów Afryki i Azji. Zebrane dane mają być ogólnodostępne i darmowe, mają też być zlokalizowane – co w tym przypadku niekoniecznie oznacza tłumaczenie: przede wszystkim zbieranie informacji na właściwym terenie i z lokalnych źródeł. Dane obejmują np. informacje głosowe czy geograficzne, ale w dużej mierze tekst – co będzie oznaczało nowy potencjał do rozwoju tłumaczeń maszynowych dla języków, dla których brak dziś korpusów do treningu MT.

MT w przestrzeni publicznej (Japonii)

Jak donosi The Guardian, a wyszperała Diana Jankowiak, w Japonii powstała grupa robocza lingwistek, która pracuje nad ograniczeniem wasei-eigo – marnego angielskiego tłumaczonego z japońskiego – w oficjalnych dokumentach, ogłoszeniach i komunikatach. Celem tego działania jest stworzenie komunikacji bardziej przyjaznej dla turystów (z myślą m.in. o olimpiadzie) i bardziej bezpiecznej dla osób z zaganicy w sytuacjach kryzysowych, takich jak trzęsienie ziemi. Jedną z metod poprawiania angielskich treści jest oczywiście weryfikowanie MT i niedopuszczanie maszynowej “surówki” np. na miejskich stronach WWW. Celowo uproszczone czy dosłowne tłumaczenie na angielski ma jednak swoją rolę w japońskim marketingu – nie jest to raczej zamach na All your base are belong to us.

Jakiego rodzaju jest gender?

Dlaczego MT częściej proponuje rodzaj męski? Bo tak ma w danych treningowych. Czy da się coś z tym zrobić? Tak, prace trwają. Polecam uwadze krótkie opracowanie Intento – rodzaj znajdziemy na slajdach 21-27, poza tym styl formalny/nieformalny i kwestie ochrony danych.

Konferencja EAMT 2020 z wirtualnej Lizbony

Tegoroczna konferencja European Association of Machine Translation to, jak zwykle, coś w rodzaju maszynowego pokazu mody: pozwala zapoznać się nie tyle z rozwiązaniami już istniejącymi na rynku (tych lepiej szukać na konferencjach branży tłumaczeniowej i lokalizacyjnej), co z projektami, które “będzie się nosiło” w następnym sezonie. Oczywiście na tym etapie nie wiadomo, które modele wejdą do masowej produkcji, a które pozostaną gadżetami dla branżowych celebrytów – ale warto znać trendy.

Dostępny jest program z krótkimi streszczeniami wideo większości prezentacji i posterów, a także doroczna publikacja prac naukowych.

Raport Intento 2020

Firma Intento po raz kolejny oferuje darmowy raport o MT, porównujący jakość (w zestawieniu z tłumaczeniem ludzkim – żadnych czarów), koszty, dostępność API, obsługiwane języki. W tym roku danych do porównania dostarczał TAUS. Poza twardymi danymi dla poszczególnych par językowych można się z tego raportu dowiedzieć o nowych i mniej znanych graczach na rynku MT.

BP20 Workshop Week 2-6/11/2020

W ramach cyklu warsztatów BP20 Workshop Week będę miała przyjemność opowiedzieć, w jaki sposób tłumacz może ocenić jakość MT za pomocą raportów dostępnych w popularnych CAT-ach. Będzie też mowa o innych metodach “prognozowania jakości” MT (oraz dlaczego piszę to określenie w cudzysłowie).

Wtyczka Google? A może eTranslation?

Można dyskutować, czy tłumaczenie stron, aplikacji lub treści przez wtyczkę do tłumaczeń maszynowych to właściwe podejście (czasami tak, zwłaszcza jeśli zapewni się postedycję lub testowanie finalnego produktu). Z całą pewnością warto wiedzieć, że API do Google Translate nie jest tu jedyną opcją, a API do DeepL nie jest jedyną alternatywą 🙂 W Europie, na potrzeby sektora publicznego lub MŚP, warto zbadać możliwość integracji z eTranslation – zwłaszcza jeśli tłumaczone treści zahaczają o język formalny/urzędowy, akty prawne UE itp.

TAUS Program 2021

Tydzień webinarów! Wczoraj Omniscien, dziś eTranslation, a jutro – TAUS Program 2021, czyli nowości na rynku dużych (ale to naprawdę dużych) danych językowych.

Kurs Machine Translation

Karlsruhe Institute for Technology oferuje na Courserze bardzo wartościowy kurs o tłumaczeniach maszynowych – jak powstają, jak rozwiązywane są kolejne trudności. Kurs darmowy, chyba że chce się uzyskać certyfikat. Dużo sieci neuronowych, wektorów i wzorów! Polecany każdemu, kto:

  • Tworzy lub rozwija Neural MT. Jest mnóstwo materiałów teoretycznych i programistycznych.
  • Potrzebuje uporządkować wiedzę jak to wszystko działa i w których kierunkach się rozwija.
  • Zastanawia się, po co w szkole uczyli logarytmów, trygonometrii, wag i prawdopodobieństw 🙂