Przejdź do treści

narzędzia

Komunikacja w kryzysie

Informacja na podstawie notatki Anny Kotarskiej na LinkedIn

9 grudnia 2020 odbył się warsztat „Crisis Response – Language Tools to the Rescue”, podczas którego prof. Nicola Ferro przedstawił międzynarodowy projekt Multilingual Information Access wspierany przez Komisję Europejską, w który zaangażowane są European Language Resource Association oraz European Language Resource Coordination (ELRC).

Projekt obejmuje 3 rodzaje operacji na tekście:
✔️ wielojęzyczne wyszukiwanie semantyczne
✔️ ekstrakcja informacji
✔️ tłumaczenie maszynowe

Wśród obsługiwanych języków nie ma języka polskiego, ponieważ żadna z krajowych instytucji czy zespół nie zgłosił zainteresowania udziałem w inicjatywie (jest za to np. zespół ukraiński), ale wciąż można dołączyć.

Warsztaty z MT w nowej odsłonie

13 stycznia 2021 we współpracy z Localize.pl przygotowuję warsztaty z MT odświeżone o nowości z 2020. Nowe ćwiczenia w CAT-ach, praktyczne zastosowanie wybranych opracowań z EAMT2020, odpowiedzi na najczęściej zadawane pytania. Zapraszam również uczestników poprzednich edycji!

Jakiego rodzaju jest gender?

Dlaczego MT częściej proponuje rodzaj męski? Bo tak ma w danych treningowych. Czy da się coś z tym zrobić? Tak, prace trwają. Polecam uwadze krótkie opracowanie Intento – rodzaj znajdziemy na slajdach 21-27, poza tym styl formalny/nieformalny i kwestie ochrony danych.

Raport Intento 2020

Firma Intento po raz kolejny oferuje darmowy raport o MT, porównujący jakość (w zestawieniu z tłumaczeniem ludzkim – żadnych czarów), koszty, dostępność API, obsługiwane języki. W tym roku danych do porównania dostarczał TAUS. Poza twardymi danymi dla poszczególnych par językowych można się z tego raportu dowiedzieć o nowych i mniej znanych graczach na rynku MT.

BP20 Workshop Week 2-6/11/2020

W ramach cyklu warsztatów BP20 Workshop Week będę miała przyjemność opowiedzieć, w jaki sposób tłumacz może ocenić jakość MT za pomocą raportów dostępnych w popularnych CAT-ach. Będzie też mowa o innych metodach “prognozowania jakości” MT (oraz dlaczego piszę to określenie w cudzysłowie).

Wtyczka Google? A może eTranslation?

Można dyskutować, czy tłumaczenie stron, aplikacji lub treści przez wtyczkę do tłumaczeń maszynowych to właściwe podejście (czasami tak, zwłaszcza jeśli zapewni się postedycję lub testowanie finalnego produktu). Z całą pewnością warto wiedzieć, że API do Google Translate nie jest tu jedyną opcją, a API do DeepL nie jest jedyną alternatywą 🙂 W Europie, na potrzeby sektora publicznego lub MŚP, warto zbadać możliwość integracji z eTranslation – zwłaszcza jeśli tłumaczone treści zahaczają o język formalny/urzędowy, akty prawne UE itp.

W czym jesteśmy lepsi od maszyn

Na czym polega przewaga człowieka nad silnikiem tłumaczenia maszynowego? Człowiek rozumie. Krótkie rozważania o zastosowaniu MT jako “leniwego edytora tekstu”, kiedy wiemy dokładnie, co chcemy napisać.

Prognozowanie jakości MT (2)

Podobnie jak LangTec QUEST, Memsource Translate pomaga oszacować czas i koszt postedycji oraz przede wszystkim dobrać optymalne MT do danego tekstu (tematyki i pary językowej) – a wszystko to w oparciu o dane z poprzednich postedycji, czyli bez tłumacza ani rusz! O ile QUEST opiera się raczej na projektach konkretnego klienta, o tyle Memsource Translate bazuje na uśrednionych danych z wielu projektów, dlatego dostępne jest również dla freelancerów, którzy nie dysponują dużą ilością danych z wcześniejszych projektów PE. Dla równowagi, lista MT porównywanych przez Memsource Translate jest ograniczona do najpopularniejszych.

Prognozowanie jakości MT (1)

Wstępna ocena jakości tłumaczenia maszynowego, zanim zajmie się nim postedytor (i bez tłuaczeń referencyjnych), to usługa bardzo pożądana, nad którą pracują różne jednostki badawcze i komercyjne. Owszem, są już rozwiązania w tej dziedzinie, ale ich korelacja z tym, co potem zrobią tłumacze, nie przekonuje. Pojawiła się tymczasem pokrewna usługa: przewidywanie użyteczności danego MT dla danego tekstu źródłowego na podstawie obserwacji zebranych z wcześniejszej postedycji podobnych tekstów w tej samej parze językowej. Jedno z takich rozwiązań to QUEST firmy LangTec, o którym Christopher Reid opowiadał na KTLC2020.