AI

AI: skąd bierze, dokąd publikuje

26.10.232326.10.2323

Podczas gdy rozważania o roli generatywnego AI w dziejach świata wahają się od zachwytów po wieszczenie katastrofy (a gdzieś pośrodku jest postawa “meh, mielenie nudy”) – warto przyjrzeć się dwóm zagadnieniom:

skąd brane są treści, na których trenowany jest dany model językowy – np. czy zawsze możemy licencjonować tekst, kod lub obraz, który AI dla nas wygenerowało?
jak rozpoznać treści, które powstały przy użyciu generatywnego AI – np. kiedy jako konsument mamy gwarancję, że poprawność danego materiału została zweryfikowana przez człowieka?

Dwa podejścia do tych zagadnień proponują:

Artificial Intelligence Act, projekt UE zmierzający do uregulowania m.in. powyższych aspektów AI;
Foundation Model Transparency Index, badanie Uniwersytetu Stanforda, porównujące LLM-y wg kilkunastu elementów tego, co o nich wiadomo.

AI w narzędziach CAT?

02.07.232319.07.2323

A teraz szybko, zanim dotrze do nas, że to bez sensu!

Dwa popularne CAT-y reprezentują w tej chwili dwa różne podejścia do AI:

Trados dorobił się wtyczki OpenAI, która działa i konfiguruje się trochę inaczej niż znane już wtyczki MT. Jej niewątpliwą zaletą jest możliwość definiowania własnych zapytań (promptów), które pozwalają generować z ChatGPT tłumaczenia zwracające się do odbiorcy w liczbie pojedynczej, mnogiej albo neutralnie. Aby skorzystać z tej funkcji, trzeba mieć wykupiony dostęp do OpenAI i podać klucz API.

MemoQ wprowadził funkcję AIQE, czyli szacowanie jakości segmentów maszynowych (z dowolnej wtyczki MT) za pomocą dużego modelu językowego. Do wyboru jest TAUS albo ModelFront, do których również trzeba nabyć oddzielne klucze API.

Zaletą obu tych rozwiązań jest wprowadzenie najnowszych technologii językowych do CAT-ów. Wadą – ograniczenie przetwarzania do segmentu, czyli odcięcie jednej z największych zalet, jakie prezentują narzędzia AI oparte na dużych modelach językowych (LLM): potrafią one pracować na dokumencie jako całości, a w każdym razie na sporej jego części.

Ciekawe, kto z producentów CAT-ów pierwszy umożliwi pełniejsze wykorzystanie LLM do pracy na całym tekście, np. w takich zastosowaniach:

wychwycenie kluczowej terminologii z tekstu źródłowego;
sprawdzenie tekstu źródłowego i zaproponowanie poprawek (gramatyka, spójność, styl);
przeredagowanie tekstu wynikowego w zadanym kierunku (formalny/nieformalny, zdania krótkie/długie);
automatyczna kontrola jakości tłumaczenia według zadanych parametrów.

O części z tych zastosowań mówią praktycy z branży lokalizacyjnej na webinarze Intento “GPT in Localization“, wspominając też o możliwości generowania tekstu w wielu językach naraz – wszędzie tam, gdzie GPT potrafi wygenerować wystarczająco dobry tekst oryginalny (angielski), a surowe tłumaczenie maszynowe niekoniecznie spełnia wymagania jakościowe.

…Tyle że oczywiście nie da się ufać GPT w 100%, że czegoś nie nazmyśla 🙂

PRZEtłumacze o MT (i trochę AI)

12.04.232312.04.2323

Na zaproszenie firmy Diuna miałam przyjemność wystąpić 11 kwietnia 2023 w odcinku podcastu PRZEtłumacze, w którym Kacper Wawrzak poprowadził rozmowę w kierunku takich zagadnień jak:

prawie 100 lat historii tłumaczeń maszynowych
nikt nie zmyśla tak pięknie jak sieci neuronowe
czy można postedytować i nie oszaleć
kto po 3 piwach wieszczył, że za rok tłumacze stracą pracę
i oczywiście: czy GPT rozumie więcej niż NMT???

ChatGPT, hype GPT: zasoby

05.03.232302.07.2323

Translation exists when it is more convenient than creating the content from scratch – tak Marco Trombetti odniósł się do kwestii, czy ChatGPT zastąpi tłumaczy, w świetnym wstępie do minikonferencji online “ChatGPT in Localization”, zorganizowanej 1 marca 2023 przez Custom.MT. Artykułów i prelekcji o ChatGPT przybywa lawinowo; dla uporządkowania wiedzy i zastosowań praktycznych zbieram tu odsyłacze, które uważam za przydatne (w danym momencie, bo rzeczy dzieją się szybko!).

OpenAI

Strona OpenAI, gdzie zakłada się konto z dostępem do GPT-3.5 (starsze, szybsze, tańsze) lub GPT-4 (przeciwnie).

GPT w lokalizacji

Porównania tłumaczeń przez GPT z silnikami NMT:

How Does GenAI Compare on a Price Basis?
Different GenAI systems have different pricing models, but CSA Research has serious concerns about the viability and sustainability of current financial models. GenAI providers are currently running their systems at a financial loss in order to bring in customers and build demand that they expect to monetize in the future. Although precise per-word figures are difficult to determine, this strategy shows in our estimates of translation costs using ChatGPT and GPT4 at the published API prices: Chat GPT 3.5 Turbo’s pricing for translation is roughly 1/40 of the price of Google Translate, yet it consumes more energy. GPT-4 ranges from equal in price to about eight times as expensive as Google Translate, depending on the languages and model involved, but it also consumes far more energy. Unless OpenAI can massively improve system optimization – or overcome fundamental laws of physics – these prices will not be sustainable. LSPs or enterprises that build their content strategies on GenAI need to be aware that the financial models cannot last.

Wydarzenia “ChatGPT in Localization”, gdzie na bieżąco omawia się zastosowanie GPT w tłumaczeniach:

marzec 2023
kwiecień 2023

A.I. w tłumaczeniach na przykładzie ChatGPT: kurs dla tłumaczy, tłumaczek i biur tłumaczeń

Rozważania o perspektywach AI z grudnia 2022, ale wciąż aktualne 😉

ChatGPT w lokalizacji gier: stan na połowę marca 2023

Ostrożne podejście do GPT z perspektywy TAUS w kwietniu 2023

Inne zastosowania GPT

Chat GPT od zera: kompletny kurs dla początkujących – przykłady użycia AI do nauki i w biznesie

Lance Cummings przygotowuje szkolenie dla pisarek i pisarzy technicznych

Programistycznie

OpenAI GPT-4 API Quick Guide: wprowadzenie do API OpenAI

ChatGPT-translation.py: minimalny kod do tłumaczenia za pomocą ChatGPT

AI, MT, a czy ktoś to czyta…?

02.01.232312.04.2323

Jeśli tekst jest generowany przez AI, to po co MT? Lepiej od razu generować w x językach!

Webinar Intento The Enterprise Machine Translation Playbook 2022/2023 daje wgląd w zastosowanie MT przez duże międzynarodowe firmy, takie jak AstraZeneca, NetApp czy Nike. Najciekawszą częścią są perspektywy na najbliższą przyszłość, dotyczące zastosowania AI poza samym tłumaczeniem (bo np. do tworzenia lub poprawiania treści źródłowych) i poza działem tłumaczeń (również np. w HR czy marketingu).

A więc automatyzacja umożliwia:

Poprawianie tekstu źródłowego, np. wymuszanie struktury w dokumentacji (cel – lista kroków).
Parafrazowanie maszynowe jako sposób na bardziej jednoznaczne źródło dla MT!
A w sumie, skoro AI pisze, to może od razu w wielu językach???

…ale trzeba pamiętać również, że:

Tekst napisany/streszczony AI może być dobry dla wyszukiwarek, ale zły do czytania przez ludzi 🙁
Wyeliminowanie człowieka nie jest możliwe w krytycznych zastosowaniach (farmacja, medycyna).
Gładki tekst czyta się dobrze, ale co z sensem? Postedytor niezmiennie musi patrzeć na źródło (a redakcja tekstu wygenerowanego przez AI musi znać założenia merytoryczne).

Jeśli ktoś nie ma czasu na cały 2-godzinny webinar, to polecam obejrzeć 19-minutowy wstęp, w którym Konstantin Savenkov przedstawia “Ideas that worked in 2022 & Ideas that may work in 2023”, albo przeczytać jego streszczenie. Prywatnie przedkładam rzemieślniczo-słowiańską rzeczowość nad menedżersko-amerykańską płynność wypowiedzi…