Jak pozyskać duże i dobre zasoby językowe dla polskiego, żeby można było rozwijać eTranslation, a także inne technologie językowe, np. systemy do anonimizacji treści, klasyfikowania lub streszczania dokumentów itd.? Przedstawiam króciutkie notatki z dyskusji panelowej w ramach warsztatów ELRC, które zorganizowała Anna Kotarska. Organizacyjnie i formalnie poniższe pomysły to póki co / nadal wishful thinking, ale technicznie te rzeczy są jak najbardziej wykonalne, co więcej, niektóre jednostki już udowodniły, że #dasię:
- W administracji publicznej – wprowadzić wymóg dostarczania pamięci tłumaczeń razem z każdym zleconym tłumaczeniem (zostawiając margines bezpieczeństwa dla zadań typu “przekoszony skan z muchą z łotewskiego na polski 15 stron z dziś na jutro poświadczone”).
- W placówkach naukowych – zmienić zasadę udostępniania zasobów (np. prac naukowych, włącznie z magisterskimi) z “udostępniamy tylko to, co chcemy” na “nie udostępniamy tylko tego, czego nie możemy” 🙂