Descripció del projecte
La qualitat de la traducció ha millorat de manera espectacular des de l’aparició de la traducció automàtica neuronal (NMT), i l’aparició dels grans models de llenguatge (LLM) aplicats a la traducció, amb la seva capacitat de tenir en compte contextos més amplis, està revolucionant també el camp de la traducció automàtica. La gran qualitat que ofereixen els sistemes actuals fa que a primera vista les traduccions semblin correctes tot i que amaguen errors importants, que poden ser crítics, però que són molt difícils de detectar.
Aquest avenços no estan acompanyats pels canvis necessaris en els processos de traducció professional, on encara es fan servir eines de traducció assistida clàssiques, que ofereixen poca o cap informació sobre la qualitat de les propostes de traducció i sobre on es troben els possibles errors.
En aquest projecte de doctorat industrial pretenem estudiar tant aspectes tècnics sobre l’entrenament i finetuning de sistemes de traducció automàtica neuronal i grans models de llenguatge aplicats a la traducció, com els processos i les eines per a dur a terme una postedició més ràpida i eficaç. L’estudi se centrarà en la traducció de premsa diària i a les llengües catalana, castellana i anglesa. Així doncs, la recerca plantejada té dos àmbits ben delimitats, però complementaris:
1. Traducció i finetuning de sistemes NMT y LLMs per a la traducció. Aquesta recerca té un gran sentit en un moment de transició entre aquests dos paradigmes i on els toolkits clàssics per a l’entrenament de sistemes s’estan discontinuant i n’estan apareixent de nous amb noves capacitats i més orientats als LLMs.
2. Desenvolupament d’un entorn de postedició guiada on s’ofereixi a l’usuari un seguit d’indicacions visuals sobre la qualitat estimada i les paraules o fragments que puguin contenir errors.
El cas de la premsa diària multilingües és una situació professional que requereix d’una gran eficiència en el procés de postedició. Molt sovint aquests mitjans tenen una edició en línia i una edició en paper. L’edició web és molt dinàmica i les notícies van evolucionat durant el dia. L’edició en paper és estàtica i conté una part del contingut web. Això fa que el paper de les memòries de traducció sigui vital, ja que part del contingut de l’edició en paper ja estarà posteditat per a l’edició web. En la traducció de la premsa diària els tempos són molt ajustats i pel procés, a més de ser molt eficient, ha de ser també molt robust.