Descripció del projecte

La traducció automàtica neuronal està aconseguint uns nivells de qualitat molt elevats que fan que el flux de treball consistent en traducció automàtica més postedició sigui cada cop més freqüent. Moltes empreses de serveis lingüístics estan adoptant aquest flux de treball i estan fent servir els serveis de traducció automàtica dels grans proveïdors: Google Translate o DeepL. L’ús aquests proveïdors poden repercutir en problemes de dependència tecnològica i de confidencialitat, ja que s’envien dades que poden ser sensibles a servidors externs a l’empresa.

Per una altra banda, hi ha tota una sèrie de toolkits de traducció automàtica neuronal i estadística que proporcionen totes les eines i programes necessaris per entrenar i posar en marxa sistemes de traducció automàtica. D’entre aquests toolkits es poden destacar els sistemes neuronals Marian i OpenNMT, i el sistema estadístic Moses. Tots aquests toolkits es distribueixen sote llicències lliures permissives, cosa que en principi permet que qualsevol empresa o institució pugui entrenar els seus propis sistemes sense costos associats a llicències. Des de fa alguns anys la Universitat Oberta de Catalunya (UOC) està desenvolupant el projecte MTUOC, que té com a objectiu principal facilitar el procés d’entrenament i integració de sistemes de traducció automàtica neuronals i estadístics.

Aquest doctorat industrial pretén millorar els components del projecte MTUOC per facilitar encara més la integració de la traducció automàtica neuronal en entorns professionals de traducció. El projecte de doctorat treballarà a fons dos línies de recerca molt relacionades: l’adaptació a domini, la inclusió i ús de bases de dades terminològiques i d’adaptació de terminologia a context de domini en sistemes de traducció automàtica neuronal. Aquestes dues línies són de gran importància per a l’empresa Startul, SL (Palíndromo), ja que bona part de la seva activitat econòmica es basa en la traducció tècnica de textos especialitzats en diversos dominis i parells de llengües.

Per a investigar sobre l’adaptació a domini s’experimentarà amb dues tècniques existents: el fine-tuning i la selecció automàtica de segments del domini desitjat en grans corpus paral·lels. El fine-tuning consisteix en partir de l’entrenament d’un sistema fent servir un corpus paral·lel més general de gran mida. Un cop finalitzat aquest primer entrenament, es continua entrenant el sistema fent servir un corpus paral·lel especialitzat de mida més petita. Les tècniques de selecció automàtica permeten detectar i extreure un subconjunt de segments d’un corpus paral·lel de gran mida que siguin els més semblants als segments del corpus especialitzat de mida petita. D’aquesta manera podem completar corpus paral·lels petits o mitjans, amb segments semblants d’un altre corpus molt més gran.

Per una altra banda, la inclusió i ús de bases de dades terminològiques a sistemes de traducció automàtica neuronal presenta una sèrie de reptes encara sense resoldre del tot satisfactòriament. En aquest doctorat explorarem dues tècniques: la detecció de terminologia específica en el corpus d’entrenament, que permeti aprendere com substituir aquesta terminologia per altres termes presents a la base de dades terminològica i la substitució de termes en les traduccions ofertes per sistemes ja entrenats.

El resultat industrial final de la recerca serà una metodologia i una sèrie de programes que s’inclouran al projecte MTUOC que milloraran l’entrenament de sistemes de traducció automàtica neuronal adaptats per a la traducció tècnica en àrees temàtiques d’especialitat concretes. Aquestes metodologies i programes permetran l’entrenament de sistemes de traducció automàtica neuronal per a àmbits tècnics especialitzats fent servir corpus especialitzats de mida petita o mitjana i grans corpus d’àmbit general. Les metodologies que es desenvoluparan també permetran l’ús de bases de dades terminològiques existents, tant durant l’entrenament del sistema, com posteriorment, durant el seu ús. Els sistemes de traducció automàtica neuronals entrenats fent servir aquesta metodologia es podran fer servir en entorns productius mitjançant un flux de treball de traducció automàtica més postedició. El doctorat industrial ajudarà a ampliar el nombre de parell de llengües i àmbits d’especialitat que es podran beneficiar d’aquest flux de treball.



MÉS INFORMACIÓ

Si t’interessa l’oferta, omple el pdf amb les teves dades i envia´l a doctorats.industrials.recerca@gencat.cat