Descripció del projecte
L’aprenentatge profund (Deep Learning), que fa servir tècniques de xarxes neuronals, és incipient en l’àrea del processament del llenguatge natural (Collobert et al., 2011). Entre altres avantatges, rau el fet que els sistemes són entrenables sense necessitat de predefinir estructures d’aprenentatge, que s’aprenen automàticament. Així mateix, la versatilitat dels sistemes neuronals permet aplicar arquitectures similars a diferents estructures de dades com a imatge, text o veu.
La traducció automàtica és un camp multidisciplinari que inclou lingüistes, enginyers, informàtics i traductors. Les aproximacions més conegudes inclouen la traducció basada en regles (Hutchins, 2006), estadística (Koehn et al., 2003) i, molt recentment, la traducció neuronal (Cho et al., 2014). La traducció basada en regles utilitza un sistema dissenyat manualment mitjançant traductors o lingüistes bilingües en el parell de llengües que es vol traduir. Mentre que les traduccions estadística i neuronal s’entrenen a partir de dades traduïts. Un dels avantatges de la traducció neuronal és que planteja un sistema totalment entrenable end-to-end.
Davant tot el coneixement que s’ha generat amb les aproximacions basades en regles ens enfrontem al repte d’integració o hibridització de sistemes per tal d’aprofitar els avantatges de cada aproximació. Així com hi ha relativament molt treball previ en la integració de sistemes estadístics i basats en regles (Costajussà & Fonollosa, 2015), i donat el fet que la traducció neuronal és molt nova, no hi ha molta recerca en la hibridització de sistemes neuronals i basats en regles.
En aquest context, aquest doctorat proposa la hibridització dels sistemes basats en regles que té l’empresa Lucy Software amb el sistema neuronal que desenvolupa la UPC. S’investigaran tècniques de combinació de sistemes, així com d’integració de coneixement lingüístic en el sistema neuronal. La combinació de sistemes es pot realitzar a nivell de postprocessat.
La integració de coneixement lingüístic es farà a nivell d’arquitectura. Així doncs, donat que el sistema neuronal utilitza una arquitectura basada en codificador-decodificador, la idea és integrar coneixement lingüístic tant en el codificador (llenguatge font) com en decodificador (llenguatge destí). Com que l’arquitectura neuronal pot treballar al mateix temps amb varietat de llenguatges a la vegada, s’haurà d’investigar com els pot introduir informació lingüística per aquesta varietat de llenguatges al mateix temps. També s’haurà d’avaluar com es gestiona el fet que el traductor basat en neurones pot treballar a nivell de caràcter mentre que el basat en regles treballa majoritàriament a nivell de paraula.
Els resultats es testejaran en sistemes en producció de l’empresa Lucy Software així com en avaluacions internacionals com el Workshop on Machine Translation (WMT).