Descripció del projecte

Comprendre els temes que tracten les publicacions científiques és un problema que rep l’atenció de la investigació en Processament del Llenguatge Natural des de fa més de vint anys. Amb aquesta motivació, diverses iniciatives han intentat simplificar la complexitat i extreure coneixement de les produccions científiques mitjançant l’ús de tecnologies del llenguatge sobre el seu contingut textual, amb propostes que van des del resum automàtic de texts, el reconeixement d’entitats, l’extracció de relacions, la resposta automàtica de preguntes, fins a la classificació automàtica de text. El text en llenguatge natural és una font d’informació extremadament rica, tot i que extreure’n coneixements o coneixements pot requerir molt de temps i un enorme repte a causa de la seva naturalesa no estructurada.

Les fonts de dades sobre ciència i tecnologia estan creixent en nombre, dimensió, cobertura, qualitat i riquesa de dades. Els governs i els organismes públics estan obrint les dades de les seves polítiques de ciència i innovació, vinculant els projectes individuals als seus resultats científics, tecnològics i socioeconòmics. A més, les dades relacionades amb la demanda pública com la contractació pública, la contractació d’innovació i els documents de planificació de polítiques (relacionats amb reptes socials, d’impuls a tecnologies o de transformació de les pràctiques sectorials) són cada cop més accessibles. Els textos relacionats amb aquestes dades contenen una gran quantitat d’informació textual que detalla els reptes actuals, els avenços proposats o demostrats, les tecnologies usades i l’impacte previst del procés de recerca i innovació.

La investigació en el camp del Processament del Llenguatge Natural ha avançat molt ràpidament durant els darrers anys. La incorporació de tècniques basades en aprenentatge profund i l’aparició dels models pre-entrenats del llenguatge d’última generació (com BERT, GPT i els seus successors) han canviat les regles del joc en pocs anys. Aquests avenços han permès reduir els esforços d’enginyeria de característiques, entrenant sistemes més generalitzables, millorant el rendiment i reduint la necessitat de recursos computacionals. L’aplicació d’aquestes tècniques també ha tingut especial importància/rellevància en documents de literatura científica o patents, i fins i tot en dominis específics, com el biomèdic o clínic. Aquest tipus de documents de caràcter cientificotècnic presenten un conjunt de reptes i dificultats específiques a causa de la seva complexitat, que es tradueixen en la dificultat de cobrir conceptes específics propis de cada domini, desambiguació d’acrònims o identificació de negacions, entre d’altres.

Amb aquest objectiu, SIRIS Academic i la Universitat Pompeu Fabra proposen la creació d’una plaça de Doctorat Industrial per a l’exploració i desenvolupament de metodologies de processament del llenguatge natural i aprenentatge automàtic per al per mapatge d’activitats de ciència, tecnologia i innovació en diferents dominis, sobre registres textuals heterogenis obtinguts de diferents repositoris (com publicacions científiques, projectes de recerca, patents, notícies o xarxes socials). Els sistemes a desenvolupar hauran d’enfrontar-se a dominis emergents i sense una definició clara, a reptes de la societat o a temàtiques des d’una perspectiva de cadena de valor, per a classificar activitats d’R+D+I que responen a aquests camps i assignar aquestes categories a unitats de text com ara frases, paràgrafs o documents.



MÉS INFORMACIÓ

Si t’interessa l’oferta, omple el pdf amb les teves dades i envia´l a doctorats.industrials.recerca@gencat.cat