Descripció del projecte

Un dels objectius del camp del Processament del Llenguatge Natural o PLN (“Natural Language Processing” o NLP en anglès) es el desenvolupament de models basats en l’aprenentatge automàtic (o “Machine Learning” en anglès) a partir de textos.

En el marc d’un portal de feina com Infojobs, on la majoria de les nostres dades són de tipus text, aquests models de PLN són de gran utilitat per crear noves funcionalitats que ajudin a la gent que busca feina a trobar les ofertes laborals més afins al seu currículum, així com per ajudar a la gent que busca empleats a trobar aquells candidats que més s’ajusten als requisits de les seves ofertes.

Un repte amb el que ens trobem a Infojobs és la diversitat d’idiomes utilitzats a la nostra plataforma. Per exemple, una persona pot adjuntar la informació del seu currículum en anglès, però la descripció d’una oferta laboral pot estar escrita en castellà.

Els models tradicionals de PLN acostumen a ser monolingües, i això vol dir que es necessita entrenar un model per a cada idioma, amb tot el que això implica: generar múltiples conjunts de dades etiquetades, entrenar múltiples models i mantenir-los actualitzats. Sense oblidar l’esforç, el temps i els costos econòmics derivats d’aquest paradigma monolingüe.

A més a més, ens trobem sovint amb el fet de que per a algunes llengües menys utilitzades en alguns àmbits, com per exemple el català, molts cops no disposem d’una gran quantitat de dades. Això s’acaba traduint en què la qualitat dels models entrenats per a aquestes llengües és força inferior a la dels models entrenats per a idiomes pels que hi ha moltes més dades disponibles. En l’entorn empresarial, això pot resultar en una pitjor experiència d’usuari per a aquells usuaris que no utilitzin la llengua més comú en l’àmbit territorial de l’empresa.

Per resoldre aquest repte, la tesis de doctorat industrial que proposem investigarà, d’una banda, models multilingües per cada tasca per la qual avui en dia s’estan utilitzant models monolingües a Infojobs (per exemple: classificació d’ofertes i d’experiències laborals segons taxonomies existents, identificació i reconeixement o categorització d’entitats d’alta rellevància en documents de text, etc.). D’altra banda, també investigarà models multilingües i multitasca que s’encarreguin de solucionar diferents tasques en un sol model. La qualitat dels models desenvolupats es compararà amb models monolingües (per exemple per a l’anglès), que s’aplicaran a dades d’entrada traduïts a la llengua en qüestió aplicant tècniques modernes de traducció automàtica.
Infojobs té experiència desenvolupant models d’Aprenentatge Automàtic mitjançant tècniques de PLN i la Universitat Pompeu Fabra té una gran experiència en el camp del PLN en general.
Els sistemes resultatnts d’aquesta col·laboració seran provats en condicions reals de producció a Infojobs així com en avaluacions internacionals.



MÉS INFORMACIÓ

Si t’interessa l’oferta, omple el pdf amb les teves dades i envia´l a doctorats.industrials.recerca@gencat.cat