Descripció del projecte

En els últims anys, l’augment de LLMs (Large Language Model) ha avançat significativament les capacitats dels sistemes de PNL (processament del llenguatge natural). No obstant això, aconseguir un alt rendiment amb aquests models sol requerir l’accés a conjunts de dades sensibles, la qual cosa planteja seriosos problemes ètics, de compliment i de privacitat. Aquest repte és especialment agut en sectors com l’assistència sanitària, els mitjans de comunicació, les telecomunicacions, les finances i l’administració pública, on les dades sovint es mantenen en silenci, es regulen estrictament o es vinculen per restriccions contractuals. En aquests contextos, els enfocaments tradicionals de formació centralitzada no només són poc pràctics, sinó que sovint són incompatibles amb la normativa de protecció de dades (per exemple, RGPD), les polítiques internes i la confiança pública.

L’aprenentatge federat (FL) sorgeix com una alternativa convincent i cada vegada més necessària. L’aprenentatge federat permet l’entrenament descentralitzat i col·laboratiu de models mantenint les dades en brut localitzades, en servidors privats, mentre que només es comparteixen actualitzacions de models. Aquest paradigma permet a les organitzacions millorar les capacitats de la IA sense renunciar al control sobre dades sensibles o violar els acords de privacitat. Per a Telefónica, el FL ofereix un camí prometedor per millorar una àmplia gamma de serveis digitals, incloent centres de trucades, assistents virtuals, agents de parla, sistemes de recomanació o aquells que tracten informació personal, on la seguretat de les dades, el suport multilingüe i la confiança dels usuaris són primordials. Tot i que el FL ha demostrat èxit en diverses aplicacions, la seva integració amb LLMs, particularment en entorns multilingües i multimodals, segueix sent relativament poc explorada, presentant tant reptes com oportunitats valuoses per a la recerca i la innovació.

Aquest doctorat industrial entre Telefónica i la UPC té com a objectiu salvar aquesta bretxa mitjançant la investigació de l’ajust col·laboratiu i el desplegament de LLMs dins d’un marc de FL multilingüe. La recerca proposada se centrarà a comprendre la interacció entre la diversitat lingüística, l’heterogeneïtat de dades i el desequilibri respecte al rendiment del model. Les tasques bàsiques de PNL (p. ex., sintonització d’instruccions, resum) s’avaluaran dins d’aquest paràmetre FL multilingüe. Es prestarà especial atenció als efectes de la partició de dades IID vs. no IID, distribucions de dades desiguals entre clients i com aquests factors influeixen en el rendiment tant en les configuracions in situ com en les federades. El projecte també explorarà l’impacte de l’ajust fi federat en llengües específiques, incloent-hi els recursos baixos, avaluant com les estratègies de personalització poden ajudar a aconseguir un equilibri eficaç entre l’especialització local i la col·laboració global. El seu objectiu és fomentar un ecosistema d’IA més inclusiu i lingüísticament divers, millorant els marcs de col·laboració entre els participants multilingües i abordant qüestions clau de recerca com:

– Com afecta la diversitat lingüística, l’heterogeneïtat de dades (per exemple, entre dominis, llengües) i el desequilibri de dades (per exemple, els diferents volums de dades dels clients) al rendiment del model en els models globals i locals de FL?
– Les llengües d’alts recursos podrien ajudar a augmentar el rendiment de les llengües de baixos recursos en un entorn de FL multilingüe? Quines distribucions de llenguatge/s a nivell de client ho suporten millor?
– Sota quines condicions FL supera l’ajust centralitzat in situ?
– Com podem equilibrar de manera efectiva l’adaptació local i la generalització global en entorns federats multilingües?
– La implementació de tècniques avançades de preservació de la privacitat, com ara la privacitat diferencial, milloraria encara més el compliment de les obligacions de privacitat sense comprometre el rendiment?

A més, es posarà especial èmfasi en els LLM multimodals. Aquests sistemes combinen els codificadors de parla i els models de llenguatge a través de connectors apresos per adaptar i alinear les seves respectives representacions latents (per exemple, mapejant les incrustacions de parla a les incrustacions de lèxic LLM), permetent un maneig més robust del llenguatge parlat pels LLM. Aquests models també s’estudiaran sota paràmetres multilingües de FL.

En abordar la transferència transversal, la integració multimodal i la preservació de la privacitat en entorns de FL descentralitzats, aquesta investigació té com a objectiu proporcionar noves eines i coneixements per construir sistemes d’IA que preservin la privacitat, lingüísticament inclusius, escalables i comercialment competitius. Els resultats posicionaran estratègicament Telefónica a l’avantguarda de la innovació en IA d’avantguarda, impulsant el progrés en el desenvolupament i el desplegament de la majoria de les tecnologies avançades de parla i llenguatge a través dels seus serveis digitals. Al mateix temps, el projecte busca fer una contribució significativa a la creixent comunitat de recerca Federada LLM, reforçant la reputació de Telefónica com a líder en IA multilingüe i conscient de la privacitat. Aquest treball també estarà estretament alineat amb el Projecte ELOQUENCE (GA 101135916), finançat per la UE, coordinat per Telefónica, donant suport als seus objectius i fomentant una col·laboració més profunda amb socis acadèmics i industrials de tot Europa.



MÉS INFORMACIÓ

Si t’interessa l’oferta, omple el pdf amb les teves dades i envia´l a doctorats.industrials.recerca@gencat.cat