Descripció del projecte
A partir del 2014, la visió per computador va donar un gran salt gràcies a la intel·ligència artificial, concretament gràcies a les xarxes generatives. A partir d’un conjunt de dades d’entrenament, aquestes xarxes generatives son capaces de generar noves dades amb característiques molt semblants a les dades d’entrenament. Consten de dos models que competeixen entre si, un generador encarregat de crear noves dades i un discriminador responsable de decidir si les noves dades son semblants a les dades d’entrenament.
Des d’aquell canvi de paradigma les xarxes generatives han anat millorant fins al punt de poder generar imatges a partir de text mitjançant els anomenats models de difusió [1]. Aquests models en diferència a les xarxes generatives son capaces de generar imatges en funció d’una frase o un text, utilitzant aquest com a condició.
Des de Mobile Biometrics creiem que aquesta tecnologia té potencial per a múltiples aplicacions oferint així diferents serveis que poden tenir un impacte a la societat. Tot i que aquests models de difusió estan revolucionant el món de la generació d’imatges gràcies a la introducció de text, a Mobile Biometrics pensem que descriure el contingut d’una imatge a partir de text pot ser limitant pel nivell de detall que es necessita en algunes aplicacions. A mode d’exemple, si vulguéssim generar una sala d’estar, podríem detallar la taula perfectament, però ens resultaria complicat descriure la posició de les finestres o la seva col·locació dins del espai. En contra, si utilitzéssim una imatge per marcar la localització ho podríem fer de manera molt més precisa.
El principal objectiu del projecte és aconseguir condicionar aquests models de difusió, mitjançant imatges com a marcadors, per a que conjuntament amb el text siguem capaços de generar imatges d’espais interiors. Les imatges s’utilitzaran per poder indicar de forma precisa la localització del objectes i els elements estructurals, com podríen ser les finestres, mentre que el text s’utilitzarà per definir quin tipus d’habitació volem generar i l’estil d’aquest espai.
El projecte es pot dividir en diferents fases: 1) l’estudi de les limitacions a causa de la utilització del text per la generació d’espais interiors; 2) el diseny d’un sistema capaç d’entendre imatges com a marcadors per obeir la posició de certs objectes; 3) explorar si a través d’imatges, es pot codificar altres característiques apart de la localització dels objectes en aquests models de difusió; 4) aconseguir unir text i imatge en únic model de difusió capaç de generar imatges amb les característiques que especifiquem.
Amb aquest projecte s’espera poder desenvolupar una IP que doni peu crear un producte o un avenç tecnològic competitiu per poder augmentar les ventes. A nivell docent creiem que aquest camp de investigació esta encara per explorar i per tant esperem poder realitzar múltiples publicacions a conferencies o revistes d’alt nivell específiques d’aquest camp com el CVPR [2].
[1] Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems, 33, 6840-6851. [2] CVPR, Computer Vision and Pattern Recognition Conference 2022, accedit al setembre del 2022, <https://cvpr2022.thecvf.com>