Descripció del projecte
Milestone Systems és líder mundial en tecnologia de vídeo basada en dades, oferint programari de gestió de vídeo d’última generació i analítiques avançades de videovigilància. La nostra missió és empènyer els límits del que el vídeo pot aconseguir, des de garantir la seguretat fins a permetre una presa de decisions més intel·ligent en entorns del món real. Col·laborem estretament amb institucions acadèmiques i organitzacions de recerca per impulsar la innovació en la intersecció de la intel·ligència artificial, la visió per ordinador i l’analítica de vídeo.
Els nostres clients solen operar un nombre considerable de càmeres i una o més sales de control on els operadors humans estan disponibles les 24 hores del dia per verificar o descartar les alarmes generades per l’analítica de vídeo integrada. La majoria d’aquestes alarmes són falsos positius, cosa que significa que els recursos humans es malgasten en acomiadar-los. Un dels enfocaments per a abordar aquest problema és el maneig jeràrquic d’alarma, on una cascada de models, de simple a complex, s’utilitza per a reduir la falsa relació d’alarma mantenint una baixa taxa falsa negativa.
Aquest projecte de doctorat se centra en avançar en els fonaments teòrics i pràctics dels Models Multimodals de Gran Llengua (MLLM) i explorar el seu desplegament en entorns de videovigilància del món real com el model més avançat dins d’un marc de verificació d’alarmes. A més de reduir les falses alarmes, aquests models fundacionals també es poden utilitzar per al filtrat i la personalització d’alarmes segons els requisits de l’operador.
Els MLLM representen una de les direccions més prometedores en IA, permetent capacitats de conversa i raonament a través de múltiples modalitats d’entrada, principalment text, imatges i vídeo. No obstant això, el seu desplegament encara es veu obstaculitzat per diversos reptes importants:
– Raonament temporal i espacial: els MLLM actuals tenen una capacitat limitada per entendre la dinàmica d’objectes, les relacions i les dependències a llarg termini en el vídeo.
– Especificació de l’objecte i incitació visual: dificultat per identificar i raonar amb precisió sobre els objectes a través de marcs.
– Eficiència i escalabilitat: els MLLM són exigents computacionalment, requerint noves estratègies per a l’optimització de recursos en sistemes del món real.
L’objectiu final d’aquest projecte és desenvolupar noves metodologies que abordin aquestes limitacions, permetent la integració dels MLLM en sistemes de videovigilància industrial i millorant la seva aplicabilitat en el món real.
Com a estudiant de doctorat industrial, dissenyaràs, desenvoluparàs i implementaràs arquitectures avançades d’aprenentatge profund per al raonament multimodal, i exploraràs nous enfocaments per millorar la comprensió espacial i temporal en els MLLM basats en vídeo, alhora que abordaràs l’eficiència i l’escalabilitat per al desplegament en entorns de producció.
Els resultats esperats inclouen: el desenvolupament de noves metodologies per millorar el rendiment dels MLLM; la publicació d’articles de recerca en conferències i revistes líders; la implementació d’aquestes metodologies en entorns industrials; i la creació de noves patents.
Aquesta posició ofereix l’oportunitat de crear un impacte directe en el sector industrial a través d’aplicacions del món real, de publicar articles científics i d’adquirir experiència en una col·laboració única entre la indústria i el món acadèmic.