Descripció del projecte
XProtect és un software de gestió de vídeo de la companyia Milestone Systems. Es tracta d’una plataforma de videovigilància que permet als usuaris gestionar, visualitzar i emmagatzemar les imatges de les càmeres de seguretat connectades al sistema. A més, ofereix funcionalitats avançades com ara l’anàlisi de vídeo, la detecció de moviment i altres eines per millorar la seguretat i la gestió dels sistemes de vigilància.
Els nostres clients que tenen un nombre considerable de càmeres connectades a XProtect, i solen tenir una o més sales de control, en funció del nombre de càmeres, on hi ha operadors humans disponibles les 24 hores per verificar o rebutjar les alarmes generades per l’anàlisi de vídeo integrat. La majoria d’aquestes alarmes són falsos positius, la qual cosa significa que els recursos humans es malgasten en rebutjar alarmes falses.
Aquest projecte pretén estudiar i desplegar una jerarquia de models d’anàlisi, des de simples fins a complexos, on el model simple, que requereix menys potència de càlcul, es troba al límit (al propi dispositiu de vigilància), i el model d’anàlisi complex, que requereix més potència de càlcul, es troba en un servidor d’anàlisi potent dedicat o al núvol. La idea és deixar espai per a més falsos positius, però no per a falsos negatius, amb el model simple al límit, i després el model potent ha de filtrar aquests falsos positius i només passar un nombre molt limitat d’alarmes als operadors humans per a la verificació final.
Particularment, proposem utilitzar un gran model de llenguatge de visió com a model potent que pugui filtrar els falsos positius generats per l’anàlisi simple que es troba al límit o en altres servidors d’anàlisi menys complexos. Pretenem utilitzar la informació contextual disponible en el programari XProtect per a promptar adequadament el gran model de llenguatge de visió. Promptar adequadament aquests models és crític per al seu rendiment óptim. Normalment, aquests models són promptats per frases com “Descriu el que veus en aquesta imatge?” o “Hi ha alguna anomalia en l’escena?” Llavors, cal processar la resposta (ja sigui automàticament o manualment) i idear més prompts per concloure si hi ha necessitat d’una acció o no, de manera iterativa. L’enginyeria de prompts pot ser molt diferent d’una configuració a una altra.
En definitiva, l’objectiu és millorar l’eficàcia i l’eficiència del sistema de vigilància, reduint el nombre final de falsos positius i augmentant la precisó en la detecció d’esdeveniments rellevants.