Descripció del projecte
EHR és el tipus de dades que els especialistes mèdics introdueixen en cada interacció amb un pacient (visites, intervencions…) per a mantenir la informació mèdica disponible estructurada i accessible. Les dades d’EHR s’han utilitzat per a prediccions basades en Machine Learning (dosi, risc, cost del pacient . . . ) al llarg de l’última dècada especialment, pel que ara som bastant conscients del seu potencial i les seves limitacions. Les dades d’EHR ja ofereixen resultats prometedors en molts problemes de ML per a la salut, però encara topa amb fortes dificultats en alguns casos . Les més crítiques són: la naturalesa dispersa de les dades (molts esdeveniments i condicions possibles que sense un coneixement mèdic introduït a mà resulta en grans vectors d’entrada de lesmostres), la irregularitat temporal (com que els pacients no són monitoritzats contínuament, les mostres d’EHR són instantànies de l’estat del pacient en el temps concret de la visita) i les mostres absents (ja que el mostreig depèn de les visites que el pacient pren, pot haver-hi informació rellevant que els registres perdin) produïdes pel mostreig, la naturalesa opaca de les dades EHR (a causa de qüestions ètiques i legals, els proveidors de dades no són propensos a compartir les seves dades), l’heterogeneïtat dels pacients (diferents perfils de pacients habitualment referenciats per la literatura com a fenotips) i la baixa interpretabilitat dels models de Machine Learning. La recerca dels últims anys s’ha centrat en mitigar l’efecte d’aquestes limitacions.
En les tasques de predicció del risc un esdeveniment registrat a en EHR d’un pacient (diagnòstic, hospitalització, una condició lligada a un diagnòstic,…) serà predit a partir de dades EHR anteriors, i es troben dificultats pròpies a aquest problema com la dispersió i la diversitat de les sortides (sovint un problema demana predir una trajectòria del pacient d’una manera general o una col·lecció d’esdeveniments) o la necessitat de Multitask Learning (per al risc que succeeixi un esdeveniment en particular està demostrat que és beneficiósl’aprenentatge conjunt de patrons per a altres condicions).
Més concretament, treballarem en el camp de les complicacions de la diabetis, on els conjunts solen ser més limitats, ja que aquestes complicacions només s’estudien amb els pacients que coincideixen amb els criteris específics, i a més algunes complicacions rarament estan presents, produint un gran desequilibri en el conjunt d’entrenament (hi ha molts més pacients que no han desenvolupat aquesta condició que els que sí), del qual hi ha literatura però més relacionada amb problemes de Computer Vision (com predicció de retinopatia, utilitzant Data Augmentation) i no hi ha gaires avenços en aquest sentit per EHR. D’altra banda, els factors socials i genètics estan molt associats a aquestes complicacions, ampliant l’efecte dels fenotips abans esmentat. Tot això, construeix un escenari perfecte per aplicar metodologies que ajudin a la col·laboració entre tasques i fonts. En aquesta tesi s’abordaràn aquestes idees unint tecnologies ja existents, construint de nous processos i provant les solucions proposades. Es proposaràn solucions a escenaris on la predicció de certes complicacions implica la falta de dades i el desbalanceig d’aquestes, donada la falta de coneixement i/o la raresa d’aquestes compliacions. S’exploraran tècniques de Meta-Learning i Contrastive Learning per això. La tesi continuarà utilitzant eficientment la col3laboració de diferents fonts de dades mantenint la privacitat en la majoria de casos essencial en projectes que impliquen EHR, utilitzant tècniques de Meta-Learning i Federated Learning. Finalment, es preten utilitzar tècniques de Curriculum Learning sobre Meta-Learning per a fer un aprenentatge eficient de diferents fonts, incloent dades de wearable (constants vitals, …) per a construir un context del pacient. Per al projecte, disposem de més de 3 milions de mostres EHR de més de 75000 pacients diferents durant 10 anys, amb previsió d’ampliar bastant aquests números, incloent diagnòstics, procediments, dades farmacèutiques o dades geogràfiques entre d’altres. A nivell de dades competim amb el material que utilitzen en l’estat de l’art d’aquests problemes. Per acabar, en aquest projecte es compta amb el suport del grup de reserca de la Teoria de la Senyal de Comunicacions de la UPC, amb investigadors de tecnologies de Machine Learning entre altres, així com una empresa dedicada a la Intel·ligència Artificial en el camp de Health, amb múltiples especialistes en el tema i èines per a treballar amb aquest tipus de dades.