Descripció del projecte

Desde hace unos años la industria, comenzando por las empresas más grandes, se está dotando de infraestructuras Big Data para aplicarlas a aumentar el rendimiento de su negocio mediante el conocimiento que puede proporcionar la explotación de los propios datos. Este es el caso de los bancos, que disponen de un amplio historial de la actividad de sus clientes. También es el caso de las empresas eléctricas y gasistas, que a la información histórica de sus clientes pueden añadir ahora las curvas de consumo captadas por los contadores inteligentes cuya instalación se está desplegando actualmente en España. Otros sectores como Salud, Telecomunicaciones o Retail también se están dotando de capacidades Big Data.

Para transformar los datos en un conocimiento que sea diferencial respecto al obtenible con los métodos tradicionales, es preciso realizar análisis complejos para Big Data. Para ello es necesario sumar al hardware y datos disponibles en las empresas tanto el enfoque estadístico, como los métodos algorítmicos adecuados más avanzados y las personas capacitadas para aplicarlos. En Kaggle (una de las web de referencia de los “data scientist”) es posible ver, por ejemplo, competiciones para la modelización de datos con un objetivo predictivo relacionadas tanto con física como con diversos casos de negocio. En las competiciones relacionadas con la física, como son “Higgs Boson Machine Learning Challenge” y “Flavours of Physics: Finding τ → μμμ” es posible ver cómo los mejores modelos predictivos se basan en la unión de dos ingredientes: un buen y sofisticado método algorítmico de aprendizaje automático (por ejemplo “gradient boosted machines”) y una buena compresión de los fenómenos subyacentes al problema, en particular empleando métodos estadísticos junto con conocimientos de física para que el método pueda alcanzar el mejor rendimiento posible.

Dentro dichos problemas industriales concretos es posible citar, entre otros ‘Selección de targets en campañas de marketing’, ‘Scoring de riesgo’ y ‘Pricing de productos’ en el caso del sector bancario. En el sector energético, algunos casos son ‘Modelos de red emergentes de la dinámica de transmisión’, ‘Detección de fraude/mermas’ y ‘tarifas óptimas para el cliente’. En la actualidad muchos de estos problemas se abordan utilizando estadística Bayesiana. Como resultado de este proyecto de investigación se pretende obtener un conjunto de algoritmos de aprendizaje automático junto a las metodologías de uso en su aplicación a una amplia diversidad de casos que se irán seleccionando a lo largo del proyecto. Esta investigación pondrá de manifiesto el estado del arte de este tipo de análisis que posteriormente desde la empresa se explotará en el desarrollo de proyectos con sus clientes.

La física de partículas requiere de herramientas de análisis estadístico cada vez más complejas. Estas necesidades han supuesto un incremento considerable en el uso de computación masiva. El caso del experimento T2K no es indiferente a esta tendencia. T2K es un experimento de oscilaciones de neutrinos situado en Japón que envía un haz de neutrinos desde la costa este del país al norte de Tokio hasta el detector SuperKamiokande situado en la costa oeste de la isla tras 300 km de vuelo a través de la tierra. El haz de neutrinos se mide en un detector cercano al punto de producción de los mismos. En este punto, se miden simultáneamente el flujo y las propiedades de las interacciones de neutrinos con núcleos. Estos parámetros se usan como base para la medida de los espectros de energía del detector lejano. De la distorsión del espectro de energía se pueden derivar los parámetros de oscilación de los neutrinos. En este cálculo una gran cantidad de parámetros son medidos: parámetros que describen el flujo, las interacciones de neutrinos o las incertidumbres asociadas al proceso de medida. Estas incertidumbres tienen que tenerse en cuenta durante la medida de los parámetros de oscilación puesto que limitan la resolución con la que los podemos determinar. Esto implica en el caso de T2K el uso de unas 400 variables que debemos de variar durante el proceso de derivación de los parámetros fundamentales. Este proceso se suele tener en cuenta a través de métodos de Monte Carlo que nos permiten propagar las incertidumbres de los parámetros.

T2K ha sido pionero también en los últimos años en la utilización de técnicas de estadística bayesiana. Esta interpretación de la estadística tiene asociada intrínsecamente una manera más natural de interpretar los resultados obtenidos y de favorecer el intercambio de información entre experimentos o entre ellos y análisis teóricos de los resultados. En este sentido uno de los análisis oficiales de T2K se ha llevado a cabo usando técnicas de estadística bayesiana mediante el método de Markov Chain Monte Carlo. Esta metodología aunque ha sido ampliamente utilizada, requiere una gran cantidad de tiempo de cálculo de manera que no siempre es oportuna su aplicación. La propuesta de tesis doctoral tiene dos vertientes. Por un lado el análisis de este experimento desde una perspectiva estadística con vistas a una posible simplificación y/o formalización del proceso. Por el otro, la aplicación de nuevas metodologías como el INLA que usa una aproximación Laplace integrada en un tipo muy particular de modelos que sin embargo incluye la gran mayoría de los modelos con los que se trabaja habitualmente. Además no tiene problemas cuando se aplica con datos de alta dimensionalidad.