Resumen del proyecto

Advanced Statistics and Data Science 2: New data, new models, new challenges

En este siglo la Estadística ha asistido a notables cambios tecnológicos y científicos. En primer lugar, han proliferado nuevos tipos de datos (incluidos los Big Data) que, aparte del gran volumen, presentan otros desafíos que los distinguen de datos tabulares tradicionales. En particular, cada vez son más habituales los datos provenientes de dispositivos portátiles (monitoreo continuo de la salud, relojes inteligentes o teléfonos móviles que generan automáticamente datos continuos dependientes del tiempo), de electroencefalogramas (EEG, registrados como largas series temporales multivariantes con dependencia espacial entre componentes) o de grafos (redes sociales, redes bibliográficas).

En segundo lugar, ha surgido la Ciencia de Datos, a caballo entre las Matemáticas, la Informática y la Estadística, cuyo objetivo es extraer información de los datos. Aunque la Estadística comparte este objetivo, el término Ciencia de Datos se asocia a conceptos y técnicas desarrolladas fuera de la Estadística: aprendizaje automático (redes neuronales, random forests), aprendizaje profundo (redes convolucionales o recurrentes), Inteligencia Artificial (IA). En particular, la reciente aparición de herramientas de IA generativa, como ChatGPT, muestra claramente que la IA presenta tanto oportunidades como desafíos éticos, incluidas la transparencia y la explicabilidad de los modelos predictivos algorítmicos. Durante los últimos 15 años se ha desarrollado una poderosa línea de investigación en torno al Aprendizaje Automático Interpretable (IML), también conocido como IA eXplicable (XAI).

El principal objetivo de este proyecto es abordar los retos que plantean los nuevos conjuntos de datos (cada vez más grandes y complejos) y las nuevas formas de analizarlos (más flexibles, pero menos transparentes que las técnicas estadísticas tradicionales). Planeamos seguir cinco líneas de investigación:

(1) Nuevas direcciones en interpretabilidad y explicabilidad de modelos predictivos. Nuestro primer objetivo es la identificación automática de grupos de variables explicativas conjuntamente relevantes en un modelo de predicción. También introduciremos la interpretabilidad en la regresión funcional. Finalmente, ampliaremos los métodos de interpretabilidad en el análisis de series temporales mediante redes recurrentes.

(2) Datos de dispositivos portátiles: Un enfoque de análisis de datos funcionales. Extenderemos la estimación mediante verosimilitud local lineal al modelo Beta con dos parámetros funcionales, permitiendo la posibilidad de que haya efectos mixtos.

(3) Datos de EEG: Contribuciones del análisis de datos funcionales y del IML. Describir los EEG como datos funcionales permitirá nuevas formas de análisis. Presentaremos métodos de interpretabilidad de las herramientas de aprendizaje profundo usadas en EEG. Finalmente, recogeremos datos experimentales de EEG para probar los métodos desarrollados.

(4) Datos provenientes de grafos: Predicción y modelización Bayesiana. La distribución de grados en un grafo se ajusta bien mediante generalizaciones de la distribución Zipf. Estudiaremos el papel de estas distribuciones en los problemas de predicción y previsión que surgen en el estudio de grafos.

(5) Métodos de reducción de dimensionalidad no lineal para Big Data. En este problema los enfoques basados en distancias tienen restricciones de memoria y de tiempo de cómputo, que intentaremos eliminar. También exploraremos versiones de ellos de tipo autoencoder.