06 Feb La Fundación Matrix participa con aplicaciones para Big Data de tipo geoespacial en el proyecto CloudButton

PROGRAMA ‘HORIZON 2020’

La Fundación Matrix participa con aplicaciones para Big Data de tipo geoespacial en el proyecto CloudButton

 

El Programa Marco de Investigación e Innovación de la Unión Europea Horizonte 2020 ha subvencionado el proyecto CloudButton, iniciado en 2019.  Su objetivo es crear una plataforma innovadora de gestión y tratamiento de grandes volúmenes de datos (Big Data) en la nube para diferentes aplicaciones. La Fundación Matrix, Investigación y Desarrollo Sostenible es uno de los 10 participantes y contribuirá con experimentos demostrativos de alto valor añadido para validar esta plataforma de software de referencia en el ámbito de las tecnologías de la información y las comunicaciones.

 

Una de las prioridades de Horizon 2020 es promover el liderazgo en los ámbitos de las tecnologías de la información y las comunicaciones (TIC), mediante desarrollo de innovaciones vanguardistas. La finalidad es acelerar la innovación, transformando el conocimiento generado para potenciar los productos, servicios y mercados existentes, así como para crear otros nuevos, procurando soluciones para los retos de la sociedad. Estas soluciones deben ser competitivas y satisfacer las demandas de los usuarios europeos.

Naciones Unidas destaca el interés de las aplicaciones del tratamiento de macrodatos o grandes y complejos volúmenes de datos (Big Data) de interés para el seguimiento y evaluación de políticas, programas y actividades relacionadas con los objetivos de desarrollo sostenible. Destaca las tecnologías aplicadas a datos geoespaciales de interés ambiental, para obtener indicadores territoriales de la disponibilidad de agua, cambio climático, energía, evaluación de riesgos, o incluso la producción agrícola y la pobreza de la población, entre otras.

 

Procesamiento de datos en la nube

El nombre del proyecto CloudButton se inspira en una pregunta de un profesor de la Universidad de California-Berkeley: “¿Por qué no hay un botón de nube?”. Este profesor explicaba que sus estudiantes desearían simplemente pulsar un botón y, disponiendo de un código (lenguaje informático) ya optimizado, ejecutarlo en la nube. La finalidad del proyecto CloudButton es simplemente conseguir que procesar Big Data en la nube sea tan fácil como presionar un botón.

Precisamente, el creciente volumen de datos masivos de diversas fuentes supone un desafío para extraer un conocimiento valioso y con valor comercial. Requiere nuevos paradigmas de ingeniería, enfoques y métodos de gestión y tratamiento de datos. La Iniciativa Nube Europea (European Cloud Initiative) proporcionará a la ciencia, la industria y las autoridades públicas europeas una infraestructura de datos de categoría mundial para almacenar y administrar grandes volúmenes de datos, conectividad de alta velocidad, ordenadores de alto rendimiento cada vez más potentes para procesar datos y prestar servicios en la nube.

Dicha iniciativa facilitará a los investigadores, las empresas y las Administraciones Públicas la posibilidad de aprovechar al máximo los beneficios derivados de los Big Data. Compartir y reutilizar entre instituciones y disciplinas de investigación, y que los datos de investigación estén disponibles de forma abierta, puede impulsar la competitividad de Europa, especialmente para las nuevas empresas, pymes y empresas que pueden usar los datos como base para la I+D y la innovación, entre otros fines.

Las aplicaciones de Big Data son considerablemente más complejas que las aplicaciones normales (desktop), necesitan tecnologías específicas. La mayoría del software científico y analítico no está escrito por informáticos, sino por científicos, y otros expertos. Usan lenguajes de programación como Python, Java o R y carecen de conocimientos propios de los desarrolladores informáticos e ingenieros de datos. Entre otros, los siguientes: computación distribuida, ejecución de aplicaciones en forma de funciones de nube, procesamiento de funciones o datos en paralelo, tecnologías de virtualización y contenedor en la nube, tecnologías sin servidor (serverless), y otras habilidades complejas de gestión de recursos y de implementación.

Así, cualquier usuario simplemente requeriría un botón de nube para pulsar y mover su código a la nube de una forma fácil. Un objetivo clave es aprovechar este código y ejecutarlo en paralelo, explotando la elasticidad de recursos en la nube para manejar datos masivos. Esta transición simplificaría los costes de tratamiento de Big Data, trasladando los problemas a la nube.

La tecnología serverless en el proyecto CloudButton pretende usar un número variable y adaptable de procesadores (equipos informáticos o hardware). Variable porque no necesita una cantidad fija de ellos entrando en acción, y adaptable porque se adaptarán a las necesidades de cada situación. La paralelización es una programación consistente en adaptar un código secuencial, que usa solo un procesador, a un código paralelo, que usa varios procesadores al mismo tiempo. Sin embargo, en algunas situaciones un código secuencial no se puede convertir en paralelo o no es conveniente hacerlo.

 

Consorcio transdisciplinar internacional

El proyecto CloudButton está liderado y coordinado por el Grupo de investigación de Computación Distribuida y en la Nube de la Universitat Rovira i Virgili (Tarragona). Otras dos universidades participantes son Imperial College London (Reino Unido) e Institut Mines-Télécom (Francia). Tres relevantes compañías tecnológicas internacionales aportan su experiencia: el mayor laboratorio de investigación industrial de IBM fuera Estados Unidos, (Israel), Red Hat (Irlanda) y Atos España. La interacción de diferentes disciplinas científicas y tecnológicas es clave. Para evaluar la productividad y escalabilidad se realizarán ‘experimentos’ con tres tipos de aplicaciones, dos de Biología Molecular (Genómica, Metabolómica) y otra de Geomática (ciencia y tecnología geoespacial).

El área de Genómica será liderado por The Pirbright Institute (Reino Unido), un centro del Consejo de Investigación de Biotecnología y Ciencias Biológicas del Gobierno del Reino Unido especializado en la investigación de enfermedades infecciosas de animales de granja. Usa Big Data derivados de la secuenciación del genoma de virus patógenos o conjuntos de datos biológicos masivos relacionados con células hospedadoras y resistencia a enfermedades, entre otros usados en Bioinformática.

En el área de Metabolómica participará el Laboratorio Europeo de Biología Molecular (European Molecular Biology Laboratory, EMBL), con sede central en Alemania y financiado por 18 países europeos. La Metabolómica estudia los productos resultantes de procesos específicos del metabolismo, identificando el perfil de los metabolitos (moléculas pequeñas) de una célula, tejido u otras muestras biológicas. En concreto, el EMBL se centrará en la Metobolómica espacial, mapeando con una resolución espacial celular o subcelular la distribución de los metabolitos desde imágenes microscópicas procedentes de aplicación de técnicas de espectrometría de masas sin procesar o procesadas.

 

Datos geoespaciales

En cambio, a una escala macroscópica, dos participantes españoles, la Fundación Matrix y Answare, trabajarán con Big Data de tipo geoespacial (es decir, geolocalizada o con coordenadas geográficas). Para ello usará aplicaciones. Usarán aplicaciones a territorios caracterizados por datos de reflectancia obtenidos por teledetección. Para llegar a este fin, ensayarán aplicaciones a diferentes escalas espaciales, desde una escala local o de paisaje a otra relativa a todo el territorio peninsular español, pasando por escalas intermedias o de tipo sub-regional.

La Fundación Matrix, en el marco del Programa de Investigación Ecológica y Territorial (PIET), cuenta con amplia experiencia en uso de datos de teledetección (activa y pasiva), climáticos y otros para diferentes aplicaciones que incluyen cartografía temática automática, modelización 3D de la vegetación y modelos espaciales de cambio climático. Answare es una empresa de ingeniería y consultoría en TIC especializada en productos, servicios y proyectos de I+D innovadores, que incluyen aplicaciones de realidad virtual, plataformas tecnológicas de comunicación relacionadas con la salud o internet de las cosas, entre otras. Es una de las pymes españolas más activas a nivel nacional y europeo en foros de I+D.

Para la validación del Proyecto CloudButton se desarrollarán tres experimentos con datos geoespaciales con peculiares necesidades computacionales. Se realizará una cartografía de alta resolución de la cobertura del suelo o distribución de unidades espaciales de paisaje de la España peninsular. Usará imágenes del satélite Sentinel-2 de la Agencia Espacial Europea, y diferentes técnicas de segmentación y clasificación. Para cubrir este territorio, y considerando una imagen por mes, se necesita al menos 1 TB de almacenamiento. Para optimizar los resultados se considerarán, además, datos LiDAR del Plan Nacional de Ortofotografía Aérea (PNOA), alrededor de 4 TB. En conjunto 5 TB de datos para procesar, sin contar con los procesos intermedios.

Otro experimento evaluará el riesgo de incendios forestales en algunos espacios naturales protegidos y territorios menos extensos que en el caso anterior (escala sub-regional), aunque usará parte de los datos y resultados extraídos del mismo. En este caso se requiere de modelización del combustible forestal (biomasa), probabilidad de ignición y una estimación espacialmente explícita del riesgo de incendio. La modelización es un proceso que puede llegar a ser muy exigente computacionalmente. De las tres fases de una modelización (entrenamiento del algoritmo, predicción espacial y validación de los resultados), el entrenamiento es la principal fuente de estas necesidades computacionales. La predicción también puede serlo según el número de variables usadas.

Finalmente, la tercera aplicación será estimar la huella hídrica de cultivos agrícolas de regadío a nivel regional y sub-regional en áreas representativas de España mediterránea. Requerirá un notable volumen de datos y necesidades de procesamiento. Se usarán algunos resultados previos y se mapeará con alta resolución espacial el índice de vegetación de diferencia normalizada (NDVI), u otros índices afines, estimado durante la estación de crecimiento, y derivado de una serie temporal de imágenes Sentinel-2. El NDVI permite discriminar espacialmente tipos de vegetación, y también su estado ecofisiológico asociado al uso o consumo de agua. La información del Sistema Nacional de Información Geográfica de Parcelas Agrícolas (SIGPAC) y medidas correctoras permitirá obtener diferentes estimaciones del uso del agua en cultivos de regadío.

Los experimentos evaluarán el rendimiento o productividad de la ejecución de los procesos en la nube y la ‘escalabilidad’, una propiedad que en Informática se refiere a la flexibilidad adaptativa en cargas de trabajo y su independencia del número o localización de los usuarios.

Este proyecto ha recibido financiación del Programa de Investigación e Innovación de la Unión Europea Horizonte 2020 en virtud del acuerdo de subvención nº 825184.

Sin Comentarios

Publica un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, clicar el enlace para mayor información.

ACEPTAR
Aviso de cookies