¡Lo digital es a veces enormes volúmenes de datos! Y estos datos se han convertido en el lenguaje de nuestras actividades. Para hacerlos hablar, debemos recogerlos, formatearlos, analizarlos, consolidarlos, almacenarlos, difundirlos... Tantas operaciones agrupadas en lo que se llama Big Data. Hoy en día, Hadoop es la principal plataforma de Big Data. Utilizado para el almacenamiento y procesamiento de grandes volúmenes de datos, este marco de software y sus diversos componentes son utilizados por muchas empresas para sus proyectos de big data. Hadoop es un marco de software de código abierto para almacenar datos y lanzar aplicaciones en clústeres de máquinas estándar. Esta solución ofrece un espacio de almacenamiento masivo para todo tipo de datos, una inmensa potencia de procesamiento y la capacidad de soportar una cantidad prácticamente ilimitada de tareas. Basado en Java, este framework es parte del proyecto Apache, patrocinado por Apache Software Foundation. Tras el trabajo inicial de I+D, encontramos que existen tres grandes familias de arquitectura de big data: Data Lake arquitectura «lambda» arquitectura tipo Kappa... Cada una de estas arquitecturas responde a casos de uso empresarial específicos y a diferentes cerraduras tecnológicas. Dentro de Soyhuce, trabajamos mucho en los temas de la arquitectura «datalake». Satisfacemos una gran demanda en torno a problemas en tiempo real, que resolvemos mediante la optimización de consultas y el uso de infraestructuras de gran tamaño. Con el objetivo de dominar las nuevas tecnologías, así como el impacto del balance de carbono de nuestro trabajo, queremos estudiar arquitecturas tipo lambda que se adapten a este tipo de problemas.