Digital er nogle gange enorme mængder af data! Og disse data er blevet sproget i vores aktiviteter. For at få dem til at tale, må vi indsamle dem, formatere dem, analysere dem, konsolidere dem, opbevare dem, udbrede dem... Så mange operationer grupperet i det, der kaldes Big Data. I dag er Hadoop den vigtigste Big Data-platform. Bruges til lagring og behandling af enorme mængder data, denne software ramme og dens forskellige komponenter bruges af mange virksomheder til deres big data projekter. Hadoop er en open source softwareramme til lagring af data og lancering af applikationer på standard maskinklynger. Denne løsning giver massiv lagerplads til alle typer data, enorm processorkraft og evnen til at understøtte næsten ubegrænset mængde opgaver. Baseret på Java er denne ramme en del af Apache-projektet, sponsoreret af Apache Software Foundation. Efter det indledende F & U-arbejde fandt vi ud af, at der findes tre store big data-arkitekturfamilier: Data Lake arkitektur "lambda" arkitektur Kappa type arkitektur... Hver af disse arkitekturer reagerer på specifikke business use cases og forskellige teknologiske låse. Inden for Soyhuce arbejder vi meget med emnerne "datalake" arkitektur. Vi imødekommer en stor efterspørgsel omkring realtidsproblemer, som vi løser ved at foretage forespørgselsoptimering og brug af overdimensioneret infrastruktur. Med henblik på at mestre nye teknologier samt effekten af kulstofbalancen i vores arbejde ønsker vi at studere lambda-lignende arkitekturer, der er tilpasset denne type problem.