Digitāls dažreiz ir milzīgs datu apjoms! Un šie dati ir kļuvuši par mūsu darbības valodu. Lai viņi runātu, mums tie jāvāc, jāformalizē, jāanalizē, jākonsolidē, jāuzglabā, jāizplata... Tik daudzas operācijas sagrupētas tā sauktajos lielajos datos. Šodien Hadoop ir galvenā lielo datu platforma. Šo programmatūras sistēmu un tās dažādos komponentus daudzi uzņēmumi izmanto lielu datu projektiem, lai uzglabātu un apstrādātu milzīgus datu apjomus. Hadoop ir atvērtā pirmkoda programmatūras ietvars datu glabāšanai un lietojumprogrammu palaišanai standarta mašīnu kopās. Šis risinājums piedāvā plašu uzglabāšanas vietu visu veidu datiem, milzīgu apstrādes jaudu un spēju atbalstīt praktiski neierobežotu uzdevumu apjomu. Balstoties uz Java, šis ietvars ir daļa no Apache projekta, ko sponsorē Apache Software Foundation. Pēc sākotnējā pētniecības un izstrādes darba mēs konstatējām, ka pastāv trīs lielo datu arhitektūras saimes: Datu ezera arhitektūra “lambda” arhitektūra Kappa tipa arhitektūra... Katra no šīm arhitektūrām atbilst konkrētiem biznesa izmantošanas gadījumiem un dažādām tehnoloģiskām slēdzenēm. Soyhuce ietvaros mēs daudz strādājam pie “datalake” arhitektūras tēmām. Mēs apmierinām augstu pieprasījumu par reālā laika problēmām, kuras mēs atrisinām, veicot vaicājumu optimizāciju un izmantojot pārāk lielu infrastruktūru. Lai apgūtu jaunās tehnoloģijas, kā arī mūsu darba oglekļa līdzsvara ietekmi, mēs vēlamies izpētīt lambda tipa arhitektūru, kas pielāgota šāda veida problēmai.