
Nakon održanog petog SPARK Meetup-a Marko Štajcer, direktor odjela Inovacije i razvoj napisao je odličan blog post “Od skladišta preko močvare do jezera podataka” .
Skladište podataka (eng. data warehouse, DWH) odavno je poznat pojam i svi koji su u doticaju s IT svijetom znaju što je to. U jednoj rečenici, DWH je centralni repozitorij podataka koji se unutar organizacije koristi za izvještavanje i analizu podataka, a sami podaci mogu biti integrirani iz više različitih sustava. Kada govorimo o skladištima podataka, govorimo o relacijskim, strukturiranim podacima. Pojavom Hadoopa i novih Big Data tehnologija dobili smo mogućnost analize znatno veće količine podataka u odnosu na tradicionalni DWH te mogućnost analize ne samo relacijskih, već i nestrukturiranih vrsta podataka. Pojavili su se i neki novi pojmovi vezani uz skladištenje podataka kao što su jezero podataka (eng. Data Lake) i razne varijacije na Data Lake, kao što su Managed Data Lake, Data Factory, Data Rafinery…
Članak u cijelosti možete pročitati na stranicama SPARKa!