„Data Lake“ ir „Data Warehouse“: koks skirtumas?

Turinys:

Anonim

Šioje pamokoje apie skirtumą tarp duomenų ežero ir duomenų sandėlio aptarsime pagrindinius duomenų sandėlio ir duomenų ežero skirtumus. Tačiau prieš aptardami skirtumą, pirmiausia sužinokime „Kas yra duomenų saugykla?“.

Kas yra duomenų saugykla?

„Data Warehouse“ yra strateginių duomenų naudojimo technologijų ir komponentų mišinys. Ji renka ir tvarko duomenis iš įvairių šaltinių, kad suteiktų prasmingos verslo įžvalgos. Tai elektroninis didelio kiekio informacijos, skirtos užklausoms ir analizei, o ne operacijų apdorojimui, saugojimas. Tai yra duomenų transformavimo į informaciją procesas.

Kas yra „Data Lake“?

Data Lake“ yra saugyklos saugykla, kurioje galima laikyti daug struktūrizuotų, pusiau struktūrizuotų ir nestruktūrizuotų duomenų. Tai vieta, kur galima saugoti visų tipų duomenis natūraliu formatu, be jokių apribojimų paskyros dydžiui ar failui. Jis siūlo didelį duomenų kiekį, kad padidėtų analizės efektyvumas ir natūrali integracija.

Data ežeras yra tarsi didelis konteineris, labai panašus į tikrąjį ežerą ir upes. Kaip ir ežere, taip pat turi kelis intakus; panašiai, duomenų ežere yra struktūrizuoti duomenys, nestruktūrizuoti duomenys, mašinos iš mašinos, žurnalai, tekantys realiu laiku.

Duomenų sandėlio koncepcija:

Duomenų sandėlis saugo duomenis rinkmenose ar aplankuose, kurie padeda tvarkyti ir naudoti duomenis priimant strateginius sprendimus. Ši saugojimo sistema taip pat suteikia daugialypį vaizdą apie atominius ir suvestinius duomenis. Svarbios funkcijos, reikalingos atlikti:

  1. Duomenų ištraukimas
  2. Duomenų valymas
  3. Duomenų transformavimas
  4. Duomenų įkėlimas ir atnaujinimas

Tada sužinosime pagrindinį skirtumą tarp „Azure“ duomenų ežero ir duomenų saugyklos.

PAGRINDINIAI SKIRTUMAI

  • „Data Lake“ saugo visus duomenis, neatsižvelgiant į šaltinį ir jo struktūrą, o „Data Warehouse“ duomenis su jų atributais laiko kiekybine metrika.
  • „Data Lake“ yra saugykla, kurioje saugomi didžiuliai struktūrizuoti, pusiau struktūrizuoti ir nestruktūruoti duomenys, o „Data Warehouse“ derinamos technologijos ir komponentai, leidžiantys strategiškai naudoti duomenis.
  • „Data Lake“ schemą apibrėžia po to, kai duomenys yra saugomi, o „Data Warehouse“ - schemą - prieš saugant duomenis.
  • „Data Lake“ naudoja ELT („Extract Load Transform“) procesą, o „Data Warehouse“ - „ETL“ („Extract Transform Load“) procesą.
  • Lyginant „Data lake“ ir „Warehouse“, „Data Lake“ yra idealus tiems, kurie nori išsamios analizės, o „Data Warehouse“ - operatyviems vartotojams.

„Data Lake“ koncepcija:

Duomenų ežeras yra didelio dydžio saugykla, kurioje laikoma daug neapdorotų duomenų originaliu formatu, kol to reikia. Kiekvienam duomenų ežero duomenų elementui suteikiamas unikalus identifikatorius ir žymimas išplėstinių metaduomenų žymų rinkiniu. Jis siūlo daugybę analizės galimybių.

Pagrindinis duomenų ežero ir duomenų saugyklos skirtumas

Skirtumas tarp „Data Lake“ ir „Data Warehouse“

Čia yra pagrindiniai duomenų ežerų ir duomenų saugyklos skirtumai:

Parametrai Duomenų ežeras Duomenų saugyklos
Sandėliavimas Duomenų ežere visi duomenys saugomi nepriklausomai nuo šaltinio ir jo struktūros. Duomenys saugomi neapdorotos formos. Jis transformuojamas tik tada, kai yra paruoštas naudoti. Duomenų saugyklą sudarys duomenys, gauti iš operacijų sistemų, arba duomenys, kuriuos sudaro kiekybinė metrika su jų atributais. Duomenys išvalomi ir transformuojami
Istorija Duomenų ežeruose naudojamos didžiųjų duomenų technologijos yra palyginti naujos. Duomenų sandėlio koncepcija, skirtingai nuo didžiųjų duomenų, buvo naudojama dešimtmečius.
Duomenų fiksavimas Fiksuoja visų rūšių duomenis ir struktūras, pusiau struktūrizuotus ir nestruktūruotus jų originalia forma iš šaltinių sistemų. Fiksuoja struktūrizuotą informaciją ir tvarko ją schemose, kaip apibrėžta duomenų saugyklos tikslais
Duomenų laiko juosta Duomenų ežerai gali išsaugoti visus duomenis. Tai apima ne tik naudojamus duomenis, bet ir duomenis, kuriuos jie gali naudoti ateityje. Be to, duomenys saugomi visą laiką, norint grįžti į praeitį ir atlikti analizę. Duomenų sandėlio kūrimo procese daug laiko skiriama įvairių duomenų šaltinių analizei.
Vartotojai Duomenų ežeras yra idealus tiems vartotojams, kurie užsiima nuodugnia analize. Tarp tokių vartotojų yra duomenų mokslininkai, kuriems reikalingos pažangios analitinės priemonės, turinčios tokių galimybių kaip nuspėjamasis modeliavimas ir statistinė analizė. Duomenų sandėlis yra idealus operatyviems vartotojams, nes yra gerai struktūrizuotas, lengvai naudojamas ir suprantamas.
Sandėliavimo išlaidos Duomenų kaupimas didžiųjų duomenų technologijose yra palyginti nebrangus, tada duomenis saugoti duomenų saugykloje. Duomenų saugojimas duomenų saugykloje kainuoja brangiau ir užima daug laiko.
Užduotis Duomenų ežeruose gali būti visi duomenys ir duomenų tipai; tai suteikia vartotojams prieigą prie duomenų prieš pertvarkomą, išvalytą ir struktūrizuotą procesą. Duomenų saugyklos gali pateikti įžvalgų apie iš anksto nustatytus iš anksto apibrėžtų duomenų tipų klausimus.
Apdorojimo laikas Duomenų lakai suteikia vartotojams prieigą prie duomenų, kol jie dar nebuvo transformuoti, išvalyti ir struktūrizuoti. Taigi tai leidžia vartotojams greičiau pasiekti savo rezultatą, palyginti su tradiciniu duomenų sandėliu. Duomenų sandėliai siūlo iš anksto apibrėžtų duomenų tipų įžvalgų. Taigi, bet kokiems duomenų saugyklos pakeitimams prireikė daugiau laiko.
Schemos pozicija Paprastai schema apibrėžiama po duomenų saugojimo. Tai suteikia didelį lankstumą ir lengvą duomenų užfiksavimą, tačiau proceso pabaigoje reikia dirbti Paprastai schema apibrėžiama prieš saugant duomenis. Reikalingas darbas proceso pradžioje, tačiau siūlo našumą, saugumą ir integraciją.
Duomenų apdorojimas „Data Lakes“ naudoja ELT („Extract Load Transform“) procesą. Duomenų sandėlyje naudojamas tradicinis ETL (Extract Transform Load) procesas.
Reikšti nepasitenkinimą Duomenys saugomi neapdorotos formos. Jis transformuojamas tik tada, kai yra paruoštas naudoti. Pagrindinis skundas dėl duomenų saugyklų yra nesugebėjimas arba problema, su kuria susiduriama bandant jose pasikeisti.
Pagrindiniai privalumai Jie integruoja skirtingų tipų duomenis ir pateikia visiškai naujus klausimus, nes šie vartotojai greičiausiai nenaudos duomenų sandėlių, nes jiems gali tekti peržengti jo galimybes. Dauguma organizacijos vartotojų veikia. Šio tipo vartotojams rūpi tik ataskaitos ir pagrindinė našumo metrika.