Kas yra „Data Lake“?
„Data Lake“ yra saugykla, kurioje galima saugoti daug struktūrizuotų, pusiau struktūrizuotų ir nestruktūruotų duomenų. Tai vieta, kur galima saugoti visų tipų duomenis natūraliu formatu, be jokių apribojimų paskyros dydžiui ar failui. Jis siūlo didelį duomenų kiekį, kad padidintų analizės našumą ir vietinę integraciją.
Data ežeras yra tarsi didelis konteineris, labai panašus į tikrąjį ežerą ir upes. Kaip ir ežere, į kurį įeina keli intakai, duomenų ežere yra struktūrizuoti duomenys, nestruktūruoti duomenys, mašinos iš mašinos, žurnalai, tekantys realiuoju laiku.
„Data Lake“ demokratizuoja duomenis ir yra ekonomiškas būdas saugoti visus organizacijos duomenis vėlesniam apdorojimui. Tyrimų analitikas gali sutelkti dėmesį į reikšmės modelių paiešką duomenyse, o ne pačiuose duomenyse.
Skirtingai nei hierarchinis „Dataware“ namas, kuriame duomenys saugomi failuose ir aplankuose, „Data lake“ yra plokščios architektūros. Kiekvienam duomenų ežero duomenų elementui suteikiamas unikalus identifikatorius ir žymimas metaduomenų informacijos rinkiniu.
Šioje pamokoje sužinosite
- Kas yra „Data Lake“?
- Kodėl „Data Lake“?
- Duomenų ežero architektūra
- Pagrindinės duomenų ežero sąvokos
- Duomenų ežero brandos stadijos
- Geriausia „Data Lake“ diegimo praktika:
- Skirtumas tarp duomenų ežerų ir duomenų saugyklos
- „Data Lake“ naudojimo pranašumai ir rizika:
Kodėl „Data Lake“?
Pagrindinis duomenų ežero kūrimo tikslas yra duomenų mokslininkams pateikti nerafinuotą duomenų vaizdą.
Duomenų ežero naudojimo priežastys yra šios:
- Atsiradus saugojimo varikliams, pvz., „Hadoop“, tapo lengva saugoti skirtingą informaciją. Nereikia modeliuoti duomenų į visos įmonės schemą su „Data Lake“.
- Didėjant duomenų kiekiui, duomenų kokybei ir metaduomenims, analizių kokybė taip pat didėja.
- „Data Lake“ siūlo verslo judrumą
- Mašininis mokymasis ir dirbtinis intelektas gali būti naudojami pelningoms prognozėms.
- Tai suteikia konkurencinį pranašumą įgyvendinančiai organizacijai.
- Nėra duomenų siloso struktūros. „Data Lake“ leidžia 360 laipsnių kampu matyti klientus ir daro analizę patikimesnę.
Duomenų ežero architektūra
Paveikslėlyje parodyta verslo duomenų ežero architektūra. Apatiniai lygiai atspindi duomenis, kurie dažniausiai būna ramybės būsenoje, o viršutiniai - realiuoju laiku atliekamus sandorių duomenis. Šie duomenys teka per sistemą be jokio vėlavimo ar visai ne. Toliau pateikiami svarbūs duomenų ežero architektūros lygiai:
- Nurijimo pakopa : kairėje pusėje esančios pakopos nurodo duomenų šaltinius. Duomenis į duomenų ežerą galima įkelti partijomis arba realiuoju laiku
- Įžvalgos pakopa: Dešinėje esančios pakopos atspindi tyrimo pusę, kurioje naudojamos sistemos įžvalgos. Duomenų analizei galima naudoti SQL, NoSQL užklausas ar net „Excel“.
- HDFS yra ekonomiškas sprendimas tiek struktūrizuotiems, tiek nestruktūrizuotiems duomenims. Tai yra nusistovėjimo zona visiems duomenims, kurie sistemoje yra ramybės būsenoje.
- Distiliavimo pakopa perima duomenis iš padangų, kurias reikia laikyti, ir paverčia juos struktūriniais duomenimis, kad būtų lengviau analizuoti.
- Apdorojant analizės algoritmus ir vartotojų užklausas su skirtingu realiuoju laiku, interaktyviais, paketais, sukuriami struktūrizuoti duomenys, kad būtų lengviau juos analizuoti.
- Vieningas operacijų lygis reguliuoja sistemos valdymą ir stebėjimą. Tai apima auditą ir kvalifikacijos valdymą, duomenų valdymą, darbo eigos valdymą.
Pagrindinės duomenų ežero sąvokos
Toliau pateikiamos pagrindinės duomenų ežero sąvokos, kurias reikia suprasti, norint visiškai suprasti duomenų ežero architektūrą
Duomenų perdavimas
Duomenų įrašymas leidžia jungtininkams gauti duomenis iš skirtingų duomenų šaltinių ir įkelti juos į duomenų ežerą.
Duomenų perdavimas palaiko:
- Visų tipų struktūriniai, pusiau struktūriniai ir nestruktūruoti duomenys.
- Keli suvartojimai, tokie kaip paketas, realusis laikas, vienkartinė apkrova.
- Daugybė duomenų šaltinių rūšių, pavyzdžiui, duomenų bazės, žiniatinklio serveriai, el. Laiškai, daiktų internetas ir FTP.
Duomenų saugykla
Duomenų saugojimas turėtų būti keičiamo dydžio, siūlyti ekonomiškai efektyvią saugyklą ir leisti greitai pasiekti duomenis. Jis turėtų palaikyti įvairius duomenų formatus.
Duomenų valdymas
Duomenų valdymas yra organizacijoje naudojamų duomenų prieinamumo, tinkamumo naudoti, saugumo ir vientisumo valdymo procesas.
Saugumas
Saugumas turi būti įdiegtas kiekviename duomenų ežero sluoksnyje. Tai prasideda nuo saugojimo, atkūrimo ir vartojimo. Pagrindinis poreikis yra sustabdyti prieigą neįgaliotiems vartotojams. Jis turėtų palaikyti įvairius įrankius, kad būtų galima pasiekti duomenis, lengvai valdant GUI ir informacijos suvestines.
Autentifikavimas, apskaita, autorizavimas ir duomenų apsauga yra keletas svarbių duomenų ežero saugumo ypatybių.
Duomenų kokybė:
Duomenų kokybė yra esminis duomenų ežero architektūros komponentas. Duomenys naudojami tikslinei verslo vertei nustatyti. Išgaunant įžvalgas iš prastos kokybės duomenų bus prastos kokybės įžvalgos.
Duomenų atradimas
Duomenų atradimas yra dar vienas svarbus etapas prieš pradedant ruošti duomenis ar analizę. Šiame etape duomenų žymėjimui išreikšti naudojama žymėjimo technika, organizuojant ir interpretuojant Duomenų ežere įvestus duomenis.
Duomenų auditas
Dvi pagrindinės duomenų audito užduotys yra pagrindinio duomenų rinkinio pokyčių stebėjimas.
- Svarbių duomenų rinkinio elementų pokyčių stebėjimas
- Fiksuoja, kaip / kada / ir kas keičia šiuos elementus.
Duomenų auditas padeda įvertinti riziką ir atitiktį.
Duomenų linija
Šis komponentas susijęs su duomenų kilme. Jame daugiausia kalbama apie tai, kur jis laikui bėgant juda ir kas su juo atsitinka. Tai palengvina klaidų taisymą duomenų analizės procese nuo pat pradžios iki paskirties.
Duomenų tyrimas
Tai yra duomenų analizės pradžios etapas. Tai padeda nustatyti tinkamą duomenų rinkinį prieš pradedant duomenų tyrimą.
Visi pateikti komponentai turi veikti kartu, kad jie galėtų atlikti svarbų vaidmenį statant Duomenų ežerą ir lengvai vystantis bei tyrinėjant aplinką.
Duomenų ežero brandos stadijos
Duomenų ežero brandos etapų apibrėžimas skiriasi vadovėliais. Nors esmė išlieka ta pati. Po brandos etapo apibrėžimas yra pasauliečių požiūriu.
1 etapas: tvarkykite ir suveskite duomenis masto
Šis pirmasis duomenų brandos etapas apima gebėjimą transformuoti ir analizuoti duomenis. Čia verslo savininkai turi rasti įrankius pagal savo įgūdžius, kad gautų daugiau duomenų ir kurtų analitines programas.
2 etapas: Analitinio raumens formavimas
Tai yra antrasis etapas, apimantis gebėjimo transformuoti ir analizuoti duomenis gerinimą. Šiame etape įmonės naudoja įrankį, kuris labiausiai tinka jų įgūdžiams. Jie pradeda kaupti daugiau duomenų ir kurti programas. Čia kartu naudojamos įmonės duomenų saugyklos ir duomenų ežero galimybės.
3 etapas: EDW ir „Data Lake“ veikia vieningai
Šis žingsnis apima duomenų ir analizės patekimą į kuo daugiau žmonių rankas. Šiame etape duomenų ežeras ir įmonės duomenų saugykla pradeda veikti sąjungoje. Abu atlieka savo vaidmenį analizėje
4 etapas: įmonės pajėgumai ežere
Šiame duomenų ežero brandos etape prie duomenų ežero pridedamos įmonės galimybės. Informacijos valdymo, informacijos gyvavimo ciklo valdymo galimybių ir metaduomenų valdymo priėmimas. Tačiau labai nedaug organizacijų gali pasiekti tokį brandos lygį, tačiau ateityje šis skaičius padidės.
Geriausia „Data Lake“ diegimo praktika:
- Architektūriniai komponentai, jų sąveika ir nustatyti produktai turėtų palaikyti vietinius duomenų tipus
- Duomenų ežero dizainą turėtų lemti tai, kas yra prieinama, o ne tai, ko reikia. Schema ir duomenų reikalavimas nėra apibrėžti, kol jų nebus užduota
- Projektavimas turėtų būti pagrįstas vienkartiniais komponentais, integruotais į paslaugų API.
- Duomenų atradimas, perėmimas, saugojimas, administravimas, kokybė, transformavimas ir vizualizavimas turėtų būti valdomi atskirai.
- „Data Lake“ architektūra turėtų būti pritaikyta konkrečiai pramonei. Ji turėtų užtikrinti, kad šiai sričiai būtinos galimybės yra neatsiejama dizaino dalis
- Svarbu greitesnis naujai atrastų duomenų šaltinių įtraukimas
- „Data Lake“ padeda pritaikytam valdymui išgauti maksimalią vertę
- „Data Lake“ turėtų palaikyti esamus įmonės duomenų valdymo metodus ir metodus
Duomenų ežero statybos iššūkiai:
- „Data Lake“ duomenų apimtis yra didesnė, todėl procesas turi labiau priklausyti nuo programinio administravimo
- Sunku susidoroti su retais, neišsamiais, nepastoviais duomenimis
- Platesnei duomenų rinkinio ir šaltinio apimčiai reikia didesnio duomenų valdymo ir palaikymo
Skirtumas tarp duomenų ežerų ir duomenų saugyklos
Parametrai | Duomenų ežerai | Duomenų saugyklos |
---|---|---|
Duomenys | Duomenų ežeruose viskas saugoma. | Duomenų saugykla orientuota tik į verslo procesus. |
Apdorojimas | Duomenys daugiausia neapdoroti | Labai apdoroti duomenys. |
Duomenų tipas | Jis gali būti nestruktūruotas, pusiau struktūrizuotas ir struktūrizuotas. | Tai daugiausia lentelių forma ir struktūra. |
Užduotis | Dalytis duomenų valdymu | Optimizuotas duomenų paieškai |
Vikrumas | Labai judrus, konfigūruokite ir prireikus perkonfigūruokite. | Palyginti su „Data Lake“, jis yra mažiau judrus ir turi fiksuotą konfigūraciją. |
Vartotojai | „Data Lake“ dažniausiai naudoja „Data Scientist“ | Verslo profesionalai plačiai naudoja „Data Warehouse“ |
Sandėliavimas | Duomenų ežerų dizainas, skirtas nebrangiai laikyti. | Naudojama brangi saugykla, suteikianti greitą atsakymo laiką |
Saugumas | Siūlo mažesnę kontrolę. | Leidžia geriau valdyti duomenis. |
EDW pakeitimas | Duomenų ežeras gali būti EDW šaltinis | Papildomas EDW (nepakeičiamas) |
Schema | Skaitymo schema (iš anksto neapibrėžtų schemų) | Rašymo schema (iš anksto nustatytos schemos) |
Duomenų apdorojimas | Padeda greitai surinkti naujus duomenis. | Laikas užima naują turinį. |
Duomenų detalumas | Duomenys yra nedideli ar išsamūs. | Duomenys apibendrintu arba suvestiniu išsamumo lygiu. |
Įrankiai | Gali naudoti atvirojo kodo / įrankius, tokius kaip „Hadoop“ / „Map Reduce“ | Dažniausiai komerciniai įrankiai. |
„Data Lake“ naudojimo pranašumai ir rizika:
Štai keletas pagrindinių duomenų ežero naudojimo pranašumų:
- Pilnai padeda atlikti produktų jonizuojančią ir pažangią analizę
- Siūlo ekonomišką mastelio keitimą ir lankstumą
- Siūlo vertę iš neribotų duomenų tipų
- Sumažina ilgalaikę nuosavybės kainą
- Leidžia ekonomiškai saugoti failus
- Greitai pritaikomas pokyčiams
- Pagrindinis duomenų ežero privalumas yra skirtingų turinio šaltinių centralizavimas
- Naudotojai iš įvairių departamentų gali būti išsibarstę po visą pasaulį, todėl jiems suteikiama lanksti prieiga prie duomenų
„Data Lake“ naudojimo rizika:
- Po kurio laiko „Data Lake“ gali prarasti aktualumą ir pagreitį
- Kuriant „Data Lake“ yra didesnė rizikos suma
- Nestruktūrizuoti duomenys gali sukelti nevaldomą chaosą, nenaudojamus duomenis, skirtingus ir sudėtingus įrankius, visos įmonės bendradarbiavimą, vieningą, nuoseklų ir bendrą
- Tai taip pat padidina saugojimo ir skaičiavimo išlaidas
- Negalima gauti įžvalgų iš kitų, kurie dirbo su duomenimis, nes nėra duomenų apie ankstesnių analitikų išvadų kilmę
- Didžiausia duomenų ežerų rizika yra saugumas ir prieigos kontrolė. Kartais duomenis galima įdėti į ežerą be jokios priežiūros, nes kai kuriems duomenims gali reikėti privatumo ir reguliavimo poreikio
Santrauka:
- „Data Lake“ yra saugykla, kurioje galima saugoti daug struktūrizuotų, pusiau struktūrizuotų ir nestruktūruotų duomenų.
- Pagrindinis duomenų ežero kūrimo tikslas yra duomenų mokslininkams pateikti nerafinuotą duomenų vaizdą.
- Vieninga operacijų pakopa, apdorojimo pakopa, distiliavimo pakopa ir HDFS yra svarbūs „Data Lake Architecture“ sluoksniai
- Duomenų kaupimas, duomenų saugojimas, duomenų kokybė, duomenų auditas, duomenų tyrimas, duomenų atradimas yra keletas svarbių „Data Lake Architecture“ komponentų
- Duomenų ežero dizainą turėtų lemti tai, kas yra prieinama, o ne tai, ko reikia.
- „Data Lake“ sumažina ilgalaikę nuosavybės kainą ir leidžia ekonomiškai saugoti failus
- Didžiausia duomenų ežerų rizika yra saugumas ir prieigos kontrolė. Kartais duomenis galima įdėti į ežerą be jokios priežiūros, nes kai kurie duomenys gali turėti privatumo ir reguliavimo poreikį.