Kas yra „Data Lake“? Tai Architektūra

Kas yra „Data Lake“?

„Data Lake“ yra saugykla, kurioje galima saugoti daug struktūrizuotų, pusiau struktūrizuotų ir nestruktūruotų duomenų. Tai vieta, kur galima saugoti visų tipų duomenis natūraliu formatu, be jokių apribojimų paskyros dydžiui ar failui. Jis siūlo didelį duomenų kiekį, kad padidintų analizės našumą ir vietinę integraciją.

Data ežeras yra tarsi didelis konteineris, labai panašus į tikrąjį ežerą ir upes. Kaip ir ežere, į kurį įeina keli intakai, duomenų ežere yra struktūrizuoti duomenys, nestruktūruoti duomenys, mašinos iš mašinos, žurnalai, tekantys realiuoju laiku.

„Data Lake“ demokratizuoja duomenis ir yra ekonomiškas būdas saugoti visus organizacijos duomenis vėlesniam apdorojimui. Tyrimų analitikas gali sutelkti dėmesį į reikšmės modelių paiešką duomenyse, o ne pačiuose duomenyse.

Skirtingai nei hierarchinis „Dataware“ namas, kuriame duomenys saugomi failuose ir aplankuose, „Data lake“ yra plokščios architektūros. Kiekvienam duomenų ežero duomenų elementui suteikiamas unikalus identifikatorius ir žymimas metaduomenų informacijos rinkiniu.

Šioje pamokoje sužinosite

Kas yra „Data Lake“?
Kodėl „Data Lake“?
Duomenų ežero architektūra
Pagrindinės duomenų ežero sąvokos
Duomenų ežero brandos stadijos
Geriausia „Data Lake“ diegimo praktika:
Skirtumas tarp duomenų ežerų ir duomenų saugyklos
„Data Lake“ naudojimo pranašumai ir rizika:

Kodėl „Data Lake“?

Pagrindinis duomenų ežero kūrimo tikslas yra duomenų mokslininkams pateikti nerafinuotą duomenų vaizdą.

Duomenų ežero naudojimo priežastys yra šios:

Atsiradus saugojimo varikliams, pvz., „Hadoop“, tapo lengva saugoti skirtingą informaciją. Nereikia modeliuoti duomenų į visos įmonės schemą su „Data Lake“.
Didėjant duomenų kiekiui, duomenų kokybei ir metaduomenims, analizių kokybė taip pat didėja.
„Data Lake“ siūlo verslo judrumą
Mašininis mokymasis ir dirbtinis intelektas gali būti naudojami pelningoms prognozėms.
Tai suteikia konkurencinį pranašumą įgyvendinančiai organizacijai.
Nėra duomenų siloso struktūros. „Data Lake“ leidžia 360 laipsnių kampu matyti klientus ir daro analizę patikimesnę.

Duomenų ežero architektūra

Paveikslėlyje parodyta verslo duomenų ežero architektūra. Apatiniai lygiai atspindi duomenis, kurie dažniausiai būna ramybės būsenoje, o viršutiniai - realiuoju laiku atliekamus sandorių duomenis. Šie duomenys teka per sistemą be jokio vėlavimo ar visai ne. Toliau pateikiami svarbūs duomenų ežero architektūros lygiai:

Nurijimo pakopa : kairėje pusėje esančios pakopos nurodo duomenų šaltinius. Duomenis į duomenų ežerą galima įkelti partijomis arba realiuoju laiku
Įžvalgos pakopa: Dešinėje esančios pakopos atspindi tyrimo pusę, kurioje naudojamos sistemos įžvalgos. Duomenų analizei galima naudoti SQL, NoSQL užklausas ar net „Excel“.
HDFS yra ekonomiškas sprendimas tiek struktūrizuotiems, tiek nestruktūrizuotiems duomenims. Tai yra nusistovėjimo zona visiems duomenims, kurie sistemoje yra ramybės būsenoje.
Distiliavimo pakopa perima duomenis iš padangų, kurias reikia laikyti, ir paverčia juos struktūriniais duomenimis, kad būtų lengviau analizuoti.
Apdorojant analizės algoritmus ir vartotojų užklausas su skirtingu realiuoju laiku, interaktyviais, paketais, sukuriami struktūrizuoti duomenys, kad būtų lengviau juos analizuoti.
Vieningas operacijų lygis reguliuoja sistemos valdymą ir stebėjimą. Tai apima auditą ir kvalifikacijos valdymą, duomenų valdymą, darbo eigos valdymą.

Pagrindinės duomenų ežero sąvokos

Toliau pateikiamos pagrindinės duomenų ežero sąvokos, kurias reikia suprasti, norint visiškai suprasti duomenų ežero architektūrą

Duomenų perdavimas

Duomenų įrašymas leidžia jungtininkams gauti duomenis iš skirtingų duomenų šaltinių ir įkelti juos į duomenų ežerą.

Duomenų perdavimas palaiko:

Visų tipų struktūriniai, pusiau struktūriniai ir nestruktūruoti duomenys.
Keli suvartojimai, tokie kaip paketas, realusis laikas, vienkartinė apkrova.
Daugybė duomenų šaltinių rūšių, pavyzdžiui, duomenų bazės, žiniatinklio serveriai, el. Laiškai, daiktų internetas ir FTP.

Duomenų saugykla

Duomenų saugojimas turėtų būti keičiamo dydžio, siūlyti ekonomiškai efektyvią saugyklą ir leisti greitai pasiekti duomenis. Jis turėtų palaikyti įvairius duomenų formatus.

Duomenų valdymas

Duomenų valdymas yra organizacijoje naudojamų duomenų prieinamumo, tinkamumo naudoti, saugumo ir vientisumo valdymo procesas.

Saugumas

Saugumas turi būti įdiegtas kiekviename duomenų ežero sluoksnyje. Tai prasideda nuo saugojimo, atkūrimo ir vartojimo. Pagrindinis poreikis yra sustabdyti prieigą neįgaliotiems vartotojams. Jis turėtų palaikyti įvairius įrankius, kad būtų galima pasiekti duomenis, lengvai valdant GUI ir informacijos suvestines.

Autentifikavimas, apskaita, autorizavimas ir duomenų apsauga yra keletas svarbių duomenų ežero saugumo ypatybių.

Duomenų kokybė:

Duomenų kokybė yra esminis duomenų ežero architektūros komponentas. Duomenys naudojami tikslinei verslo vertei nustatyti. Išgaunant įžvalgas iš prastos kokybės duomenų bus prastos kokybės įžvalgos.

Duomenų atradimas

Duomenų atradimas yra dar vienas svarbus etapas prieš pradedant ruošti duomenis ar analizę. Šiame etape duomenų žymėjimui išreikšti naudojama žymėjimo technika, organizuojant ir interpretuojant Duomenų ežere įvestus duomenis.

Duomenų auditas

Dvi pagrindinės duomenų audito užduotys yra pagrindinio duomenų rinkinio pokyčių stebėjimas.

Svarbių duomenų rinkinio elementų pokyčių stebėjimas
Fiksuoja, kaip / kada / ir kas keičia šiuos elementus.

Duomenų auditas padeda įvertinti riziką ir atitiktį.

Duomenų linija

Šis komponentas susijęs su duomenų kilme. Jame daugiausia kalbama apie tai, kur jis laikui bėgant juda ir kas su juo atsitinka. Tai palengvina klaidų taisymą duomenų analizės procese nuo pat pradžios iki paskirties.

Duomenų tyrimas

Tai yra duomenų analizės pradžios etapas. Tai padeda nustatyti tinkamą duomenų rinkinį prieš pradedant duomenų tyrimą.

Visi pateikti komponentai turi veikti kartu, kad jie galėtų atlikti svarbų vaidmenį statant Duomenų ežerą ir lengvai vystantis bei tyrinėjant aplinką.

Duomenų ežero brandos stadijos

Duomenų ežero brandos etapų apibrėžimas skiriasi vadovėliais. Nors esmė išlieka ta pati. Po brandos etapo apibrėžimas yra pasauliečių požiūriu.

1 etapas: tvarkykite ir suveskite duomenis masto

Šis pirmasis duomenų brandos etapas apima gebėjimą transformuoti ir analizuoti duomenis. Čia verslo savininkai turi rasti įrankius pagal savo įgūdžius, kad gautų daugiau duomenų ir kurtų analitines programas.

2 etapas: Analitinio raumens formavimas

Tai yra antrasis etapas, apimantis gebėjimo transformuoti ir analizuoti duomenis gerinimą. Šiame etape įmonės naudoja įrankį, kuris labiausiai tinka jų įgūdžiams. Jie pradeda kaupti daugiau duomenų ir kurti programas. Čia kartu naudojamos įmonės duomenų saugyklos ir duomenų ežero galimybės.

3 etapas: EDW ir „Data Lake“ veikia vieningai

Šis žingsnis apima duomenų ir analizės patekimą į kuo daugiau žmonių rankas. Šiame etape duomenų ežeras ir įmonės duomenų saugykla pradeda veikti sąjungoje. Abu atlieka savo vaidmenį analizėje

4 etapas: įmonės pajėgumai ežere

Šiame duomenų ežero brandos etape prie duomenų ežero pridedamos įmonės galimybės. Informacijos valdymo, informacijos gyvavimo ciklo valdymo galimybių ir metaduomenų valdymo priėmimas. Tačiau labai nedaug organizacijų gali pasiekti tokį brandos lygį, tačiau ateityje šis skaičius padidės.

Geriausia „Data Lake“ diegimo praktika:

Architektūriniai komponentai, jų sąveika ir nustatyti produktai turėtų palaikyti vietinius duomenų tipus
Duomenų ežero dizainą turėtų lemti tai, kas yra prieinama, o ne tai, ko reikia. Schema ir duomenų reikalavimas nėra apibrėžti, kol jų nebus užduota
Projektavimas turėtų būti pagrįstas vienkartiniais komponentais, integruotais į paslaugų API.
Duomenų atradimas, perėmimas, saugojimas, administravimas, kokybė, transformavimas ir vizualizavimas turėtų būti valdomi atskirai.
„Data Lake“ architektūra turėtų būti pritaikyta konkrečiai pramonei. Ji turėtų užtikrinti, kad šiai sričiai būtinos galimybės yra neatsiejama dizaino dalis
Svarbu greitesnis naujai atrastų duomenų šaltinių įtraukimas
„Data Lake“ padeda pritaikytam valdymui išgauti maksimalią vertę
„Data Lake“ turėtų palaikyti esamus įmonės duomenų valdymo metodus ir metodus

Duomenų ežero statybos iššūkiai:

„Data Lake“ duomenų apimtis yra didesnė, todėl procesas turi labiau priklausyti nuo programinio administravimo
Sunku susidoroti su retais, neišsamiais, nepastoviais duomenimis
Platesnei duomenų rinkinio ir šaltinio apimčiai reikia didesnio duomenų valdymo ir palaikymo

Skirtumas tarp duomenų ežerų ir duomenų saugyklos

Parametrai	Duomenų ežerai	Duomenų saugyklos
Duomenys	Duomenų ežeruose viskas saugoma.	Duomenų saugykla orientuota tik į verslo procesus.
Apdorojimas	Duomenys daugiausia neapdoroti	Labai apdoroti duomenys.
Duomenų tipas	Jis gali būti nestruktūruotas, pusiau struktūrizuotas ir struktūrizuotas.	Tai daugiausia lentelių forma ir struktūra.
Užduotis	Dalytis duomenų valdymu	Optimizuotas duomenų paieškai
Vikrumas	Labai judrus, konfigūruokite ir prireikus perkonfigūruokite.	Palyginti su „Data Lake“, jis yra mažiau judrus ir turi fiksuotą konfigūraciją.
Vartotojai	„Data Lake“ dažniausiai naudoja „Data Scientist“	Verslo profesionalai plačiai naudoja „Data Warehouse“
Sandėliavimas	Duomenų ežerų dizainas, skirtas nebrangiai laikyti.	Naudojama brangi saugykla, suteikianti greitą atsakymo laiką
Saugumas	Siūlo mažesnę kontrolę.	Leidžia geriau valdyti duomenis.
EDW pakeitimas	Duomenų ežeras gali būti EDW šaltinis	Papildomas EDW (nepakeičiamas)
Schema	Skaitymo schema (iš anksto neapibrėžtų schemų)	Rašymo schema (iš anksto nustatytos schemos)
Duomenų apdorojimas	Padeda greitai surinkti naujus duomenis.	Laikas užima naują turinį.
Duomenų detalumas	Duomenys yra nedideli ar išsamūs.	Duomenys apibendrintu arba suvestiniu išsamumo lygiu.
Įrankiai	Gali naudoti atvirojo kodo / įrankius, tokius kaip „Hadoop“ / „Map Reduce“	Dažniausiai komerciniai įrankiai.

„Data Lake“ naudojimo pranašumai ir rizika:

Štai keletas pagrindinių duomenų ežero naudojimo pranašumų:

Pilnai padeda atlikti produktų jonizuojančią ir pažangią analizę
Siūlo ekonomišką mastelio keitimą ir lankstumą
Siūlo vertę iš neribotų duomenų tipų
Sumažina ilgalaikę nuosavybės kainą
Leidžia ekonomiškai saugoti failus
Greitai pritaikomas pokyčiams
Pagrindinis duomenų ežero privalumas yra skirtingų turinio šaltinių centralizavimas
Naudotojai iš įvairių departamentų gali būti išsibarstę po visą pasaulį, todėl jiems suteikiama lanksti prieiga prie duomenų

„Data Lake“ naudojimo rizika:

Po kurio laiko „Data Lake“ gali prarasti aktualumą ir pagreitį
Kuriant „Data Lake“ yra didesnė rizikos suma
Nestruktūrizuoti duomenys gali sukelti nevaldomą chaosą, nenaudojamus duomenis, skirtingus ir sudėtingus įrankius, visos įmonės bendradarbiavimą, vieningą, nuoseklų ir bendrą
Tai taip pat padidina saugojimo ir skaičiavimo išlaidas
Negalima gauti įžvalgų iš kitų, kurie dirbo su duomenimis, nes nėra duomenų apie ankstesnių analitikų išvadų kilmę
Didžiausia duomenų ežerų rizika yra saugumas ir prieigos kontrolė. Kartais duomenis galima įdėti į ežerą be jokios priežiūros, nes kai kuriems duomenims gali reikėti privatumo ir reguliavimo poreikio

Santrauka:

„Data Lake“ yra saugykla, kurioje galima saugoti daug struktūrizuotų, pusiau struktūrizuotų ir nestruktūruotų duomenų.
Pagrindinis duomenų ežero kūrimo tikslas yra duomenų mokslininkams pateikti nerafinuotą duomenų vaizdą.
Vieninga operacijų pakopa, apdorojimo pakopa, distiliavimo pakopa ir HDFS yra svarbūs „Data Lake Architecture“ sluoksniai
Duomenų kaupimas, duomenų saugojimas, duomenų kokybė, duomenų auditas, duomenų tyrimas, duomenų atradimas yra keletas svarbių „Data Lake Architecture“ komponentų
Duomenų ežero dizainą turėtų lemti tai, kas yra prieinama, o ne tai, ko reikia.
„Data Lake“ sumažina ilgalaikę nuosavybės kainą ir leidžia ekonomiškai saugoti failus
Didžiausia duomenų ežerų rizika yra saugumas ir prieigos kontrolė. Kartais duomenis galima įdėti į ežerą be jokios priežiūros, nes kai kurie duomenys gali turėti privatumo ir reguliavimo poreikį.

Kas yra „Data Lake“? Tai Architektūra

Turinys:

Kas yra „Data Lake“?

Kodėl „Data Lake“?

Duomenų ežero architektūra

Pagrindinės duomenų ežero sąvokos

Duomenų perdavimas

Duomenų saugykla

Duomenų valdymas

Saugumas

Duomenų kokybė:

Duomenų atradimas

Duomenų auditas

Duomenų linija

Duomenų tyrimas

Duomenų ežero brandos stadijos

1 etapas: tvarkykite ir suveskite duomenis masto

2 etapas: Analitinio raumens formavimas

3 etapas: EDW ir „Data Lake“ veikia vieningai

4 etapas: įmonės pajėgumai ežere

Geriausia „Data Lake“ diegimo praktika:

Skirtumas tarp duomenų ežerų ir duomenų saugyklos

„Data Lake“ naudojimo pranašumai ir rizika:

Santrauka:

C # Enum (Enumeration) su pavyzdžiu

C # masyvo pamoka: kurkite, deklaruokite, inicijuokite

C # kintamieji & Operatoriai su pavyzdžiu

C # IF, „Switch“, „For“, o ciklo teiginių pamoka (pavyzdžiai)

C # Anotacija klasės pamoka: kas yra abstrakcija su pavyzdžiu

15 geriausių duomenų integravimo įrankių & Programinė įranga (atviras šaltinis + mokama)

Daugiau nei 30 geriausių žurnalų tvarkymo įrankių 2021 m

20 geriausios nemokamos „Blowchart“ programinės įrangos „Blowchart Maker“ (2021)

50 geriausių „Teradata“ interviu klausimų ir Atsakymai

Daugiau nei 20 geriausių „SIEM“ įrankių ir Programinės įrangos sprendimai (2021)

„MySQL SELECT“ teiginys su pavyzdžiais

„MySQL WHERE“ sąlyga: AND, OR, IN, NOT IN Query Example

Kas yra normalizavimas? 1NF, 2NF, 3NF, BCNF duomenų bazės pavyzdys

„MySQL“ sukurti lentelę - Kaip sukurti duomenų bazę MySQL

„MySQL INSERT INTO Query“: kaip pridėti eilutę lentelėje (pavyzdys)