Duomenų sandėlio architektūra, koncepcijos ir komponentai

Turinys:

Anonim

Duomenų sandėlio koncepcijos

Pagrindinė duomenų saugyklos koncepcija yra palengvinti vienos tiesos versiją įmonei priimant sprendimus ir prognozuojant. Duomenų sandėlis yra informacinė sistema, kurioje yra istoriniai ir komutaciniai duomenys iš vieno ar kelių šaltinių. Duomenų sandėlio koncepcijos supaprastina organizacijų ataskaitų teikimo ir analizės procesą.

Duomenų sandėlio charakteristikos

Duomenų saugyklos koncepcijos turi šias savybes:

  • Orientuotas į dalyką
  • Integruota
  • Laiko variantas
  • Nepastovus

Orientuotas į dalyką

Duomenų saugykla yra orientuota į dalyką, nes ji siūlo informaciją apie temą, o ne vykdomą įmonių veiklą. Šie dalykai gali būti pardavimas, rinkodara, platinimas ir kt.

Duomenų saugykloje niekada nesusitelkiama į vykstančias operacijas. Vietoj to, jis akcentavo duomenų modeliavimą ir analizę priimant sprendimus . Taip pat pateikiamas paprastas ir glaustas konkretaus dalyko vaizdas, išskiriant duomenis, kurie nėra naudingi sprendimų priėmimo procesui paremti.

Integruota

Duomenų saugykloje integracija reiškia bendro matavimo vieneto nustatymą visiems panašiems duomenims iš skirtingos duomenų bazės. Duomenis taip pat reikia saugoti bendrai ir visiems priimtinu būdu.

Duomenų saugykla kuriama integruojant duomenis iš įvairių šaltinių, tokių kaip mainframe, reliacinės duomenų bazės, plokšti failai ir kt. Be to, jis turi laikytis nuoseklios pavadinimų suteikimo tvarkos, formato ir kodavimo.

Ši integracija padeda efektyviai analizuoti duomenis. Turi būti užtikrintas nuoseklumas įvardinant sutartis, atributų matus, kodavimo struktūrą ir kt. Apsvarstykite šį pavyzdį:

Ankstesniame pavyzdyje yra trys skirtingos programos, pažymėtos A, B ir C. Šiose programose saugoma informacija yra Lytis, Data ir Balansas. Tačiau kiekvienos programos duomenys saugomi skirtingai.

  • Programoje A lyčių laukas saugo tokias logines vertes kaip M arba F
  • Programos B lyčių laukas yra skaitinė reikšmė,
  • Programos C programoje lyties laukas saugomas simbolio vertės pavidalu.
  • Tas pats yra ir su data ir balansu

Tačiau po pertvarkymo ir valymo visi šie duomenys Duomenų saugykloje yra saugomi bendru formatu.

Laiko variantas

Duomenų sandėlio laikotarpis yra gana didelis, palyginti su operacinėmis sistemomis. Duomenų sandėlyje surinkti duomenys yra atpažįstami pagal tam tikrą laikotarpį ir pateikia informaciją istoriniu požiūriu. Jame yra tiesioginis ar netiesioginis laiko elementas.

Viena iš tokių vietų, kur „Data Warehouse“ duomenų rodymo laiko dispersija yra įrašo rakto struktūroje. Kiekvienas pagrindinis raktas, esantis DW, turėtų turėti netiesiogiai arba aiškiai laiko elementą. Kaip diena, savaitės mėnuo ir pan.

Kitas laiko dispersijos aspektas yra tas, kad įvedus duomenis į sandėlį, jų negalima atnaujinti ar pakeisti.

Nepastovus

Duomenų sandėlis taip pat yra nepastovus - ankstesni duomenys nėra ištrinami, kai į jį įvedami nauji duomenys.

Duomenys yra tik skaitomi ir periodiškai atnaujinami. Tai taip pat padeda analizuoti istorinius duomenis ir suprasti, kas ir kada nutiko. Tam nereikia sandorio proceso, atkūrimo ir lygiagretumo kontrolės mechanizmų.

Duomenų saugyklos aplinkoje praleidžiamos tokios veiklos kaip ištrynimas, atnaujinimas ir įterpimas, kurios atliekamos operacinėje programos aplinkoje. Duomenų saugykloje atliekamos tik dviejų tipų duomenų operacijos

  1. Duomenų įkėlimas
  2. Prieiga prie duomenų

Čia yra keletas pagrindinių skirtumų tarp „Application“ ir „Data Warehouse“

Veiklos taikymas Duomenų saugyklos
Sudėtinga programa turi būti užkoduota, kad duomenų atnaujinimo procesai išlaikytų aukštą galutinio produkto vientisumą. Tokių problemų neatsiranda, nes neatnaujinami duomenys.
Duomenys pateikiami normalizuota forma, kad būtų užtikrintas minimalus atleidimas. Duomenys nėra saugomi normalizuota forma.
Technologijos, reikalingos operacijų, duomenų atkūrimo, atkūrimo ir sprendimo klausimams palaikyti, nes jos aklavietė yra gana sudėtinga. Tai siūlo palyginti paprastą technologiją.

Duomenų sandėlio architektūra

Duomenų sandėlio architektūra yra sudėtinga, nes tai yra informacinė sistema, kurioje yra istoriniai ir komutaciniai duomenys iš kelių šaltinių. Yra 3 duomenų sandėlio sluoksnių konstravimo būdai: vienos pakopos, dviejų pakopų ir trijų pakopų. Ši 3 pakopų duomenų saugyklos architektūra paaiškinta taip, kaip nurodyta toliau.

Vienos pakopos architektūra

Vieno sluoksnio tikslas yra sumažinti saugomų duomenų kiekį. Šis tikslas yra pašalinti duomenų perteklių. Ši architektūra praktikoje nėra dažnai naudojama.

Dviejų pakopų architektūra

Dviejų sluoksnių architektūra yra vienas iš „Data Warehouse“ sluoksnių, atskiriantis fiziškai prieinamus šaltinius ir duomenų saugyklą. Ši architektūra nėra plečiama ir taip pat nepalaiko daug galutinių vartotojų. Ji taip pat turi ryšio problemų dėl tinklo apribojimų.

Trijų pakopų duomenų sandėlio architektūra

Tai yra plačiausiai naudojama duomenų saugyklos architektūra.

Jį sudaro viršutinė, vidurinė ir apatinė pakopos.

  1. Apatinė pakopa: „Datawarehouse“ serverių, kaip apatinės pakopos, duomenų bazė. Paprastai tai yra reliacinė duomenų bazių sistema. Duomenys išvalomi, transformuojami ir įkeliami į šį sluoksnį naudojant išorinius įrankius.
  2. Vidurinė pakopa: Duomenų sandėlio vidurinė pakopa yra OLAP serveris, kuris įgyvendinamas naudojant ROLAP arba MOLAP modelį. Vartotojui ši programos pakopa pateikia abstrahuotą duomenų bazės vaizdą. Šis sluoksnis taip pat veikia kaip tarpininkas tarp galutinio vartotojo ir duomenų bazės.
  3. Aukščiausia pakopa: Aukščiausia pakopa yra „front-end“ kliento sluoksnis. Aukščiausia pakopa yra įrankiai ir API, kuriuos jungiate ir gaunate duomenis iš duomenų saugyklos. Tai gali būti užklausų įrankiai, ataskaitų teikimo įrankiai, valdomi užklausų įrankiai, analizės įrankiai ir duomenų gavybos įrankiai.

Duomenų sandėlio komponentai

Mes sužinosime apie „Data Warehouse“ komponentus ir „Data Warehouse“ architektūrą su schema, kaip parodyta žemiau:

Duomenų sandėlio architektūra

Duomenų saugykla yra pagrįsta RDBMS serveriu, kuris yra centrinė informacijos saugykla, kurią supa keli pagrindiniai duomenų saugyklos komponentai, kad visa aplinka būtų funkcionali, valdoma ir prieinama.

Daugiausia yra penki duomenų saugyklos komponentai:

Duomenų sandėlio duomenų bazė

Centrinė duomenų bazė yra duomenų saugojimo aplinkos pagrindas. Ši duomenų bazė įdiegta naudojant RDBMS technologiją. Nors tokio pobūdžio įgyvendinimą riboja tai, kad tradicinė RDBMS sistema yra optimizuota sandorių duomenų bazių apdorojimui, o ne duomenų saugojimui. Pavyzdžiui, ad-hoc užklausa, kelių lentelių sujungimai, suvestinės reikalauja daug išteklių ir lėtina našumą.

Todėl naudojami alternatyvūs duomenų bazių metodai, išvardyti toliau:

  • Duomenų saugykloje reliacinės duomenų bazės yra diegiamos lygiagrečiai, kad būtų galima keisti mastelį. Lygiagrečios reliacinės duomenų bazės taip pat leidžia naudoti bendrą atmintį arba nieko bendro modelį įvairiose daugiaprocesorinėse konfigūracijose ar masiškai lygiagrečiuose procesoriuose.
  • Naujos indeksų struktūros naudojamos norint apeiti reliacinės lentelės nuskaitymą ir pagerinti greitį.
  • Daugialypės duomenų bazės (MDDB) naudojimas norint įveikti visus apribojimus, kurie yra dėl reliacinių duomenų sandėlio modelių. Pavyzdys: „Essbase“ iš „Oracle“.

Tiekimo, įsigijimo, valymo ir pertvarkymo įrankiai (ETL)

Duomenų rinkimo, transformavimo ir perkėlimo įrankiai naudojami atliekant visas konversijas, apibendrinimus ir visus pakeitimus, reikalingus duomenims transformuoti į bendrą formatą duomenų saugykloje. Jie taip pat vadinami „Extract, Transform and Load“ (ETL) įrankiais.

Jų funkcionalumas apima:

  • Anonimizuokite duomenis pagal reguliavimo nuostatas.
  • Nepageidaujamų duomenų, esančių operatyvinėse duomenų bazėse, pašalinimas iš duomenų saugyklos.
  • Ieškokite ir pakeiskite iš įvairių šaltinių gaunamų duomenų bendrus pavadinimus ir apibrėžimus.
  • Apibendrinimų ir gautų duomenų skaičiavimas
  • Jei trūksta duomenų, nurodykite numatytuosius nustatymus.
  • Dublikuoti pakartotiniai duomenys, gaunami iš kelių duomenų šaltinių.

Šie „Extract“, „Transform“ ir „Load“ įrankiai gali sukurti „cron“ užduotis, fono užduotis, „Cobol“ programas, „shell“ scenarijus ir kt., Kurie reguliariai atnaujina duomenis duomenų saugykloje. Šios priemonės taip pat naudingos palaikant metaduomenis.

Šie ETL įrankiai turi spręsti duomenų bazių ir duomenų nevienalytiškumo problemas.

Metaduomenys

Pavadinimas „Meta Data“ siūlo keletą aukšto lygio technologinių duomenų saugojimo koncepcijų. Tačiau tai yra gana paprasta. Metaduomenys yra duomenys apie duomenis, apibrėžiantys duomenų saugyklą. Jis naudojamas kuriant, prižiūrint ir tvarkant duomenų saugyklą.

Duomenų sandėlio architektūroje metaduomenys vaidina svarbų vaidmenį, nes jie nurodo duomenų saugyklos duomenų šaltinį, naudojimą, reikšmes ir ypatybes. Taip pat apibrėžiama, kaip galima keisti ir apdoroti duomenis. Jis yra glaudžiai susijęs su duomenų saugykla.

Pavyzdžiui, pardavimo duomenų bazės eilutėje gali būti:

4030 KJ732 299.90

Tai yra beprasmiška informacija, kol mes nepasitarėme su „Meta“, kuri mums pasakė, kad taip buvo

  • Modelio numeris: 4030
  • Pardavimų agento ID: KJ732
  • Bendra pardavimo suma - 299,90 USD

Todėl metaduomenys yra esminiai komponentai transformuojant duomenis į žinias.

Metaduomenys padeda atsakyti į šiuos klausimus

  • Kokias lenteles, atributus ir raktus sudaro duomenų saugykla?
  • Iš kur atsirado duomenys?
  • Kiek kartų duomenys perkraunami?
  • Kokios transformacijos buvo taikomos valant?

Metaduomenis galima suskirstyti į šias kategorijas:

  1. Techniniai metaduomenys : Tokiuose metaduomenyse yra informacijos apie sandėlį, kurią naudoja duomenų sandėlių dizaineriai ir administratoriai.
  2. Verslo metaduomenys: Tokiuose metaduomenyse yra detalių, kurios suteikia galutiniams vartotojams galimybę lengvai suprasti duomenų saugykloje saugomą informaciją.

Užklausų įrankiai

Vienas iš pagrindinių duomenų sandėliavimo objektų yra informacijos teikimas įmonėms strateginiams sprendimams priimti. Užklausų įrankiai leidžia vartotojams sąveikauti su duomenų saugyklos sistema.

Šios priemonės skirstomos į keturias skirtingas kategorijas:

  1. Užklausų ir ataskaitų teikimo įrankiai
  2. Programų kūrimo įrankiai
  3. Duomenų gavybos įrankiai
  4. OLAP įrankiai

1. Užklausų ir ataskaitų teikimo priemonės:

Užklausų ir ataskaitų teikimo įrankius galima toliau suskirstyti į

  • Ataskaitų teikimo priemonės
  • Valdomos užklausos priemonės

Ataskaitų teikimo įrankiai:

Ataskaitų teikimo įrankius galima toliau suskirstyti į gamybos ataskaitų įrankius ir darbalaukio ataskaitų rašytojus.

  1. Ataskaitų autoriai: Šis ataskaitų teikimo įrankis yra skirtas galutiniams vartotojams atlikti jų analizę.
  2. Gamybos ataskaitos: tokio tipo įrankiai leidžia organizacijoms generuoti reguliarias veiklos ataskaitas. Jis taip pat palaiko didelės apimties paketinius darbus, tokius kaip spausdinimas ir skaičiavimas. Kai kurie populiarūs ataskaitų teikimo įrankiai yra „Brio“, verslo objektai, „Oracle“, „PowerSoft“, SAS institutas.

Valdomos užklausos priemonės:

Tokie prieigos įrankiai padeda galutiniams vartotojams išspręsti duomenų bazės ir SQL bei duomenų bazės struktūros kliūtis, įterpiant meta sluoksnį tarp vartotojų ir duomenų bazės.

2. Programų kūrimo priemonės:

Kartais įmontuotos grafinės ir analitinės priemonės netenkina organizacijos analitinių poreikių. Tokiais atvejais pasirinktinės ataskaitos kuriamos naudojant programų kūrimo įrankius.

3. Duomenų gavybos įrankiai:

Duomenų gavyba - tai prasmingos naujos koreliacijos, pattenų ir tendencijų atradimo procesas, išgaunant didelį duomenų kiekį. Kad šis procesas būtų automatinis, naudojamos duomenų gavybos priemonės.

4. OLAP įrankiai:

Šie įrankiai yra pagrįsti daugialypės duomenų bazės koncepcijomis. Tai leidžia vartotojams analizuoti duomenis naudojant sudėtingus ir sudėtingus daugialypius rodinius.

Duomenų sandėlio autobusų architektūra

Duomenų sandėlio magistralė nustato duomenų srautą jūsų sandėlyje. Duomenų srautas duomenų saugykloje gali būti priskiriamas srautams, srautams, srautams, nutekėjimams ir metametams.

Kuriant duomenų magistralę, reikia atsižvelgti į bendrus matmenis ir faktus, susijusius su duomenimis.

Duomenų kovos

„Data Mart“ yra prieigos sluoksnis, naudojamas norint gauti duomenis vartotojams. Jis pateikiamas kaip didelio dydžio duomenų saugyklos galimybė, nes pastatyti reikia mažiau laiko ir pinigų. Tačiau nėra standartinio duomenų apibrėžimo, kuris kiekvienam žmogui skiriasi.

Paprastu žodžiu „Data mart“ yra dukterinė duomenų saugyklos įmonė. „Data mart“ naudojamas duomenų, kurie yra sukurti konkrečiai vartotojų grupei, skaidymui.

Duomenų rinkiniai gali būti sukurti toje pačioje duomenų bazėje kaip „Data Warehouse“ arba fiziškai atskiroje duomenų bazėje.

Duomenų saugyklos architektūros geriausios praktikos pavyzdžiai

Norėdami kurti „Data Warehouse“ architektūrą, turite vadovautis žemiau pateikta geriausia praktika:

  • Naudokite duomenų saugyklos modelius, kurie yra optimizuoti informacijos paieškai, kuri gali būti matmenų, denormalizuota arba hibridinė.
  • Duomenų saugykloje pasirinkite tinkamą metodą „iš viršaus į apačią ir iš apačios į viršų“
  • Reikia užtikrinti, kad duomenys būtų tvarkomi greitai ir tiksliai. Tuo pačiu metu turėtumėte laikytis požiūrio, kuris sujungia duomenis į vieną tiesos versiją.
  • Kruopščiai suprojektuokite duomenų saugyklos duomenų kaupimo ir valymo procesą.
  • Sukurkite „MetaData“ architektūrą, leidžiančią dalytis metaduomenimis tarp „Data Warehouse“ komponentų
  • Apsvarstykite galimybę įdiegti OAM modelį, kai informacijos paieškos poreikis yra netoli duomenų imimo piramidės apačios arba kai reikia pasiekti kelis operacinius šaltinius.
  • Reikėtų įsitikinti, kad duomenų modelis yra integruotas, o ne tik konsoliduotas. Tokiu atveju turėtumėte apsvarstyti 3NF duomenų modelį. Tai taip pat idealiai tinka įsigyti ETL ir duomenų valymo įrankius

Santrauka:

  • Duomenų sandėlis yra informacinė sistema, kurioje yra istoriniai ir komutaciniai duomenys iš vieno ar kelių šaltinių. Šie šaltiniai gali būti tradiciniai duomenų saugyklos, „Cloud Data Warehouse“ arba „Virtual Data Warehouse“.
  • Duomenų saugykla yra orientuota į dalyką, nes vietoje organizacijos vykdomų operacijų ji teikia informaciją apie subjektą.
  • Duomenų saugykloje integracija reiškia bendro matavimo vieneto nustatymą visiems panašiems duomenims iš skirtingų duomenų bazių
  • Duomenų sandėlis taip pat yra nepastovus - ankstesni duomenys nėra ištrinami, kai į jį įvedami nauji duomenys.
  • „Data Warehouse“ yra „Time“ variantas, nes DW duomenys yra labai tinkami.
  • Daugiausia yra 5 „Data Warehouse Architecture“ komponentai: 1) duomenų bazė 2) ETL įrankiai 3) metaduomenys 4) užklausų įrankiai 5) „DataMarts“
  • Tai yra keturios pagrindinės užklausų priemonių kategorijos 1. Užklausa ir ataskaitų teikimas, įrankiai 2. Programų kūrimo įrankiai, 3. Duomenų gavybos įrankiai 4. OLAP įrankiai
  • Duomenų gavimo, transformavimo ir perkėlimo įrankiai naudojami atliekant visas konversijas ir suvestines.
  • Duomenų sandėlio architektūroje metaduomenys vaidina svarbų vaidmenį, nes jie nurodo duomenų saugyklos duomenų šaltinį, naudojimą, reikšmes ir ypatybes.