ETL (išskleidimo, transformavimo ir įkėlimo) procesas duomenų saugykloje

Turinys:

Anonim

Kas yra ETL?

ETL yra procesas, kuris išgauna duomenis iš skirtingų šaltinių sistemų, po to transformuoja duomenis (pvz., Taikydami skaičiavimus, sujungimus ir pan.) Ir galiausiai įkelia duomenis į „Data Warehouse“ sistemą. Visa ETL forma yra ištraukimas, transformavimas ir įkėlimas.

Pagunda manyti, kad kuriant duomenų saugyklą paprasčiausiai išgaunami duomenys iš kelių šaltinių ir įkeliami į duomenų saugyklos duomenų bazę. Tai toli nuo tiesos ir reikalauja sudėtingo ETL proceso. ETL procesas reikalauja aktyvaus įvairių suinteresuotųjų subjektų, įskaitant kūrėjus, analitikus, testuotojus, aukščiausio lygio vadovus, indėlio ir yra techniškai sudėtingas.

Norint išlaikyti duomenų, kaip sprendimų priėmimo įrankio, vertę, duomenų sandėlio sistema turi keistis keičiantis verslui. ETL yra pasikartojanti duomenų sandėlio sistemos veikla (kasdien, kas savaitę, kas mėnesį) ir turi būti judri, automatizuota ir gerai dokumentuota.

Šioje ETL pamokoje sužinosite

  • Kas yra ETL?
  • Kodėl jums reikia ETL?
  • ETL procesas duomenų saugyklose
  • 1 žingsnis) Ištraukimas
  • 2 žingsnis) Transformacija
  • 3 žingsnis) Įkeliama
  • ETL įrankiai
  • Geriausios praktikos ETL procesas

Kodėl jums reikia ETL?

Yra daugybė priežasčių, kodėl organizacija priima ETL:

  • Tai padeda įmonėms analizuoti savo verslo duomenis kritiškiems verslo sprendimams priimti.
  • Sandorių duomenų bazės negali atsakyti į sudėtingus verslo klausimus, į kuriuos galima atsakyti pagal ETL pavyzdį.
  • Duomenų saugykla suteikia bendrą duomenų saugyklą
  • ETL pateikia duomenų perkėlimo iš įvairių šaltinių į duomenų saugyklą metodą.
  • Keičiantis duomenų šaltiniams, Duomenų saugykla bus automatiškai atnaujinta.
  • Gerai suprojektuota ir dokumentais pagrįsta ETL sistema yra beveik būtina norint sėkmingai įgyvendinti „Data Warehouse“ projektą.
  • Leisti patikrinti duomenų transformavimo, kaupimo ir skaičiavimo taisykles.
  • ETL procesas leidžia palyginti šaltinio ir tikslinės sistemos duomenų pavyzdžius.
  • ETL procesas gali atlikti sudėtingas transformacijas ir reikalingas papildomas plotas duomenims saugoti.
  • ETL padeda perkelti duomenis į duomenų saugyklą. Konvertuokite į įvairius formatus ir tipus, kad laikytumėtės vienos nuoseklios sistemos.
  • ETL yra iš anksto nustatytas procesas norint pasiekti ir tvarkyti šaltinio duomenis į tikslinę duomenų bazę.
  • ETL duomenų saugykloje siūlo gilų istorinį kontekstą verslui.
  • Tai padeda pagerinti produktyvumą, nes koduoja ir pakartotinai naudoja nereikalaudamas techninių įgūdžių.

ETL procesas duomenų saugyklose

ETL yra trijų pakopų procesas

ETL procesas

1 žingsnis) Ištraukimas

Šiame ETL architektūros etape duomenys iš šaltinio sistemos išgaunami į sustojimo zoną. Transformacijos, jei yra, atliekamos sustojimo zonoje, kad šaltinio sistemos veikimas nesumažėtų. Be to, jei sugadinti duomenys nukopijuojami tiesiai iš šaltinio į duomenų saugyklos duomenų bazę, grąžinimas bus iššūkis. Sustojimo sritis suteikia galimybę patvirtinti išgautus duomenis prieš jiems pereinant į duomenų saugyklą.

Duomenų saugykloje reikia integruoti skirtingas sistemas

DBVS, aparatinė įranga, operacinės sistemos ir ryšio protokolai. Šaltiniai gali apimti senas programas, tokias kaip pagrindiniai kompiuteriai, pritaikytas programas, kontaktinius įrenginius, pvz., Bankomatą, skambučių jungiklius, tekstinius failus, skaičiuokles, ERP, duomenis iš tiekėjų, partnerių ir kt.

Taigi, prieš gaunant ir fiziškai duomenis, reikia loginio duomenų žemėlapio. Šiame duomenų žemėlapyje aprašomas ryšys tarp šaltinių ir tikslinių duomenų.

Trys duomenų išgavimo metodai:

  1. Visiškas ištraukimas
  2. Dalinis ištraukimas - nepranešus apie atnaujinimą.
  3. Dalinis ištraukimas - su atnaujinimo pranešimu

Nepaisant naudojamo metodo, ištraukimas neturėtų turėti įtakos šaltinio sistemų veikimui ir atsako laikui. Šios šaltinių sistemos yra tiesioginės gamybos duomenų bazės. Bet koks sulėtėjimas ar užsiblokavimas gali paveikti įmonės apatinę liniją.

Kai kurie patvirtinimai atliekami ištraukimo metu:

  • Suderinkite įrašus su šaltinio duomenimis
  • Įsitikinkite, kad nėra šlamšto / nepageidaujamų duomenų
  • Duomenų tipo patikrinimas
  • Pašalinkite visų tipų pasikartojančius / suskaidytus duomenis
  • Patikrinkite, ar visi raktai yra vietoje, ar ne

2 žingsnis) Transformacija

Iš šaltinio serverio gauti duomenys yra neapdoroti ir jų negalima naudoti pradine forma. Todėl jį reikia išvalyti, atvaizduoti ir transformuoti. Tiesą sakant, tai yra pagrindinis žingsnis, kai ETL procesas suteikia pridėtinės vertės ir keičia duomenis taip, kad būtų galima generuoti įžvalgias BI ataskaitas.

Tai yra viena iš svarbių ETL koncepcijų, kai naudojate funkcijų rinkinį išgaunamiems duomenims. Duomenys, kuriems nereikia jokios transformacijos, vadinami tiesioginiais judėjimo ar perdavimo duomenimis .

Pertvarkymo etape galite atlikti pritaikytas duomenų operacijas. Pvz., Jei vartotojas nori pardavimo pajamų sumos, kurios nėra duomenų bazėje. Arba, jei vardas ir pavardė lentelėje yra skirtinguose stulpeliuose. Prieš kraunant, galima juos sujungti.

Duomenų integravimo klausimai

Toliau pateikiamos duomenų vientisumo problemos:

  1. Skirtinga to paties asmens, kaip Jonas, Jonas ir kt., Rašyba.
  2. Yra keli būdai, kaip pažymėti įmonės pavadinimą, pvz., „Google“, „Google Inc.“
  3. Skirtingų pavadinimų, tokių kaip Cleaveland, Cleveland, naudojimas.
  4. Gali būti, kad tam pačiam klientui įvairios programos sugeneruoja skirtingus sąskaitų numerius.
  5. Kai kuriuose duomenyse reikalingi failai lieka tušti
  6. Neteisingas produktas, surinktas POS kaip rankinis įvedimas, gali sukelti klaidų.

Patvirtinimai atliekami šiame etape

  • Filtravimas - pasirinkite tik tam tikrus stulpelius, kuriuos norite įkelti
  • Taisyklių ir paieškos lentelių naudojimas duomenų standartizavimui
  • Simbolių rinkinio konvertavimas ir kodavimo tvarkymas
  • Matavimo vienetų, tokių kaip datos ir laiko konversija, valiutos, skaitinių konversijų ir kt.
  • Duomenų slenksčio tikrinimo patikra. Pavyzdžiui, amžius negali būti didesnis nei du skaitmenys.
  • Duomenų srauto patvirtinimas nuo sustojimo zonos iki tarpinių lentelių.
  • Būtini laukai neturėtų būti tušti.
  • Valymas (pvz., NULL susiejimas su 0 arba lyties vyras su „M“, o moteris su „F“ ir kt.)
  • Skirstykite stulpelį į kelis ir sujungdami kelis stulpelius į vieną stulpelį.
  • Perkeliamos eilutės ir stulpeliai,
  • Norėdami sujungti duomenis, naudokite peržvalgas
  • Naudojant bet kokį sudėtingą duomenų patikrinimą (pvz., Jei pirmieji du stulpeliai iš eilės yra tušti, jis automatiškai atmeta eilutę apdoroti)

3 žingsnis) Įkeliama

Duomenų įkėlimas į tikslinę duomenų sandėlio duomenų bazę yra paskutinis ETL proceso žingsnis. Įprastame duomenų sandėlyje didžiulį duomenų kiekį reikia įkelti per palyginti trumpą laikotarpį (naktis). Taigi apkrovos procesas turėtų būti optimizuotas našumui.

Sugedus apkrovai, atkūrimo mechanizmai turėtų būti sukonfigūruoti taip, kad jie vėl būtų paleisti iš gedimo vietos, neprarandant duomenų vientisumo. Duomenų sandėlio administratoriai turi stebėti, atnaujinti, atšaukti įkelimus pagal vyraujantį serverio našumą.

Pakrovimo tipai:

  • Pradinė apkrova - užpildykite visas duomenų saugyklos lenteles
  • Prieauginė apkrova - atliekant nuolatinius pakeitimus, jei reikia, periodiškai.
  • „Visas atnaujinimas“ - vienos ar daugiau lentelių turinio atnaujinimas ir perkėlimas naujais duomenimis.

Įkelti apkrovą

  • Įsitikinkite, kad rakto lauko duomenų nėra arba nėra.
  • Išbandykite modeliavimo rodinius pagal tikslines lenteles.
  • Patikrinkite, ar bendros vertės ir apskaičiuoti matai.
  • Duomenų patikrinimai matmenų lentelėje ir istorijos lentelėje.
  • Patikrinkite BI ataskaitas įkeltoje faktų ir matmenų lentelėje.

ETL įrankiai

Rinkoje yra daugybė duomenų saugojimo įrankių. Štai keletas ryškiausių:

1. „MarkLogic“:

„MarkLogic“ yra duomenų saugojimo sprendimas, leidžiantis lengviau ir greičiau integruoti duomenis naudojant įvairias įmonės funkcijas. Jis gali pateikti užklausą įvairių tipų duomenims, pvz., Dokumentams, ryšiams ir metaduomenims.

https://www.marklogic.com/product/getting-started/


2. „Oracle“:

„Oracle“ yra pirmaujanti pramonė duomenų bazė. Jis siūlo platų „Data Warehouse“ sprendimų pasirinkimą tiek vietoje, tiek debesyje. Tai padeda optimizuoti klientų patirtį didinant veiklos efektyvumą.

https://www.oracle.com/index.html


3. „Amazon RedShift“:

„Amazon Redshift“ yra „Datawarehouse“ įrankis. Tai paprasta ir ekonomiška priemonė analizuoti visų tipų duomenis naudojant standartinius SQL ir esamus BI įrankius. Tai taip pat leidžia vykdyti sudėtingas užklausas prieš petabaitus struktūrinių duomenų.

https://aws.amazon.com/redshift/?nc2=h_m1

Čia yra visas naudingų duomenų saugyklos įrankių sąrašas.

Geriausios praktikos ETL procesas

Toliau pateikiama geriausia ETL proceso žingsnių praktika:

Niekada nebandykite išvalyti visų duomenų:

Kiekviena organizacija norėtų, kad visi duomenys būtų švarūs, tačiau dauguma jų nėra pasirengę mokėti laukti arba nėra pasirengę laukti. Viską išvalyti paprasčiausiai užtruks per ilgai, todėl geriau nebandyti išvalyti visų duomenų.

Niekada nevalykite nieko:

Visada planuokite ką nors išvalyti, nes didžiausia Duomenų sandėlio kūrimo priežastis yra siūlyti švaresnius ir patikimesnius duomenis.

Nustatykite duomenų valymo kainą:

Prieš valydami visus nešvarius duomenis, svarbu nustatyti kiekvieno nešvaraus duomenų elemento valymo kainą.

Norėdami pagreitinti užklausų apdorojimą, turėkite pagalbinius rodinius ir rodykles:

Norėdami sumažinti saugojimo išlaidas, apibendrintus duomenis saugokite diskų juostose. Taip pat reikalingas kompromisas tarp saugomų duomenų apimties ir išsamaus jų naudojimo. Kompromisas duomenų tikslumo lygiu, siekiant sumažinti saugojimo išlaidas.

Santrauka:

  • ETL reiškia ištraukti, transformuoti ir įkelti.
  • ETL pateikia duomenų perkėlimo iš įvairių šaltinių į duomenų saugyklą metodą.
  • Pirmojo ištraukimo metu duomenys iš šaltinio sistemos išgaunami į sustojimo zoną.
  • Transformacijos etape iš šaltinio gauti duomenys išvalomi ir transformuojami.
  • Duomenų įkėlimas į tikslinę duomenų saugyklą yra paskutinis ETL proceso žingsnis.