Kas yra DIDELIAI DUOMENYS? Įvadas, tipai, charakteristikos, pavyzdys

Prieš pradėdami „Big Data“ įvadą, pirmiausia turite žinoti

Kas yra duomenys?

Kiekiai, simboliai ar simboliai, su kuriais operacijas atlieka kompiuteris, kurie gali būti saugomi ir perduodami elektrinių signalų pavidalu ir įrašomi į magnetines, optines ar mechanines įrašymo laikmenas.

Dabar sužinokime „Big Data“ įvadą

Kas yra „Big Data“?

„Big Data“ - tai didžiulės apimties duomenų rinkinys, tačiau laikui bėgant jis auga eksponentiškai. Tai yra tokio dydžio ir sudėtingi duomenys, kad nė vienas iš tradicinių duomenų valdymo įrankių negali jų saugoti ar efektyviai apdoroti. Dideli duomenys taip pat yra duomenys, tačiau didžiuliai.

Šioje pamokoje sužinosite,

  • Kas yra duomenys?
  • Kas yra „Big Data“?
  • Didžiųjų duomenų pavyzdžiai
  • Didžiųjų duomenų tipai
  • Didžiųjų duomenų charakteristikos
  • Didžiųjų duomenų apdorojimo privalumai

Didžiųjų duomenų pavyzdžiai

Toliau pateikiami keli „Big Data“ pavyzdžiai.

Niujorko vertybinių popierių birža generuoja apie vieną terabaitą naujų prekybos duomenys per dieną.

Socialinė žiniasklaida

Statistika rodo, kad kasdien daugiau nei 500 terabaitų naujų duomenų patenka į socialinės žiniasklaidos svetainės „ Facebook“ duomenų bazes . Šie duomenys daugiausia kaupiami nuotraukų ir vaizdo įrašų įkėlimo, keitimosi žinutėmis, komentarų pateikimo ir kt.

Vienas „ Jet“ variklis gali sugeneruoti daugiau kaip 10 terabaitų duomenų per 30 minučių skrydžio. Su daugybe tūkstančių skrydžių per dieną duomenų generavimas pasiekia daugybę Petabaitų.

Didžiųjų duomenų tipai

Toliau pateikiami didžiųjų duomenų tipai:

  1. Struktūrinis
  2. Nestruktūrizuotas
  3. Pusiau struktūrizuotas

Struktūrinis

Visi duomenys, kuriuos galima saugoti, pasiekti ir tvarkyti fiksuoto formato pavidalu, vadinami „struktūrizuotais“ duomenimis. Laikui bėgant, talentas informatikos srityje pasiekė didesnę sėkmę kurdamas darbo su tokio tipo duomenimis metodus (kai formatas yra iš anksto gerai žinomas) ir iš jų išgaunant vertę. Tačiau šiais laikais mes numatome problemas, kai tokių duomenų dydis labai išauga, tipiniai dydžiai yra daugybės zetabaitų įtūžis.

Ar tu žinai? 10 21 baitas, lygus 1 zetabaitui arba vienam milijardui terabaitų, sudaro zettabaitą .

Žvelgiant į šiuos skaičius galima lengvai suprasti, kodėl suteikiamas „Big Data“ vardas, ir įsivaizduoti iššūkius, susijusius su jo saugojimu ir apdorojimu.

Ar tu žinai? Reliacinių duomenų bazių valdymo sistemoje saugomi duomenys yra vienas iš „struktūrizuotų“ duomenų pavyzdžių.

Struktūrizuotų duomenų pavyzdžiai

„Darbuotojo“ lentelė duomenų bazėje yra struktūrinių duomenų pavyzdys

Darbuotojo ID Darbuotojo vardas Lytis Departamentas Atlyginimas_In_lacs
2365 m Rajeshas Kulkarni Patinas Finansai 650000
3398 Pratibha Joshi Moteris Administratorius 650000
7465 Šušilas Rojus Patinas Administratorius 500000
7500 Shubhojit Das Patinas Finansai 500000
7699 Priya Sane Moteris Finansai 550000

Nestruktūrizuotas

Visi nežinomos formos ar struktūros duomenys priskiriami nestruktūrizuotiems duomenims. Be to, kad duomenys nėra didžiuliai, nestruktūrizuoti duomenys kelia daug problemų, susijusių su jų apdorojimu, kad iš jų gautų vertę. Tipiškas nestruktūrizuotų duomenų pavyzdys yra nevienalytis duomenų šaltinis, kuriame yra paprastų tekstinių failų, vaizdų, vaizdo įrašų ir tt derinys. Šiandien organizacijose yra daugybė prieinamų duomenų, deja, jie nežino, kaip iš jų gauti vertę, nes šie duomenys yra neapdorotos arba nestruktūruotos formos.

Nestruktūrizuotų duomenų pavyzdžiai

„Google“ paieškos grąžinta produkcija

Pusiau struktūrizuotas

Pusiau struktūrizuotuose duomenyse gali būti abi duomenų formos. Pusiau struktūrizuotus duomenis galime matyti kaip struktūrizuotus forma, tačiau jie iš tikrųjų nėra apibrėžti, pvz., Lentelės apibrėžimu reliacinėje DBVS. Pusiau struktūrizuotų duomenų pavyzdys yra duomenys, pateikti XML faile.

Pusiau struktūrizuotų duomenų pavyzdžiai

Asmens duomenys, saugomi XML faile -

Prashant RaoMale35Seema R.Female41Satish ManeMale29Subrato RoyMale26Jeremiah J.Male35

Duomenų augimas bėgant metams

Atkreipkite dėmesį, kad nestruktūrizuoti žiniatinklio programų duomenys susideda iš žurnalo failų, operacijų istorijos failų ir kt.

Didžiųjų duomenų charakteristikos

Didelius duomenis galima apibūdinti šiomis charakteristikomis:

  • Tomas
  • Įvairovė
  • Greitis
  • Kintamumas

(i) Apimtis - pats pavadinimas „Big Data“ yra susijęs su milžinišku dydžiu. Duomenų dydis vaidina labai svarbų vaidmenį nustatant duomenų vertę. Taip pat tai, ar tam tikrus duomenis iš tikrųjų galima laikyti dideliais duomenimis, ar ne, priklauso nuo duomenų kiekio. Taigi „apimtis“ yra viena savybė, į kurią reikia atsižvelgti nagrinėjant „Big Data“.

(ii) įvairovė - kitas „Big Data“ aspektas yra jo įvairovė .

Veislė reiškia heterogeninius šaltinius ir struktūrizuotų bei nestruktūruotų duomenų pobūdį. Ankstesnėmis dienomis skaičiuoklės ir duomenų bazės buvo vieninteliai duomenų šaltiniai, kuriuos svarstė dauguma programų. Šiais laikais analizės programose taip pat atsižvelgiama į el. Laiškų, nuotraukų, vaizdo įrašų, stebėjimo prietaisų, PDF, garso ir kt. Duomenis. Ši nestruktūrizuotų duomenų įvairovė kelia tam tikrų duomenų saugojimo, gavybos ir analizės problemų.

iii) greitis - terminas „greitis“ reiškia duomenų generavimo greitį. Kaip greitai duomenys generuojami ir apdorojami, kad atitiktų poreikius, lemia realų duomenų potencialą.

„Big Data Velocity“ nurodo duomenų srauto greitį iš tokių šaltinių kaip verslo procesai, programų žurnalai, tinklai ir socialinės žiniasklaidos svetainės, jutikliai, mobilieji įrenginiai ir kt. Duomenų srautas yra didžiulis ir nuolatinis.

(iv) Kintamumas - tai reiškia nenuoseklumą, kurį kartais gali parodyti duomenys, todėl trukdoma efektyviai tvarkyti ir valdyti duomenis.

Didžiųjų duomenų apdorojimo privalumai

Gebėjimas apdoroti didelius duomenis suteikia daug privalumų, tokių kaip

    • Priimdamos sprendimus įmonės gali pasinaudoti išorine žvalgyba

Prieiga prie socialinių duomenų iš paieškos sistemų ir tokių svetainių kaip „Facebook“, „Twitter“ leidžia organizacijoms tikslinti savo verslo strategijas.

    • Pagerintas klientų aptarnavimas

Tradicines klientų atsiliepimų sistemas keičia naujos sistemos, sukurtos naudojant „Big Data“ technologijas. Šiose naujose sistemose „Big Data“ ir natūralios kalbos apdorojimo technologijos naudojamos skaityti ir įvertinti vartotojų atsakymus.

    • Ankstyvas produkto / paslaugos rizikos nustatymas, jei yra
    • Geresnis veiklos efektyvumas

„Big Data“ technologijos gali būti naudojamos kuriant sustojimo zoną arba nusileidimo zoną naujiems duomenims, prieš nustatant, kokie duomenys turėtų būti perkelti į duomenų saugyklą. Be to, tokia „Big Data“ technologijų ir duomenų saugyklos integracija padeda organizacijai iškrauti retai prieinamus duomenis.

Santrauka

  • Didžiųjų duomenų apibrėžimas: didieji duomenys apibrėžiami kaip didžiulio dydžio duomenys. „Bigdata“ yra terminas, apibūdinantis didžiulį duomenų rinkinį, kuris su laiku vis labiau auga.
  • „Big Data“ analizės pavyzdžiai apima vertybinių popierių biržas, socialinės žiniasklaidos svetaines, reaktyvinius variklius ir kt.
  • Didieji duomenys gali būti 1) struktūriniai, 2) nestruktūriniai, 3) pusiau struktūruoti
  • Tūris, įvairovė, greitis ir kintamumas yra keletas „Big Data“ charakteristikų
  • Pagerintas klientų aptarnavimas, didesnis operatyvumas, geresnis sprendimų priėmimas yra keli „Bigdata“ pranašumai

Įdomios straipsniai...