Prieš pradėdami „Big Data“ įvadą, pirmiausia turite žinoti
Kas yra duomenys?
Kiekiai, simboliai ar simboliai, su kuriais operacijas atlieka kompiuteris, kurie gali būti saugomi ir perduodami elektrinių signalų pavidalu ir įrašomi į magnetines, optines ar mechanines įrašymo laikmenas.
Dabar sužinokime „Big Data“ įvadą
Kas yra „Big Data“?
„Big Data“ - tai didžiulės apimties duomenų rinkinys, tačiau laikui bėgant jis auga eksponentiškai. Tai yra tokio dydžio ir sudėtingi duomenys, kad nė vienas iš tradicinių duomenų valdymo įrankių negali jų saugoti ar efektyviai apdoroti. Dideli duomenys taip pat yra duomenys, tačiau didžiuliai.
Šioje pamokoje sužinosite,
- Kas yra duomenys?
- Kas yra „Big Data“?
- Didžiųjų duomenų pavyzdžiai
- Didžiųjų duomenų tipai
- Didžiųjų duomenų charakteristikos
- Didžiųjų duomenų apdorojimo privalumai
Didžiųjų duomenų pavyzdžiai
Toliau pateikiami keli „Big Data“ pavyzdžiai.
Niujorko vertybinių popierių birža generuoja apie vieną terabaitą naujų prekybos duomenys per dieną.
Socialinė žiniasklaida
Statistika rodo, kad kasdien daugiau nei 500 terabaitų naujų duomenų patenka į socialinės žiniasklaidos svetainės „ Facebook“ duomenų bazes . Šie duomenys daugiausia kaupiami nuotraukų ir vaizdo įrašų įkėlimo, keitimosi žinutėmis, komentarų pateikimo ir kt.
Vienas „ Jet“ variklis gali sugeneruoti daugiau kaip 10 terabaitų duomenų per 30 minučių skrydžio. Su daugybe tūkstančių skrydžių per dieną duomenų generavimas pasiekia daugybę Petabaitų.
Didžiųjų duomenų tipai
Toliau pateikiami didžiųjų duomenų tipai:
- Struktūrinis
- Nestruktūrizuotas
- Pusiau struktūrizuotas
Struktūrinis
Visi duomenys, kuriuos galima saugoti, pasiekti ir tvarkyti fiksuoto formato pavidalu, vadinami „struktūrizuotais“ duomenimis. Laikui bėgant, talentas informatikos srityje pasiekė didesnę sėkmę kurdamas darbo su tokio tipo duomenimis metodus (kai formatas yra iš anksto gerai žinomas) ir iš jų išgaunant vertę. Tačiau šiais laikais mes numatome problemas, kai tokių duomenų dydis labai išauga, tipiniai dydžiai yra daugybės zetabaitų įtūžis.
Ar tu žinai? 10 21 baitas, lygus 1 zetabaitui arba vienam milijardui terabaitų, sudaro zettabaitą .
Žvelgiant į šiuos skaičius galima lengvai suprasti, kodėl suteikiamas „Big Data“ vardas, ir įsivaizduoti iššūkius, susijusius su jo saugojimu ir apdorojimu.
Ar tu žinai? Reliacinių duomenų bazių valdymo sistemoje saugomi duomenys yra vienas iš „struktūrizuotų“ duomenų pavyzdžių.
Struktūrizuotų duomenų pavyzdžiai
„Darbuotojo“ lentelė duomenų bazėje yra struktūrinių duomenų pavyzdys
Darbuotojo ID | Darbuotojo vardas | Lytis | Departamentas | Atlyginimas_In_lacs |
---|---|---|---|---|
2365 m | Rajeshas Kulkarni | Patinas | Finansai | 650000 |
3398 | Pratibha Joshi | Moteris | Administratorius | 650000 |
7465 | Šušilas Rojus | Patinas | Administratorius | 500000 |
7500 | Shubhojit Das | Patinas | Finansai | 500000 |
7699 | Priya Sane | Moteris | Finansai | 550000 |
Nestruktūrizuotas
Visi nežinomos formos ar struktūros duomenys priskiriami nestruktūrizuotiems duomenims. Be to, kad duomenys nėra didžiuliai, nestruktūrizuoti duomenys kelia daug problemų, susijusių su jų apdorojimu, kad iš jų gautų vertę. Tipiškas nestruktūrizuotų duomenų pavyzdys yra nevienalytis duomenų šaltinis, kuriame yra paprastų tekstinių failų, vaizdų, vaizdo įrašų ir tt derinys. Šiandien organizacijose yra daugybė prieinamų duomenų, deja, jie nežino, kaip iš jų gauti vertę, nes šie duomenys yra neapdorotos arba nestruktūruotos formos.
Nestruktūrizuotų duomenų pavyzdžiai
„Google“ paieškos grąžinta produkcija
Pusiau struktūrizuotas
Pusiau struktūrizuotuose duomenyse gali būti abi duomenų formos. Pusiau struktūrizuotus duomenis galime matyti kaip struktūrizuotus forma, tačiau jie iš tikrųjų nėra apibrėžti, pvz., Lentelės apibrėžimu reliacinėje DBVS. Pusiau struktūrizuotų duomenų pavyzdys yra duomenys, pateikti XML faile.
Pusiau struktūrizuotų duomenų pavyzdžiai
Asmens duomenys, saugomi XML faile -
Prashant Rao Male 35 Seema R. Female 41 Satish Mane Male 29 Subrato Roy Male 26 Jeremiah J. Male 35
Duomenų augimas bėgant metams
Atkreipkite dėmesį, kad nestruktūrizuoti žiniatinklio programų duomenys susideda iš žurnalo failų, operacijų istorijos failų ir kt.
Didžiųjų duomenų charakteristikos
Didelius duomenis galima apibūdinti šiomis charakteristikomis:
- Tomas
- Įvairovė
- Greitis
- Kintamumas
(i) Apimtis - pats pavadinimas „Big Data“ yra susijęs su milžinišku dydžiu. Duomenų dydis vaidina labai svarbų vaidmenį nustatant duomenų vertę. Taip pat tai, ar tam tikrus duomenis iš tikrųjų galima laikyti dideliais duomenimis, ar ne, priklauso nuo duomenų kiekio. Taigi „apimtis“ yra viena savybė, į kurią reikia atsižvelgti nagrinėjant „Big Data“.
(ii) įvairovė - kitas „Big Data“ aspektas yra jo įvairovė .
Veislė reiškia heterogeninius šaltinius ir struktūrizuotų bei nestruktūruotų duomenų pobūdį. Ankstesnėmis dienomis skaičiuoklės ir duomenų bazės buvo vieninteliai duomenų šaltiniai, kuriuos svarstė dauguma programų. Šiais laikais analizės programose taip pat atsižvelgiama į el. Laiškų, nuotraukų, vaizdo įrašų, stebėjimo prietaisų, PDF, garso ir kt. Duomenis. Ši nestruktūrizuotų duomenų įvairovė kelia tam tikrų duomenų saugojimo, gavybos ir analizės problemų.
iii) greitis - terminas „greitis“ reiškia duomenų generavimo greitį. Kaip greitai duomenys generuojami ir apdorojami, kad atitiktų poreikius, lemia realų duomenų potencialą.
„Big Data Velocity“ nurodo duomenų srauto greitį iš tokių šaltinių kaip verslo procesai, programų žurnalai, tinklai ir socialinės žiniasklaidos svetainės, jutikliai, mobilieji įrenginiai ir kt. Duomenų srautas yra didžiulis ir nuolatinis.
(iv) Kintamumas - tai reiškia nenuoseklumą, kurį kartais gali parodyti duomenys, todėl trukdoma efektyviai tvarkyti ir valdyti duomenis.
Didžiųjų duomenų apdorojimo privalumai
Gebėjimas apdoroti didelius duomenis suteikia daug privalumų, tokių kaip
- Priimdamos sprendimus įmonės gali pasinaudoti išorine žvalgyba
Prieiga prie socialinių duomenų iš paieškos sistemų ir tokių svetainių kaip „Facebook“, „Twitter“ leidžia organizacijoms tikslinti savo verslo strategijas.
- Pagerintas klientų aptarnavimas
Tradicines klientų atsiliepimų sistemas keičia naujos sistemos, sukurtos naudojant „Big Data“ technologijas. Šiose naujose sistemose „Big Data“ ir natūralios kalbos apdorojimo technologijos naudojamos skaityti ir įvertinti vartotojų atsakymus.
- Ankstyvas produkto / paslaugos rizikos nustatymas, jei yra
- Geresnis veiklos efektyvumas
„Big Data“ technologijos gali būti naudojamos kuriant sustojimo zoną arba nusileidimo zoną naujiems duomenims, prieš nustatant, kokie duomenys turėtų būti perkelti į duomenų saugyklą. Be to, tokia „Big Data“ technologijų ir duomenų saugyklos integracija padeda organizacijai iškrauti retai prieinamus duomenis.
Santrauka
- Didžiųjų duomenų apibrėžimas: didieji duomenys apibrėžiami kaip didžiulio dydžio duomenys. „Bigdata“ yra terminas, apibūdinantis didžiulį duomenų rinkinį, kuris su laiku vis labiau auga.
- „Big Data“ analizės pavyzdžiai apima vertybinių popierių biržas, socialinės žiniasklaidos svetaines, reaktyvinius variklius ir kt.
- Didieji duomenys gali būti 1) struktūriniai, 2) nestruktūriniai, 3) pusiau struktūruoti
- Tūris, įvairovė, greitis ir kintamumas yra keletas „Big Data“ charakteristikų
- Pagerintas klientų aptarnavimas, didesnis operatyvumas, geresnis sprendimų priėmimas yra keli „Bigdata“ pranašumai