Čia pateikiami dažnai užduodami duomenų inžinierių interviu klausimai pirmakursiams ir patyrusiems kandidatams, norintiems gauti tinkamą darbą.
1) Paaiškinkite duomenų inžineriją.
Duomenų inžinerija yra terminas, vartojamas didžiuosiuose duomenyse. Jis orientuotas į duomenų rinkimo ir tyrimų taikymą. Iš įvairių šaltinių sugeneruoti duomenys yra tik neapdoroti duomenys. Duomenų inžinerija padeda šiuos neapdorotus duomenis paversti naudinga informacija.
2) Kas yra duomenų modeliavimas?
Duomenų modeliavimas yra sudėtingo programinės įrangos projektavimo kaip diagramos dokumentavimo metodas, kurį kiekvienas gali lengvai suprasti. Tai yra koncepcinis duomenų objektų, susijusių su įvairiais duomenų objektais ir taisyklėmis, vaizdavimas.
3) Duomenų modeliavime išvardykite įvairių tipų dizaino schemas
Duomenų modeliavime daugiausia yra dviejų tipų schemos: 1) žvaigždžių schema ir 2) snaigių schema.
4) Atskirkite struktūrinius ir nestruktūruotus duomenis
Toliau pateikiamas skirtumas tarp struktūrizuotų ir nestruktūruotų duomenų:
Parametras | Struktūrizuoti duomenys | Nestruktūrizuoti duomenys |
Sandėliavimas | DBVS | Nevaldomos failų struktūros |
Standartinis | ADO.net, ODBC ir SQL | STMP, XML, CSV ir SMS |
Integracijos įrankis | ELT (ištraukti, transformuoti, įkelti) | Rankinis duomenų įvedimas arba paketinis apdorojimas, apimantis kodus |
mastelio keitimas | Schemos mastelis yra sunkus | Mastelio keitimas yra labai lengvas. |
5) Paaiškinkite visus „Hadoop“ programos komponentus
Toliau pateikiami „Hadoop“ programos komponentai:
- „Hadoop Common“: tai yra bendras „Hadoop“ naudojamų paslaugų ir bibliotekų rinkinys.
- HDFS: Ši „Hadoop“ programa yra susijusi su failų sistema, kurioje saugomi „Hadoop“ duomenys. Tai yra paskirstyta failų sistema, turinti didelį pralaidumą.
- „Hadoop MapReduce“: jis pagrįstas didelio masto duomenų apdorojimo teikimo algoritmu.
- „Hadoop YARN“: jis naudojamas išteklių valdymui „Hadoop“ klasteryje. Jis taip pat gali būti naudojamas planuojant užduotis vartotojams.
6) Kas yra „NameNode“?
Tai yra pagrindinis HDFS elementas. Jame saugomi HDFS duomenys ir sekami įvairūs failai grupėse. Čia faktiniai duomenys nėra saugomi. Duomenys saugomi „DataNodes“.
7) Apibrėžkite „Hadoop“ srautą
Tai yra įrankis, leidžiantis sukurti žemėlapį, sumažinti darbo vietų skaičių ir pateikti jas konkrečiam klasteriui.
8) Kokia yra visa HDFS forma?
HDFS reiškia „Hadoop“ paskirstytą failų sistemą.
9) HDFS nustatykite blokavimo ir blokavimo skaitytuvą
Blokai yra mažiausias duomenų failo vienetas. Hadoopas automatiškai padalija didžiulius failus į mažus gabalėlius.
Blokų skaitytuvas patikrina blokų, pateiktų „DataNode“, sąrašą.
10) Kokie veiksmai atliekami, kai bloko skaitytuvas aptinka sugadintą duomenų bloką?
Šie veiksmai atliekami, kai „Blokavimo skaitytuvas“ randa sugadintą duomenų bloką:
1) Visų pirma, kai „Blokų skaitytuvas“ randa sugadintą duomenų bloką, „DataNode“ praneša „NameNode“
2) „NameNode“ pradeda kurti naują repliką naudodami sugadinto bloko kopiją.
3) Teisingų kopijų replikacijų skaičius bando suderinti su replikacijos koeficientu. Jei rasta atitiktis, sugadintas duomenų blokas nebus ištrintas.
11) Pavadinkite du pranešimus, kuriuos NameNode gauna iš DataNode?
Yra du pranešimai, kuriuos NameNode gauna iš DataNode. Jie yra 1) blokavimo ataskaita ir 2) širdies plakimas.
12) Išvardykite įvairius XML konfigūracijos failus „Hadoop“?
„Hadoop“ yra penki XML konfigūracijos failai:
- Mapred-site
- Pagrindinė svetainė
- HDFS svetainė
- Verpalų svetainė
13) Kokie yra keturi didžiųjų duomenų V duomenys?
Keturi didžiųjų duomenų V duomenys yra:
- Greitis
- Įvairovė
- Tomas
- Tikrumas
14) Paaiškinkite Hadoopo ypatybes
Svarbios „Hadoop“ savybės yra šios:
- Tai yra atviro kodo sistema, prieinama nemokama programa.
- „Hadoop“ suderinama su daugeliu aparatinės įrangos tipų ir lengvai pasiekiama nauja aparatūra konkrečiame mazge.
- „Hadoop“ palaiko greitesnį paskirstytą duomenų apdorojimą.
- Duomenys kaupiami klasteryje, kuris nepriklauso nuo likusių operacijų.
- „Hadoop“ leidžia kiekvienam blokui sukurti 3 kopijas su skirtingais mazgais.
15) Paaiškinkite pagrindinius „Reducer“ metodus
- setup (): Jis naudojamas konfigūruoti parametrus, pvz., įvesties duomenų dydį ir paskirstytą talpyklą.
- valymas (): Šis metodas naudojamas valant laikinus failus.
- sumažinti (): Tai yra reduktoriaus širdis, kuri pakviečiama vieną kartą kiekvienam klavišui su susijusia sumažinta užduotimi
16) Kas yra COSHH santrumpa?
COSHH santrumpa yra klasifikacija ir optimizavimu pagrįstas tvarkaraštis heterogeninėms Hadoop sistemoms.
17) Paaiškinkite žvaigždžių schemą
„Star Schema“ arba „Star Join Schema“ yra paprasčiausias duomenų saugyklos schemos tipas. Tai žinoma kaip žvaigždžių schema, nes jos struktūra yra panaši į žvaigždę. Žvaigždės schemoje žvaigždės centre gali būti viena faktų lentelė ir kelios susijusios matmenų lentelės. Ši schema naudojama užklausoms dėl didelių duomenų rinkinių.
18) Kaip įdiegti didelių duomenų sprendimą?
Norėdami įdiegti didelių duomenų sprendimą, atlikite šiuos veiksmus.
1) Integruokite duomenis naudodami tokius duomenų šaltinius kaip RDBMS, SAP, MySQL, „Salesforce“
2) Išsaugotus duomenis saugokite „NoSQL“ duomenų bazėje arba HDFS.
3) Įdiekite didelių duomenų sprendimą naudodami apdorojimo sistemas, pvz., „Pig“, „Spark“ ir „MapReduce“.
19) Paaiškinkite FSCK
Failų sistemos tikrinimas arba FSCK yra komanda, kurią naudoja HDFS. FSCK komanda naudojama failo neatitikimams ir problemoms patikrinti.
20) Paaiškinkite snaigių schemą
„Snaigės“ schema yra „Žvaigždžių schemos“ pratęsimas ir ji prideda papildomų matmenų. Tai vadinamoji snaigė, nes jos schema atrodo kaip snaigė. Dimensijų lentelės yra normalizuotos, todėl duomenys padalijami į papildomas lenteles.
21) Skirkite žvaigždžių ir snaigių schemas
Žvaigždė | „SnowFlake“ schema |
Matmenų hierarchijos saugomos matmenų lentelėje. | Kiekviena hierarchija saugoma atskirose lentelėse. |
Didelio duomenų pertekliaus tikimybė | Duomenų pertekliaus tikimybė yra maža. |
Jis turi labai paprastą DB dizainą | Jis turi sudėtingą DB dizainą |
Pateikite greitesnį kubo apdorojimo būdą | Kubas apdorojamas lėtai dėl kompleksinio sujungimo. |
22) Paaiškinkite „Hadoop“ paskirstytą failų sistemą
„Hadoop“ veikia su keičiamo dydžio paskirstytomis failų sistemomis, tokiomis kaip S3, HFTP FS, FS ir HDFS. „Hadoop“ paskirstyta failų sistema sukurta „Google“ failų sistemoje. Ši failų sistema sukurta taip, kad ją būtų galima lengvai paleisti dideliame kompiuterinės sistemos klasteryje.
23) Paaiškinkite pagrindines duomenų inžinieriaus pareigas
Duomenų inžinieriai turi daug atsakomybės. Jie valdo duomenų šaltinių sistemą. Duomenų inžinieriai supaprastina sudėtingą duomenų struktūrą ir užkerta kelią duomenų dubliavimui. Daug kartų jie taip pat teikia ELT ir duomenų transformaciją.
24) Kokia yra visa verpalų forma?
Visa YARN forma yra dar vienas derybininkas dėl išteklių.
25) Išvardinkite įvairius „Hadoop“ režimus
„Hadoop“ režimai yra 1) atskiras režimas 2) pseudo paskirstytasis režimas 3) visiškai paskirstytas režimas.
26) Kaip pasiekti saugumą „Hadoop“?
Norėdami pasiekti „Hadoop“ saugumą, atlikite šiuos veiksmus:
1) Pirmasis žingsnis yra apsaugoti kliento autentifikavimo kanalą prie serverio. Pateikite klientui laiko žymą.
2) Antrame etape klientas naudoja gautą laiko žymą prašydamas TGS gauti paslaugų bilietą.
3) Paskutiniame etape klientas naudoja paslaugų bilietą savęs autentifikavimui į konkretų serverį.
27) Kas yra širdies plakimas Hadoope?
„Hadoop“ sistemoje „NameNode“ ir „DataNode“ bendrauja tarpusavyje. Širdies plakimas yra „DataNode“ reguliariai „NameNode“ siunčiamas signalas, parodantis jo buvimą.
28) Hadoope išskirkite NAS ir DAS
NAS | DAS |
Saugyklos talpa yra nuo 10 9 iki 10 12 baitų. | Saugyklos talpa yra 10 9 baitų. |
Valdymo kaina už GB yra vidutinė. | Valdymo kaina už GB yra didelė. |
Duomenis perduokite naudodami „Ethernet“ arba TCP / IP. | Duomenis perduokite naudodami IDE / SCSI |
29) Išvardinkite svarbius laukus ar kalbas, kurias naudoja duomenų inžinierius
Keli laukai ar kalbos, kurias naudoja duomenų inžinierius:
- Tikimybė, taip pat tiesinė algebra
- Mašininis mokymasis
- Tendencijų analizė ir regresija
- Avilys QL ir SQL duomenų bazės
30) Kas yra didieji duomenys?
Tai yra didelis kiekis struktūrizuotų ir nestruktūrizuotų duomenų, kurių negalima lengvai apdoroti tradiciniais duomenų saugojimo metodais. Duomenų inžinieriai naudoja „Hadoop“ dideliems duomenims valdyti.
31) Kas yra FIFO planavimas?
Tai yra „Hadoop“ darbo planavimo algoritmas. Šiame FIFO tvarkaraštyje žurnalistas pasirenka darbus iš darbo eilės, pirmiausia - seniausią.
32) Paminėkite numatytuosius prievado numerius, kuriuose užduočių stebėjimo priemonė, „NameNode“ ir darbo stebėjimo priemonė veikia „Hadoop“
Numatytieji prievado numeriai, kuriuose užduočių stebėjimo priemonė, „NameNode“ ir užduočių stebėjimo programa veikia „Hadoop“, yra šie:
- Užduočių sekimo programa veikia 50060 uoste
- „NameNode“ veikia 50070 uoste
- „Job Tracker“ veikia 50030 uoste
33) Kaip išjungti blokinį skaitytuvą HDFS duomenų mazge
Norėdami išjungti blokų skaitytuvą HDFS duomenų mazge, nustatykite dfs.datanode.scan.period.hours į 0.
34) Kaip apibrėžti atstumą tarp dviejų mazgų „Hadoop“?
Atstumas yra lygus atstumo iki artimiausių mazgų sumai. Metodas getDistance () naudojamas apskaičiuojant atstumą tarp dviejų mazgų.
35) Kodėl „Hadoop“ naudoti prekių aparatinę įrangą?
Prekės aparatinę įrangą lengva įsigyti ir ji yra prieinama. Tai sistema, suderinama su „Windows“, „MS-DOS“ arba „Linux“.
36) Apibrėžkite HDFS replikacijos koeficientą
Replikacijos koeficientas yra bendras failo kopijų skaičius sistemoje.
37) Kokie duomenys saugomi „NameNode“?
„Namenode“ saugo HDFS metaduomenis, pvz., Blokavimo informaciją ir vardų srities informaciją.
38) Ką turite omenyje sakydami apie stovo supratimą?
„Haddop“ grupėje „Namenode“ naudoja Datanode, kad pagerintų tinklo srautą, skaitydamas ar rašydamas bet kurį failą, kuris yra arčiau šalia esančio stovo, kad būtų galima skaityti arba rašyti. „Namenode“ išlaiko kiekvieno „DataNode“ stovo ID, kad gautų stovo informaciją. Ši koncepcija vadinama „Rack Awareness“ sistemoje „Hadoop“.
39) Kokios yra „Second NameNode“ funkcijos?
Toliau pateikiamos „Second NameNode“ funkcijos:
- „FsImage“, kuriame saugoma „EditLog“ ir „FsImage“ failų kopija.
- „NameNode“ gedimas: jei „NameNode“ sugenda, tada antrinio vardo mazgo „FsImage“ galima naudoti norint sukurti „NameNode“.
- Patikrinimo taškas: jį naudoja „Second NameNode“, kad patvirtintų, jog duomenys nėra sugadinti HDFS.
- Atnaujinti: jis automatiškai atnaujina „EditLog“ ir „FsImage“ failus. Tai padeda atnaujinti „FsImage“ failą „Second NameNode“.
40) Kas nutinka, kai „NameNode“ neveikia ir vartotojas pateikia naują darbą?
„NameNode“ yra vienintelis „Hadoop“ gedimo taškas, todėl vartotojas negali pateikti naujos užduoties. Jei „NameNode“ neveikia, užduotis gali nepavykti, nes prieš paleidžiant bet kurį vartotoją reikia palaukti, kol „NameNode“ bus paleista iš naujo.
41) Kokios yra pagrindinės reduktoriaus fazės „Hadoop“?
„Hadoop“ yra trys pagrindiniai reduktoriaus etapai:
1. Maišymas: Reduceris čia nukopijuoja Mapper išvestį.
2. Rūšiuoti: Rūšiuoti Hadoopas tuo pačiu klavišu surūšiuoja įvestį Reduktoriui.
3. Sumažinti: Šiame etape išvesties vertės, susietos su raktu, yra sumažinamos, kad duomenys būtų konsoliduoti į galutinę išvestį.
42) Kodėl Hadoopas naudoja konteksto objektą?
„Hadoop“ sistema naudoja „Context“ objektą su „Mapper“ klase, kad sąveikautų su likusia sistema. Konteksto objektas gauna sistemos konfigūracijos detales ir užduotis savo konstruktoriuje.
Norėdami perduoti informaciją sąrankos (), valymo () ir žemėlapio () metoduose, mes naudojame objektą „Kontekstas“. Šis objektas suteikia svarbią informaciją žemėlapio operacijų metu.
43) Apibrėžkite kombinatorių „Hadoop“
Tai yra neprivalomas žingsnis tarp žemėlapio ir mažinimo. „Combiner“ ima išvestį iš žemėlapio funkcijos, sukuria pagrindinių reikšmių poras ir pateikia „Hadoop Reducer“. „Combiner“ užduotis yra apibendrinti galutinį „Map“ rezultatą į suvestinius įrašus identišku raktu.
44) Koks yra numatytasis HDFS replikacijos koeficientas, ką jis rodo?
Numatytasis HDFS galimas replikacijos koeficientas yra trys. Numatytasis replikacijos koeficientas rodo, kad bus trys kiekvieno duomenų kopijos.
45) Ką turite omenyje duomenų vietovėje „Hadoop“?
„Big Data“ sistemoje duomenų dydis yra didžiulis, todėl nėra prasmės perkelti duomenis per tinklą. Dabar Hadoopas bando skaičiavimus priartinti prie duomenų. Tokiu būdu duomenys išlieka vietiniai saugomoje vietoje.
46) Apibrėžkite balansavimo priemonę HDFS
HDFS balansavimo priemonė yra administravimo priemonė, kurią naudoja administratoriaus darbuotojai, norėdami iš naujo subalansuoti duomenis tarp „DataNodes“ ir perkelia blokus iš per daug nenaudotų į nepakankamai išnaudotus mazgus.
47) Paaiškinkite saugųjį režimą HDFS
Tai yra tik skaitomas „NameNode“ režimas grupėje. Iš pradžių „NameNode“ yra „Safemode“. Tai neleidžia rašyti į „Safemode“ failų sistemą. Šiuo metu ji renka duomenis ir statistiką iš visų „DataNodes“.
48) Kokia yra paskirstytos talpyklos svarba „Apache Hadoop“?
„Hadoop“ turi naudingą naudingumo funkciją, vadinamąją paskirstytąją talpyklą, kuri pagerina darbų našumą talpykloje kaupdama programų naudojamus failus. Programa gali nurodyti talpyklos failą naudodama „JobConf“ konfigūraciją.
„Hadoop“ sistema sukuria šių failų kopijas mazgams, kuriuos reikia atlikti. Tai daroma prieš pradedant vykdyti užduotį. Paskirstyta talpykla palaiko tik skaitomų failų, taip pat užtrauktukų ir stiklainių failų platinimą.
49) Kas yra „Metastore“ avilyje?
Čia saugoma schema ir „Hive“ stalo vieta.
„Avilio“ lentelėje apibrėžiami, susiejimai ir metaduomenys, kurie saugomi „Metastore“. Tai galima išsaugoti JPBX palaikomose RDBMS.
50) Ką reiškia „SerDe“ avilyje?
„SerDe“ yra trumpas „Serializer“ arba „Deserializer“ pavadinimas. Avilyje „SerDe“ leidžia nuskaityti duomenis iš lentelės į bet kurį norimą formatą ir rašyti į konkretų lauką.
51) Išvardykite „Hive“ duomenų modelyje esančius komponentus
„Hive“ duomenų modelyje yra šie komponentai:
- Lentelės
- Pertvaros
- Kibirai
52) Paaiškinkite avilio naudojimą Hadoop ekosistemoje.
„Hive“ suteikia sąsają „Hadoop“ ekosistemoje saugomiems duomenims tvarkyti. Avilys naudojamas žemėlapiams ir darbui su HBase lentelėmis. Avilio užklausos paverčiamos „MapReduce“ užduotimis, siekiant paslėpti sudėtingumą, susijusį su „MapReduce“ darbų kūrimu ir vykdymu.
53) „Hive“ palaiko įvairių sudėtingų duomenų tipų / rinkinių sąrašą
„Hive“ palaiko šiuos sudėtingus duomenų tipus:
- Žemėlapis
- Struktūrinis
- Masyvas
- Sąjunga
54) Paaiškinkite, kaip naudojamas .hiverc failas avilyje?
„Hive“ .hiverc yra inicializavimo failas. Šis failas iš pradžių įkeliamas, kai paleidžiame „Hive“ komandų eilutės sąsają (CLI). Galime nustatyti pradines parametrų reikšmes .hiverc faile.
55) Ar galima avilyje sukurti daugiau nei vieną lentelę vienam duomenų failui?
Taip, duomenų failui galime sukurti daugiau nei vieną lentelių schemą. „Hive“ išsaugo „Hive Metastore“ schemą. Remdamiesi šia schema, galime gauti skirtingų rezultatų iš tų pačių duomenų.
56) Paaiškinkite skirtingus „SerDe“ diegimus, esančius avilyje
Avilyje yra daug „SerDe“ diegimų. Taip pat galite parašyti savo pasirinktą „SerDe“ diegimą. Toliau pateikiami keli garsūs „SerDe“ diegimai:
- „OpenCSVSerde“
- RegexSerDe
- ApribotaJSONSerDe
- „ByteStreamTypedSerDe“
57) Išvardykite lentelėje kuriamas funkcijas, esančias avilyje
Toliau pateikiamas lentelių generavimo funkcijų sąrašas:
- Sprogti (masyvas)
- JSON_tuple ()
- Krovinys ()
- Sprogti (žemėlapis)
58) Kas yra iškreiptas stalas avilyje?
Iškreipta lentelė yra lentelė, kurioje stulpelių reikšmės pateikiamos dažniau. „Hive“, kai kurdami lentelę nurodome kaip NUOLATĄ, iškreiptos reikšmės įrašomos į atskirus failus, o likusios reikšmės patenka į kitą failą.
59) Išvardinkite objektus, sukurtus sukuriant pareiškimą MySQL.
Objektai, sukurti sukuriant pareiškimą MySQL, yra šie:
- Duomenų bazė
- Indeksas
- Lentelė
- Vartotojas
- Procedūra
- Paleiskite
- Įvykis
- Vaizdas
- Funkcija
60) Kaip pamatyti duomenų bazės struktūrą MySQL?
Norėdami pamatyti duomenų bazės struktūrą MySQL, galite naudoti
DESCRIBE komanda. Šios komandos sintaksė yra DESCRIBE lentelės pavadinimas ;.
61) Kaip ieškoti konkrečios eilutės MySQL lentelės stulpelyje?
Norėdami ieškoti eilutės „MySQL“ stulpelyje, naudokite regex operatorių. Čia taip pat galime apibrėžti įvairius reguliaraus reiškinio tipus ir ieškoti, kaip naudoti regex.
62) Paaiškinkite, kaip duomenų analizė ir didieji duomenys gali padidinti įmonės pajamas?
Toliau pateikiami būdai, kaip duomenų analizė ir dideli duomenys gali padidinti įmonės pajamas:
- Efektyviai naudokite duomenis, kad užtikrintumėte verslo augimą.
- Padidinkite kliento vertę.
- Analitinis, siekiant pagerinti personalo lygio prognozes.
- Organizacijų gamybos sąnaudų mažinimas.