60 geriausių Hadoop & „MapReduce“ interviu klausimai ir Atsakymai

Atsisiųsti PDF

Toliau pateikiami dažnai užduodami klausimai interviu naujokams ir patyrusiems kūrėjams.

1) Kas yra „Hadoop Map Reduce“?

Dideliems duomenų rinkiniams lygiagrečiai per „Hadoop“ grupę apdoroti naudojama „Hadoop MapReduce“ sistema. Duomenų analizė naudoja dviejų žingsnių žemėlapį ir sumažina procesą.

2) Kaip veikia „Hadoop MapReduce“?

„MapReduce“ žemėlapio etape skaičiuoja žodžius kiekviename dokumente, o redukcijos etape kaupia duomenis pagal visą kolekciją apimantį dokumentą. Žemėlapio etape įvesties duomenys yra padalijami į padalijimus analizei pagal žemėlapio užduotis, lygiagrečiai vykdomas per „Hadoop“ sistemą.

3) Paaiškinkite, kas yra maišymasis „MapReduce“?

Procesas, kurio metu sistema atlieka rūšiavimą ir žemėlapio išvestis perduoda reduktoriui kaip įvestis, vadinamas maišymu

4) Paaiškinkite, kas yra „MapReduce Framework“ paskirstoma talpykla?

Paskirstyta talpykla yra svarbi funkcija, kurią teikia „MapReduce“ sistema. Kai norite bendrinti kai kuriuos failus visuose „Hadoop Cluster“ mazguose, naudojama paskirstytoji talpykla. Failai gali būti vykdomi jar failai arba paprastos ypatybės failas.

5) Paaiškinkite, kas yra „NameNode“ sistemoje „Hadoop“?

„NameNode“ sistemoje „Hadoop“ yra mazgas, kuriame „Hadoop“ saugo visą failo vietos informaciją HDFS („Hadoop“ paskirstytoje failų sistemoje). Kitaip tariant, „NameNode“ yra pagrindinis HDFS failų sistemos elementas. Jis registruoja visus failų sistemoje esančius failus ir seka failų duomenis grupėje ar keliose mašinose

6) Paaiškinkite, kas yra „JobTracker“ programoje „Hadoop“? Kokių veiksmų imasi Hadoopas?

Programoje „Hadoop“ pateikiant ir stebint „MapReduce“ užduotis, naudojama „JobTracker“. Darbų sekimas veikia pagal savo JVM procesą

„Job Tracker“ atlieka šiuos veiksmus „Hadoop“

Kliento paraiška pateikia darbus darbo stebėjimo priemonėms
„JobTracker“ palaiko vardo režimą, kad nustatytų duomenų vietą
Netoli duomenų arba su turimais laiko tarpsniais „JobTracker“ suranda „TaskTracker“ mazgus
Pasirinktuose „TaskTracker“ mazguose ji pateikia darbą
Kai užduotis nepavyksta, „Job tracker“ praneša ir nusprendžia, ką tada daryti.
„TaskTracker“ mazgus stebi „JobTracker“

7) Paaiškinkite, kas yra širdies plakimas HDFS?

Širdies plakimas yra signalas, naudojamas tarp duomenų mazgo ir vardo mazgo bei tarp užduočių ir darbo stebėjimo priemonių, jei vardo mazgas ar darbo stebėjimo priemonė nereaguoja į signalą, laikoma, kad yra keletas duomenų mazgo ar užduoties problemų sekimo priemonė

8) Paaiškinkite, kas yra kombinatoriai ir kada turėtumėte naudoti „MapReduce Job“ kombainą?

Norėdami padidinti MapReduce programos efektyvumą, naudojami „Combiners“. Duomenų kiekį galima sumažinti kombinatoriaus pagalba, kuriuos reikia perduoti reduktoriams. Jei atlikta operacija yra komutacinė ir asociatyvi, reduktoriaus kodą galite naudoti kaip kombinatorių. „Hadoop“ neužtikrina kombinatoriaus vykdymo

9) Kas atsitinka, kai duomenų mazgas sugenda?

Kai duomenų mazgas nepavyksta

„Jobtracker“ ir „namenode“ nustato gedimą
Nepavykusiame mazge visos užduotys yra suplanuotos iš naujo
„Namenode“ atkartoja vartotojo duomenis į kitą mazgą

10) Paaiškinkite, kas yra spekuliacinis vykdymas?

„Hadoop“ vykdant spekuliacinį vykdymą paleidžiamas tam tikras skaičius užduočių dublikatų. Kitame vergo mazge kelias to paties žemėlapio arba redukcijos užduoties kopijas galima atlikti naudojant spekuliacinį vykdymą. Paprastais žodžiais tariant, jei tam tikras diskas užima daug laiko užduočiai atlikti, Hadoopas sukurs užduoties kopiją kitame diske. Diskas, kuris baigia užduotį pirmiausia, yra išlaikomas, o diskai, kurie nebaigia pirmojo, yra užmušti.

11) Paaiškinkite, kokie yra pagrindiniai „Mapper“ parametrai?

Pagrindiniai „Mapper“ parametrai yra

LongWritable ir tekstas
Tekstas ir „IntWritable“

12) Paaiškinkite, kokia yra „MapReduce“ skaidinio funkcija?

MapReduce skirstytuvo funkcija yra įsitikinti, kad visa vieno rakto vertė atiteks tam pačiam reduktoriui, o tai galiausiai padės tolygiai paskirstyti žemėlapio išvestį per reduktorius

13) Paaiškinkite, koks skirtumas tarp įvesties padalijimo ir HDFS bloko?

Loginis duomenų padalijimas žinomas kaip „Split“, o fizinis duomenų padalijimas - „HDFS Block“

14) Paaiškinkite, kas vyksta teksto formatu?

Teksto įvesties formatu kiekviena teksto failo eilutė yra įrašas. Vertė yra eilutės turinys, o raktas yra eilutės baito poslinkis. Pavyzdžiui, Key: longWritable, Value: text

15) Paminėkite, kokie yra pagrindiniai konfigūracijos parametrai, kuriuos vartotojas turi nurodyti norėdamas paleisti „MapReduce Job“?

„MapReduce“ sistemos vartotojas turi nurodyti

Darbo įvesties vietos paskirstytoje failų sistemoje
Darbo išvesties vieta paskirstytoje failų sistemoje
Įvesties formatas
Išvesties formatas
Klasė, kurioje yra žemėlapio funkcija
Klasė, kurioje yra sumažinimo funkcija
JAR failas, kuriame yra žemėlapių sudarymo, reduktoriaus ir tvarkyklių klasės

16) Paaiškinkite, kas yra „WebDAV“ sistemoje „Hadoop“?

Failų redagavimui ir atnaujinimui „WebDAV“ yra HTTP plėtinių rinkinys. Daugumoje operacinių sistemų „WebDAV“ bendrinimus galima prijungti kaip failų sistemas, todėl HDFS galima pasiekti kaip standartinę failų sistemą, atskleidžiant HDFS per „WebDAV“.

17) Paaiškinkite, kas yra „Sqoop“ Hadoope?

Duomenims perduoti tarp „Relational database management“ (RDBMS) ir „Hadoop HDFS“ naudojamas įrankis, žinomas kaip „Sqoop“. Naudojant „Sqoop“ duomenis galima perkelti iš RDMS, pvz., „MySQL“ ar „Oracle“, į HDFS, taip pat eksportuoti duomenis iš HDFS failo į RDBMS

18) Paaiškinkite, kaip „JobTracker“ planuoja užduotį?

Užduočių stebėjimo priemonė siunčia širdies plakimo pranešimus „Jobtracker“ paprastai kas kelias minutes, kad įsitikintų, jog „JobTracker“ yra aktyvi ir veikia. Pranešime taip pat informuojama „JobTracker“ apie galimų laiko tarpsnių skaičių, todėl „JobTracker“ gali būti naujausia, kur galima perduoti grupių darbą

19) Paaiškinkite, kas yra „Sequencefileinputformat“?

Sequencefileinputformat naudojamas failams skaityti nuosekliai. Tai konkretus suspausto dvejetainio failo formatas, kuris yra optimizuotas perduoti duomenis tarp vienos „MapReduce“ užduoties išvesties į kitos „MapReduce“ užduoties įvestį.

20) Paaiškinkite, ką veikia conf.setMapper klasė?

Conf.setMapperclass nustato žemėlapio klasę ir visus su žemėlapio užduotimi susijusius dalykus, pvz., Duomenų skaitymą ir raktų reikšmių poros generavimą iš žemėlapio kūrėjo

21) Paaiškinkite, kas yra Hadoopas?

Tai yra atvirojo kodo programinės įrangos sistema, skirta duomenims kaupti ir programoms paleisti į prekių aparatūros grupes. Tai suteikia milžinišką apdorojimo galią ir didžiulę bet kokio tipo duomenų saugyklą.

22) Paminėkite, kuo skiriasi RDBMS ir Hadoopas?

RDBMS	Hadoopas
RDBMS yra reliacinė duomenų bazių valdymo sistema	Hadoopas yra mazgo pagrindu sukurta plokščia struktūra
Jis buvo naudojamas OLTP apdorojimui, o Hadoopas	Šiuo metu jis naudojamas analizei ir DIDELIEMS DUOMENIMS
RDBMS duomenų bazių sankaupoje naudojami tie patys duomenų failai, saugomi bendroje saugykloje	„Hadoop“ saugyklos duomenys gali būti saugomi atskirai kiekviename apdorojimo mazge.
Prieš juos saugodami, turite iš anksto apdoroti duomenis	prieš juos saugant, nereikia iš anksto apdoroti duomenų

23) Paminėti pagrindinius „Hadoop“ komponentus?

„Hadoop“ pagrindiniai komponentai yra

HDFS
„MapReduce“

24) Kas yra „NameNode“ sistemoje „Hadoop“?

„NameNode“ sistemoje „Hadoop“ yra vieta, kur „Hadoop“ saugo visą failo vietos informaciją HDFS. Tai yra pagrindinis mazgas, kuriuo veikia darbo stebėjimo priemonė ir kurį sudaro metaduomenys.

25) Paminėkite, kokius duomenų komponentus naudoja „Hadoop“?

Hadoopo naudojami duomenų komponentai yra

Kiaulė
Avilys

26) Paminėkite, kokį duomenų saugojimo komponentą naudoja „Hadoop“?

„Hadoop“ naudojamas duomenų saugojimo komponentas yra „HBase“.

27) Paminėkite, kokie dažniausiai naudojami „Hadoop“ apibrėžti įvesties formatai?

Dažniausiai „Hadoop“ apibrėžti įvesties formatai yra;

„TextInputFormat“
KeyValueInputFormat
SequenceFileInputFormat

28) Kas yra „Hadoop“, kas yra „InputSplit“?

Jis padalija įvesties failus į dalis ir kiekvieną padalijimą priskiria žemėlapiui apdoroti.

29) Kaip „Hadoop“ darbui parašyti pasirinktinį skaidinį?

Rašote pasirinktinį „Hadoop“ darbo skaidinį, einate tokiu keliu

Sukurkite naują klasę, pratęsiančią „Partitioner Class“
Nepaisyti „getPartition“ metodo
„MapReduce“ paleidžiančioje pakuotėje
Pridėkite pasirinktinį skaidinį prie užduoties naudodami metodų rinkinį „Partitioner Class“ arba - pridėkite pasirinktinį skaidiklį prie darbo kaip konfigūracijos failą

30) Ar galima pakeisti sukuriamų žemėlapių skaičių dirbant Hadoop?

Ne, neįmanoma pakeisti kuriamų žemėlapių skaičiaus. Kartografų skaičius nustatomas pagal įvesties padalijimų skaičių.

31) Paaiškinkite, kas yra „Hadoop“ sekos failas?

Dvejetainių raktų / reikšmių poroms saugoti naudojamas sekos failas. Skirtingai nuo įprasto suglaudinto failo, sekos failas palaiko skaidymą net tada, kai duomenys failo viduje yra suglaudinti.

32) Kai „Namenode“ neveikia, kas nutinka darbo ieškotojui?

„Namenode“ yra vienintelis HDFS gedimo taškas, todėl, kai „Namenode“ neveikia, jūsų klasteris bus paleistas.

33) Paaiškinkite, kaip atliekamas indeksavimas HDFS?

Hadoopas turi unikalų indeksavimo būdą. Kai duomenys bus saugomi pagal bloko dydį, HDFS išsaugos paskutinę duomenų dalį, kurioje bus nurodyta, kur bus kita duomenų dalis.

34) Paaiškinkite, ar galima ieškoti failų naudojant pakaitos simbolius?

Taip, failų galima ieškoti naudojant pakaitos simbolius.

35) Išvardykite tris „Hadoop“ konfigūracijos failus?

Trys konfigūracijos failai yra

core-site.xml
mapred-site.xml
hdfs-site.xml

36) Paaiškinkite, kaip galite patikrinti, ar „Namenode“ veikia šalia komandos jps?

Galite ne tik naudoti komandą jps, bet ir patikrinti, ar „Namenode“ veikia

/etc/init.d/hadoop-0.20-namenode būsena.

37) Paaiškinkite, kas „Hadoop“ yra „žemėlapis“, o kas yra „reduktorius“?

Hadoope žemėlapis yra HDFS užklausų sprendimo etapas. Žemėlapis nuskaito duomenis iš įvesties vietos ir pateikia pagrindinės vertės porą pagal įvesties tipą.

Programoje „Hadoop“ reduktorius surenka žemėlapio generuotojo išvestį, ją apdoroja ir sukuria savo galutinę išvestį.

38) Kuri byla „Hadoop“ kontroliuoja ataskaitų teikimą „Hadoop“?

„Hadoop“ failas „hadoop-metrics.properties“ valdo ataskaitų teikimą.

39) Norėdami naudoti „Hadoop“, nurodykite tinklo reikalavimus?

Norėdami naudoti „Hadoop“, tinklo reikalavimų sąrašas yra:

SSH ryšys be slaptažodžių
„Secure Shell“ (SSH) paleidžiant serverio procesus

40) Paminėti, kas yra stovo supratimas?

Rack supratimas yra būdas, kuriuo pagal stelažo apibrėžimus pavadinimo mazgas nustato, kaip išdėstyti blokus.

41) Paaiškinkite, kas yra „Hadoop“ užduočių stebėjimo priemonė?

„Hadoop“ užduočių stebėjimo priemonė yra vergų mazgų demonas klasteryje, kuris priima užduotis iš „JobTracker“. Jis taip pat kas kelias minutes siunčia širdies plakimo pranešimus „JobTracker“, kad patvirtintų, jog „JobTracker“ vis dar gyvas.

42) Paminėkite, kokie demonai veikia pagrindiniame ir vergo mazguose?

Pagrindiniame mazge paleisti demonai yra „NameNode“
Kiekviename vergo mazge paleisti demonai yra „Task Tracker“ ir „Data“

43) Paaiškinkite, kaip galite derinti „Hadoop“ kodą?

Populiariausi „Hadoop“ kodo derinimo metodai yra šie:

Naudojant žiniatinklio sąsają, kurią teikia „Hadoop“ sistema
Naudodamiesi skaitikliais

44) Paaiškinkite, kas yra saugojimo ir skaičiavimo mazgai?

Saugojimo mazgas yra mašina arba kompiuteris, kuriame yra jūsų failų sistema, kad būtų saugomi apdorojimo duomenys
Skaičiavimo mazgas yra kompiuteris arba mašina, kurioje bus vykdoma jūsų tikroji verslo logika.

45) Paminėk, koks yra kontekstinio objekto naudojimas?

Konteksto objektas suteikia žemėlapio kūrėjui galimybę bendrauti su likusia Hadoop dalimi

sistema. Jame yra darbo konfigūracijos duomenys, taip pat sąsajos, leidžiančios skleisti išvestį.

46) Paminėkite, koks yra kitas žingsnis po „Mapper“ ar „MapTask“?

Kitas žingsnis po „Mapper“ arba „MapTask“ yra tas, kad „Mapper“ išvestis bus surūšiuota ir išvesties bus sukurtos pertvaros.

47) Paminėkite, koks yra numatytojo skaidinio skaičius „Hadoop“?

„Hadoop“ numatytasis skaidinys yra „Hash“ skaidinys.

48) Paaiškinkite, koks tikslas yra „RecordReader“ programoje „Hadoop“?

„Hadoop“ programoje „RecordReader“ įkelia duomenis iš savo šaltinio ir konvertuoja juos į (raktas, reikšmė) poras, tinkamas skaityti „Mapper“.

49) Paaiškinkite, kaip duomenys yra padalijami prieš juos siunčiant į reduktorių, jei „Hadoop“ neapibrėžtas joks pasirinktinis skaidinys?

Jei „Hadoop“ neapibrėžtas joks pasirinktinis skaidinys, numatytasis skaidinys apskaičiuoja rakto maišos vertę ir priskiria skaidinį pagal rezultatą.

50) Paaiškinkite, kas nutinka, kai Hadoopas surado 50 užduočių darbui ir viena iš užduočių nepavyko?

Jei užduotis nepavyks daugiau nei nustatyta riba, ji vėl paleis užduotį kitame „TaskTracker“.

51) Paminėkite, koks yra geriausias būdas kopijuoti failus iš HDFS grupių?

Geriausias būdas kopijuoti failus iš HDFS grupių yra naudojant kelis mazgus ir komandą distcp, todėl darbo krūvis yra bendras.

52) Paminėkite, kuo skiriasi HDFS ir NAS?

HDFS duomenų blokai paskirstomi vietiniams visų grupių mašinų diskams, o NAS duomenys saugomi tam skirtoje aparatinėje įrangoje.

53) Paminėkite, kuo „Hadoop“ skiriasi nuo kitų duomenų apdorojimo įrankių?

„Hadoop“ galite padidinti arba sumažinti kartografų skaičių, nesijaudindami dėl apdorojamų duomenų kiekio.

54) Paminėk, kokį darbą dirba konf klasės?

„Job conf“ klasė atskiria skirtingus darbus, vykstančius tame pačiame klasteryje. Tai atlieka darbo lygio nustatymus, pavyzdžiui, darbo deklaravimą realioje aplinkoje.

55) Paminėkite, kokia yra „Hadoop MapReduce“ API sutartis dėl raktų ir vertės klasės?

Raktų ir vertės klasei yra dvi „Hadoop MapReduce“ API sutartys

Vertė turi apibrėžti sąsają org.apache.hadoop.io.Writable
Raktas turi apibrėžti sąsają org.apache.hadoop.io.WritableComparable

56) Paminėkite, kokie yra trys režimai, kuriais galima paleisti „Hadoop“?

Trys režimai, kuriais galima paleisti „Hadoop“, yra

Pseudo paskirstytasis režimas
Autonominis (vietinis) režimas
Visiškai paskirstytas režimas

57) Paminėkite, ką veikia teksto įvesties formatas?

Teksto įvesties formatas sukurs eilutės objektą, kuris yra šešioliktainis skaičius. Vertė laikoma visu eilutės tekstu, o raktas - eilutės objektu. Žemėlapių sudarytojas gaus reikšmę kaip „teksto“ parametrą, o raktą - kaip „ilgai rašomą“ parametrą.

58) Paminėkite, kiek „InputSplits“ daro „Hadoop Framework“?

Hadoopas padarys 5 skilimus

1 padalijimas 64K failams
2 padalinti 65 MB failams
2 skyrimai 127 MB failams

59) Paminėkite, kas yra paskirstyta talpykla „Hadoop“?

Paskirstyta talpykla „Hadoop“ yra galimybė, kurią teikia „MapReduce“ sistema. Darbo atlikimo metu jis naudojamas talpykloje. „Framework“ nukopijuoja reikalingus failus į vergo mazgą prieš vykdant bet kokią to mazgo užduotį.

60) Paaiškinkite, kaip „Hadoop Classpath“ vaidina gyvybiškai svarbų vaidmenį sustabdant arba paleidžiant „Hadoop“ demonus?

„Classpath“ sudarys katalogų, kuriuose yra failai, skirti sustabdyti arba paleisti demonus, sąrašas.