Kaip įdiegti „Hadoop“ su žingsnis po žingsnio konfigūracija „Ubuntu“

Turinys:

Anonim

Šioje pamokoje mes žingsnis po žingsnio padėsime įdiegti „Apache Hadoop“ „Linux“ dėžutėje („Ubuntu“). Tai yra dviejų dalių procesas

  • 1 dalis) Atsisiųskite ir įdiekite „Hadoop“
  • 2 dalis) Konfigūruokite „Hadoop“

Yra 2 prielaidos

  • Turite būti įdiegę ir veikiantį „Ubuntu“
  • Turite būti įdiegę „Java“.

1 dalis) Atsisiųskite ir įdiekite „Hadoop“

1 žingsnis. Pridėkite „Hadoop“ sistemos vartotoją naudodami žemiau esančią komandą

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Įveskite slaptažodį, vardą ir kitą informaciją.

PASTABA: Šiame sąrankos ir diegimo procese gali būti žemiau paminėta klaida.

"hduser nėra sudoers byloje. Apie šį įvykį bus pranešta."

Šią klaidą galima išspręsti prisijungus kaip root vartotojui

Vykdykite komandą

sudo adduser hduser_ sudo

Re-login as hduser_

2 žingsnis) Konfigūruokite SSH

„Hadoop“ reikalinga SSH prieiga, kad būtų galima valdyti klasterio mazgus

Pirmiausia perjunkite vartotoją, įveskite šią komandą

su - hduser_

Ši komanda sukurs naują raktą.

ssh-keygen -t rsa -P ""

Įgalinkite SSH prieigą prie vietinio kompiuterio naudodami šį raktą.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Dabar išbandykite SSH sąranką prisijungę prie „localhost“ kaip „hduser“ vartotojas.

ssh localhost

Pastaba: Atkreipkite dėmesį, jei žemiau pateikiama klaida atsakant į „ssh localhost“, yra tikimybė, kad šioje sistemoje nėra SSH-

Norėdami tai išspręsti -

Išvalykite SSH naudodami,

sudo apt-get purge openssh-server

Gerą praktiką reikia išvalyti prieš pradedant diegti

Įdiekite SSH naudodami komandą-

sudo apt-get install openssh-server

3 žingsnis) Kitas žingsnis yra atsisiųsti „Hadoop“

Pasirinkite Stabilus

Pasirinkite failą tar.gz (ne failą su src)

Kai atsisiuntimas bus baigtas, eikite į katalogą, kuriame yra dervos failas

Įveskite,

sudo tar xzf hadoop-2.2.0.tar.gz

Dabar pervardykite hadoop-2.2.0 kaip hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

2 dalis) Konfigūruokite „Hadoop“

1 žingsnis) Pakeiskite ~ / .bashrc failą

Prie failo pabaigos pridėkite šias eilutes ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Dabar surinkite šią aplinkos konfigūraciją naudodami žemiau esančią komandą

. ~/.bashrc

2 žingsnis) Konfigūracijos, susijusios su HDFS

Nustatykite JAVA_HOME faile $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Su

Yra du parametrai aplanke $ HADOOP_HOME / etc / hadoop / core-site.xml, kuriuos reikia nustatyti-

1. „hadoop.tmp.dir“ - naudojamas nurodyti katalogą, kurį „Hadoop“ naudos savo duomenų failams saugoti.

2. „fs.default.name“ - tai nurodo numatytąją failų sistemą.

Norėdami nustatyti šiuos parametrus, atidarykite core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Nukopijuokite žemiau eilutės tarp žymių

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Eikite į katalogą $ HADOOP_HOME / etc / Hadoop

Dabar sukurkite katalogą, nurodytą core-site.xml

sudo mkdir -p 

Suteikite leidimus katalogui

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

3 žingsnis) Žemėlapis sumažina konfigūraciją

Prieš pradėdami šias konfigūracijas, leiskite nustatyti HADOOP_HOME kelią

sudo gedit /etc/profile.d/hadoop.sh

Ir Enter

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Kitas įveskite

sudo chmod +x /etc/profile.d/hadoop.sh

Išeikite iš terminalo ir vėl paleiskite iš naujo

Įveskite echo $ HADOOP_HOME. Norėdami patikrinti kelią

Dabar nukopijuokite failus

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Atidarykite failą mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Pridėkite žemiau nustatymo eilučių tarp žymių ir

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Atidarykite $ HADOOP_HOME / etc / hadoop / hdfs-site.xml, kaip nurodyta toliau,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Pridėkite žemiau nustatymo eilučių tarp žymių ir

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Sukurkite katalogą, nurodytą aukščiau

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

4 žingsnis) Prieš pradėdami „Hadoop“ pirmą kartą, formatuokite HDFS naudodami žemiau esančią komandą

$HADOOP_HOME/bin/hdfs namenode -format

5 žingsnis) Paleiskite „Hadoop“ vieno mazgo sankaupą naudodamiesi komanda žemiau

$HADOOP_HOME/sbin/start-dfs.sh

Aukščiau nurodytos komandos išvestis

$HADOOP_HOME/sbin/start-yarn.sh

Naudodami įrankį / komandą „jps“ patikrinkite, ar visi su „Hadoop“ susiję procesai vykdomi, ar ne.

Jei „Hadoop“ sėkmingai startavo, tada jps išvestyje turėtų būti rodomi „NameNode“, „NodeManager“, „ResourceManager“, „SecondaryNameNode“, „DataNode“.

6 žingsnis) Hadoopo sustabdymas

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh