Šioje pamokoje mes žingsnis po žingsnio padėsime įdiegti „Apache Hadoop“ „Linux“ dėžutėje („Ubuntu“). Tai yra dviejų dalių procesas
- 1 dalis) Atsisiųskite ir įdiekite „Hadoop“
- 2 dalis) Konfigūruokite „Hadoop“
Yra 2 prielaidos
- Turite būti įdiegę ir veikiantį „Ubuntu“
- Turite būti įdiegę „Java“.
1 dalis) Atsisiųskite ir įdiekite „Hadoop“
1 žingsnis. Pridėkite „Hadoop“ sistemos vartotoją naudodami žemiau esančią komandą
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Įveskite slaptažodį, vardą ir kitą informaciją.
PASTABA: Šiame sąrankos ir diegimo procese gali būti žemiau paminėta klaida.
"hduser nėra sudoers byloje. Apie šį įvykį bus pranešta."
Šią klaidą galima išspręsti prisijungus kaip root vartotojui
Vykdykite komandą
sudo adduser hduser_ sudo
Re-login as hduser_
2 žingsnis) Konfigūruokite SSH
„Hadoop“ reikalinga SSH prieiga, kad būtų galima valdyti klasterio mazgus
Pirmiausia perjunkite vartotoją, įveskite šią komandą
su - hduser_
Ši komanda sukurs naują raktą.
ssh-keygen -t rsa -P ""
Įgalinkite SSH prieigą prie vietinio kompiuterio naudodami šį raktą.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Dabar išbandykite SSH sąranką prisijungę prie „localhost“ kaip „hduser“ vartotojas.
ssh localhost
Pastaba: Atkreipkite dėmesį, jei žemiau pateikiama klaida atsakant į „ssh localhost“, yra tikimybė, kad šioje sistemoje nėra SSH-
Norėdami tai išspręsti -
Išvalykite SSH naudodami,
sudo apt-get purge openssh-server
Gerą praktiką reikia išvalyti prieš pradedant diegti
Įdiekite SSH naudodami komandą-
sudo apt-get install openssh-server
3 žingsnis) Kitas žingsnis yra atsisiųsti „Hadoop“
Pasirinkite Stabilus
Pasirinkite failą tar.gz (ne failą su src)
Kai atsisiuntimas bus baigtas, eikite į katalogą, kuriame yra dervos failas
Įveskite,
sudo tar xzf hadoop-2.2.0.tar.gz
Dabar pervardykite hadoop-2.2.0 kaip hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
2 dalis) Konfigūruokite „Hadoop“
1 žingsnis) Pakeiskite ~ / .bashrc failą
Prie failo pabaigos pridėkite šias eilutes ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Dabar surinkite šią aplinkos konfigūraciją naudodami žemiau esančią komandą
. ~/.bashrc
2 žingsnis) Konfigūracijos, susijusios su HDFS
Nustatykite JAVA_HOME faile $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Su
Yra du parametrai aplanke $ HADOOP_HOME / etc / hadoop / core-site.xml, kuriuos reikia nustatyti-
1. „hadoop.tmp.dir“ - naudojamas nurodyti katalogą, kurį „Hadoop“ naudos savo duomenų failams saugoti.
2. „fs.default.name“ - tai nurodo numatytąją failų sistemą.
Norėdami nustatyti šiuos parametrus, atidarykite core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Nukopijuokite žemiau eilutės tarp žymių
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Eikite į katalogą $ HADOOP_HOME / etc / Hadoop
Dabar sukurkite katalogą, nurodytą core-site.xml
sudo mkdir -p
Suteikite leidimus katalogui
sudo chown -R hduser_:Hadoop_
sudo chmod 750
3 žingsnis) Žemėlapis sumažina konfigūraciją
Prieš pradėdami šias konfigūracijas, leiskite nustatyti HADOOP_HOME kelią
sudo gedit /etc/profile.d/hadoop.sh
Ir Enter
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Kitas įveskite
sudo chmod +x /etc/profile.d/hadoop.sh
Išeikite iš terminalo ir vėl paleiskite iš naujo
Įveskite echo $ HADOOP_HOME. Norėdami patikrinti kelią
Dabar nukopijuokite failus
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Atidarykite failą mapred-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Pridėkite žemiau nustatymo eilučių tarp žymių
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Atidarykite $ HADOOP_HOME / etc / hadoop / hdfs-site.xml, kaip nurodyta toliau,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Pridėkite žemiau nustatymo eilučių tarp žymių
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Sukurkite katalogą, nurodytą aukščiau
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
4 žingsnis) Prieš pradėdami „Hadoop“ pirmą kartą, formatuokite HDFS naudodami žemiau esančią komandą
$HADOOP_HOME/bin/hdfs namenode -format
5 žingsnis) Paleiskite „Hadoop“ vieno mazgo sankaupą naudodamiesi komanda žemiau
$HADOOP_HOME/sbin/start-dfs.sh
Aukščiau nurodytos komandos išvestis
$HADOOP_HOME/sbin/start-yarn.sh
Naudodami įrankį / komandą „jps“ patikrinkite, ar visi su „Hadoop“ susiję procesai vykdomi, ar ne.
Jei „Hadoop“ sėkmingai startavo, tada jps išvestyje turėtų būti rodomi „NameNode“, „NodeManager“, „ResourceManager“, „SecondaryNameNode“, „DataNode“.
6 žingsnis) Hadoopo sustabdymas
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh