Installa Hadoop: configurazione di un cluster Hadoop a nodo singolo

Questo tutorial è una guida passo passo per installare il cluster Hadoop e configurarlo su un singolo nodo. Tutti i passaggi di installazione di Hadoop sono per la macchina CentOS.

Installa Hadoop: configurazione di un cluster Hadoop a nodo singolo

Dai nostri blog precedenti in poi , devi avere un'idea teorica di Hadoop, HDFS e della sua architettura.Ma per ottenere hai bisogno di una buona conoscenza pratica.Spero che ti sarebbe piaciuto il nostro blog precedente su , ora ti guiderò attraverso la conoscenza pratica di Hadoop e HDFS. Il primo passo avanti è installare Hadoop.

Esistono due modi per installare Hadoop, ad es. Singolo nodo e Multi nodo .





Cluster a nodo singolo significa un solo DataNode che esegue e imposta tutti i NameNode, DataNode, ResourceManager e NodeManager su una singola macchina. Viene utilizzato per scopi di studio e test. Ad esempio, consideriamo un set di dati campione all'interno di un settore sanitario. Quindi, per verificare se i lavori Oozie hanno pianificato tutti i processi come la raccolta, l'aggregazione, l'archiviazione e l'elaborazione dei dati in una sequenza corretta, utilizziamo un cluster a nodo singolo. Può testare in modo semplice ed efficiente il flusso di lavoro sequenziale in un ambiente più piccolo rispetto agli ambienti di grandi dimensioni che contengono terabyte di dati distribuiti su centinaia di macchine.

Mentre in a Cluster multi nodo , sono in esecuzione più DataNode e ogni DataNode è in esecuzione su macchine diverse. Il cluster multi nodo è praticamente utilizzato nelle organizzazioni per analizzare i Big Data. Considerando l'esempio precedente, in tempo reale quando trattiamo petabyte di dati, è necessario distribuirli su centinaia di macchine per essere elaborati. Quindi, qui usiamo cluster multi-nodo.



In questo blog, ti mostrerò come installare Hadoop su un cluster a nodo singolo.

Prerequisiti

  • SCATOLA VIRTUALE : serve per installare su di esso il sistema operativo.
  • SISTEMA OPERATIVO : Puoi installare Hadoop su sistemi operativi basati su Linux. Ubuntu e CentOS sono molto comunemente usati. In questo tutorial, utilizziamo CentOS.
  • GIAVA : È necessario installare il pacchetto Java 8 sul sistema.
  • HADOOP : È necessario il pacchetto Hadoop 2.7.3.

Installa Hadoop

Passo 1: Clicca qui per scaricare il pacchetto Java 8. Salva questo file nella tua directory home.

Passo 2: Estrai il file Tar Java.

Comando : tar -xvf jdk-8u101-linux-i586.tar.gz

Smear Java - Installa Hadoop - Edureka



Fig: Installazione di Hadoop - Estrazione di file Java

Passaggio 3: Scarica il pacchetto Hadoop 2.7.3.

Comando : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Fig: Installazione di Hadoop - Download di Hadoop

Passaggio 4: Estrai il file tar di Hadoop.

Comando : tar -xvf hadoop-2.7.3.tar.gz

Fig: Installazione di Hadoop - Estrazione di file Hadoop

Passaggio 5: Aggiungi i percorsi Hadoop e Java nel file bash (.bashrc).

Aperto . bashrc file. Ora aggiungi Hadoop e Java Path come mostrato di seguito.

Comando : vi .bashrc

sovraccarico del metodo e sovrascrittura in java

Fig: Installazione di Hadoop - Impostazione della variabile d'ambiente

Quindi, salva il file bash e chiudilo.

Per applicare tutte queste modifiche al terminale corrente, eseguire il comando sorgente.

Comando : fonte .bashrc

Fig: Installazione di Hadoop - Aggiornamento delle variabili d'ambiente

Per assicurarti che Java e Hadoop siano stati installati correttamente sul tuo sistema e siano accessibili tramite il Terminale, eeseguire i comandi java -version e hadoop version.

Comando : Giava-versione

Fig: Installazione di Hadoop - Verifica della versione di Java

Comando : hadoopversione

Fig: Installazione di Hadoop - Verifica della versione di Hadoop

Passaggio 6 : Modifica il file .

Comando: cd hadoop-2.7.3 / etc / hadoop /

Comando: ls

Tutti i file di configurazione di Hadoop si trovano in hadoop-2.7.3 / etc / hadoop directory come puoi vedere nell'istantanea qui sotto:

Fig: Installazione di Hadoop - File di configurazione di Hadoop

Passaggio 7 : Aperto core-site.xml e modificare la proprietà menzionata di seguito all'interno del tag di configurazione:

core-site.xml informa il demone Hadoop dove NameNode viene eseguito nel cluster. Contiene le impostazioni di configurazione del core Hadoop come le impostazioni I / O comuni a HDFS e MapReduce.

Comando : vi core-site.xml

Fig: Installazione di Hadoop - Configurazione di core-site.xml

fs.default.name hdfs: // localhost: 9000

Passaggio 8: modificare hdfs-site.xml e modificare la proprietà menzionata di seguito all'interno del tag di configurazione:

hdfs-site.xml contiene le impostazioni di configurazione dei daemon HDFS (ad esempio NameNode, DataNode, Secondary NameNode). Include anche il fattore di replica e la dimensione del blocco di HDFS.

Comando : vi hdfs-site.xml

Fig: Installazione di Hadoop - Configurazione di hdfs-site.xml

dfs.replication 1 dfs.permission false

Passaggio 9 : Modifica il file mapred-site.xml file e modificare la proprietà menzionata di seguito all'interno del tag di configurazione:

mapred-site.xml contiene le impostazioni di configurazione dell'applicazione MapReduce come il numero di JVM che possono essere eseguite in parallelo, la dimensione del mapper e il processo di riduzione, i core CPU disponibili per un processo, ecc.

In alcuni casi, il file mapred-site.xml non è disponibile. Quindi, dobbiamo creare il file mapred-site.xmlutilizzando il modello mapred-site.xml.

Comando : cp mapred-site.xml.template mapred-site.xml

Comando : noi mapred-posto.xml.

Fig: Installazione di Hadoop - Configurazione di mapred-site.xml

filato mapreduce.framework.name

Passaggio 10: modificare filato-site.xml e modificare la proprietà menzionata di seguito all'interno del tag di configurazione:

filato-site.xml contiene le impostazioni di configurazione di ResourceManager e NodeManager come la dimensione della gestione della memoria dell'applicazione, l'operazione necessaria sul programma e l'algoritmo, ecc.

Comando : vi filato-site.xml

Fig: Installazione di Hadoop - Configurazione di yarn-site.xml

filato.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Passaggio 11: modificare hadoop-env.sh e aggiungi il percorso Java come indicato di seguito:

hadoop-env.sh contiene le variabili di ambiente che vengono utilizzate nello script per eseguire Hadoop come il percorso home di Java, ecc.

Comando : noi hadoop-env.sh

Fig: Installazione di Hadoop - Configurazione di hadoop-env.sh

Passaggio 12: Vai alla home directory di Hadoop e formatta il NameNode.

Comando : CD

Comando : cd hadoop-2.7.3

Comando : bin / hadoop scopo -format

Fig: Installazione di Hadoop - Formattazione NameNode

Questo formatta l'HDFS tramite NameNode. Questo comando viene eseguito solo per la prima volta. Formattare il file system significa inizializzare la directory specificata dalla variabile dfs.name.dir.

Non formattare mai, installare ed eseguire il filesystem Hadoop. Perderai tutti i tuoi dati archiviati nell'HDFS.

Passaggio 13: Una volta formattato il NameNode, vai alla directory hadoop-2.7.3 / sbin e avvia tutti i daemon.

Comando: cd hadoop-2.7.3 / sbin

O puoi avviare tutti i daemon con un singolo comando o farlo individualmente.

Comando: ./ start-all.sh

Il comando precedente è una combinazione di start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

Oppure puoi eseguire tutti i servizi individualmente come di seguito:

Start NameNode:

Il NameNode è il fulcro di un file system HDFS. Mantiene l'albero delle directory di tutti i file archiviati nell'HDFS e tiene traccia di tutti i file archiviati nel cluster.

Comando: ./scopo di avvio di hadoop-daemon.sh

Fig: Installazione di Hadoop - Avvio di NameNode

Avvia DataNode:

All'avvio, un DataNode si connette al Namenode e risponde alle richieste del Namenode per diverse operazioni.

Comando: ./hadoop-daemon.sh avvia datanode

Fig: Installazione di Hadoop - Avvio di DataNode

Avvia ResourceManager:

ResourceManager è il master che arbitrerà tutte le risorse del cluster disponibili e quindi aiuta nella gestione delle applicazioni distribuite in esecuzione sul sistema YARN. Il suo compito è gestire ogni NodeManager e l'ApplicationMaster di ciascuna applicazione.

Comando: ./filato-daemon.sh avvia resourcemanager

Fig: Installazione di Hadoop - Avvio di ResourceManager

Avvia NodeManager:

Il NodeManager in ogni framework della macchina è l'agente responsabile della gestione dei contenitori, del monitoraggio del loro utilizzo delle risorse e della segnalazione dello stesso al ResourceManager.

connettività database in java con mysql

Comando: ./filato-daemon.sh avvia nodemanager

Fig: Installazione di Hadoop - Avvio di NodeManager

Avvia JobHistoryServer:

JobHistoryServer è responsabile della gestione di tutte le richieste relative alla cronologia dei lavori dal client.

Comando : ./mr-jobhistory-daemon.sh avvia historyserver

Passaggio 14: Per verificare che tutti i servizi Hadoop siano attivi e in esecuzione, esegui il comando seguente.

Comando: jps

Fig: Installazione di Hadoop - Verifica dei demoni

Passaggio 15: Ora apri il browser Mozilla e vai a localhost : 50070 / dfshealth.html per controllare l'interfaccia NameNode.

Fig: Installazione di Hadoop - Avvio di WebUI

Congratulazioni, hai installato con successo un cluster Hadoop a nodo singolo in una volta sola.Nel nostro prossimo blog di , vedremo anche come installare Hadoop su un cluster multi-nodo.

Ora che hai capito come installare Hadoop, controlla il file da Edureka, una società di formazione online affidabile con una rete di oltre 250.000 studenti soddisfatti sparsi in tutto il mondo. Il corso di formazione per la certificazione Edureka Big Data Hadoop aiuta gli studenti a diventare esperti in HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume e Sqoop utilizzando casi d'uso in tempo reale nel settore Retail, Social Media, Aviation, Tourism, Finance.

Hai domande per noi? Per favore menzionalo nella sezione commenti e ti risponderemo.