Installa Hadoop: configurazione di un cluster Hadoop a nodo singolo
Dai nostri blog precedenti in poi , devi avere un'idea teorica di Hadoop, HDFS e della sua architettura.Ma per ottenere hai bisogno di una buona conoscenza pratica.Spero che ti sarebbe piaciuto il nostro blog precedente su , ora ti guiderò attraverso la conoscenza pratica di Hadoop e HDFS. Il primo passo avanti è installare Hadoop.
Esistono due modi per installare Hadoop, ad es. Singolo nodo e Multi nodo .
Cluster a nodo singolo significa un solo DataNode che esegue e imposta tutti i NameNode, DataNode, ResourceManager e NodeManager su una singola macchina. Viene utilizzato per scopi di studio e test. Ad esempio, consideriamo un set di dati campione all'interno di un settore sanitario. Quindi, per verificare se i lavori Oozie hanno pianificato tutti i processi come la raccolta, l'aggregazione, l'archiviazione e l'elaborazione dei dati in una sequenza corretta, utilizziamo un cluster a nodo singolo. Può testare in modo semplice ed efficiente il flusso di lavoro sequenziale in un ambiente più piccolo rispetto agli ambienti di grandi dimensioni che contengono terabyte di dati distribuiti su centinaia di macchine.
Mentre in a Cluster multi nodo , sono in esecuzione più DataNode e ogni DataNode è in esecuzione su macchine diverse. Il cluster multi nodo è praticamente utilizzato nelle organizzazioni per analizzare i Big Data. Considerando l'esempio precedente, in tempo reale quando trattiamo petabyte di dati, è necessario distribuirli su centinaia di macchine per essere elaborati. Quindi, qui usiamo cluster multi-nodo.
In questo blog, ti mostrerò come installare Hadoop su un cluster a nodo singolo.
Prerequisiti
- SCATOLA VIRTUALE : serve per installare su di esso il sistema operativo.
- SISTEMA OPERATIVO : Puoi installare Hadoop su sistemi operativi basati su Linux. Ubuntu e CentOS sono molto comunemente usati. In questo tutorial, utilizziamo CentOS.
- GIAVA : È necessario installare il pacchetto Java 8 sul sistema.
- HADOOP : È necessario il pacchetto Hadoop 2.7.3.
Installa Hadoop
Passo 1: Clicca qui per scaricare il pacchetto Java 8. Salva questo file nella tua directory home.
Passo 2: Estrai il file Tar Java.
Comando : tar -xvf jdk-8u101-linux-i586.tar.gz
Fig: Installazione di Hadoop - Estrazione di file Java
Passaggio 3: Scarica il pacchetto Hadoop 2.7.3.
Comando : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz
Fig: Installazione di Hadoop - Download di Hadoop
Passaggio 4: Estrai il file tar di Hadoop.
Comando : tar -xvf hadoop-2.7.3.tar.gz
Fig: Installazione di Hadoop - Estrazione di file Hadoop
Passaggio 5: Aggiungi i percorsi Hadoop e Java nel file bash (.bashrc).
Aperto . bashrc file. Ora aggiungi Hadoop e Java Path come mostrato di seguito.
Comando : vi .bashrc
sovraccarico del metodo e sovrascrittura in java
Fig: Installazione di Hadoop - Impostazione della variabile d'ambiente
Quindi, salva il file bash e chiudilo.
Per applicare tutte queste modifiche al terminale corrente, eseguire il comando sorgente.
Comando : fonte .bashrc
Fig: Installazione di Hadoop - Aggiornamento delle variabili d'ambiente
Per assicurarti che Java e Hadoop siano stati installati correttamente sul tuo sistema e siano accessibili tramite il Terminale, eeseguire i comandi java -version e hadoop version.
Comando : Giava-versione
Fig: Installazione di Hadoop - Verifica della versione di Java
Comando : hadoopversione
Fig: Installazione di Hadoop - Verifica della versione di Hadoop
Passaggio 6 : Modifica il file .
Comando: cd hadoop-2.7.3 / etc / hadoop /
Comando: ls
Tutti i file di configurazione di Hadoop si trovano in hadoop-2.7.3 / etc / hadoop directory come puoi vedere nell'istantanea qui sotto:
Fig: Installazione di Hadoop - File di configurazione di Hadoop
Passaggio 7 : Aperto core-site.xml e modificare la proprietà menzionata di seguito all'interno del tag di configurazione:
core-site.xml informa il demone Hadoop dove NameNode viene eseguito nel cluster. Contiene le impostazioni di configurazione del core Hadoop come le impostazioni I / O comuni a HDFS e MapReduce.
Comando : vi core-site.xml
Fig: Installazione di Hadoop - Configurazione di core-site.xml
fs.default.name hdfs: // localhost: 9000
Passaggio 8: modificare hdfs-site.xml e modificare la proprietà menzionata di seguito all'interno del tag di configurazione:
hdfs-site.xml contiene le impostazioni di configurazione dei daemon HDFS (ad esempio NameNode, DataNode, Secondary NameNode). Include anche il fattore di replica e la dimensione del blocco di HDFS.
Comando : vi hdfs-site.xml
Fig: Installazione di Hadoop - Configurazione di hdfs-site.xml
dfs.replication 1 dfs.permission false
Passaggio 9 : Modifica il file mapred-site.xml file e modificare la proprietà menzionata di seguito all'interno del tag di configurazione:
mapred-site.xml contiene le impostazioni di configurazione dell'applicazione MapReduce come il numero di JVM che possono essere eseguite in parallelo, la dimensione del mapper e il processo di riduzione, i core CPU disponibili per un processo, ecc.
In alcuni casi, il file mapred-site.xml non è disponibile. Quindi, dobbiamo creare il file mapred-site.xmlutilizzando il modello mapred-site.xml.
Comando : cp mapred-site.xml.template mapred-site.xml
Comando : noi mapred-posto.xml.
Fig: Installazione di Hadoop - Configurazione di mapred-site.xml
filato mapreduce.framework.name
Passaggio 10: modificare filato-site.xml e modificare la proprietà menzionata di seguito all'interno del tag di configurazione:
filato-site.xml contiene le impostazioni di configurazione di ResourceManager e NodeManager come la dimensione della gestione della memoria dell'applicazione, l'operazione necessaria sul programma e l'algoritmo, ecc.
Comando : vi filato-site.xml
Fig: Installazione di Hadoop - Configurazione di yarn-site.xml
filato.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler
Passaggio 11: modificare hadoop-env.sh e aggiungi il percorso Java come indicato di seguito:
hadoop-env.sh contiene le variabili di ambiente che vengono utilizzate nello script per eseguire Hadoop come il percorso home di Java, ecc.
Comando : noi hadoop-env.sh
Fig: Installazione di Hadoop - Configurazione di hadoop-env.sh
Passaggio 12: Vai alla home directory di Hadoop e formatta il NameNode.
Comando : CD
Comando : cd hadoop-2.7.3
Comando : bin / hadoop scopo -format
Fig: Installazione di Hadoop - Formattazione NameNode
Questo formatta l'HDFS tramite NameNode. Questo comando viene eseguito solo per la prima volta. Formattare il file system significa inizializzare la directory specificata dalla variabile dfs.name.dir.
Non formattare mai, installare ed eseguire il filesystem Hadoop. Perderai tutti i tuoi dati archiviati nell'HDFS.
Passaggio 13: Una volta formattato il NameNode, vai alla directory hadoop-2.7.3 / sbin e avvia tutti i daemon.
Comando: cd hadoop-2.7.3 / sbin
O puoi avviare tutti i daemon con un singolo comando o farlo individualmente.
Comando: ./ start-all.sh
Il comando precedente è una combinazione di start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh
Oppure puoi eseguire tutti i servizi individualmente come di seguito:
Start NameNode:
Il NameNode è il fulcro di un file system HDFS. Mantiene l'albero delle directory di tutti i file archiviati nell'HDFS e tiene traccia di tutti i file archiviati nel cluster.
Comando: ./scopo di avvio di hadoop-daemon.sh
Fig: Installazione di Hadoop - Avvio di NameNode
Avvia DataNode:
All'avvio, un DataNode si connette al Namenode e risponde alle richieste del Namenode per diverse operazioni.
Comando: ./hadoop-daemon.sh avvia datanode
Fig: Installazione di Hadoop - Avvio di DataNode
Avvia ResourceManager:
ResourceManager è il master che arbitrerà tutte le risorse del cluster disponibili e quindi aiuta nella gestione delle applicazioni distribuite in esecuzione sul sistema YARN. Il suo compito è gestire ogni NodeManager e l'ApplicationMaster di ciascuna applicazione.
Comando: ./filato-daemon.sh avvia resourcemanager
Fig: Installazione di Hadoop - Avvio di ResourceManager
Avvia NodeManager:
Il NodeManager in ogni framework della macchina è l'agente responsabile della gestione dei contenitori, del monitoraggio del loro utilizzo delle risorse e della segnalazione dello stesso al ResourceManager.
connettività database in java con mysql
Comando: ./filato-daemon.sh avvia nodemanager
Fig: Installazione di Hadoop - Avvio di NodeManager
Avvia JobHistoryServer:
JobHistoryServer è responsabile della gestione di tutte le richieste relative alla cronologia dei lavori dal client.
Comando : ./mr-jobhistory-daemon.sh avvia historyserver
Passaggio 14: Per verificare che tutti i servizi Hadoop siano attivi e in esecuzione, esegui il comando seguente.
Comando: jps
Fig: Installazione di Hadoop - Verifica dei demoni
Passaggio 15: Ora apri il browser Mozilla e vai a localhost : 50070 / dfshealth.html per controllare l'interfaccia NameNode.
Fig: Installazione di Hadoop - Avvio di WebUI
Congratulazioni, hai installato con successo un cluster Hadoop a nodo singolo in una volta sola.Nel nostro prossimo blog di , vedremo anche come installare Hadoop su un cluster multi-nodo.
Ora che hai capito come installare Hadoop, controlla il file da Edureka, una società di formazione online affidabile con una rete di oltre 250.000 studenti soddisfatti sparsi in tutto il mondo. Il corso di formazione per la certificazione Edureka Big Data Hadoop aiuta gli studenti a diventare esperti in HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume e Sqoop utilizzando casi d'uso in tempo reale nel settore Retail, Social Media, Aviation, Tourism, Finance.
Hai domande per noi? Per favore menzionalo nella sezione commenti e ti risponderemo.