Come creare un cluster Hadoop con Amazon EMR?



In questo articolo esploreremo il servizio AWS EMR e nel processo impareremo come creare un cluster Hadoop con Amazon EMR?

In questo articolo su Come creare Cluster Con Amazon EMR vedremo come eseguire e scalare facilmente le applicazioni Hadoop e Big Data. I seguenti suggerimenti saranno trattati in questo articolo,

Andando avanti con questo Come creare cluster Hadoop con Amazon EMR?





Come creare un cluster Hadoop con Amazon EMR?

Quando cerchiamo qualcosa in Google o Yahoo, otteniamo la risposta in una frazione di secondo. Com'è possibile che Google, Yahoo e altri motori di ricerca restituiscano i risultati così velocemente dal web in continua crescita? I motori di ricerca eseguono la scansione in Internet, scaricano le pagine Web e creano un indice come mostrato di seguito. Per qualsiasi domanda da parte nostra, usano l'indice per capire quali sono tutte le pagine web contenenti il ​​testo che stavamo cercando. Osservando l'indice sottostante sul lato destro, possiamo chiaramente sapere che Hadoop è presente nelle pagine web 1, 2 e 3.

Immagine - Come creare un cluster Hadoop con Amazon EMR - EdurekaPoi il Algoritmo di PageRanking viene utilizzato che si basa su come le pagine sono collegate per capire quale pagina mostrare in alto e quale in basso. Nello scenario seguente W1 è il 'più popolare' perché tutti si collegano ad esso e W4 è il 'meno popolare' perché nessuno si collega ad esso. Quindi, W1 viene mostrato in alto e W4 in basso nei risultati di ricerca.



Con l'esplosione delle pagine web questi motori di ricerca stavano trovando sfide per creare indice e fare i calcoli del PageRanking. È qui che è avvenuta la nascita di Hadoop in Yahoo e in seguito è diventato FOSS (Free and Open Source Software) sotto ASF (Apache Software Foundation). Una volta sotto l'ASF, molte aziende hanno iniziato a interessarsi ad Hadoop e hanno iniziato a contribuire a migliorarlo. Hadoop è stato quello che ha avviato la rivoluzione dei Big Data, ma molti altri software come Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume hanno iniziato ad evolversi per affrontare le limitazioni e le lacune di Hadoop.

I motori di ricerca web sono stati i primi a utilizzare Hadoop, ma in seguito molti casi d'uso hanno iniziato a evolversi man mano che venivano generati sempre più dati. Prendiamo l'esempio di un'applicazione di e-commerce utilizzata per consigliare libri all'utente. Secondo il diagramma sottostante, l'utente1 ha acquistato book1, book2 e book3, l'utente2 ha acquistato alcuni libri e così via. Guardando da vicino, possiamo osservare che utente1 e utente2 hanno gusti simili a quelli che hanno acquistato book1 e book2. Quindi, book3 può essere consigliato a user2 e book4 può essere consigliato a user1. Questo è chiamato filtro collaborativo, un tipo di algoritmo di apprendimento automatico. Possiamo capovolgere il diagramma sottostante e ottenere libri simili.

Nel caso precedente abbiamo creato un indice, PageRanked e consigliato all'utente, la dimensione dei dati era piccola e quindi siamo stati in grado di visualizzare i dati e dedurre alcuni risultati da essi. Poiché le dimensioni dei dati aumentano di giorno in giorno e fuori controllo, è qui che entrano in scena gli strumenti Big Data come Hadoop.



Hadoop risolve molti problemi, ma installare Hadoop e altri software Big Data non è mai stato un compito facile. Ci sono molti parametri di configurazione da modificare, come problemi di integrazione, installazione e configurazione con cui lavorare. È qui che aziende come Cloudera, e Databricks aiutano. Semplificano l'installazione del software Big Data e forniscono supporto commerciale, ad esempio supponiamo che accada qualcosa nella produzione. Amazon EMR (Elastic MapReduce) semplifica notevolmente l'utilizzo di Hadoop, ecc. Il nome Elastic MapReduce è un po 'improprio in quanto EMR supporta anche altri modelli di elaborazione distribuita come Resilient Distributed Datasets e non solo MapReduce.

In questo tutorial, esploreremo come configurare un cluster EMR sul cloud AWS e nel prossimo tutorial, esploreremo come eseguire Spark, Hive e altri programmi su di esso.

Andando avanti con questo Come creare cluster Hadoop con Amazon EMR?

Demo: creazione di un cluster EMR in AWS

Passo 1: Vai alla console di gestione EMR e fai clic su 'Crea cluster'. Nella console, i metadati per cluster terminato inoltre viene salvato gratuitamente per due mesi. Ciò consente di clonare e creare nuovamente il cluster terminato.

Passo 2 : Dalla schermata delle opzioni rapide, fare clic su 'Vai a opzioni avanzate' per specificare molti più dettagli sul cluster.

Passaggio 3: Nella scheda Opzioni avanzate, possiamo selezionare diversi software da installare sul cluster EMR. Per un'interfaccia SQL, è possibile selezionare Hive. Per un'interfaccia in linguaggio del flusso di dati, è possibile selezionare Pig. Per il coordinamento delle applicazioni distribuite è possibile selezionare ZooKeeper e così via. Questa scheda ci consente anche di aggiungere passaggi, che è un'attività facoltativa. I passaggi sono processi di elaborazione di Big Data utilizzando MapReduce, Pig, Hive ecc. Possono essere aggiunti in questa scheda o in un secondo momento una volta creato il cluster. Fare clic su 'Avanti' per selezionare l'hardware richiesto per il cluster EMR.

tableau come creare un set

Passaggio 4: Hadoop segue l'architettura master-worker in cui il master fa tutto il coordinamento come la pianificazione e l'assegnazione del lavoro e il controllo del loro avanzamento, mentre i lavoratori svolgono il lavoro effettivo di elaborazione e archiviazione dei dati. Un singolo master è un Single-Point-Of-Failure (SPOF). Amazon EMR supporta il multi-master per l'alta disponibilità (HA). Il passaggio precedente consente di configurare un cluster multi-master in EMR.

EMR consente due tipi di nodi, Core e Task. Il nodo principale viene utilizzato sia per l'elaborazione che per l'archiviazione dei dati, il nodo dell'attività viene utilizzato solo per l'elaborazione dei dati. Per questo tutorial, possiamo selezionare un solo Core e nessun nodo Task poiché comporta un costo inferiore per noi. Inoltre, scegli Istanze Spot al di sopra di Su richiesta poiché le istanze Spot sono più economiche. Il problema delle istanze Spot è che possono essere terminate automaticamente da AWS con un file preavviso di due minuti . Questo va bene per motivi di pratica e anche in alcuni scenari reali. Le istanze Spot vengono terminate automaticamente poiché hanno una bassa priorità rispetto ad altri tipi di istanze. Fare clic su 'Avanti'.

Passaggio 5: Specificare il nome del cluster. e fare clic su 'Avanti'. Si noti che la 'Protezione da terminazione' è attivata per impostazione predefinita, ciò garantisce che il cluster EMR non venga eliminato accidentalmente introducendo alcuni passaggi durante la chiusura del cluster.

Passaggio 6: Nella scheda sono specificate le diverse opzioni di sicurezza per il cluster EMR. Il KeyPair deve essere selezionato per accedere all'istanza EC2. EMR creerà automaticamente i ruoli e i gruppi di sicurezza appropriati e li allegherà al master e ai nodi EC2 di lavoro. Fare clic su 'Crea cluster'.

La creazione del cluster richiede pochi minuti in quanto le istanze EC2 devono essere acquistate e i diversi software Big Data devono essere installati e configurati. Inizialmente lo stato del cluster dovrebbe essere nello stato 'Avvio' e passare allo stato 'In attesa'. Nello stato 'In attesa', il cluster EMR sta semplicemente aspettando che inviamo diversi lavori di elaborazione di Big Data come MR, Spark, Hive ecc.

Inoltre, nota dalla console di gestione EC2 e nota che le istanze EC2 master e worker dovrebbero essere in esecuzione. Queste sono le istanze Spot che sono state create come parte della creazione del cluster EMR. Lo stesso EC2 può essere osservato anche dalla scheda Hardware nella EMR Management Console. Si noti che nella scheda Hardware il prezzo per le istanze Spot EC2 è indicato come 0,032 $ / ora. Il prezzo delle istanze Spot continua a cambiare nel tempo ed è molto inferiore rispetto al prezzo EC2 On-Demand.

Passaggio 7: Ora che il cluster EMR è stato aggiunto correttamente, è possibile aggiungere processi di elaborazione di passaggi o Big Data. Vai alla scheda Passaggi e fai clic su 'Aggiungi Passaggio' e seleziona il tipo di Passaggio (MR, Hive, Spark ecc.). Esploreremo lo stesso nel prossimo tutorial. Per ora, fai clic su Annulla.

override del metodo vs override del metodo

Passaggio 8: Ora che abbiamo visto come avviare l'EMR, vediamo come fermarlo.

Passaggio 8.1: Fare clic su Termina.

Passaggio 8.2: Come accennato nei passaggi precedenti, la 'Protezione da terminazione' è attiva per il cluster EMR e il pulsante Termina è stato disabilitato. Fare clic su Modifica.

Passaggio 8.3: Seleziona il pulsante di opzione 'Off' e fai clic sul segno di spunta. Ora il pulsante Termina dovrebbe essere abilitato. Questo è il passaggio aggiuntivo introdotto da EMR, solo per assicurarci di non eliminare accidentalmente il cluster EMR.

come impostare il percorso per java

Si noti che il cluster EMR sarà in stato di terminazione e gli EC2 verranno terminati. Infine, il cluster EMR verrà spostato nello stato Terminato, da qui la nostra fatturazione con AWS si interrompe. Assicurati di terminare il cluster, in modo da non incorrere in costi AWS aggiuntivi.

Conclusione

In questo tutorial abbiamo visto come avviare il cluster EMR entro pochi minuti dalla web console (browser), lo stesso può essere automatizzato utilizzando il , AWS SDK o utilizzando AWS CloudFormation . Come notato, la configurazione di un cluster EMR può essere eseguita in pochi minuti e l'elaborazione dei Big Data può essere avviata immediatamente, una volta completata l'elaborazione, l'output può essere memorizzato in S3 o DynamoDB e quindi l'arresto del cluster per interrompere la fatturazione. A causa di questo modello di prezzo e della facilità d'uso, EMR è un grande successo tra coloro che stanno elaborando i Big Data. Non è necessario acquistare un numero enorme di server, ottenere licenze per il software Big Data e mantenerle. '

Quindi questo è tutto ragazzi, questo ci porta alla fine di questo articolo su Come creare un cluster Hadoop con Amazon EMR?Nel caso in cui desideri acquisire esperienza in questo argomento, Edureka ha elaborato un curriculum che copre esattamente ciò di cui hai bisogno per superare l'esame di Solution Architect! Puoi dare un'occhiata ai dettagli del corso per formazione.

In caso di domande relative a questo blog, non esitare a porre domande nella sezione commenti qui sotto e saremo più che felici di risponderti al più presto.