Cloudera Hadoop: Introduzione alla distribuzione CDH



Questo blog Edureka su Cloudera Hadoop Tutorial ti fornirà una panoramica completa dei diversi componenti di Cloudera come Cloudera Manager, Parcels, Hue ecc.

Con la crescente domanda di Big Data, e Apache Hadoop lo èail cuore della rivoluzione, ha cambiato il modo in cui organizziamo e calcoliamo i dati. La necessità per le organizzazioni di allineare Hadoop alle proprie esigenze di business ha alimentato l'emergere delle distribuzioni commerciali. Le distribuzioni Hadoop commerciali sono generalmente dotate di funzionalità, progettate per semplificare la distribuzione di Hadoop. Cloudera Hadoop Distribution fornisce una piattaforma scalabile, flessibile e integrata che semplifica la gestione di volumi e varietà di dati in rapido aumento nella tua azienda.

In questo blog su Cloudera Hadoop Distribution, tratteremo i seguenti argomenti:





Cloudera Hadoop: Introduzione a Hadoop

Hadoop è un framework open source Apache che archivia ed elabora i Big Data in un ambiente distribuitoattraverso ilcluster utilizzando semplici modelli di programmazione. Hadoop fornisce calcoli paralleli oltre allo storage distribuito.Per saperne di più su Hadoop in dettaglio da puoi fare riferimento a questo

Dopo questa breve introduzione ad Hadoop, lasciatemi spiegare ora i diversi tipi di distribuzione di Hadoop.



Cloudera Hadoop: Hadoop Distributions

Poiché Apache Hadoop è open source, molte aziende hanno sviluppato distribuzioni che vanno oltre il codice open source originale. Questo è molto simile alle distribuzioni Linux come RedHat, Fedora e Ubuntu. Ciascuna delle distribuzioni Linux supporta le proprie funzionalità e caratteristiche come la GUI user-friendly in Ubuntu. Allo stesso modo, cappello rosso è popolare all'interno delle aziende perché offre supporto e fornisce anche l'ideologia per apportare modifiche a qualsiasi parte del sistema a piacimento. Red Hat ti solleva dai problemi di compatibilità del software. Questo di solito è un grosso problema per gli utentiche stanno passando da Windows.

Allo stesso modo, ci sono 3 tipi principali di distribuzioni Hadoop che hanno il proprio set di funzionalità e caratteristiche e sono costruite sotto l'HDFS di base.

Cloudera vs MapR vs Hortonworks

Fig: MapR vs Hortonworks vs Cloudera

Fig: MapR vs Hortonworks vs Cloudera



Cloudera Hadoop Distribution

Cloudera è la tendenza del mercato nello spazio Hadoop ed è il primo a rilasciare la distribuzione commerciale Hadoop. Offre servizi di consulenza per colmare il divario tra 'cosa fornisce Apache Hadoop' e 'cosa serve alle organizzazioni'.

Cloudera Distribution è:

  • Veloce per affari : Dall'analisi alla scienza dei dati e tutto il resto, Cloudera offre le prestazioni necessarie per sbloccare il potenziale di dati illimitati.
  • Rende Hadoop facile da gestire : Con Cloudera Manager, le procedure guidate automatizzate ti consentono di distribuire rapidamente il tuo cluster, indipendentemente dalla scala o dall'ambiente di distribuzione.
  • Sicuro senza compromessi: Soddisfa le rigorose esigenze di sicurezza e conformità dei dati senza sacrificare l'agilità aziendale. Cloudera fornisce un approccio integrato alla sicurezza e alla governance dei dati.

Horton-Works Distribuzione

Horton-Works Data Platform (HDP) è interamente una piattaforma open source progettata per gestire i dati da molte fonti e formati. La piattaforma include vari strumenti Hadoop come Hadoop Distributed File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive e componenti aggiuntivi.

Supporta anche funzionalità come:

  • HDP crea Hive Più veloce attraverso il suo nuovo progetto Stinger.
  • HDP evita il blocco del fornitore promettendo una versione biforcuta di Hadoop.
  • HDP si concentra sul miglioramento del usabilità della piattaforma Hadoop.

Distribuzione MapR

MapR è un fornitore di soluzioni Hadoop incentrato sulla piattaforma, proprio come HortonWorks e Cloudera. MapR integra il proprio sistema di database, noto come MapR-DB, offrendo servizi di distribuzione Hadoop. Si afferma che MapR-DB sia da quattro a sette volte più veloce del database Hadoop di serie, ovvero HBase, che viene eseguito su altre distribuzioni.

Ha le sue caratteristiche intriganti come:

  • È l'unica distribuzione Hadoop che include Pig, Hive e Sqoop senza dipendenze Java, poiché si basa su MapR-File System.
  • MapR è la distribuzione Hadoop più pronta per la produzione con molti miglioramenti che la rendono più facile da usare, più veloce e affidabile.

Ora parliamo approfonditamente della distribuzione Cloudera Hadoop.

Iscriviti al nostro canale YouTube per ricevere nuovi aggiornamenti ...

Cloudera Hadoop: Cloudera Distribution

Cloudera è il giocatore più noto nello spazio Hadoop a rilasciare la prima distribuzione commerciale di Hadoop.

Fig: Cloudera Hadoop Distribution

Cloudera Hadoop Distribution supporta il seguente set di funzionalità:

  1. Il CDH di Cloudera comprende tutti i componenti open source, si rivolge a distribuzioni di classe enterprise ed è una delle distribuzioni Hadoop commerciali più popolari.
  2. Nota per le sue innovazioni, Cloudera è stata la prima a offrire SQL-for-Hadoop con i suoi Impala motore di query.
  3. La console di gestione - Cloudera Manager , è facile da usare e implementare con la ricca interfaccia utente che mostra tutte le informazioni del cluster in modo ordinato e pulito.
  4. In CDH è possibile aggiungere servizi al cluster attivo e in esecuzione senza alcuna interruzione.
  5. Altre aggiunte di Cloudera includono sicurezza, interfaccia utente e interfacce per l'integrazione con applicazioni di terze parti.
  6. CDH fornisce Modelli di nodo ovvero consente la creazione di un gruppo di nodi in un cluster Hadoop con configurazione variabile. Elimina l'uso della stessa configurazione in tutto il cluster Hadoop.
  7. Supporta inoltre:
    • Affidabilità
      I fornitori di Hadoop agiscono prontamente in risposta ogni volta che viene rilevato un bug. Con l'intento di rendere le soluzioni commerciali più stabili, le patch e le correzioni vengono distribuite immediatamente.
    • Supporto
      I fornitori di Cloudera Hadoop forniscono indicazioni e assistenza tecnica che semplificano l'adozione di Hadoop da parte dei clienti per attività a livello aziendale e applicazioni mission-critical.

    • Completezza
      I fornitori di Hadoop accoppiano le loro distribuzioni con vari altri strumenti aggiuntivi che aiutano i clienti a personalizzare l'applicazione Hadoop per affrontare le loro attività specifiche.

Le distribuzioni Cloudera prevedono 2 diversi tipi di edizioni.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Ora diamo un'occhiata alle differenze tra di loro.

Caratteristiche Cloudera-Express Cloudera-Enterprise
Gestione dei cluster
1. Gestione multi-cluster
2. Gestione delle risorse
Distribuzione
1. Supporto per CDH 4 e 5
2. Aggiornamento in sequenza di CDHNo
Gestione del servizio e della configurazione
1. Gestisci i servizi HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark e Accumulo
2. Riavvio in sequenza dei serviziNo
Sicurezza
1. Autenticazione LDAPNo
2. Autenticazione SAMLNo
Monitoraggio e diagnostica
1. Storia della salute
Gestione degli avvisi
1. Avviso via e-mail
2. Avviso tramite SNMPNo
Funzionalità di gestione avanzate
1. Backup e ripristino automatizzatiNo
2. Navigazione e ricerca di fileNo
3. Report sull'utilizzo di MapReduce, Impala, HBase, YarnNo

Cloudera Hadoop: Cloudera Manager

Secondo Cloudera, Cloudera Manager è il modo migliore per farlo installare , configurare , gestire , e tenere sotto controllo lo stack Hadoop.

Fornisce:

  1. Distribuzione e configurazione automatizzate
  2. Monitoraggio e reportistica personalizzabili
  3. Risoluzione dei problemi robusta e senza sforzo
  4. Zero - Manutenzione inattività

Ottieni una conoscenza approfondita di Cloudera Hadoop e dei suoi vari strumenti

c vs c ++ vs java

Dimostrazione di Cloudera Manager

Esploriamo Cloudera Manager.

1. La figura sottostante mostra il numero di servizi attualmente in esecuzione in Cloudera Manager. È inoltre possibile visualizzare i grafici sull'utilizzo della CPU del cluster, sull'utilizzo di IO disco, ecc.

Fig: Homepage di Cloudera Manager

2. L'immagine sotto mostra il cluster HBase. Fornisce grafici e grafici sulle condizioni di salute del server HBase REST attualmente in esecuzione.

Fig: condizioni di salute del server HBase

3. Ora, diamo un'occhiata alla scheda Istanze del cluster HBase dove puoi controllare lo stato e la configurazione IP.

Fig: stato e indirizzo IP del server host del cluster HBase

4. Successivamente, hai la scheda Configurazione. Qui puoi vedere tutti i parametri di configurazione e modificarne i valori.

Fig: Configurazione del cluster HBase

Ora, vediamo cosa sono i pacchi in Cloudera.

Cloudera Hadoop: pacchi

Un pacco è un formato di distribuzione binario contenente i file di programma, insieme a metadati aggiuntivi utilizzati da Cloudera Manager.

I pacchetti sono autonomi e installati in una directory con versione, il che significa che più versioni di un dato servizio possono essere installate fianco a fianco.

Di seguito sono riportati i vantaggi dell'utilizzo di Parcel:

  • Fornisce la distribuzione di CDH come un singolo oggetto, ovvero invece di avere un pacchetto separato per ogni parte di CDH, i pacchetti hanno solo un singolo oggetto da installare.

  • Offre coerenza interna (poiché il CDH completo è distribuito come un singolo pacco, tutti i componenti CDH sono abbinati e non ci sarà rischio che parti diverse provengano da versioni diverse di CDH).

  • È possibile installare, aggiornare, eseguire il downgrade, distribuire e attivare i pacchetti in CDH utilizzando pochi clic.

Ora vediamo come installare e attivare il servizio Kafka in CDH utilizzando Parcels.

  1. Vai alla home page del gestore Cloudera >> Hosts >> Pacchi come mostrato di seguito

    Fig: Selezione dei pacchi dagli host

2. Se non vedi Kafka nell'elenco dei pacchi, puoi aggiungere il pacco all'elenco.

  1. Trova il pacco della versione di Kafka che desideri utilizzare. Se non lo vedi, puoi aggiungere il deposito dei pacchi all'elenco.
  2. Trova il pacco per la versione di Kafka che desideri installare - Cloudera Distribuzione delle versioni di Apache Kafka .
    La figura sotto mostra lo stesso.

Fig: percorso del repository per il pacco.

3. Copiare il collegamento come mostrato nella figura sopra e aggiungerlo a Remote Parcel Repository come mostrato di seguito.

Fig: aggiunta del percorso Kafka dal repository

Quattro.Dopo aver aggiunto il percorso, Kafka sarà pronto per il download. Puoi semplicemente fare clic sul pulsante di download e scaricare Kafka.

Fig: Download di Kafka

5. Una volta scaricato Kafka, tutto ciò che devi fare è distribuirlo e attivarlo.

Fig: attivazione di Kafka

Una volta attivato, puoi andare avanti e visualizzare il Kafka nella scheda dei servizi in Cloudera manager.

Fig: servizio Kafka

Cloudera Hadoop: creazione di un flusso di lavoro Oozie

Creare un flusso di lavoro scrivendo manualmente il codice XML e quindi eseguendolo è complicato. Puoi fare riferimento a questo Pianificazione del lavoro Oozie blog, per conoscere l'approccio tradizionale.

Puoi vedere l'immagine qui sotto, dove abbiamo scritto un file XML per creare un semplice flusso di lavoro Oozie. Fig: creazione di un flusso di lavoro Oozie utilizzando un approccio tradizionale

Come puoi vedere, anche per creare un semplice scheduler Oozie abbiamo dovuto scrivere un enorme codice XML che richiede tempo e il debug di ogni singola riga diventa complicato. Per ovviare a questo problema, Cloudera Manager ha introdotto una nuova funzionalità chiamata Hue che fornisce una GUI e una semplice funzionalità di trascinamento della selezione per creare ed eseguire flussi di lavoro Oozie.

Ora vediamo come Hue esegue la stessa attività in modo semplificato.

Prima di creare un flusso di lavoro, creiamo prima i file di input, ad esempio clickstream.txt e user.txt.
Nel file user.txt, abbiamo ID utente, Nome, Età, Paese, Sesso come mostrato di seguito. Abbiamo bisogno di questo file utente per sapere che l'utente conta e fa clic sull'URL (menzionato nel file clickstream) in base all'ID utente.

Fig: creazione di un file di testo

Per conoscere il numero di clic dell'utente su ogni URL, abbiamo un clickstream contenente l'ID utente e l'URL.

Fig: file clickstream

Scriviamo le query nel file di script.

Fig: file di script

Dopo aver creato il file utente, il file clickstream e il file di script, possiamo andare avanti e creare il flusso di lavoro Oozie.

1. Puoi semplicemente trascinare e rilasciare il flusso di lavoro Oozie come mostrato nell'immagine.

Fig: funzionalità di trascinamento della selezione per la creazione del flusso di lavoro Oozie

2. Subito dopo aver abbandonato l'azione, è necessario specificare i percorsi del file di script e aggiungere i parametri menzionati nel file di script. Qui è necessario aggiungere i parametri OUTPUT, CLICKSTREAM e USER e specificare il percorso di ciascuno dei parametri.

Fig: aggiunta di un file di script e dei parametri richiesti per eseguire l'azione

3. Dopo aver specificato i percorsi e aggiunto i parametri, salvare e inviare semplicemente il flusso di lavoro come mostrato nell'immagine sottostante.

Fig: Salvataggio e invio dell'azione Oozie

4. Dopo aver inviato l'attività, il lavoro è completato. L'esecuzione e gli altri passaggi sono curati da Hue.

Fig: stato di esecuzione del lavoro Oozie

5.Ora che abbiamo eseguito il lavoro Oozie, diamo un'occhiata alla scheda delle azioni. Contiene l'ID utente e lo stato del flusso di lavoro. Mostra anche i codici di errore, se presenti, l'ora di inizio e di fine dell'elemento di azione.

Fig: elementi presenti nella scheda azione del flusso di lavoro di Oozie

dichiarare un array di oggetti in java

6. Accanto alla scheda azione c'è la scheda dettagli. In questo, possiamo vedere l'ora di inizio e l'ora dell'ultima modifica del lavoro.

Fig: Dettagli del flusso di lavoro di Oozie.

7. Accanto alla scheda Dettagli, abbiamo la scheda Configurazione del flusso di lavoro.

Fig: Impostazioni di configurazione del flusso di lavoro Oozie

7. Durante l'esecuzione dell'elemento di azione, se sono presenti errori, verrà elencato nella scheda Registro. È possibile fare riferimento alle istruzioni di errore ed eseguire il debug di conseguenza.

Fig: file di registro che contiene codici di errore e dichiarazioni di errore

8. Ecco il codice XML del flusso di lavoro generato automaticamente da Hue.

Fig: codice XML del flusso di lavoro Oozie

9.1. Poiché hai già specificato il percorso per la directory di output nel passaggio 2, qui hai la directory di output nel browser HDFS come mostrato di seguito.

Fig: directory di output del browser HDFS

9.2 Dopo aver fatto clic sulla directory di output, troverai un file di testo denominato output.txt e quel file di testo contiene l'output effettivo come mostrato nella figura seguente.

Fig: testo finale di output

Ecco come Hue semplifica il nostro lavoro fornendo le opzioni di trascinamento della selezione per creare un flusso di lavoro Oozie.

Spero che questo blog sia stato utile per comprendere la distribuzione Cloudera e i diversi componenti Cloudera.

Vuoi prendere parte alla rivoluzione dei Big Data?

Ora che hai capito Cloudera Hadoop Distribution controlla il file da Edureka, una società di formazione online affidabile con una rete di oltre 250.000 studenti soddisfatti sparsi in tutto il mondo. Il corso di formazione per la certificazione Edureka Big Data Hadoop aiuta gli studenti a diventare esperti in HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume e Sqoop utilizzando casi d'uso in tempo reale nel settore Retail, Social Media, Aviation, Tourism, Finance.

Hai domande per noi? Per favore menzionalo nella sezione commenti e ti risponderemo.