Installazione di Apache Hive su Ubuntu



In questo blog impareremo l'installazione di Apache Hive su Ubuntu e concetti su Hadoop Hive, Hive sql, database Hive, server Hive e installazione di Hive.

Apache Hive è uno dei framework più importanti nell'ecosistema Hadoop, che a sua volta lo rende molto cruciale per . In questo blog, impareremo l'installazione di Apache Hive e Hive su Ubuntu.

Cos'è Apache Hive?

Apache Hive è un'infrastruttura di data warehouse che facilita l'interrogazione e la gestione di grandi set di dati che risiedono in un sistema di archiviazione distribuito. È costruito su Hadoop e sviluppato da Facebook. Alveare fornisce un modo per interrogare i dati utilizzando un linguaggio di query simile a SQL chiamato HiveQL (Hive query Language).





Internamente, un compilatore traduce HiveQL dichiarazioni in Riduci mappa lavori, che vengono poi inviati a Framework Hadoop per l'esecuzione.

Differenza tra Hive e SQL:

Alveare sembra molto simile al database tradizionale con SQL accesso. Tuttavia, perché Alveare è basato su Hadoop e Riduci mappa operazioni, ci sono diverse differenze chiave:



Poiché Hadoop è destinato a lunghe scansioni sequenziali e Alveare è basato su Hadoop , ti aspetteresti che le query abbiano una latenza molto elevata. Significa che Alveare non sarebbe appropriato per quelle applicazioni che richiedono tempi di risposta molto rapidi, come ci si può aspettare da un database RDBMS tradizionale.

Infine, Alveare è basato sulla lettura e quindi non appropriato per l'elaborazione di transazioni che in genere comporta un'elevata percentuale di operazioni di scrittura.

cos'è un java bufferedreader

Installazione di Hive su Ubuntu:

Si prega di seguire i passaggi seguenti per l'installazione Apache Hive su Ubuntu:



Passo 1: Scarica Catrame dell'alveare.

Comando: wget http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz

Passo 2: Estrai il file catrame file.

Comando: tar -xzf apache-hive-2.1.0-bin.tar.gz

Comando: ls

File Spread Hive - Installazione Hive - Edureka

Passaggio 3: Modifica il file '.Bashrc' file per aggiornare le variabili di ambiente per l'utente.

Comando: sudo gedit .bashrc

Aggiungere quanto segue alla fine del file:

# Imposta HIVE_HOME

esporta HIVE_HOME = / home / edureka / apache-hive-2.1.0-bin
export PATH = $ PATH: /home/edureka/apache-hive-2.1.0-bin/bin

Inoltre, assicurati che sia impostato anche il percorso hadoop.

Esegui sotto il comando per far funzionare le modifiche nello stesso terminale.

Comando: fonte .bashrc

Passaggio 4: Controlla la versione dell'alveare.

stipendio per sviluppatore Java in India

Passaggio 5: Creare Alveare directory all'interno HDFS . La directory 'magazzino' è la posizione in cui archiviare la tabella oi dati relativi all'hive.

Comando:

  • hdfs dfs -mkdir -p / user / hive / warehouse
  • hdfs dfs -mkdir / tmp

Passaggio 6: Imposta i permessi di lettura / scrittura per la tabella.

Comando:

In questo comando, stiamo dando il permesso di scrittura al gruppo:

  • hdfs dfs -chmod g + w / user / hive / warehouse
  • hdfs dfs -chmod g + w / tmp

Passaggio 7: Impostato Hadoop percorso in h ive-env.sh

Comando: cd apache-hive-2.1.0-bin /

Comando: gedit conf / hive-env.sh

Impostare i parametri come mostrato nell'istantanea sottostante.

Passaggio 8: modificare hive-site.xml

Comando: gedit conf / hive-site.xml

javax.jdo.option.ConnectionURL jdbc: derby: databaseName = / home / edureka / apache-hive-2.1.0-bin / metastore_dbcreate = true Stringa di connessione JDBC per un metastore JDBC. Per utilizzare SSL per crittografare / autenticare la connessione, fornire il flag SSL specifico del database nell'URL della connessione. Ad esempio, jdbc: postgresql: // myhost / db? Ssl = true per il database postgres. hive.metastore.warehouse.dir / user / hive / warehouse posizione del database predefinito per l'URI di risparmio hive.metastore.uris del magazzino per il metastore remoto. Utilizzato dal client del metastore per connettersi al metastore remoto. javax.jdo.option.ConnectionDriverName org.apache.derby.jdbc.EmbeddedDriver Nome classe driver per un metastore JDBC javax.jdo.PersistenceManagerFactoryClass org.datanucleus.api.jdo.JDOPersistenceManagerFactory classe che implementa la persistenza jdo

Passaggio 9: Per impostazione predefinita, Hive utilizza Derby Banca dati. Inizializza il database Derby.

fibonacci iterativo c ++

Comando: bin / schematool -initSchema -dbType derby

Passaggio 10 :Lanciare Alveare.

Comando: alveare

Passaggio 11 :Esegui alcune query in Hive Shell.

Comando: mostra database

Comando: crea una tabella dipendente (stringa id, stringa nome, stringa reparto) campi delimitati in formato riga terminati da '' archiviato come file di testo

Comando: mostra le tabelle

Passaggio 12: Per uscire da Alveare:

Comando: Uscita

Ora che hai finito con l'installazione di Hive, il prossimo passo avanti è provare i comandi Hive su Hive Shell. Quindi, il nostro prossimo blog ' Comandi principali di Hive con esempi in HQL 'Ti aiuterà a padroneggiare i comandi di Hive.

Post correlati:

Come eseguire gli script Hive?

Comandi Hive

Introduzione ad Apache Hive