Apache Hive è uno dei framework più importanti nell'ecosistema Hadoop, che a sua volta lo rende molto cruciale per . In questo blog, impareremo l'installazione di Apache Hive e Hive su Ubuntu.
Cos'è Apache Hive?
Apache Hive è un'infrastruttura di data warehouse che facilita l'interrogazione e la gestione di grandi set di dati che risiedono in un sistema di archiviazione distribuito. È costruito su Hadoop e sviluppato da Facebook. Alveare fornisce un modo per interrogare i dati utilizzando un linguaggio di query simile a SQL chiamato HiveQL (Hive query Language).
Internamente, un compilatore traduce HiveQL dichiarazioni in Riduci mappa lavori, che vengono poi inviati a Framework Hadoop per l'esecuzione.
Differenza tra Hive e SQL:
Alveare sembra molto simile al database tradizionale con SQL accesso. Tuttavia, perché Alveare è basato su Hadoop e Riduci mappa operazioni, ci sono diverse differenze chiave:
Poiché Hadoop è destinato a lunghe scansioni sequenziali e Alveare è basato su Hadoop , ti aspetteresti che le query abbiano una latenza molto elevata. Significa che Alveare non sarebbe appropriato per quelle applicazioni che richiedono tempi di risposta molto rapidi, come ci si può aspettare da un database RDBMS tradizionale.
Infine, Alveare è basato sulla lettura e quindi non appropriato per l'elaborazione di transazioni che in genere comporta un'elevata percentuale di operazioni di scrittura.
cos'è un java bufferedreader
Installazione di Hive su Ubuntu:
Si prega di seguire i passaggi seguenti per l'installazione Apache Hive su Ubuntu:
Passo 1: Scarica Catrame dell'alveare.
Comando: wget http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz
Passo 2: Estrai il file catrame file.
Comando: tar -xzf apache-hive-2.1.0-bin.tar.gz
Comando: ls
Passaggio 3: Modifica il file '.Bashrc' file per aggiornare le variabili di ambiente per l'utente.
Comando: sudo gedit .bashrc
Aggiungere quanto segue alla fine del file:
# Imposta HIVE_HOME
esporta HIVE_HOME = / home / edureka / apache-hive-2.1.0-bin
export PATH = $ PATH: /home/edureka/apache-hive-2.1.0-bin/bin
Inoltre, assicurati che sia impostato anche il percorso hadoop.
Esegui sotto il comando per far funzionare le modifiche nello stesso terminale.
Comando: fonte .bashrc
Passaggio 4: Controlla la versione dell'alveare.
stipendio per sviluppatore Java in India
Passaggio 5: Creare Alveare directory all'interno HDFS . La directory 'magazzino' è la posizione in cui archiviare la tabella oi dati relativi all'hive.
Comando:
- hdfs dfs -mkdir -p / user / hive / warehouse
- hdfs dfs -mkdir / tmp
Passaggio 6: Imposta i permessi di lettura / scrittura per la tabella.
Comando:
In questo comando, stiamo dando il permesso di scrittura al gruppo:
- hdfs dfs -chmod g + w / user / hive / warehouse
- hdfs dfs -chmod g + w / tmp
Passaggio 7: Impostato Hadoop percorso in h ive-env.sh
Comando: cd apache-hive-2.1.0-bin /
Comando: gedit conf / hive-env.sh
Impostare i parametri come mostrato nell'istantanea sottostante.
Passaggio 8: modificare hive-site.xml
Comando: gedit conf / hive-site.xml
javax.jdo.option.ConnectionURL jdbc: derby: databaseName = / home / edureka / apache-hive-2.1.0-bin / metastore_dbcreate = true Stringa di connessione JDBC per un metastore JDBC. Per utilizzare SSL per crittografare / autenticare la connessione, fornire il flag SSL specifico del database nell'URL della connessione. Ad esempio, jdbc: postgresql: // myhost / db? Ssl = true per il database postgres. hive.metastore.warehouse.dir / user / hive / warehouse posizione del database predefinito per l'URI di risparmio hive.metastore.uris del magazzino per il metastore remoto. Utilizzato dal client del metastore per connettersi al metastore remoto. javax.jdo.option.ConnectionDriverName org.apache.derby.jdbc.EmbeddedDriver Nome classe driver per un metastore JDBC javax.jdo.PersistenceManagerFactoryClass org.datanucleus.api.jdo.JDOPersistenceManagerFactory classe che implementa la persistenza jdo
Passaggio 9: Per impostazione predefinita, Hive utilizza Derby Banca dati. Inizializza il database Derby.
fibonacci iterativo c ++
Comando: bin / schematool -initSchema -dbType derby
Passaggio 10 :Lanciare Alveare.
Comando: alveare
Passaggio 11 :Esegui alcune query in Hive Shell.
Comando: mostra database
Comando: crea una tabella dipendente (stringa id, stringa nome, stringa reparto) campi delimitati in formato riga terminati da '' archiviato come file di testo
Comando: mostra le tabelle
Passaggio 12: Per uscire da Alveare:
Comando: Uscita
Ora che hai finito con l'installazione di Hive, il prossimo passo avanti è provare i comandi Hive su Hive Shell. Quindi, il nostro prossimo blog ' Comandi principali di Hive con esempi in HQL 'Ti aiuterà a padroneggiare i comandi di Hive.
Post correlati: