Introduzione ad Apache Hive



Apache Hive è un pacchetto di data warehousing costruito su Hadoop e viene utilizzato per l'analisi dei dati. Hive è rivolto agli utenti che hanno dimestichezza con SQL.

Apache Hive è un pacchetto di data warehousing costruito su Hadoop e viene utilizzato per l'analisi dei dati. Hive è rivolto agli utenti che hanno dimestichezza con SQL. È simile a SQL e chiamato HiveQL, utilizzato per la gestione e l'interrogazione di dati strutturati. Apache Hive viene utilizzato per astrarre la complessità di Hadoop. Questo linguaggio consente anche ai tradizionali programmatori di mappe / riduzioni di collegare i loro mappatori e riduttori personalizzati. La caratteristica popolare di Hive è che non è necessario imparare Java.





Hive, un framework di data warehousing su scala peta-byte open source basato su Hadoop, è stato sviluppato dal Data Infrastructure Team di Facebook. Hive è anche una delle tecnologie utilizzate per soddisfare i requisiti di Facebook. Hive è molto popolare tra tutti gli utenti internamente a Facebook e viene utilizzato per eseguire migliaia di lavori sul cluster con centinaia di utenti, per un'ampia varietà di applicazioni. Il cluster Hive-Hadoop su Facebook archivia più di 2 PB di dati grezzi e carica regolarmente 15 TB di dati su base giornaliera.

Diamo un'occhiata ad alcune delle sue caratteristiche che lo rendono popolare e facile da usare:



  • Consente ai programmatori di collegare mappatori e riduttori personalizzati.
  • Dispone di infrastruttura Data Warehouse.
  • Fornisce strumenti per abilitare un facile ETL dei dati.
  • Definisce un linguaggio di query simile a SQL chiamato QL.

Caso d'uso Apache Hive - Facebook:

Caso d

Prima di implementare Hive, Facebook ha dovuto affrontare molte sfide in quanto la dimensione dei dati generati è aumentata o piuttosto esplosa, rendendo davvero difficile gestirli. Il tradizionale RDBMS non poteva gestire la pressione e di conseguenza Facebook cercava opzioni migliori. Per risolvere questo problema imminente, Facebook inizialmente ha provato a utilizzare Hadoop MapReduce, ma con difficoltà di programmazione e conoscenza obbligatoria di SQL, è stata una soluzione poco pratica. Hive ha permesso loro di superare le sfide che stavano affrontando.

come chiudere un'applicazione java

Con Hive, ora sono in grado di eseguire le seguenti operazioni:



  • Le tabelle possono essere suddivise in porzioni e suddivise in bucket
  • Flessibilità ed evoluzione dello schema
  • Sono disponibili driver JDBC / ODBC
  • Le tabelle Hive possono essere definite direttamente in HDFS
  • Estendibile: tipi, formati, funzioni e script

Caso d'uso Hive in ambito sanitario:

Dove utilizzare Hive?

Apache Hive può essere utilizzato nei seguenti luoghi:

  • Estrazione dei dati
  • Elaborazione registro
  • Indicizzazione dei documenti
  • Business Intelligence di fronte al cliente
  • Modellazione predittiva
  • Verifica di ipotesi

Architettura Hive:

Hive è costituito dai seguenti componenti principali:

  • Metastore: per archiviare i metadati.
  • JDBC / ODBC - Query Compiler ed Execution Engine per convertire le query SQL in una sequenza di MapReduce.
  • SerDe e ObjectInspectors: per formati e tipi di dati.
  • UDF / UDAF: per funzioni definite dall'utente.
  • Client: simile alla riga di comando di MySQL e all'interfaccia utente web.

Componenti di Hive:

Metastore:

Il Metastore memorizza le informazioni sulle tabelle, le partizioni, le colonne all'interno delle tabelle. Esistono 3 modi per archiviare in Metastore: Metastore incorporato, Metastore locale e Metastore remoto. Principalmente, Remote Metastore verrà utilizzato in modalità di produzione.

Limitazioni di Hive:

Hive presenta le seguenti limitazioni e non può essere utilizzato in tali circostanze:

  • Non progettato per l'elaborazione delle transazioni online.
  • Fornisce una latenza accettabile per la navigazione interattiva dei dati.
  • Non offre query in tempo reale e aggiornamenti a livello di riga.
  • La latenza per le query Hive è generalmente molto alta.

Hai domande per noi? Menzionateli nella sezione commenti e vi risponderemo.

Post correlati:

Comandi Hive