Analisi dettagliata di Apache Drill, il motore di query New Age



Questo tutorial su Apache Drill ti fornisce tutte le informazioni necessarie per iniziare con il motore di query Apache Drill, l'utilizzo con Hadoop, Big Data e Apache Spark.

Apache Drill è il primo motore SQL senza schema del settore. Drill non è il primo motore di query al mondo, ma è il primo che raggiunge il giusto equilibrio tra flessibilità e velocità. Drill è progettato per scalare fino a diverse migliaia di nodi ed eseguire query in petabyte di dati alle velocità interattive richieste dagli ambienti BI / Analytics.





Può integrarsi con diverse fonti di dati come Hive, HBase, MongoDB, file system, RDBMS. Inoltre, formati di input come Avro, CSV, TSV, PSV, Parquet, file di sequenza Hadoop e molti altri possono essere utilizzati con facilità in Drill.

Perché Apache Drill?

Il più grande vantaggio di Apache Drill è che può scoprire lo schema al volo mentre interroghi i dati. Inoltre, può funzionare con i tuoi strumenti di BI come Tableau, Qlikview, MicroStrategy ecc. Per una migliore analisi.



Ecco una citazione di un analista del settore che riassume il valore di Apache Drill:

'Drill non riguarda solo SQL-on-Hadoop. Si tratta di SQL su praticamente qualsiasi cosa, immediatamente e senza formalità. '

- Andrew Burst, Gigaom Research, gennaio 2015



Drillbit è il daemon di Apache Drill che viene eseguito su ogni nodo del cluster. Utilizza ZooKeeper per tutte le comunicazioni nel cluster e per l'appartenenza al cluster maintaisn. È responsabile dell'accettazione delle richieste dal client, dell'elaborazione delle query e della restituzione dei risultati al client. Il drillbit che riceve la richiesta dal cliente si chiama 'caposquadra'. Genera il piano di esecuzione, i frammenti di esecuzione vengono inviati ad altri drill in esecuzione nel cluster.

Drillbits-Apache-Drill

Un altro vantaggio è che l'installazione e la configurazione del trapano sono piuttosto semplici. Impariamo come installare Apache Drill.

Il primo passo è scaricare il pacchetto drill.

qual è la differenza tra abstract class e interface

Comando: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Comando: tar -xvf apache-drill-1.5.0.tar.gz

Comando: ls

Quindi, imposta le variabili di ambiente nel file .bashrc.

Comando: sudo gedit .bashrc

export DRILL_HOME = / home / edureka / apache-drill-1.5.0

export PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Questo comando aggiornerà le modifiche:

Comando: fonte .bashrc

Ora vai alla directory drill conf e modifica il file drill-override.conf con l'ID del cluster e l'host e la porta del custode dello zoo, lo eseguiremo su un cluster locale.

Comando: cd apache-drill-1.5.0

Comando: sudo gedit conf / drill-override.conf

Per impostazione predefinita, DRILL_MAX_DIRECT_MEMORY sarà 8 GB in drill-env.sh e dobbiamo mantenerlo in base alla memoria che abbiamo.

Comando: sudo gedit conf / drill-env.sh

Per installare il drill solo in un singolo nodo, è possibile utilizzare la modalità incorporata, dove verrà eseguito localmente. Avvierà automaticamente il servizio drillbit quando esegui questo comando.

Comando: ./bin/drill-embedded

È possibile eseguire una semplice query per verificare l'installazione.

Comando: seleziona * da sys.options WHERE digita = 'SYSTEM' e un nome come 'security%'

Per controllare la console web di Apache Drill, dobbiamo andare su localhost: 8047 nel browser web.

Puoi anche eseguire la query dalla scheda Query.

Per eseguire il drill in modalità distribuita, è necessario modificare l'ID del cluster e aggiungere le informazioni di ZooKeeper in drill-override.conf come di seguito.

Quindi dobbiamo avviare il servizio ZooKeeper su ogni nodo. Dopodiché devi avviare il servizio drillbit su ogni nodo con questo comando.

implementando una coda di priorità in java

Comando: ./bin/drillbit.sh start

Comando: jps

Ora usiamo il comando seguente per avviare il drill shell.

Ora possiamo eseguire le nostre query sul cluster in modalità distribuita.

Questo è il primo post di una serie di blog Apache Drill in due parti. Il secondo blog della serie arriverà presto.

Hai domande per noi? Menzionali nella sezione commenti e ti risponderemo.

Post correlati:

Drill down su Apache Drill Parte 2

Apache Spark Vs Hadoop MapReduce