Apache Flink: il framework di analisi dei big data di nuova generazione per l'elaborazione di dati in streaming e in batch



Scopri tutto su Apache Flink e sulla configurazione di un cluster Flink in questo blog. Flink supporta l'elaborazione in batch e in tempo reale ed è una tecnologia Big Data da non perdere per l'analisi dei Big Data.

Apache Flink è una piattaforma open source per l'elaborazione di flussi distribuiti e dati in batch. Può essere eseguito su Windows, Mac OS e Linux OS. In questo post del blog, parliamo di come configurare il cluster Flink in locale. È simile a Spark in molti modi: ha API per l'elaborazione di grafici e machine learning come Apache Spark, ma Apache Flink e Apache Spark non sono esattamente la stessa cosa.





Per configurare il cluster Flink, devi avere java 7.xo superiore installato sul tuo sistema. Dato che ho installato Hadoop-2.2.0 su CentOS (Linux), ho scaricato il pacchetto Flink che è compatibile con Hadoop 2.x. Esegui sotto il comando per scaricare il pacchetto Flink.

Comando: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Decomprimere il file per ottenere la directory flink.

Comando: tar -xvf Download / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Comando: ls

Aggiungi le variabili d'ambiente Flink nel file .bashrc.

Comando: sudo gedit .bashrc

È necessario eseguire il comando seguente in modo che le modifiche nel file .bashrc siano attivate

Comando: fonte .bashrc

Ora vai alla directory flink e avvia il cluster localmente.

Comando: cd hefty-1.0.0

Comando: bin / start-local.sh

Una volta avviato il cluster, sarai in grado di vedere un nuovo daemon JobManager in esecuzione.

Comando: jps

Apri il browser e vai su http: // localhost: 8081 per vedere l'interfaccia utente web di Apache Flink.

è un array un oggetto in java

Facciamo un semplice esempio di conteggio parole usando Apache Flink.

Prima di eseguire l'esempio install netcat sul tuo sistema (sudo yum install nc).

Ora in un nuovo terminale esegui il comando seguente.

Comando: nc -lk 9000

Esegui il comando indicato di seguito nel terminale flink. Questo comando esegue un programma che prende i dati trasmessi come input ed esegue l'operazione di conteggio parole su quei dati trasmessi.

Comando: bin / flink esegui esempi / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

Nell'interfaccia utente web, sarai in grado di vedere un lavoro in esecuzione.

Esegui sotto il comando in un nuovo terminale, questo stamperà i dati trasmessi ed elaborati.

Comando: tail -f log / flink - * - jobmanager - *. out

Ora vai al terminale dove hai avviato netcat e digita qualcosa.

Nel momento in cui premi il pulsante Invio sulla tua parola chiave dopo aver digitato alcuni dati sul terminale netcat, l'operazione di conteggio parole verrà applicata a quei dati e l'output verrà stampato qui (log del gestore lavori di flink) entro millisecondi!

In un brevissimo lasso di tempo, i dati verranno trasmessi, elaborati e stampati.

C'è molto altro da imparare su Apache Flink. Tratteremo altri argomenti di Flink nel nostro prossimo blog.

Hai domande per noi? Menzionali nella sezione commenti e ti risponderemo.

Post correlati:

Apache Falcon: nuova piattaforma di gestione dei dati per l'ecosistema Hadoop