Apache Flink è una piattaforma open source per l'elaborazione di flussi distribuiti e dati in batch. Può essere eseguito su Windows, Mac OS e Linux OS. In questo post del blog, parliamo di come configurare il cluster Flink in locale. È simile a Spark in molti modi: ha API per l'elaborazione di grafici e machine learning come Apache Spark, ma Apache Flink e Apache Spark non sono esattamente la stessa cosa.
Per configurare il cluster Flink, devi avere java 7.xo superiore installato sul tuo sistema. Dato che ho installato Hadoop-2.2.0 su CentOS (Linux), ho scaricato il pacchetto Flink che è compatibile con Hadoop 2.x. Esegui sotto il comando per scaricare il pacchetto Flink.
Comando: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Decomprimere il file per ottenere la directory flink.
Comando: tar -xvf Download / flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Comando: ls
Aggiungi le variabili d'ambiente Flink nel file .bashrc.
Comando: sudo gedit .bashrc
È necessario eseguire il comando seguente in modo che le modifiche nel file .bashrc siano attivate
Comando: fonte .bashrc
Ora vai alla directory flink e avvia il cluster localmente.
Comando: cd hefty-1.0.0
Comando: bin / start-local.sh
Una volta avviato il cluster, sarai in grado di vedere un nuovo daemon JobManager in esecuzione.
Comando: jps
Apri il browser e vai su http: // localhost: 8081 per vedere l'interfaccia utente web di Apache Flink.
è un array un oggetto in java
Facciamo un semplice esempio di conteggio parole usando Apache Flink.
Prima di eseguire l'esempio install netcat sul tuo sistema (sudo yum install nc).
Ora in un nuovo terminale esegui il comando seguente.
Comando: nc -lk 9000
Esegui il comando indicato di seguito nel terminale flink. Questo comando esegue un programma che prende i dati trasmessi come input ed esegue l'operazione di conteggio parole su quei dati trasmessi.
Comando: bin / flink esegui esempi / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000
Nell'interfaccia utente web, sarai in grado di vedere un lavoro in esecuzione.
Esegui sotto il comando in un nuovo terminale, questo stamperà i dati trasmessi ed elaborati.
Comando: tail -f log / flink - * - jobmanager - *. out
Ora vai al terminale dove hai avviato netcat e digita qualcosa.
Nel momento in cui premi il pulsante Invio sulla tua parola chiave dopo aver digitato alcuni dati sul terminale netcat, l'operazione di conteggio parole verrà applicata a quei dati e l'output verrà stampato qui (log del gestore lavori di flink) entro millisecondi!
In un brevissimo lasso di tempo, i dati verranno trasmessi, elaborati e stampati.
C'è molto altro da imparare su Apache Flink. Tratteremo altri argomenti di Flink nel nostro prossimo blog.
Hai domande per noi? Menzionali nella sezione commenti e ti risponderemo.
Post correlati:
Apache Falcon: nuova piattaforma di gestione dei dati per l'ecosistema Hadoop