Hai padroneggiato Hadoop? È ora di iniziare con Apache Spark



Questo post del blog spiega perché devi iniziare con Apache Spark dopo Hadoop e perché imparare Spark dopo aver imparato hadoop può fare miracoli per la tua carriera!

Hadoop, come tutti sappiamo, è il poster dei big data. Come framework software in grado di elaborare proporzioni elefantissime di dati, Hadoop è arrivato in cima alla lista delle parole d'ordine del CIO.





Tuttavia, l'aumento senza precedenti dello stack in-memory ha introdotto l'ecosistema dei big data come una nuova alternativa per l'analisi. Il metodo di analisi MapReduce viene sostituito da un nuovo approccio che consente l'analisi sia all'interno del framework Hadoop che al di fuori di esso. Apache Spark è il nuovo volto dell'analisi dei big data.

applicazioni di big data analysis

Gli appassionati di big data hanno certificato Apache Spark come il motore di elaborazione dati più caldo al mondo per i big data. Sta espellendo rapidamente MapReduce e Java dalle loro posizioni e le tendenze del lavoro riflettono questo cambiamento. Secondo un sondaggio di TypeSafe, il 71% degli sviluppatori Java globali sta attualmente valutando o facendo ricerche su Spark e il 35% di loro ha già iniziato a usarlo. Gli esperti di Spark sono attualmente richiesti e nelle settimane a seguire il numero di opportunità di lavoro relative a Spark dovrebbe aumentare alle stelle.



Allora, di cosa si tratta Apache Spark che lo fa apparire in cima a ogni elenco di cose da fare dei CIO?

Ecco alcune delle caratteristiche interessanti di Apache Spark:

  • Integrazione Hadoop - Spark può lavorare con i file archiviati in HDFS.
  • Shell interattiva di Spark - Spark è scritto in Scala e ha la sua versione dell'interprete Scala.
  • Spark's Analytic Suite - Spark viene fornito con strumenti per l'analisi interattiva delle query, l'elaborazione e l'analisi di grafici su larga scala e l'analisi in tempo reale.
  • Set di dati distribuiti resilienti (RDD) - Gli RDD sono oggetti distribuiti che possono essere memorizzati nella cache in memoria, in un cluster di nodi di calcolo. Sono gli oggetti dati primari utilizzati in Spark.
  • Operatori distribuiti - Oltre a MapReduce, ci sono molti altri operatori che è possibile utilizzare su RDD.

Organizzazioni come NASA, Yahoo e Adobe si sono impegnate con Spark. Questo è ciò che John Tripier, Alliances and Ecosystem Lead di Databricks ha da dire: 'L'adozione di Apache Spark da parte di aziende grandi e piccole sta crescendo a un ritmo incredibile in un'ampia gamma di settori e la domanda di sviluppatori con competenze certificate è rapidamente seguire l'esempio '. Non c'è mai stato momento migliore per imparare Spark se hai un background in Hadoop.



come usare br in html

Edureka ha curato appositamente un corso su Apache Spark e Scala, co-creato da professionisti del settore nella vita reale. Per un'esperienza di e-learning dal vivo differenziata insieme a progetti rilevanti per il settore, dai un'occhiata al nostro corso. Presto inizieranno nuovi lotti, quindi dai un'occhiata al corso qui: .

Hai domande per noi? Per favore menzionalo nella sezione commenti e ti risponderemo.

python __init__

Post correlati:

Apache Spark Vs Hadoop MapReduce