Hadoop 2.0 - Domande frequenti



L'interesse per Hadoop è aumentato di molte volte negli ultimi due anni. Questo post risponde alle tue domande e cancella molti dubbi su Hadoop 2.0 e sul suo utilizzo.

Questo è un post di follow-up con la risposta alla domanda frequente durante il webinar pubblico di edureka! su .

Domande frequenti su Hadoop

Deepak:





Cos'è Hadoop?
Apache Hadoop è un framework software Open Source per l'archiviazione e l'elaborazione su larga scala di set di dati su cluster di hardware di base. Si tratta di un framework software di gestione dati open source con storage scale-out ed elaborazione distribuita. Viene costruito e utilizzato da una comunità globale di collaboratori e utenti.

Maggiori informazioni nel nostro post sul blog di Hadoop e .



Ricerca:

Quali sono i casi di utilizzo dei big data nel settore dei viaggi, dei trasporti e delle compagnie aeree?

Soleggiato:



Puoi indicarci alcuni esempi reali di implementazione Hadoop che possiamo studiare?
Siamo lividiin un'era di crescente congestione nelle ore di punta. Gli operatori dei trasporti sono costantemente alla ricerca di modi economici per fornire i loro servizi mantenendo la loro flotta di trasporto in buone condizioni. L'utilizzo di Big Data Analytics in questo dominio può aiutare l'organizzazione con:

  • Ottimizzazione del percorso
  • Analisi geospaziale
  • Modelli di traffico e congestione
  • Manutenzione dei beni
  • Revenue Management (ovvero compagnia aerea)
  • Gestione delle scorte
  • Risparmio di carburante
  • Marketing mirato
  • Fedeltà del cliente
  • Previsione della capacità
  • Prestazioni e ottimizzazione della rete

Pochi casi d'uso nel mondo reale sono:
per) Determinazione dei costi di volo
b) Modellazione delle previsioni per la logistica dell'inventario
c) Orbitz Worldwide - Modelli di acquisto dei clienti
d) Sei distribuzioni Hadoop su vasta scala
e) Hadoop - Più che aggiunte
f) Hadoop in Enterprise

tableau data blending left join

Puoi saperne di più sulle implementazioni del mondo reale di Hadoop su:

Hirdesh:

Hadoop è tutto incentrato sulla gestione e l'elaborazione dei dati? Come andiamo per Reporting e Visual Analytics. Qlikview, Tableau può essere utilizzato su Hadoop?
I componenti principali di Hadoop HDFS e MapReduce riguardano l'archiviazione e l'elaborazione dei dati. HDFS per l'archiviazione e MapReduce per l'elaborazione. Ma i componenti principali di Hadoop come Pig e Hive vengono utilizzati per l'analisi. Per Visual Reports Tableau, QlikView può essere connesso a Hadoop per Visual Reporting.

Amit:

Hadoop vs. mongoDB
MongoDB viene utilizzato come archivio dati in tempo reale 'operativo' mentre Hadoop viene utilizzato per l'elaborazione e l'analisi dei dati batch offline.
mongoDB è un archivio dati orientato ai documenti e senza schema che puoi utilizzare in un'applicazione web come back-end invece di RDBMS come MySQL, mentre Hadoop viene utilizzato principalmente come storage scale-out e elaborazione distribuita per grandi quantità di dati.

Maggiori informazioni sul nostro post sul blog di mongoDB e Hadoop .

Qui:

Apache Spark fa parte di Hadoop ?
Apache Spark è un motore veloce e generale per l'elaborazione dei dati su larga scala. Spark è più veloce e supporta l'elaborazione in memoria. Il motore di esecuzione Spark amplia il tipo di carichi di lavoro di elaborazione che Hadoop può gestire e può essere eseguito sul cluster Hadoop 2.0 YARN. Si tratta di un sistema framework di elaborazione che consente di archiviare oggetti in memoria (RDD) insieme alla capacità di elaborare questi oggetti utilizzando le chiusure Scala. Supporta l'elaborazione di grafici, data warehouse, machine learning e stream.

Se hai un cluster Hadoop 2, puoi eseguire Spark senza alcuna installazione necessaria. Altrimenti, Spark può essere eseguito facilmente da solo o su EC2 o Mesos. Può leggere da HDFS, HBase, Cassandra e qualsiasi origine dati Hadoop.

Maggiori informazioni su Spark Qui .

Prasad:

Cos'è Apache Flume?
Apache Flume è un sistema distribuito, affidabile e disponibile per la raccolta, l'aggregazione e lo spostamento efficiente di grandi quantità di dati di registro da molte fonti diverse a un'origine dati centralizzata.

Amit:

Database SQL vs NO-SQL
I database NoSQL sono database di nuova generazione e stanno principalmente affrontando alcuni dei punti

  • non relazionale
  • distribuito
  • open-source
  • scalabile orizzontalmente

Spesso si applicano più caratteristiche come supporto di replica semplice e privo di schema, API semplice, eventualmente coerente / BASE (non ACID), un'enorme quantità di dati e altro ancora. Ad esempio, alcuni dei differenziatori sono:

  • I database NoSQL si espandono orizzontalmente, aggiungendo più server per gestire carichi più grandi. I database SQL, d'altra parte, di solito si espandono verticalmente, aggiungendo sempre più risorse a un singolo server all'aumentare del traffico.
  • I database SQL richiedevano di definire gli schemi prima di aggiungere informazioni e dati, ma i database NoSQL sono privi di schema non richiedono la definizione dello schema in anticipo.
  • I database SQL sono basati su tabelle con righe e colonne che seguono i principi RDBMS mentre i database NoSQL sono documenti, coppie chiave-valore, archivi di grafici o colonne larghe.
  • I database SQL utilizzano SQL (linguaggio di query strutturato) per la definizione e la manipolazione dei dati. Nel database NoSQL, le query variano da un database all'altro.

Database SQL popolari: MySQL, Oracle, Postgres e MS-SQL
Popolare Database NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j e CouchDB

Rivedi i nostri blog su Hadoop e NoSQL database e vantaggi di uno di questi database:

Koteswararao:

Hadoop dispone di una tecnologia cluster integrata?
Un cluster Hadoop utilizza l'architettura Master-Slave. Consiste in un singolo master (NameNode) e un cluster di slave (DataNode) per memorizzare ed elaborare i dati. Hadoop è progettato per funzionare su un gran numero di macchine che non condividono memoria o dischi. Questi DataNode sono configurati come Cluster utilizzando . Hadoop utilizza un concetto di replica per garantire che almeno una copia dei dati sia sempre disponibile nel cluster. Poiché sono presenti più copie di dati, i dati archiviati su un server che va offline o muore possono essere replicati automaticamente da una copia valida nota.

Dinesh:

Che cos'è un lavoro in Hadoop? Cosa si può ottenere tramite un lavoro?
In Hadoop, un lavoro è un programma MapReduce per elaborare / analizzare i dati. Il termine MapReduce si riferisce in realtà a due attività separate e distinte eseguite dai programmi Hadoop. La prima è l'attività Mappa, che prende un set di dati e lo converte in un altro set di dati intermedi, dove i singoli elementi vengono suddivisi in coppie chiave-valore. La seconda parte di un processo MapReduce, l'attività Riduci, prende l'output da una mappa come input e combina le coppie chiave-valore in un insieme più piccolo di coppie chiave-valore aggregate. Come implica la sequenza del nome MapReduce, l'attività Riduci viene sempre eseguita dopo il completamento delle attività Mappa. Maggiori informazioni su MapReduce Job .

Sukruth:

Cosa c'è di speciale in NameNode ?
Il NameNode è il cuore di un file system HDFS. Mantiene i metadati come l'albero delle directory di tutti i file nel file system e tiene traccia del punto in cui sono conservati i dati del file nel cluster. I dati effettivi vengono archiviati sui DataNodes come blocchi HDFS.
Le applicazioni client comunicano al NameNode ogni volta che desiderano individuare un file o ogni volta che desiderano aggiungere / copiare / spostare / eliminare un file. Il NameNode risponde alle richieste riuscite restituendo un elenco di server DataNodes rilevanti in cui risiedono i dati. Ulteriori informazioni sull'architettura HDFS .

converte il decimale in python binario

Dinesh:

Quando è stato introdotto sul mercato Hadoop 2.0?
Apache Software Foundation (ASF), il gruppo open source che gestisce lo sviluppo di Hadoop, ha annunciato nel suo blog il 15 ottobre 2013 che Hadoop 2.0 è ora Generally Available (GA). Questo annuncio significa che dopo una lunga attesa, Apache Hadoop 2.0 e YARN sono ora pronti per la distribuzione in produzione. Più su Blog.

Dinesh:

Quali sono i pochi esempi di applicazioni Big Data non MapReduce?
MapReduce è ottimo per molte applicazioni per risolvere i problemi dei Big Data ma non per tutto ciò che altri modelli di programmazione soddisfano meglio requisiti come l'elaborazione di grafici (ad esempio, Google Pregel / Apache Giraph) e la modellazione iterativa con Message Passing Interface (MPI).

Marish:

Come vengono organizzati e indicizzati i dati in HDFS?
I dati vengono suddivisi in blocchi di 64 MB (configurabili da un parametro) e vengono archiviati in HDFS. NameNode memorizza le informazioni di archiviazione di questi blocchi come Block ID nella sua RAM (NameNode Metadata). I lavori MapReduce possono accedere a questi blocchi utilizzando i metadati memorizzati nella RAM NameNode.

Shashwat:

Possiamo usare sia MapReduce (MRv1) che MRv2 (con YARN) sullo stesso cluster?
Hadoop 2.0 ha introdotto un nuovo framework YARN per scrivere ed eseguire diverse applicazioni su Hadoop. Quindi, YARN e MapReduce sono due concetti diversi in Hadoop 2.0 e non devono essere combinati e utilizzati in modo intercambiabile. La domanda giusta è 'È possibile eseguire sia MRv1 che MRv2 su un cluster Hadoop 2.0 abilitato per YARN?' La risposta a questa domanda è a 'No' come anche se un cluster Hadoop può essere configurato per eseguire sia MRv1 che MRv2, ma può eseguire solo un set di daemon in qualsiasi momento. Entrambi questi framework alla fine utilizzano gli stessi file di configurazione ( filato-site.xml e mapred-site.xml ) per eseguire i daemon, quindi solo una delle due configurazioni può essere abilitata su un cluster Hadoop.

Bambola:

Qual è la differenza tra Next Generation MapReduce (MRv2) e YARN?
YARN e Next Generation MapReduce (MRv2) sono due concetti e tecnologie differenti in Hadoop 2.0. YARN è un framework software che può essere utilizzato per eseguire non solo MRv2 ma anche altre applicazioni. MRv2 è un framework applicativo scritto utilizzando l'API YARN e viene eseguito all'interno di YARN.

Bharat:

Hadoop 2.0 fornisce la compatibilità con le versioni precedenti per le applicazioni Hadoop 1.x?
Neha:

La migrazione da Hadoop 1.0 a 2.0 richiede un codice applicativo pesante migrazione?
No, la maggior parte dell'applicazione sviluppata utilizzando le API 'org.apache.hadoop.mapred' può essere eseguita su YARN senza alcuna ricompilazione. YARN è binario compatibile con le applicazioni MRv1 e 'bin / hadoop' può essere utilizzato per inviare queste applicazioni su YARN. Per saperne di più su questo Qui .

Sherin:

Cosa succede se il nodo Resource Manager non riesce in Hadoop 2.0?
A partire da Hadoop versione 2.4.0, è disponibile anche il supporto ad alta disponibilità per Resource Manager. Il ResourceManager utilizza Apache ZooKeeper per il failover. Quando il nodo Resource Manager si guasta, un nodo secondario può ripristinarsi rapidamente tramite lo stato del cluster salvato in ZooKeeper. Il ResourceManager, in caso di failover, riavvia tutte le applicazioni in coda e in esecuzione.

Sabbirali:

Il framework Hadoop di Apache funziona su Cloudera Hadoop?
Apache Hadoop è stato introdotto nel 2005 con il motore di elaborazione principale MapReduce per supportare l'elaborazione distribuita di carichi di lavoro di dati su larga scala archiviati in HDFS. È un progetto Open Source e ha più distribuzioni (simile a Linux). Cloudera Hadoop (CDH) è una di queste distribuzioni di Cloudera. Altre distribuzioni simili sono HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights ecc.

Arulvadivel:

Qualche modo semplice per installare Hadoop sul mio laptop e provare la migrazione del database Oracle su Hadoop?
Puoi inizio con una HortonWorks Sandbox o Cloudera Quick VM sul tuo laptop (con almeno 4 GB di RAM e processore i3 o superiore). Usa SQOOP per spostare i dati da Oracle a Hadoop come spiegato Qui .

Bhabani:

Quali sono i migliori libri disponibili per imparare Hadoop?
Iniziare con Hadoop: The Definitive Guide di Tom White e Hadoop Operations di Eric Sammer.

Mahendra:

C'è qualche lettura disponibile per Hadoop 2.0 proprio come Hadoop la guida definitiva?
Rivedi il file ultimo arrivo sugli scaffali scritti da pochi dei creatori di Hadoop 2.0.

Restate sintonizzati per altre domande in questa serie.