MongoDB con Hadoop e le relative tecnologie Big Data



MongoDB con Hadoop e le relative Big Data Technologies è una potente combinazione per fornire una soluzione per una situazione complessa nell'analisi.

I database relazionali per lungo tempo sono stati sufficienti per gestire set di dati piccoli o medi. Ma l'enorme velocità di crescita dei dati rende irrealizzabile l'approccio tradizionale all'archiviazione e al recupero dei dati. Questo problema viene risolto dalle nuove tecnologie in grado di gestire i Big Data. Hadoop, Hive e Hbase sono le piattaforme popolari per gestire questo tipo di grandi set di dati. I database NoSQL o Not Only SQL come MongoDB forniscono un meccanismo per archiviare e recuperare i dati in un modello di coerenza perdente con vantaggi come:

è post-laurea un master
  • Ridimensionamento orizzontale
  • Maggiore disponibilità
  • Accesso più veloce

Il team di ingegneri di MongoDB ha recentemente aggiornato il connettore MongoDB per Hadoop per avere una migliore integrazione. Ciò rende più facile per gli utenti Hadoop:





  • Integra i dati in tempo reale da MongoDB con Hadoop per analisi approfondite offline.
  • Il connettore espone la potenza analitica di MapReduce di Hadoop ai dati delle applicazioni in tempo reale da MongoDB, generando valore dai big data in modo più veloce ed efficiente.
  • Il connettore presenta MongoDB come un file system compatibile con Hadoop che consente a un lavoro MapReduce di leggere direttamente da MongoDB senza prima copiarlo su HDFS (Hadoop file System), eliminando così la necessità di spostare Terabyte di dati attraverso la rete.
  • I lavori MapReduce possono passare query come filtri, evitando così la necessità di scansionare intere raccolte, e possono anche sfruttare le ricche funzionalità di indicizzazione di MongoDB, inclusi gli indici geospaziali, di ricerca di testo, array, composti e sparsi.
  • Leggendo da MongoDB, i risultati dei lavori Hadoop possono anche essere riscritti su MongoDB, per supportare processi operativi in ​​tempo reale e query ad hoc.

Casi d'uso di Hadoop e MongoDB:

Diamo un'occhiata a una descrizione di alto livello di come MongoDB e Hadoop possono adattarsi insieme in un tipico stack di Big Data. Principalmente abbiamo:

  • MongoDB utilizzato come Archivio dati in tempo reale 'operativo'
  • Hadoop per elaborazione e analisi dei dati batch offline

Continua a leggere per sapere perché e come MongoDB è stato utilizzato da aziende e organizzazioni come Aadhar, Shutterfly, Metlife ed eBay .



Applicazione di MongoDB con Hadoop in Batch Aggregation:

Nella maggior parte degli scenari la funzionalità di aggregazione integrata fornita da MongoDB è sufficiente per analizzare i dati. Tuttavia, in alcuni casi, potrebbe essere necessaria un'aggregazione dei dati molto più complessa. È qui che Hadoop può fornire un potente framework per analisi complesse.

In questo scenario:

  • I dati vengono estratti da MongoDB ed elaborati in Hadoop tramite uno o più processi MapReduce. I dati possono anche essere prelevati da altre posizioni all'interno di questi lavori MapReduce per sviluppare una soluzione di origine multi-dati.
  • L'output di questi processi MapReduce può quindi essere riscritto in MongoDB per eseguire query in una fase successiva e per qualsiasi analisi su base ad hoc.
  • Le applicazioni basate su MongoDB possono quindi utilizzare le informazioni dell'analisi batch per presentarle al client finale o per abilitare altre funzionalità a valle.

Hadoop Mongo DB Aggregation



Applicazione nel data warehousing:

In una tipica configurazione di produzione, i dati dell'applicazione possono risiedere su più archivi dati, ciascuno con il proprio linguaggio di query e funzionalità. Per ridurre la complessità in questi scenari, Hadoop può essere utilizzato come un data warehouse e agire come un repository centralizzato per i dati dalle varie origini.

cos'è un browser sqlite

In questo tipo di scenario:

  • I processi MapReduce periodici caricano i dati da MongoDB in Hadoop.
  • Una volta che i dati di MongoDB e di altre fonti sono disponibili in Hadoop, è possibile eseguire query sul set di dati più grande.
  • Gli analisti di dati ora hanno la possibilità di utilizzare MapReduce o Pig per creare lavori che interrogano i set di dati più grandi che incorporano i dati di MongoDB.

Il team che lavora dietro MongoDB ha assicurato che con la sua ricca integrazione con le tecnologie Big Data come Hadoop, è in grado di integrarsi bene nello Stack di Big Data e aiuta a risolvere alcuni problemi architettonici complessi quando si tratta di archiviazione, recupero, elaborazione, aggregazione e immagazzinamento dei dati . Restate sintonizzati per il nostro prossimo post sulle prospettive di carriera per coloro che intraprendono Hadoop con MongoDB. Se stai già lavorando con Hadoop o stai semplicemente scegliendo MongoDB, dai un'occhiata ai corsi che offriamo per MongoDB