I database relazionali per lungo tempo sono stati sufficienti per gestire set di dati piccoli o medi. Ma l'enorme velocità di crescita dei dati rende irrealizzabile l'approccio tradizionale all'archiviazione e al recupero dei dati. Questo problema viene risolto dalle nuove tecnologie in grado di gestire i Big Data. Hadoop, Hive e Hbase sono le piattaforme popolari per gestire questo tipo di grandi set di dati. I database NoSQL o Not Only SQL come MongoDB forniscono un meccanismo per archiviare e recuperare i dati in un modello di coerenza perdente con vantaggi come:
è post-laurea un master
- Ridimensionamento orizzontale
- Maggiore disponibilità
- Accesso più veloce
Il team di ingegneri di MongoDB ha recentemente aggiornato il connettore MongoDB per Hadoop per avere una migliore integrazione. Ciò rende più facile per gli utenti Hadoop:
- Integra i dati in tempo reale da MongoDB con Hadoop per analisi approfondite offline.
- Il connettore espone la potenza analitica di MapReduce di Hadoop ai dati delle applicazioni in tempo reale da MongoDB, generando valore dai big data in modo più veloce ed efficiente.
- Il connettore presenta MongoDB come un file system compatibile con Hadoop che consente a un lavoro MapReduce di leggere direttamente da MongoDB senza prima copiarlo su HDFS (Hadoop file System), eliminando così la necessità di spostare Terabyte di dati attraverso la rete.
- I lavori MapReduce possono passare query come filtri, evitando così la necessità di scansionare intere raccolte, e possono anche sfruttare le ricche funzionalità di indicizzazione di MongoDB, inclusi gli indici geospaziali, di ricerca di testo, array, composti e sparsi.
- Leggendo da MongoDB, i risultati dei lavori Hadoop possono anche essere riscritti su MongoDB, per supportare processi operativi in tempo reale e query ad hoc.
Casi d'uso di Hadoop e MongoDB:
Diamo un'occhiata a una descrizione di alto livello di come MongoDB e Hadoop possono adattarsi insieme in un tipico stack di Big Data. Principalmente abbiamo:
- MongoDB utilizzato come Archivio dati in tempo reale 'operativo'
- Hadoop per elaborazione e analisi dei dati batch offline
Continua a leggere per sapere perché e come MongoDB è stato utilizzato da aziende e organizzazioni come Aadhar, Shutterfly, Metlife ed eBay .
Applicazione di MongoDB con Hadoop in Batch Aggregation:
Nella maggior parte degli scenari la funzionalità di aggregazione integrata fornita da MongoDB è sufficiente per analizzare i dati. Tuttavia, in alcuni casi, potrebbe essere necessaria un'aggregazione dei dati molto più complessa. È qui che Hadoop può fornire un potente framework per analisi complesse.
In questo scenario:
- I dati vengono estratti da MongoDB ed elaborati in Hadoop tramite uno o più processi MapReduce. I dati possono anche essere prelevati da altre posizioni all'interno di questi lavori MapReduce per sviluppare una soluzione di origine multi-dati.
- L'output di questi processi MapReduce può quindi essere riscritto in MongoDB per eseguire query in una fase successiva e per qualsiasi analisi su base ad hoc.
- Le applicazioni basate su MongoDB possono quindi utilizzare le informazioni dell'analisi batch per presentarle al client finale o per abilitare altre funzionalità a valle.
Applicazione nel data warehousing:
In una tipica configurazione di produzione, i dati dell'applicazione possono risiedere su più archivi dati, ciascuno con il proprio linguaggio di query e funzionalità. Per ridurre la complessità in questi scenari, Hadoop può essere utilizzato come un data warehouse e agire come un repository centralizzato per i dati dalle varie origini.
cos'è un browser sqlite
In questo tipo di scenario:
- I processi MapReduce periodici caricano i dati da MongoDB in Hadoop.
- Una volta che i dati di MongoDB e di altre fonti sono disponibili in Hadoop, è possibile eseguire query sul set di dati più grande.
- Gli analisti di dati ora hanno la possibilità di utilizzare MapReduce o Pig per creare lavori che interrogano i set di dati più grandi che incorporano i dati di MongoDB.
Il team che lavora dietro MongoDB ha assicurato che con la sua ricca integrazione con le tecnologie Big Data come Hadoop, è in grado di integrarsi bene nello Stack di Big Data e aiuta a risolvere alcuni problemi architettonici complessi quando si tratta di archiviazione, recupero, elaborazione, aggregazione e immagazzinamento dei dati . Restate sintonizzati per il nostro prossimo post sulle prospettive di carriera per coloro che intraprendono Hadoop con MongoDB. Se stai già lavorando con Hadoop o stai semplicemente scegliendo MongoDB, dai un'occhiata ai corsi che offriamo per MongoDB