TUTORIAL SUI BIG DATA

Big Data, non hai mai sentito questo termine prima? Sono sicuro che l'hai fatto. Negli ultimi 4-5 anni, tutti parlano di Big Data. Ma sai davvero che cosa sono esattamente questi Big Data, come stanno avendo un impatto sulle nostre vite e perché le organizzazioni cercano professionisti con ? In questo tutorial sui Big Data, ti fornirò una panoramica completa sui Big Data.

Di seguito sono riportati gli argomenti che tratterò in questo tutorial sui Big Data:

Storia dei Big Data
Fattori trainanti dei Big Data
Cosa sono i Big Data?
Caratteristiche dei Big Data
Tipi di Big Data
Esempi di Big Data
Applicazioni dei Big Data
Sfide con i Big Data

Tutorial sui Big Data - Edureka

Vorrei iniziare questo tutorial sui Big Data con una breve storia.

Storia dei Big Data

Nei tempi antichi, le persone viaggiavano da un villaggio all'altro su un carro trainato da cavalli, ma con il passare del tempo i villaggi divennero città e la gente si sparse. Anche la distanza da percorrere da una città all'altra è aumentata. Quindi, è diventato un problema viaggiare tra le città, insieme ai bagagli. Di punto in bianco, ha suggerito un ragazzo intelligente, dovremmo strigliare e nutrire di più un cavallo, per risolvere questo problema. Quando guardo questa soluzione, non è poi così male, ma pensi che un cavallo possa diventare un elefante? Non credo proprio. Un altro ragazzo intelligente ha detto, invece di 1 cavallo che tira il carro, lasciaci avere 4 cavalli per tirare lo stesso carro. Cosa ne pensate di questa soluzione? Penso che sia una soluzione fantastica. Ora le persone possono percorrere grandi distanze in meno tempo e persino trasportare più bagagli.

come convertire un double in un int in java

Lo stesso concetto si applica ai Big Data. Big Data dice che fino ad oggi eravamo a posto con l'archiviazione dei dati nei nostri server perché il volume dei dati era piuttosto limitato e anche la quantità di tempo per elaborare questi dati andava bene. Ma ora, nell'attuale mondo tecnologico, i dati stanno crescendo troppo velocemente e le persone fanno affidamento sui dati molte volte. Anche la velocità con cui i dati stanno crescendo, sta diventando impossibile memorizzare i dati in qualsiasi server.

Attraverso questo blog sul tutorial sui Big Data, esploriamo le fonti dei Big Data, che i sistemi tradizionali non riescono a memorizzare ed elaborare.

Fattori trainanti dei Big Data

La quantità di dati sul pianeta Terra sta crescendo in modo esponenziale per molte ragioni. Varie fonti e le nostre attività quotidiane generano molti dati. Con l'invenzione del web, il mondo intero è online, ogni singola cosa che facciamo lascia una traccia digitale. Con gli oggetti intelligenti online, il tasso di crescita dei dati è aumentato rapidamente. Le principali fonti di Big Data sono siti di social media, reti di sensori, immagini / video digitali, telefoni cellulari, registrazioni delle transazioni di acquisto, registri web, cartelle cliniche, archivi, sorveglianza militare, e-commerce, ricerca scientifica complessa e così via. Tutte queste informazioni ammontano a circa un quintilione di byte di dati. Entro il 2020, i volumi di dati saranno di circa 40 Zettabyte, il che equivale ad aggiungere ogni singolo granello di sabbia del pianeta moltiplicato per settantacinque.

Cosa sono i Big Data?

Big Data è un termine utilizzato per una raccolta di set di dati di grandi dimensioni e complessi, che è difficile da archiviare ed elaborare utilizzando gli strumenti di gestione del database disponibili o le applicazioni di elaborazione dati tradizionali. La sfida include l'acquisizione, la cura, l'archiviazione, la ricerca, la condivisione, il trasferimento, l'analisi e la visualizzazione di questi dati.

Caratteristiche dei Big Data

Le cinque caratteristiche che definiscono i Big Data sono: Volume, Velocity, Variety, Veracity e Value.

VOLUME
Il volume si riferisce alla 'quantità di dati', che cresce di giorno in giorno a un ritmo molto rapido. La dimensione dei dati generati da esseri umani, macchine e le loro interazioni sui social media stessi è enorme. I ricercatori hanno previsto che entro il 2020 verranno generati 40 zettabyte (40.000 exabyte), un aumento di 300 volte rispetto al 2005.
VELOCITÀ
La velocità è definita come il ritmo con cui diverse fonti generano i dati ogni giorno. Questo flusso di dati è enorme e continuo. Al momento ci sono 1,03 miliardi di utenti attivi giornalieri (Facebook DAU) su dispositivi mobili, con un aumento del 22% su base annua. Questo mostra quanto velocemente il numero di utenti sta crescendo sui social media e quanto velocemente i dati vengono generati ogni giorno. Se sei in grado di gestire la velocità, sarai in grado di generare intuizioni e prendere decisioni basate su dati in tempo reale.
VARIETÀ
Poiché esistono molte fonti che contribuiscono ai Big Data, il tipo di dati che generano è diverso. Può essere strutturato, semistrutturato o destrutturato. Quindi, c'è una varietà di dati che vengono generati ogni giorno. In precedenza, ottenevamo i dati da Excel e dai database, ora i dati arrivano sotto forma di immagini, audio, video, dati del sensore ecc. Come mostrato nell'immagine sottostante. Quindi, questa varietà di dati non strutturati crea problemi nell'acquisizione, archiviazione, estrazione e analisi dei dati.
VERITÀ
La veridicità si riferisce ai dati in dubbio o all'incertezza dei dati disponibili a causa di incoerenza e incompletezza dei dati. Nell'immagine sotto, puoi vedere che mancano pochi valori nella tabella. Inoltre, alcuni valori sono difficili da accettare, ad esempio: 15000 valore minimo nella terza riga, non è possibile. Questa incoerenza e incompletezza è Veracity.
I dati disponibili a volte possono diventare disordinati e forse difficile da fidarsi. Con molte forme di big data, la qualità e l'accuratezza sono difficili da controllare come i post di Twitter con hashtag, abbreviazioni, errori di battitura e linguaggio colloquiale. Il volume è spesso la ragione alla base della mancanza di qualità e accuratezza nei dati.
- A causa dell'incertezza dei dati, 1 leader aziendale su 3 non si fida delle informazioni che utilizza per prendere decisioni.
- In un sondaggio è emerso che il 27% degli intervistati non era sicuro di quanto i propri dati fossero inesatti.
- La scarsa qualità dei dati costa all'economia statunitense circa 3,1 trilioni di dollari all'anno.
VALORE
Dopo aver discusso di volume, velocità, varietà e veridicità, c'è un'altra V che dovrebbe essere presa in considerazione quando si guardano i Big Data, ovvero il valore. È tutto positivo avere accesso a grandidatimaa meno che non possiamo trasformarlo in valore è inutile. Trasformandola in valore intendo, si aggiunge ai vantaggi delle organizzazioni che stanno analizzando i big data? L'organizzazione lavora sui Big Data raggiungendo un ROI (Return On Investment) elevato? A meno che non aumenti i loro profitti lavorando sui Big Data, non è inutile.

Guarda il nostro video sui Big Data di seguito per saperne di più sui Big Data:

Tutorial sui Big Data per principianti | Cosa sono i big data | Edureka

Come discusso in Variety, ci sono diversi tipi di dati che vengono generati ogni giorno. Quindi, vediamo ora i tipi di dati:

Tipi di Big Data

I Big Data potrebbero essere di tre tipi:

Strutturato
Semi-strutturato
Non strutturato

Strutturato
I dati che possono essere archiviati ed elaborati in un formato fisso sono chiamati dati strutturati. I dati memorizzati in un sistema di gestione di database relazionali (RDBMS) sono un esempio di dati 'strutturati'. È facile elaborare i dati strutturati in quanto ha uno schema fisso. Lo Structured Query Language (SQL) viene spesso utilizzato per gestire questo tipo di dati.
Semi-strutturato
I dati semi-strutturati sono un tipo di dati che non hanno una struttura formale di un modello di dati, ovvero una definizione di tabella in un DBMS relazionale, ma tuttavia ha alcune proprietà organizzative come tag e altri marcatori per separare elementi semantici che lo rendono più facile analizzare. I file XML o i documenti JSON sono esempi di dati semi-strutturati.
Non strutturato
I dati che hanno una forma sconosciuta e non possono essere memorizzati in RDBMS e non possono essere analizzati a meno che non vengano trasformati in un formato strutturato sono chiamati dati non strutturati. File di testo e contenuti multimediali come immagini, audio, video sono esempi di dati non strutturati. I dati non strutturati stanno crescendo più rapidamente di altri, gli esperti dicono che l'80% dei dati in un'organizzazione non sono strutturati.

Finora ho appena parlato dell'introduzione dei Big Data. Inoltre, questo tutorial sui Big Data parla di esempi, applicazioni e sfide nei Big Data.

Esempi di Big Data

Ogni giorno cariciamo milioni di byte di dati. Il 90% dei dati mondiali è stato creato negli ultimi due anni.

Walmart gestisce più di 1 milione transazioni dei clienti ogni ora.
Facebook archivia, accede e analizza Oltre 30 petabyte dei dati generati dagli utenti.
230+ milioni di tweet vengono creati ogni giorno.
Più di 5 miliardi le persone chiamano, scrivono messaggi, twittano e navigano sui telefoni cellulari in tutto il mondo.
Gli utenti di YouTube caricano 48 ore di nuovo video ogni minuto della giornata.
Amazon gestisce 15 milioni flusso di clic del cliente dati utente al giorno per consigliare prodotti.
294 miliardi le email vengono inviate ogni giorno. I servizi analizzano questi dati per trovare gli spam.
Le auto moderne hanno vicino 100 sensori che monitora il livello del carburante, la pressione dei pneumatici ecc., Ogni veicolo genera molti dati del sensore.

Applicazioni dei Big Data

Non possiamo parlare di dati senza parlare delle persone, persone che traggono vantaggio dalle applicazioni Big Data. Quasi tutti i settori oggi sfruttano le applicazioni Big Data in un modo o nell'altro.

Assistenza sanitaria più intelligente : Utilizzando i petabyte di dati del paziente, l'organizzazione può estrarre informazioni significative e quindi creare applicazioni in grado di prevedere in anticipo il deterioramento delle condizioni del paziente.

Telecom : I settori delle telecomunicazioni raccolgono informazioni, le analizzano e forniscono soluzioni a diversi problemi. Utilizzando applicazioni Big Data, le società di telecomunicazioni sono state in grado di ridurre in modo significativo la perdita di pacchetti di dati, che si verifica quando le reti sono sovraccariche e, quindi, fornendo una connessione continua ai propri clienti.

Al dettaglio : La vendita al dettaglio ha alcuni dei margini più stretti ed è uno dei maggiori beneficiari dei big data. Il bello dell'utilizzo dei big data nella vendita al dettaglio è comprendere il comportamento dei consumatori. Il motore di raccomandazione di Amazon fornisce suggerimenti basati sulla cronologia di navigazione del consumatore.

Controllo del traffico : La congestione del traffico è una sfida importante per molte città a livello globale. L'uso efficace dei dati e dei sensori sarà fondamentale per gestire meglio il traffico man mano che le città diventeranno sempre più densamente popolate.

Produzione : L'analisi dei big data nell'industria manifatturiera può ridurre i difetti dei componenti, migliorare la qualità del prodotto, aumentare l'efficienza e risparmiare tempo e denaro.

Qualità della ricerca : Ogni volta che estraiamo informazioni da Google, generiamo simultaneamente dati per esso. Google memorizza questi dati e li utilizza per migliorare la qualità della ricerca.

Qualcuno ha giustamente detto: 'Non tutto il giardino è Rosy!' . Fino ad ora in questo tutorial sui Big Data, ti ho appena mostrato il quadro roseo dei Big Data. Ma se fosse così facile sfruttare i Big Data, non credi che tutte le organizzazioni ci investirebbero? Lascia che te lo dica in anticipo, non è così. Ci sono diverse sfide che si presentano quando si lavora con i Big Data.

Ora che hai familiarità con i Big Data e le sue varie funzionalità, la prossima sezione di questo blog sul Tutorial sui Big Data farà luce su alcune delle principali sfide affrontate dai Big Data.

Sfide con i Big Data

Lascia che ti dica alcune sfide che accompagnano i Big Data:

Qualità dei dati - Il problema qui è il 4^thV cioè Veracity. I dati qui sono molto confusi, incoerenti e incompleti. I dati sporchi costano $ 600 miliardi alle aziende ogni anno negli Stati Uniti.

Scoperta - Trovare informazioni sui Big Data è come trovare un ago in un pagliaio. L'analisi di petabyte di dati utilizzando algoritmi estremamente potenti per trovare modelli e intuizioni è molto difficile.

Conservazione - Più dati ha un'organizzazione, più complessi possono diventare i problemi di gestione. La domanda che sorge qui è 'Dove conservarlo?'. Abbiamo bisogno di un sistema di archiviazione che possa facilmente aumentare o diminuire su richiesta.

Analytics - Nel caso dei Big Data, la maggior parte delle volte non siamo a conoscenza del tipo di dati con cui abbiamo a che fare, quindi analizzarli è ancora più difficile.

Sicurezza - Poiché i dati sono di dimensioni enormi, mantenerli al sicuro è un'altra sfida. Include l'autenticazione dell'utente, la limitazione dell'accesso in base a un utente, la registrazione delle cronologie di accesso ai dati, l'uso corretto della crittografia dei dati, ecc.

Mancanza di talento - Esistono molti progetti Big Data nelle principali organizzazioni, ma un team sofisticato di sviluppatori, data scientist e analisti che hanno anche una quantità sufficiente di conoscenza del dominio è ancora una sfida.

Hadoop to the Rescue

Abbiamo un salvatore per affrontare le sfide dei Big Data: è Hadoop . Hadoop è un framework di programmazione open source basato su Java che supporta l'archiviazione e l'elaborazione di set di dati estremamente grandi in un ambiente di elaborazione distribuito. Fa parte del progetto Apache sponsorizzato dalla Apache Software Foundation.

passare per valore vs passare per riferimento java

Hadoop con la sua elaborazione distribuita, gestisce grandi volumi di dati strutturati e non strutturati in modo più efficiente rispetto al tradizionale data warehouse aziendale. Hadoop consente di eseguire applicazioni su sistemi con migliaia di nodi hardware comuni e di gestire migliaia di terabyte di dati. Le organizzazioni stanno adottando Hadoop perché è un software open source e può essere eseguito su hardware comune (il tuo personal computer).I risparmi sui costi iniziali sono notevoli poiché l'hardware di base è molto economico. Man mano che i dati organizzativi aumentano, è necessario aggiungere sempre più hardware di base per archiviarlo e, quindi, Hadoop si dimostra economico.Inoltre, Hadoop ha una solida comunità Apache alle spalle che continua a contribuire al suo progresso.

Come promesso in precedenza, attraverso questo blog su Big Data Tutorial, ti ho fornito le massime informazioni sui Big Data. Questa è la fine del tutorial sui Big Data. Ora, il prossimo passo avanti è conoscere e imparare Hadoop. Noi abbiamo un serie di tutorial Hadoop blog che forniranno una conoscenza dettagliata dell'intero ecosistema Hadoop.

Tutto il meglio, Happy Hadooping!

Ora che hai capito cosa sono i Big Data, dai un'occhiata a da Edureka, una società di formazione online affidabile con una rete di oltre 250.000 studenti soddisfatti sparsi in tutto il mondo. Il corso di formazione per la certificazione Edureka Big Data Hadoop aiuta gli studenti a diventare esperti in HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume e Sqoop utilizzando casi d'uso in tempo reale nel settore Retail, Social Media, Aviation, Tourism, Finance.

Hai domande per noi? Per favore menzionalo nella sezione commenti e ti risponderemo.

Post correlati:

Tutorial sui Big Data: tutto quello che c'è da sapere sui Big Data!

Questo blog sul tutorial sui Big Data offre una panoramica completa dei Big Data, le sue caratteristiche, le applicazioni e le sfide con i Big Data.

Tutorial sui Big Data

Storia dei Big Data

Fattori trainanti dei Big Data

Cosa sono i Big Data?

Caratteristiche dei Big Data

VOLUME

VELOCITÀ

VARIETÀ

VERITÀ

VALORE

Tutorial sui Big Data per principianti | Cosa sono i big data | Edureka

Tipi di Big Data

Strutturato

Semi-strutturato

Non strutturato

Esempi di Big Data

Applicazioni dei Big Data

Sfide con i Big Data

Hadoop to the Rescue

Categorie

Popular Articles

Cos'è Vector in Java e come lo usiamo?

Come implementare l'astrazione dei dati in C ++

Theano vs TensorFlow: un rapido confronto dei framework

Differenza tra hacking e hacking etico

È così che condividi il tuo lavoro su un repository remoto git

Scikit learn - Machine Learning utilizzando Python

Esercitazione su Apache Flume: streaming di dati su Twitter

Esercitazione su ServiceNow: introduzione a ServiceNow

Come implementare QuickSort in Java?

Importanza dell'hacking etico: perché è necessario l'hacking etico?

Panoramica dell'architettura di archiviazione HBase

Opportunità di carriera nel campo della scienza dei dati: la tua guida per sbloccare i posti di lavoro dei migliori data scientist