Applicazione di Hadoop con Data Science



Con Hadoop che funge sia da piattaforma dati scalabile che da motore di calcolo, la scienza dei dati sta riemergendo come elemento centrale dell'innovazione aziendale. Hadoop è ora un vantaggio per i data scientist.

Apache Hadoop sta rapidamente diventando la tecnologia preferita dalle organizzazioni che investono in big data, potenziando la loro architettura di dati di prossima generazione. Con Hadoop che funge sia da piattaforma dati scalabile che da motore di calcolo, la scienza dei dati sta riemergendo come fulcro dell'innovazione aziendale, con soluzioni di dati applicate come la raccomandazione di prodotti online, il rilevamento automatizzato delle frodi e l'analisi del sentiment dei clienti.

In questo articolo viene fornita una panoramica della scienza dei dati e come sfruttare Hadoop per progetti di scienza dei dati su larga scala.





In che modo Hadoop è utile per i data scientist?

Hadoop è un vantaggio per i data scientist. Diamo un'occhiata a come Hadoop aiuta ad aumentare la produttività dei data scientist. Hadoop ha una capacità unica in cui tutti i dati possono essere archiviati e recuperati da un unico posto. In questo modo è possibile ottenere quanto segue:

  • Possibilità di memorizzare tutti i dati in formato RAW
  • Data Silo Convergence
  • I data scientist troveranno usi innovativi delle risorse di dati combinate.

Hadoop-with-ds11



ordina array in c ++

La chiave del potere di Hadoop:

  • Riduzione di tempi e costi - Hadoop aiuta a ridurre drasticamente i tempi e i costi di creazione di prodotti di dati su larga scala.
  • Il calcolo si trova insieme ai dati - Il sistema di dati e calcolo è codificato per funzionare insieme.
  • Conveniente su larga scala - Può utilizzare nodi hardware 'commodity', è autoriparante, eccellente per l'elaborazione in batch di grandi set di dati.
  • Progettato per una scrittura e più letture - Non ci sono scritture casuali e lo èOttimizzato per la ricerca minima sui dischi rigidi

Perché Hadoop con Data Science?

Motivo n. 1: Esplora set di dati di grandi dimensioni

La prima ragione è che si può Esplora set di dati di grandi dimensioni direttamente con Hadoop di integrazione di Hadoop nel Flusso di analisi dei dati .

Ciò si ottiene utilizzando semplici statistiche come:



  • Significare
  • Mediano
  • Quantile
  • Pre-elaborazione: grep, regex

Si può anche utilizzare campionamento / filtraggio ad hoc per ottenere Casuale: con o senza sostituzione, campione per chiave univoca e convalida incrociata K-fold.

Motivo n. 2: capacità di estrarre set di dati di grandi dimensioni

Gli algoritmi di apprendimento con set di dati di grandi dimensioni hanno le proprie sfide. Le sfide sono:

come usare i file in java
  • I dati non entrano nella memoria.
  • L'apprendimento richiede molto più tempo.

Quando si utilizza Hadoop, è possibile eseguire funzioni come distribuire i dati tra i nodi nel cluster Hadoop e implementare un algoritmo distribuito / parallelo. Per le raccomandazioni, si può utilizzare l'algoritmo dei minimi quadrati alternativi e per il clustering si possono utilizzare le medie K.

Motivo n. 3: preparazione dei dati su larga scala

Sappiamo tutti che l'80% del lavoro di data science implica la 'preparazione dei dati'. Hadoop è ideale per la preparazione in batch e la pulizia di set di dati di grandi dimensioni.

Motivo n. 4: accelerare l'innovazione basata sui dati:

Le architetture di dati tradizionali hanno ostacoli alla velocità. Usi di RDBMS schema su Write e quindi il cambiamento è costoso. È anche un alta barriera per l'innovazione basata sui dati.

Hadoop utilizza 'Schema in lettura' che significa tempo più veloce per l'innovazione e quindi aggiunge a barriera bassa sull'innovazione guidata dai dati.

Pertanto, per riassumere i quattro motivi principali per cui abbiamo bisogno di Hadoop con Data Science sarebbe:

vantaggi di jquery rispetto a javascript
  1. Miniera di grandi set di dati
  2. Esplorazione dei dati con set di dati completi
  3. Pre-elaborazione su larga scala
  4. Cicli basati sui dati più veloci

Vediamo quindi che le organizzazioni possono sfruttare Hadoop a proprio vantaggio per l'estrazione di dati e la raccolta di risultati utili da essi.

Hai domande per noi?? Per favore menzionali nella sezione commenti e ti risponderemo.

Post correlati:

Importanza della scienza dei dati con Cassandra