Importanza della scienza dei dati con Cassandra



Cassandra è un database open source per gestire grandi quantità di dati su molti server, quindi la domanda di data scientist con conoscenza di Cassandra è elevata.

'

La rapida espansione dei dati digitali attraverso computer, dispositivi mobili, video, social media, sensori digitali, ecc. Combinata con importanti scoperte nella potenza di elaborazione a basso costo, applicazioni di database open source e larghezza di banda più ampia ha suscitato un enorme interesse in tutto il mondo degli affari nel campo emergente della scienza dei Big Data e analisi.





I big data in grandi volumi non strutturati sono troppo grandi per essere gestiti e analizzati con metodi tradizionali. L'enorme quantità e velocità dei dati odierni rende l'acquisizione, il filtraggio, l'archiviazione e l'analisi una vera sfida. Nuovi prodotti vengono sviluppati regolarmente per affrontare questo problema che richiede nuove competenze e competenze. C'è un crescente bisogno di individui in grado di integrare nuove infrastrutture, piattaforme e processi nell'organizzazione, nonché di coloro che possono creare nuove analisi e algoritmi in grado di creare un'enorme intelligenza di grande valore aziendale. Per ulteriori informazioni, leggi il nostro post sul blog

Rilevanza della scienza dei dati in diversi settori:

Data Science & Analytics ha applicazione in tutti i settori:



  • e-commerce - Motori di personalizzazione e raccomandazione che aumentano le vendite.
  • Pubblicità - Pubblicazione di annunci altamente mirati e in tempo reale ai consumatori.
  • Media e intrattenimento - Sviluppo di contenuti personalizzati che massimizza il coinvolgimento degli utenti.
  • Social media - Maggiore 'vischiosità' del sito, crescita degli utenti, capacità di monitorare le tendenze in rapida evoluzione in base alle opinioni dei consumatori.
  • Servizi finanziari –Pratiche di prestito ottimizzate che riducono al minimo i rischi e le frodi.
  • Farmaceutica / Bioinformatica - Migliore scoperta di farmaci, trattamenti più efficaci per malattie minacciose, miglioramenti dell'ingegneria genetica.
  • Assistenza sanitaria - Miglior punteggio dei pazienti medici per i rischi per la salute, nonché anticipazione e prevenzione precoce delle malattie.
  • Potenza / Energia - Intelligenza della rete intelligente, efficienza di utilizzo, risparmio energetico e riduzione dei tempi di inattività.
  • Informazioni di sicurezza - Rilevamento e monitoraggio dei furti notevolmente migliorati di preziose informazioni e risorse aziendali.

Competenze chiave dei professionisti della scienza dei dati:

Il dominio Data Science richiede professionisti che:

  • Comprende l'analisi dei dati e la scienza delle decisioni
  • Sono esperti in informatica
  • Avere un forte senso degli affari
  • Possedere la capacità di comunicare in modo efficace con i responsabili delle decisioni

Leggi di più: Competenze fondamentali richieste per essere un Data Scientist.

Tecnologie comuni associate alla pratica della scienza dei dati:

Tecnologie associate alla scienza dei dati



  • Banche dati

Oracle, SQL Server, Teradata

Cassandra, Hadoop, MapReduce, HBase

Aster, Greenplum, Netezza

cos'è l'evento in javascript
  • Le lingue

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Alveare, Maiale, Lucene, Mahout, Solr

  • Statistiche e previsioni

Angoss, MATLAB, R, SAS, SPSS

ARCH, GARCH, SVAR, VAR, VEC, GAUSS

  • Visualizzazione dati

QlikView, Spotfire, Tableau, yWorks, R

java trasforma double in int
  • BI e reporting

BusinessObjects, Cognos, MicroStrategy

Cos'è Cassandra?

  • Apache Cassandra è un sistema di gestione di database distribuito open source progettato per gestire grandi quantità di dati su molti server commodity.
  • Cassandra fornisce un'elevata disponibilità senza un singolo punto di errore.
  • Cassandra offre un solido supporto per i cluster che si estendono su più data center, con replica asincrona senza master che consente operazioni a bassa latenza per tutti i client.

Per ulteriori informazioni, leggi il nostro post sul blog su .

In che modo Data Science utilizza Cassandra?

Cassandra è & timido & timido un database distribuito per servizi a bassa latenza e throughput elevato che gestiscono carichi di lavoro in tempo reale che comprendono centinaia di aggiornamenti al secondo e decine di migliaia di letture al secondo.

Cassandra Caso d'uso - PRO:

PROS è una società di software per Big Data con analisi prescrittive nel proprio software che facilita i propri clienti ad analizzare i propri dati e ottenere informazioni e indicazioni per ottimizzare i prezzi, le vendite e la gestione dei ricavi.

Hanno un servizio in tempo reale che calcola la disponibilità della compagnia aerea, prendendo in considerazione dinamicamente i dati di controllo delle entrate e i livelli di inventario che possono cambiare molte centinaia di volte al secondo.

Questo servizio viene interrogato diverse migliaia di volte al secondo, il che si traduce in decine di migliaia di ricerche di dati. Il loro livello di archiviazione back-end per questo servizio è Cassandra.

Per la loro soluzione in tempo reale, PROS ha realizzato la necessità di:

  • Una cache distribuita ad alta disponibilità.
  • Facilmente scalabile.
  • Con un'architettura senza padrone.
  • Con replica dei dati quasi in tempo reale anche tra data center.
  • In grado di gestire letture e scritture in tempo reale.

PROS ha valutato Cassandra rispetto a Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort e Redis. Apache Cassandra era abbastanza facilmente in cima alla lista.

PRO e Cassandra

  • PROS utilizza Cassandra come database distribuito per servizi a bassa latenza e throughput elevato che gestiscono carichi di lavoro in tempo reale comprendenti centinaia di aggiornamenti al secondo e decine di migliaia di letture al secondo.
  • Ad esempio, hanno un servizio in tempo reale che calcola la disponibilità della compagnia aerea in modo dinamico prendendo in considerazione i dati di controllo delle entrate e i livelli di inventario che possono cambiare molte centinaia di volte al secondo. Questo servizio viene interrogato diverse migliaia di volte al secondo, il che si traduce in decine di migliaia di ricerche di dati. Il loro livello di archiviazione back-end per questo servizio è Cassandra. Alcune delle loro offerte SaaS utilizzano Cassandra come archivio back-end per gestire una combinazione di carichi di lavoro batch basati su Hadoop e in tempo reale.
  • Parlando di Hadoop e Cassandra, estraggono i dati da Cassandra e li inseriscono in Hadoop ed eseguono batch e analisi su quello, e poi torna in Cassandra. Ciò è possibile grazie all'integrazione Hadoop di Cassandra.
  • I lavori Hadoop estraggono i dati da Cassandra, applicano trasformazioni o analisi specifiche del lavoro e reinseriscono i dati in Cassandra. Non stanno usando l'edizione Enterprise di Datastax (ufficiale Cassandra Maintainer) per questa integrazione, ma solo l'installazione open source di Hadoop con Cassandra.

Modellazione dei dati con Cassandra:

Quando si cerca di sostituire un archivio chiave-valore con qualcosa di più capace sulla replica in tempo reale e sulla distribuzione dei dati, la ricerca su Dynamo, il teorema della CAP e l'eventuale modello di coerenza mostrano che Cassandra si adatta abbastanza bene a questo modello. Man mano che si impara di più sulle capacità di modellazione dei dati, si passa gradualmente alla decomposizione dei dati.

Se si proviene da un background di database relazionale con una forte semantica ACID, è necessario dedicare del tempo alla comprensione del modello di coerenza finale.

Comprendi molto bene l'architettura di Cassandra e cosa fa sotto il cofano. Con Cassandra 2.0 si ottengono transazioni e trigger leggeri, ma non sono gli stessi delle transazioni di database tradizionali con cui si potrebbe avere familiarità. Ad esempio, non sono disponibili vincoli di chiave esterna: deve essere gestito dalla propria applicazione. Comprendere chiaramente i propri casi d'uso e i modelli di accesso ai dati prima di modellare i dati con Cassandra e leggere tutta la documentazione disponibile è un must.

Conclusione:

Apache Cassandra si sta evolvendo rapidamente e stiamo imparando e comprendendo le sue capacità, soprattutto sul lato della modellazione dei dati. Lo vediamo come un database NoSQL distribuito di scelta per i nostri servizi e soluzioni Big Data.

Edureka fornisce un completo per coloro che desiderano diventare un data scientist. Il corso copre una gamma di tecniche Hadoop, R e di Machine Learning che comprendono lo studio completo di Data Science. Edureka fornisce anche che ti aiuta a padroneggiare i database NoSQL. Questo corso è progettato per fornire conoscenze e abilità per diventare un esperto di Cassandra di successo.