Che cos'è la scienza dei dati? Una guida per principianti alla scienza dei dati



La data science è il futuro dell'intelligenza artificiale. Scopri cos'è la Data Science, come può aggiungere valore alla tua azienda e alle sue varie fasi del ciclo di vita.

Quando il mondo è entrato nell'era dei big data, è cresciuta anche la necessità di archiviazione. È stata la principale sfida e preoccupazione per i settori aziendali fino al 2010. L'obiettivo principale era la creazione di un framework e soluzioni per archiviare i dati. Ora, quando Hadoop e altri framework hanno risolto con successo il problema dell'archiviazione, l'attenzione si è spostata sull'elaborazione di questi dati. La Data Science è la salsa segreta qui. Tutte le idee che vedi nei film di fantascienza di Hollywood possono effettivamente trasformarsi in realtà grazie a Data Science. La data science è il futuro dell'intelligenza artificiale. Pertanto, è molto importante capire cos'è la Data Science e come può aggiungere valore alla tua attività.

Edureka 2019 Tech Career Guide è disponibile! Ruoli di lavoro più interessanti, percorsi di apprendimento precisi, prospettive del settore e altro nella guida. Scarica adesso.

In questo blog, tratterò i seguenti argomenti.





Alla fine di questo blog, sarai in grado di capire cos'è la Data Science e il suo ruolo nell'estrarre informazioni significative dai complessi e ampi set di dati che ci circondano.Per ottenere una conoscenza approfondita della Data Science, puoi iscriverti al live di Edureka con supporto 24 ore su 24, 7 giorni su 7 e accesso a vita.

Cos'è la scienza dei dati?

Data Science è una miscela di vari strumenti, algoritmi e principi di apprendimento automatico con l'obiettivo di scoprire schemi nascosti dai dati grezzi. Ma in che modo è diverso da ciò che gli statistici hanno fatto per anni?



La risposta sta nella differenza tra spiegare e prevedere.

Data Analyst v / s Data Science - Edureka

Come puoi vedere dall'immagine sopra, un Data Analystdi solito spiega cosa sta succedendo elaborando la cronologia dei dati. D'altra parte, Data Scientist non solo esegue l'analisi esplorativa per scoprire intuizioni da esso, ma utilizza anche vari algoritmi avanzati di apprendimento automatico per identificare il verificarsi di un particolare evento in futuro. Un Data Scientist esaminerà i dati da molti punti di vista, a volte angoli non conosciuti in precedenza.



Pertanto, la scienza dei dati viene utilizzata principalmente per prendere decisioni e previsioni facendo uso di analisi causali predittive, analisi prescrittiva (predittiva e scienza delle decisioni) e apprendimento automatico.

  • Analisi causale predittiva - Se si desidera un modello in grado di prevedere le possibilità di un particolare evento in futuro, è necessario applicare l'analisi causale predittiva. Supponiamo che se fornisci denaro a credito, la probabilità che i clienti effettuino pagamenti futuri con credito in tempo è motivo di preoccupazione per te. Qui puoi costruire un modello in grado di eseguire analisi predittive sulla cronologia dei pagamenti del cliente per prevedere se i pagamenti futuri saranno puntuali o meno.
  • Analisi prescrittiva: Se vuoi un modello che abbia l'intelligenza di prendere le proprie decisioni e la capacità di modificarlo con parametri dinamici, hai sicuramente bisogno di un'analisi prescrittiva. Questo campo relativamente nuovo si occupa di fornire consulenza. In altri termini, non solo predice ma suggerisce una serie di azioni prescritte e risultati associati.
    Il miglior esempio di ciò è l'auto a guida autonoma di Google di cui avevo parlato in precedenza. I dati raccolti dai veicoli possono essere utilizzati per addestrare auto a guida autonoma. Puoi eseguire algoritmi su questi dati per apportarvi intelligenza. Ciò consentirà alla tua auto di prendere decisioni come quando svoltare, quale percorso prendere,quando rallentare o accelerare.
  • Apprendimento automatico per fare previsioni - Se disponi di dati transazionali di una società finanziaria e devi costruire un modello per determinare la tendenza futura, gli algoritmi di apprendimento automatico sono la soluzione migliore. Questo rientra nel paradigma dell'apprendimento supervisionato. Si chiama supervisionato perché hai già i dati in base ai quali puoi addestrare le tue macchine. Ad esempio, un modello di rilevamento delle frodi può essere addestrato utilizzando una registrazione storica degli acquisti fraudolenti.
  • Apprendimento automatico per la scoperta di modelli - Se non disponi dei parametri in base ai quali puoi fare previsioni, devi scoprire i modelli nascosti all'interno del set di dati per poter fare previsioni significative. Questo non è altro che il modello non supervisionato poiché non hai etichette predefinite per il raggruppamento. L'algoritmo più comune utilizzato per l'individuazione dei pattern è il clustering.
    Supponiamo che tu stia lavorando in una compagnia telefonica e hai bisogno di stabilire una rete inserendo le torri in una regione. Quindi, è possibile utilizzare la tecnica di clustering per trovare quelle posizioni della torre che garantiranno che tutti gli utenti ricevano una potenza del segnale ottimale.

Vediamo come la proporzione degli approcci sopra descritti differisce per l'analisi dei dati e la scienza dei dati. Come puoi vedere nell'immagine qui sotto, Analisi dei datiinclude analisi descrittive e previsioni in una certa misura. D'altra parte, la scienza dei dati riguarda più l'analisi predittiva causale e l'apprendimento automatico.

Analisi della scienza dei dati - Edureka

Ora che sai cos'è esattamente la scienza dei dati, scopriamo ora il motivo per cui era necessario in primo luogo.

Perché la scienza dei dati?

  • Tradizionalmente, i dati che avevamo erano per lo più strutturati e di piccole dimensioni, che potevano essere analizzati utilizzando semplici strumenti di BI.A differenza dei dati insistemi tradizionali che erano per lo più strutturati, oggi la maggior parte dei dati è non strutturata o semi-strutturata. Diamo un'occhiata alle tendenze dei dati nell'immagine riportata di seguito, che mostra che entro il 2020 più dell'80% dei dati sarà non strutturato.
    Flusso di dati non strutturati - Edureka
    Questi dati vengono generati da diverse fonti come registri finanziari, file di testo, moduli multimediali, sensori e strumenti. I semplici strumenti di BI non sono in grado di elaborare questo enorme volume e la varietà di dati. Questo è il motivo per cui abbiamo bisogno di strumenti analitici e algoritmi più complessi e avanzati per elaborarli, analizzarli e trarne informazioni significative.

Questo non è l'unico motivo per cui la scienza dei dati è diventata così popolare. Approfondiamo e vediamo come viene utilizzata la scienza dei dati in vari domini.

  • Che ne dici di capire i requisiti precisi dei tuoi clienti dai dati esistenti come la cronologia di navigazione passata del cliente, la cronologia degli acquisti, l'età e il reddito. Senza dubbio avevi tutti questi dati anche prima, ma ora con la grande quantità e varietà di dati, puoi addestrare i modelli in modo più efficace e consigliare il prodotto ai tuoi clienti con maggiore precisione. Non sarebbe fantastico in quanto porterà più affari nella tua organizzazione?
  • Prendiamo uno scenario diverso per comprendere il ruolo della scienza dei dati in il processo decisionale.Che ne dici se la tua macchina avesse l'intelligenza per portarti a casa? Le auto a guida autonoma raccolgono dati in tempo reale dai sensori, inclusi radar, telecamere e laser per creare una mappa dei suoi dintorni. Sulla base di questi dati, prende decisioni come quando accelerare, quando accelerare, quando sorpassare, dove prendere una svolta, utilizzando algoritmi avanzati di apprendimento automatico.
  • Vediamo come la scienza dei dati può essere utilizzata nell'analisi predittiva. Prendiamo le previsioni del tempo come esempio. I dati di navi, aerei, radar e satelliti possono essere raccolti e analizzati per costruire modelli. Questi modelli non solo prevedono il tempo, ma aiutano anche a prevedere il verificarsi di eventuali calamità naturali. Ti aiuterà a prendere le misure appropriate in anticipo e a salvare molte vite preziose.

Diamo un'occhiata all'infografica sottostante per vedere tutti i domini in cui la scienza dei dati sta creando la sua impressione.

Casi di utilizzo della scienza dei dati - Edureka

Chi è un Data Scientist?

Ci sono diverse definizioni disponibili su Data Scientists. In parole semplici, un Data Scientist è colui che pratica l'arte della Data Science.Il termine 'Data Scientist' è statoconiato dopo aver considerato il fatto che un Data Scientist attinge molte informazioni dai campi e dalle applicazioni scientifiche, siano esse statistiche o matematiche.

Cosa fa un Data Scientist?

I data scientist sono coloro che risolvono problemi di dati complessi con la loro forte esperienza in determinate discipline scientifiche. Lavorano con diversi elementi relativi a matematica, statistica, informatica, ecc (anche se potrebbero non essere esperti in tutti questi campi).Fanno un grande uso delle ultime tecnologie per trovare soluzioni e giungere a conclusioni cruciali per la crescita e lo sviluppo di un'organizzazione. I data scientist presentano i dati in una forma molto più utile rispetto ai dati grezzi a loro disposizione da forme strutturate e non strutturate.

Per saperne di più su un Data Scientist puoi fare riferimento a questo articolo su

Andando oltre, parliamo ora di BI. Sono sicuro che potresti aver sentito parlare anche di Business Intelligence (BI). Spesso la scienza dei dati viene confusa con la BI. Ne farò alcune concise e chiarecontrasti tra i due che ti aiuteranno a ottenere una migliore comprensione. Diamo un'occhiata.

Business Intelligence (BI) vs. Data Science

  • La Business Intelligence (BI) analizza fondamentalmente i dati precedenti per trovare il senno di poi e approfondimenti per descrivere le tendenze aziendali. Qui BI ti consente di prendere dati da fonti esterne e interne, prepararli, eseguire query su di essi e creare dashboard per rispondere a domande comeanalisi trimestrale dei ricavio problemi di lavoro. BI può valutare l'impatto di determinati eventi nel prossimo futuro.
  • La Data Science è un approccio più lungimirante, un modo esplorativo incentrato sull'analisi dei dati passati o attuali e sulla previsione dei risultati futuri con l'obiettivo di prendere decisioni informate. Risponde alle domande aperte su 'cosa' e 'come' si verificano gli eventi.

Diamo un'occhiata ad alcune caratteristiche contrastanti.

Caratteristiche Business Intelligence (BI) Scienza dei dati
Origine dei datiStrutturato
(Solitamente SQL, spesso Data Warehouse)
Sia strutturato che non strutturato

(log, dati cloud, SQL, NoSQL, testo)

ApproccioStatistiche e visualizzazioneStatistica, apprendimento automatico, analisi dei grafici, programmazione neurolinguistica (PNL)
Messa a fuocoPassato e presentePresente e futuro
UtensiliPentaho, Microsoft BI,QlikView, RRapidMiner, BigML, Weka, R

Si trattava di cosa è la scienza dei dati, ora vediamo di capire il ciclo di vita della scienza dei dati.

Un errore comune commesso nei progetti di Data Science è precipitarsi nella raccolta e nell'analisi dei dati, senza comprendere i requisiti o addirittura inquadrare adeguatamente il problema aziendale. Pertanto, è molto importante che tu segua tutte le fasi durante il ciclo di vita della Data Science per garantire il corretto funzionamento del progetto.

Ciclo di vita della scienza dei dati

Ecco una breve panoramica delle fasi principali del ciclo di vita della scienza dei dati:

Ciclo di vita della scienza dei dati - Edureka


Scoperta della scienza dei dati - EdurekaFase 1: scoperta:
Prima di iniziare il progetto, è importante comprendere le varie specifiche, requisiti, priorità e budget richiesto. Devi possedere la capacità di porre le domande giuste.Qui, valuti se hai le risorse richieste presenti in termini di persone, tecnologia, tempo e dati per supportare il progetto.In questa fase, è inoltre necessario inquadrare il problema aziendale e formulare ipotesi iniziali (IH) da testare.

Preparazione dei dati di Data Science - Edureka

Fase 2: preparazione dei dati: In questa fase è necessaria una sandbox analitica in cui è possibile eseguire analisi per l'intera durata del progetto. È necessario esplorare, preelaborare e condizionare i dati prima della modellazione. Inoltre, eseguirai ETLT (estrazione, trasformazione, caricamento e trasformazione) per ottenere i dati nella sandbox. Diamo un'occhiata al flusso di analisi statistica di seguito.

Ciclo di vita della scienza dei dati
È possibile utilizzare R per la pulizia, la trasformazione e la visualizzazione dei dati. Questo ti aiuterà a individuare i valori anomali e stabilire una relazione tra le variabili.Dopo aver ripulito e preparato i dati, è il momento di fare esplorazionianalisisu di essa. Vediamo come puoi ottenerlo.

Fase 3: pianificazione del modello: Pianificazione del modello di Data Science - Edureka Qui determinerai i metodi e le tecniche per tracciare le relazioni tra le variabili.Queste relazioni costituiranno la base per gli algoritmi che implementerai nella fase successiva.Applicherai Exploratory Data Analytics (EDA) utilizzando varie formule statistiche e strumenti di visualizzazione.

Diamo un'occhiata a vari strumenti di pianificazione del modello.

Strumenti di pianificazione dei modelli in Data Science - Edureka

  1. R ha una serie completa di funzionalità di modellazione e fornisce un buon ambiente per la creazione di modelli interpretativi.
  2. Servizi di analisi SQL può eseguire analisi nel database utilizzando funzioni di data mining comuni e modelli predittivi di base.
  3. SAS / ACCESS può essere utilizzato per accedere ai dati da Hadoop e viene utilizzato per creare diagrammi di flusso del modello ripetibili e riutilizzabili.

Sebbene sul mercato siano presenti molti strumenti, ma R è lo strumento più comunemente utilizzato.

Ora che hai acquisito informazioni sulla natura dei tuoi dati e hai deciso gli algoritmi da utilizzare. Nella fase successiva, lo faraiapplicarel'algoritmo e costruire un modello.

Costruzione del modello di Data Science - EdurekaFase 4: costruzione del modello: In questa fase, svilupperai set di dati a scopo di addestramento e test. Qui yÈ necessario considerare se gli strumenti esistenti saranno sufficienti per eseguire i modelli o se sarà necessario un ambiente più robusto (come l'elaborazione veloce e parallela). Analizzerai varie tecniche di apprendimento come la classificazione, l'associazione e il raggruppamento per costruire il modello.

È possibile realizzare la creazione di modelli tramite i seguenti strumenti.

Strumenti per la creazione di modelli in Data Science

Fase 5: razionalizzazione: La scienza dei dati diventa operativa - Edureka In questa fase si consegnano report finali, briefing, codice e documenti tecnici.Inoltre, a volte un progetto pilota viene implementato anche in un ambiente di produzione in tempo reale. Ciò fornirà un quadro chiaro delle prestazioni e di altri vincoli correlati su piccola scala prima della distribuzione completa.


Comunicazione in Data Science - EdurekaFase 6: comunicazione dei risultati:
Ora è importante valutare se sei riuscito a raggiungere l'obiettivo che avevi programmato nella prima fase. Quindi, nell'ultima fase, si identificano tutti i risultati chiave, si comunicano agli stakeholder e si determinano i risultatidel progetto sono un successo o un fallimento in base ai criteri sviluppati nella Fase 1.

Ora, farò un caso di studio per spiegarti le varie fasi sopra descritte.

Case Study: prevenzione del diabete

E se potessimo prevedere l'insorgenza del diabete e prendere le misure appropriate in anticipo per prevenirlo?
In questo caso d'uso, prediremo il verificarsi del diabete sfruttando l'intero ciclo di vita di cui abbiamo discusso in precedenza. Esaminiamo i vari passaggi.

Passo 1:

  • Primo,raccoglieremo i dati sulla base della storia medicadel paziente come discusso nella Fase 1. È possibile fare riferimento ai dati di esempio di seguito.

Dati di esempio di Data Science - Edureka

istruzione c ++ goto
  • Come puoi vedere, abbiamo i vari attributi menzionati di seguito.

Attributi:

  1. npreg - Numero di volte in cui sei incinta
  2. glucosio - Concentrazione di glucosio plasmatico
  3. bp - Pressione sanguigna
  4. pelle: spessore delle pieghe cutanee dei tricipiti
  5. bmi - Indice di massa corporea
  6. ped - Funzione pedigree del diabete
  7. età - Età
  8. reddito - Reddito

Passo 2:

  • Ora, una volta che abbiamo i dati, dobbiamo pulire e preparare i dati per l'analisi dei dati.
  • Questi dati hanno molte incongruenze come valori mancanti, colonne vuote, valori improvvisi e formato dati errato che devono essere puliti.
  • Qui abbiamo organizzato i dati in un'unica tabella con attributi diversi, facendoli sembrare più strutturati.
  • Diamo un'occhiata ai dati di esempio di seguito.

Dati incoerenti di Data Science - Edureka

Questi dati hanno molte incongruenze.

  1. Nella colonna npreg , 'Uno' è scritto inparole,mentre dovrebbe essere nella forma numerica come 1.
  2. In colonna bp uno dei valori è 6600 che è impossibile (almeno per gli esseri umani) poiché bp non può arrivare a un valore così enorme.
  3. Come puoi vedere il file Reddito è vuota e inoltre non ha senso per predire il diabete. Pertanto, è ridondante averlo qui e dovrebbe essere rimosso dalla tabella.
  • Quindi, puliremo e preelaboreremo questi dati rimuovendo i valori anomali, riempiendo i valori nulli e normalizzando il tipo di dati. Se ricordi, questa è la nostra seconda fase che è la preelaborazione dei dati.
  • Infine, otteniamo i dati puliti come mostrato di seguito che possono essere utilizzati per l'analisi.

Dati coerenti di Data Science - Edureka

Passaggio 3:

Ora eseguiamo alcune analisi come discusso in precedenza nella fase 3.

  • Innanzitutto, caricheremo i dati nella sandbox analitica e applicheremo su di essa varie funzioni statistiche. Ad esempio, R ha funzioni come descrive che ci fornisce il numero di valori mancanti e valori univoci. Possiamo anche utilizzare la funzione di riepilogo che ci fornirà informazioni statistiche come media, mediana, intervallo, valori minimi e massimi.
  • Quindi, utilizziamo tecniche di visualizzazione come istogrammi, grafici a linee, grafici a riquadri per avere un'idea chiara della distribuzione dei dati.

Visualizzazione di Data Science - Edureka

Passaggio 4:

Ora, sulla base degli approfondimenti derivati ​​dal passaggio precedente, la soluzione migliore per questo tipo di problema è l'albero decisionale. Vediamo come?

  • Da allora, abbiamo già gli attributi principali per l'analisi come npreg, bmi , ecc., quindi useremotecnica di apprendimento supervisionato per costruire un filemodello qui.
  • Inoltre, abbiamo utilizzato in particolare l'albero decisionale perché prende in considerazione tutti gli attributi in una volta sola, come quelli che hanno l'estensionerelazione lineare così come quelle che hanno una relazione non lineare. Nel nostro caso, abbiamo una relazione lineare tra npreg e età, considerando che la relazione non lineare tra npreg e ped .
  • Anche i modelli di albero decisionale sono molto robusti poiché possiamo utilizzare la diversa combinazione di attributi per creare vari alberi e quindi implementare finalmente quello con la massima efficienza.

Diamo un'occhiata al nostro albero decisionale.

Set di dati dell

Qui, il parametro più importante è il livello di glucosio, quindi è il nostro nodo radice. Ora, il nodo corrente e il suo valore determinano il prossimo parametro importante da prendere. Continua fino a quando non otteniamo il risultato in termini di pos o neg . Pos significa che la tendenza ad avere il diabete è positiva e neg significa che la tendenza ad avere il diabete è negativa.

Se vuoi saperne di più sull'implementazione dell'albero decisionale, fai riferimento a questo blog

Passaggio 5:

In questa fase, eseguiremo un piccolo progetto pilota per verificare se i nostri risultati sono appropriati. Cercheremo anche eventuali vincoli di prestazione. Se i risultati non sono accurati, è necessario ripianificare e ricostruire il modello.

Passaggio 6:

Dopo aver eseguito correttamente il progetto, condivideremo l'output per la distribuzione completa.

Essere un Data Scientist è più facile a dirsi che a farsi. Quindi, vediamo di cosa hai bisogno per essere un Data Scientist.Un Data Scientist richiede fondamentalmente abilitàda tre aree principali come mostrato di seguito.

Competenze in Data Science - Edureka

Come puoi vedere nell'immagine sopra, devi acquisire varie hard skills e soft skills. Devi essere bravo statistiche e matematica analizzare e visualizzare i dati. Inutile dire che Apprendimento automatico costituisce il cuore della scienza dei dati e richiede che tu sia bravo. Inoltre, è necessario avere una solida conoscenza di dominio stai lavorando per comprendere chiaramente i problemi aziendali. Il tuo compito non finisce qui. Dovresti essere in grado di implementare vari algoritmi che richiedono buoni codifica abilità. Infine, una volta che hai preso alcune decisioni chiave, è importante che tu le consegni agli stakeholder. Così buono comunicazione aggiungerà sicuramente punti brownie alle tue abilità.

Ti esorto a vedere questo video tutorial sulla scienza dei dati che spiega cos'è la scienza dei dati e tutto ciò di cui abbiamo discusso nel blog. Vai avanti, goditi il ​​video e dimmi cosa ne pensi.

Che cos'è la scienza dei dati? Corso di Data Science - Tutorial di Data Science per principianti | Edureka

Questo video del corso Edureka Data Science ti guiderà attraverso le necessità della scienza dei dati, cos'è la scienza dei dati, casi d'uso della scienza dei dati per il business, BI vs scienza dei dati, strumenti di analisi dei dati, ciclo di vita della scienza dei dati insieme a una demo.

Alla fine, non sarà sbagliato dire che il futuro appartiene ai Data Scientist. Si prevede che entro la fine dell'anno 2018 ci sarà bisogno di circa un milione di Data Scientist. Un numero sempre maggiore di dati fornirà opportunità per guidare le decisioni aziendali chiave. Presto cambierà il modo in cui guardiamo al mondo sommerso dai dati che ci circondano. Pertanto, un Data Scientist dovrebbe essere altamente qualificato e motivato per risolvere i problemi più complessi.

Spero vi siate divertiti a leggere il mio blog e a capire cos'è la scienza dei dati.Dai un'occhiata al nostro qui, che viene fornito con formazione dal vivo con istruttore e esperienza di progetto nella vita reale.