SQL per la scienza dei dati: una soluzione completa per principianti



Questo post del blog su SQL per Data Science ti aiuterà a capire come utilizzare SQL per archiviare, accedere e recuperare i dati per eseguire l'analisi dei dati.

Dal momento che Data Science è stata classificata al numero 1 per essere il lavoro più promettente dell'epoca, stiamo tutti cercando di unirci alla gara di . Questo post del blog su SQL per Data Science ti aiuterà a capire come utilizzare SQL per archiviare, accedere e recuperare i dati per eseguire l'analisi dei dati.

Ecco un elenco di argomenti che saranno trattato in questo blog:





    1. Perché SQL è necessario per la scienza dei dati?
    2. Cos'è SQL?
    3. Nozioni di base di SQL
    4. Installazione di MySQL
    5. Mani su

Perché SQL è necessario per la scienza dei dati?

Sapevi che generiamo più di 2,5 quintilioni di byte di dati ogni giorno? Questo ritmo di generazione dei dati è la ragione alla base della popolarità di tecnologie di fascia alta come Scienza dei dati , , e così via.

L'acquisizione di informazioni utili dai dati è ciò che viene definito Data Science. La scienza dei dati implica l'estrazione, l'elaborazione e l'analisi di tonnellate di dati. Al momento ciò di cui abbiamo bisogno sono che può essere utilizzato per archiviare e gestire questa grande quantità di dati.



Che cos

Qui è dove SQL entra in gioco.

SQL può essere utilizzato per archiviare, accedere ed estrarre enormi quantità di dati al fine di eseguire l'intero processo di Data Science in modo più fluido.



Cos'è SQL?

SQL che sta per Structured Query Language è un linguaggio di interrogazione finalizzato alla gestione di database relazionali.

Ma cos'è esattamente un database relazionale?

Un database relazionale è un gruppo di tabelle ben definite da cui è possibile accedere, modificare, aggiornare e così via i dati, senza dover alterare le tabelle del database. SQL è lo standard (API) per i database relazionali.

Tornando a SQL, la programmazione SQL può essere utilizzata per eseguire più azioni sui dati come query, inserimento, aggiornamento, cancellazione di record di database. Esempi di database relazionali che utilizzano SQL includono MySQL Database, Oracle, ecc.

Per saperne di più su SQL, puoi passare attraverso il seguenti blog:

  1. Comprensione dei tipi di dati SQL: tutto ciò che devi sapere sui tipi di dati SQL
  2. CREA TABELLA in SQL - Tutto ciò che devi sapere sulla creazione di tabelle in SQL

Prima di iniziare con una demo su SQL, acquisiamo familiarità con i comandi SQL di base.

Nozioni di base di SQL

SQL fornisce una serie di semplici comandi per modificare le tabelle di dati, esaminiamo alcuni dei comandi SQL di base:

  • CREA DATABASE - crea un nuovo database
  • CREA TABELLA - crea una nuova tabella
  • INSERIRE - inserisce nuovi dati in un database
  • SELEZIONARE - estrae i dati da un database
  • AGGIORNARE - aggiorna i dati in un database
  • ELIMINA - elimina i dati da un database
  • ALTER DATABASE - modifica un database
  • TABELLA ALTER - modifica una tabella
  • TAVOLO A CADUTA - elimina una tabella
  • CREA INDICE - crea un indice per cercare un elemento
  • INDICE DI CADUTA - cancella un indice

Per comprendere meglio SQL, installiamo MySQL e vediamo come puoi giocare con i dati.

Installazione di MySQL

L'installazione di MySQL è un'operazione semplice. Ecco un guida passo passo che ti aiuterà a installare MySQL sul tuo sistema.

Al termine dell'installazione MySQL, segui la sezione sottostante per una semplice demo che ti mostrerà come inserire, manipolare e modificare i dati.

SQL per la scienza dei dati - Demo MySQL

In questa dimostrazione vedremo come creare database ed elaborarli. Questa è una dimostrazione per principianti per iniziare con l'analisi dei dati su SQL.

Quindi iniziamo!

Passaggio 1: creare un database SQL

Un database SQL è un magazzino di archiviazione in cui i dati possono essere archiviati in un formato strutturato. Ora creiamo un database utilizzando MySQL :

CREA DATABASE edureka USA edureka

Nel codice sopra, ci sono due comandi SQL:

Nota : I comandi SQL sono definiti in lettere maiuscole e un punto e virgola viene utilizzato per terminare un comando SQL.

  1. CREATE DATABASE: questo comando crea un database chiamato 'edureka'

  2. UTILIZZO: questo comando viene utilizzato per attivare il database. Qui stiamo attivando il database 'edureka'.

Passaggio 2: creare una tabella con le funzionalità dei dati richieste

Creare una tabella è semplice come creare un database. Devi solo definire le variabili o le caratteristiche della tabella con i rispettivi tipi di dati. Vediamo come si può fare:

CREATE TABLE toys (TID INTEGER NOT NULL PRIMARY KEY AUTO_INCREMENT, Item_name TEXT, Price INTEGER, Quantity INTEGER)

Nello snippet di codice sopra si verificano le seguenti cose:

  1. Utilizza il comando 'CREA TABELLA' per creare un tavolo chiamato giocattoli.
  2. La tabella dei giocattoli contiene 4 caratteristiche, ovvero TID (ID transazione), Item_name, Price e Quantity.
  3. Ogni variabile è definita con i rispettivi tipi di dati.
  4. La variabile TID viene dichiarata come chiave primaria. Una chiave primaria denota fondamentalmente una variabile che può memorizzare un valore univoco.

È possibile controllare ulteriormente i dettagli della tabella definita utilizzando il seguente comando:

DESCRIVERE i giocattoli

Passaggio 3: inserimento dei dati nella tabella

Ora che abbiamo creato una tabella, riempiamola con alcuni valori. In precedenza in questo blog, ho accennato a come è possibile aggiungere dati in una tabella utilizzando un solo comando, ovvero INSERT INTO.

Vediamo come si fa:

INSERT INTO toys VALUES (NULL, 'Train', 550, 88) INSERT INTO toys VALUES (NULL, 'Hotwheels_car', 350, 80) INSERT INTO toys VALUES (NULL, 'Magic_Pencil', 70, 100) INSERT INTO toys VALUES ( NULL, 'Dog_house', 120, 54) INSERT INTO toys VALUES (NULL, 'Skateboard', 700, 42) INSERT INTO toys VALUES (NULL, 'GI Joe', 300, 120)

Nello snippet di codice sopra, abbiamo semplicemente inserito 6 osservazioni nella nostra tabella 'giocattoli' utilizzando il comando INSERT INTO. Per ogni osservazione, tra parentesi, ho specificato il valore di ogni variabile o caratteristica definita durante la creazione della tabella.

La variabile TID è impostata su NULL poiché aumenta automaticamente da 1.

Ora mostriamo tutti i dati presenti nella nostra tabella. Questo può essere fatto usando il comando seguente:

trasforma la stringa in un array php
SELEZIONA * DA giocattoli


Passaggio 4: modificare le voci di dati

Supponiamo che tu abbia deciso di aumentare il prezzo del G.I. Joe dato che ti sta ottenendo molti clienti. Come aggiornereste il prezzo della variabile in un database?

È semplice, usa il comando seguente:

UPDATE toys SET Prezzo = 350 WHERE TID = 6

Il comando UPDATE consente di modificare qualsiasi valore / variabile memorizzato nella tabella. Il parametro SET consente di selezionare una caratteristica particolare e il parametro WHERE viene utilizzato per identificare la variabile / valore che si desidera modificare. Nel comando precedente, ho aggiornato il prezzo della voce di dati il ​​cui TID è 6 (G.I. Joe).

Ora vediamo la tabella aggiornata:

SELEZIONA * DA giocattoli

È inoltre possibile modificare ciò che si desidera visualizzare facendo semplicemente riferimento alle colonne che si desidera visualizzare. Ad esempio, il comando seguente mostrerà solo il nome del giocattolo e il rispettivo prezzo:

SELEZIONA Item_name, Price FROM toys

Passaggio 5: recupero dei dati

Quindi, dopo aver inserito i dati e averli modificati, è finalmente il momento di estrarre e recuperare i dati in base ai requisiti aziendali. Qui è dove i dati possono essere recuperati per ulteriori analisi dei dati e modellazione dei dati.

Si noti che è un semplice esempio per iniziare con SQL, tuttavia, negli scenari del mondo reale i dati sono molto più complicati e di grandi dimensioni. Nonostante ciò, i comandi SQL rimangono gli stessi e questo è ciò che rende SQL così semplice e comprensibile. Può elaborare set di dati complessi con un set di semplici comandi SQL.

Ora recuperiamo i dati con un paio di modifiche. Fare riferimento al codice seguente e cercare di capire cosa fa senza guardare l'output:

SELEZIONA * DA giocattoli LIMIT 2

Hai indovinato! Mostra le prime due osservazioni presenti nella mia tabella.

Proviamo qualcosa di più interessante.

SELEZIONA * DA GIOCATTOLI ORDINA PER Prezzo ASC

Come mostrato in figura, i valori sono disposti rispetto all'ordine crescente della variabile prezzo. Se vuoi cercare i tre articoli acquistati più di frequente, cosa faresti?

È abbastanza semplice davvero!

SELEZIONA * DA giocattoli ORDINA PER Quantità LIMITE DI DISCESA 3

Proviamone un altro.

SELEZIONA * DA GIOCATTOLI DOVE Prezzo> 400 ORDINA PER Prezzo ASC


Questa query estrae i dettagli dei giocattoli il cui prezzo è superiore a 400 e dispone l'output in ordine crescente di prezzo.

Ecco come puoi elaborare i dati utilizzando SQL. Ora che conosci le basi di SQL per Data Science, sono sicuro che sei curioso di saperne di più. Ecco un paio di blog per iniziare:

  1. Che cos'è la scienza dei dati? Una guida per principianti alla scienza dei dati
  2. Tutorial MySQL - Una guida per principianti per imparare MySQL

Se desideri iscriverti a un corso completo su Intelligenza Artificiale e Machine Learning, Edureka ha un che ti renderà esperto in tecniche come l'apprendimento supervisionato, l'apprendimento non supervisionato e l'elaborazione del linguaggio naturale. Include la formazione sugli ultimi progressi e approcci tecnici in Intelligenza Artificiale e Machine Learning come Deep Learning, Modelli grafici e Reinforcement Learning.