Tutorial sui panda di Python: impara i panda per l'analisi dei dati



In questo tutorial di Python Pandas imparerai le varie operazioni di Pandas. Include anche un caso d'uso, in cui è possibile analizzare i dati utilizzando Pandas.

In questo blog, discuteremo dell'analisi dei dati utilizzando Pandas in Python.Oggi, è una competenza importante nel settore che ha superato PHP nel 2017 e C # nel 2018 in termini di popolarità e utilizzo complessivi.Prima di parlare di Panda, è necessario comprendere il concetto di array Numpy. Perché? Perché Pandas è una libreria software open source che è costruita sopra . In questo tutorial di Python Pandas, ti guiderò attraverso i seguenti argomenti, che serviranno come fondamenti per i prossimi blog:

Iniziamo. :-)





Cos'è Python Pandas?

Pandas viene utilizzato per la manipolazione dei dati, l'analisi e la pulizia. I panda Python sono adatti per diversi tipi di dati, come ad esempio:

  • Dati tabulari con colonne tipizzate in modo eterogeneo
  • Dati di serie temporali ordinati e non ordinati
  • Dati di matrice arbitraria con etichette di riga e colonna
  • Dati senza etichetta
  • Qualsiasi altra forma di set di dati osservativi o statistici

Come installare Panda?

Per installare Python Pandas, vai alla riga di comando / terminale e digita 'pip install pandas' oppure, se hai anaconda installato nel tuo sistema, digita 'conda install pandas'. Una volta completata l'installazione, vai al tuo IDE (Jupyter, PyCharm ecc.) E importalo semplicemente digitando: 'import pandas as pd'



Andando avanti nel tutorial sui panda di Python, diamo un'occhiata ad alcune delle sue operazioni:

le funzioni che differiscono solo per il tipo restituito non possono essere sovraccaricate

Python Pandas Operations

Usando i panda Python, puoi eseguire molte operazioni con serie, frame di dati, dati mancanti, raggruppamento per ecc. Alcune delle operazioni comuni per la manipolazione dei dati sono elencate di seguito:



PandasOperations - Tutorial Python Pandas - Edureka

Ora, cerchiamo di capire tutte queste operazioni una per una.

Affettare il data frame

Per eseguire il taglio dei dati, è necessario un frame di dati. Non preoccuparti, il data frame è una struttura dati bidimensionale e un oggetto panda più comune. Quindi, per prima cosa, creiamo un data frame.

Fare riferimento al codice seguente per la sua implementazione in PyCharm:

importa i panda come pd XYZ_web = {'Day': [1,2,3,4,5,6], 'Visitors': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) print (df)

Produzione :

Bounce_Rate Visitatori giornalieri 0 20 1 1000 1 20 2700 2 23 3 6000 3 15 4 1000 4 10 5400 5 34 6350

Il codice sopra convertirà un dizionario in un Data Frame panda insieme all'indice a sinistra. Ora, tagliamo una particolare colonna da questo data frame. Fare riferimento all'immagine qui sotto:

stampa (df.head (2))

Produzione:

Bounce_Rate Visitatori giornalieri 0 20 1 1000 1 20 2700

Allo stesso modo, se desideri le ultime due righe di dati, digita il comando seguente:

stampa (df.tail (2))

Produzione:

Bounce_Rate Visitatori giornalieri 4 10 5400 5 34 6 350

Successivamente nel tutorial di Python Pandas, eseguiamo l'unione e l'unione.

Fusione e unione

Durante la fusione, puoi unire due frame di dati per formare un unico frame di dati. Puoi anche decidere quali colonne vuoi rendere comuni. Consentitemi di implementarlo praticamente, prima creerò tre frame di dati, che hanno alcune coppie chiave-valore e quindi unirò i frame di dati insieme. Fare riferimento al codice seguente:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Produzione:

importa i panda come pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, index = [2005, 2006,2007,2008]) unito = pd.merge (df1, df2) print (unito)

Come puoi vedere sopra, i due frame di dati sono stati uniti in un unico frame di dati. Ora puoi anche specificare la colonna che vuoi rendere comune. Ad esempio, voglio che la colonna 'HPI' sia comune e per tutto il resto voglio colonne separate. Quindi, permettimi di implementarlo praticamente:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) unito = pd.merge (df1, df2, on = 'HPI') print (unito)

Produzione:

IND_GDP Int_Rate Low_Tier_HPI Disoccupazione 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Quindi, facci capire unendo nel tutorial di panda python. È ancora un altro metodo conveniente per combinare due frame di dati indicizzati in modo diverso in un unico dataframe di risultato. Questo è abbastanza simile all'operazione di 'unione', tranne per il fatto che l'operazione di unione sarà sull ''indice' invece che sulle 'colonne'. Cerchiamo di implementarlo praticamente.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Unemployment': [1,3,5,6]}, index = [2001, 2003,2004,2004]) si è unito a = df1. join (df2) print (unito)

Produzione:

IND_GDP Int_Rate Low_Tier_HPI Disoccupazione 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Come si può notare nell'output di cui sopra, nell'anno 2002 (indice), non vi è alcun valore allegato alle colonne 'low_tier_HPI' e 'disoccupazione', quindi è stato stampato NaN (Not a Number). Successivamente nel 2004, entrambi i valori sono disponibili, quindi ha stampato i rispettivi valori.

Puoi seguire questa registrazione del tutorial di Python Pandas in cui il nostro istruttore ha spiegato gli argomenti in modo dettagliato con esempi che ti aiuteranno a capire meglio questo concetto.

Python per l'analisi dei dati | Tutorial sui panda di Python | Formazione Python | Edureka


Andando avanti nel tutorial sui panda di Python, vediamo come concatenare due frame di dati di dati.

Concatenazione

La concatenazione fondamentalmente unisce i dataframe. È possibile selezionare la dimensione su cui si desidera concatenare. Per questo, usa semplicemente 'pd.concat' e passa l'elenco dei dataframe da concatenare insieme. Considera l'esempio seguente.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (concat)

Produzione:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Come puoi vedere sopra, i due dataframe sono incollati insieme in un unico dataframe, dove l'indice inizia dal 2001 fino al 2008. Successivamente, puoi anche specificare axis = 1 per unire, unire o cancellare lungo le colonne. Fare riferimento al codice seguente:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], axis = 1) print (concat)

Produzione:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80,0 50,0 2,0 NaN NaN NaN 2002 90,0 45,0 1,0 NaN NaN NaN 2003 70,0 45,0 2,0 NaN NaN NaN 2004 60,0 67,0 3,0 NaN NaN NaN 2005 NaN NaN NaN 80,0 50,0 2,0 NaN 2006 NaN NaN 90,0 45,0 1,0 2007 NaN NaN NaN 70,0 45,0 2,0 2008 NaN NaN NaN 60,0 67,0 3,0

Come puoi sopra, ci sono un sacco di valori mancanti. Ciò accade perché i dataframe non avevano valori per tutti gli indici su cui desideri concatenare. Pertanto, dovresti assicurarti di avere tutte le informazioni allineate correttamente quando ti unisci o ti concateni sull'asse.

Cambia l'indice

Successivamente, nel tutorial di python panda, capiremo come modificare i valori dell'indice in un dataframe. Ad esempio, creiamo un dataframe con alcune coppie di valori chiave in un dizionario e modifichiamo i valori dell'indice. Considera l'esempio seguente:

Vediamo come effettivamente accade:

importa i panda come pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('Day', inplace = True) print (df)

Produzione:

Bounce_Rate Visitors Day 1 20200 2 45100 3 60230 4 10300

Come puoi notare nell'output sopra, il valore dell'indice è stato modificato rispetto alla colonna 'Giorno'.

Modifica le intestazioni delle colonne

Cambiamo ora le intestazioni della colonna in questo tutorial sui panda python. Prendiamo lo stesso esempio, in cui cambierò l'intestazione della colonna da 'Visitatori' a 'Utenti'. Quindi, fammelo implementare praticamente.

importa i panda come pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (colonne = {'Visitors': 'Users'}) print (df)

Produzione:

Bounce_Rate Utenti giornalieri 0 20 1200 1 45 2100 2 60 3230 3 10 4300

Come vedi sopra, l'intestazione della colonna 'Visitatori' è stata modificata in 'Utenti'. Successivamente, nel tutorial di python panda, eseguiamo il munging dei dati.

Munging dei dati

In Data munging, puoi convertire un dato dato in un formato diverso. Ad esempio, se hai un file .csv, puoi convertirlo anche in .html o in qualsiasi altro formato di dati. Quindi, fammi implementare questo praticamente.

importa i panda come pd country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-disloymentAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Una volta eseguito questo codice, verrà creato un file HTML denominato 'edu.html'. Puoi copiare direttamente il percorso del file e incollarlo nel tuo browser che visualizza i dati in formato HTML. Fare riferimento allo screenshot qui sotto:

come aprire aws cli


Successivamente, nel tutorial di Python panda, diamo un'occhiata a un caso d'uso che parla della disoccupazione giovanile globale.

Tutorial Python Pandas: caso d'uso per analizzare i dati sulla disoccupazione giovanile

Dichiarazione problema :Ti viene fornito un set di dati che comprende la percentuale di giovani disoccupati a livello globale dal 2010 al 2014. È necessario utilizzare questo set di dati e trovare la variazione della percentuale di giovani per ogni paese dal 2010 al 2011.

Innanzitutto, comprendiamo il set di dati che contiene le colonne come Nome paese, Codice paese e anno dal 2010 al 2014. Ora utilizzando i panda, useremo 'pd.read_csv' per leggere il file in formato .csv.
Fare riferimento allo screenshot qui sotto:

Andiamo avanti ed eseguiamo un'analisi dei dati in cui scopriremo la variazione percentuale nei giovani disoccupati tra il 2010 e il 2011. Quindi visualizzeremo lo stesso utilizzando library, che è una potente libreria per la visualizzazione in Python. Può essere utilizzato in script Python, shell, server di applicazioni Web e altri toolkit GUI. Puoi usare leggi di più qui:

Ora, implementiamo il codice in PyCharm:

importa panda come pd importa matplotlib.pyplot come plt da matplotlib import style style.use ('fivethirtyeight') country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-disloymentAPI_ILO_country_YU.csv', index_col = 0). head (5) df = df.set_index (['Country Code']) sd = sd.reindex (colonne = ['2010', '2011']) db = sd.diff (axis = 1) db.plot (kind = 'bar') plt.show ()

Come puoi vedere sopra, ho eseguito l'analisi sulle prime 5 righe del dataframe del paese. Successivamente, ho definito un valore di indice come 'Country Code' e quindi reindicizza la colonna al 2010 e al 2011. Quindi, abbiamo un altro dataframe db, che stampa la differenza tra le due colonne o la variazione percentuale dei giovani disoccupati dal 2010 al 2011. Infine, ho tracciato un grafico a barre utilizzando la libreria Matplotlib in Python.


Ora, se avete notato nella trama sopra, in Afghanistan (AFG) tra il 2010 e il 2011, c'è stato un aumento di giovani disoccupati di ca. 0,25%. Poi in Angola (AGO) c'è un trend negativo che significa che la percentuale di giovani disoccupati si è ridotta. Allo stesso modo, è possibile eseguire analisi su diversi set di dati.

Spero che il mio blog su 'Python Pandas Tutorial' sia stato rilevante per te. Per ottenere una conoscenza approfondita di python e delle sue varie applicazioni, puoi iscriverti a live di Edureka con supporto 24 ore su 24, 7 giorni su 7 e accesso a vita.

Hai domande per noi? Per favore, menzionalo nella sezione commenti di questo blog 'Python Pandas tutorial' e ti risponderemo il prima possibile.