Statistiche per l'apprendimento automatico: una guida per principianti



Questo articolo su Statistics for Machine Learning è una guida completa sui vari concetti di statistiche del sistema operativo con esempi.

Comprendere i dati ed essere in grado di creare valore da essi è l'abilità del decennio. L'apprendimento automatico è una di queste competenze fondamentali che aiuta le aziende a soddisfarla. Tuttavia, per iniziare, devi costruire bene le tue basi. Quindi, in questo articolo, tratterò alcuni concetti di base e ti fornirò le linee guida per iniziare il tuo viaggio nel Machine Learning. Quindi, in questo articolo sulle statistiche per l'apprendimento automatico, verranno discussi i seguenti argomenti:

  1. Probabilità
  2. Statistiche
  3. Algebra lineare

Probabilità e statistiche per l'apprendimento automatico:





Cos'è la probabilità?

La probabilità quantifica la probabilità che si verifichi un evento. Ad esempio, se ottieni un dado equo e imparziale, la probabilità di uno alzare è 1/6 . Ora, se ti stai chiedendo wperché? Allora la risposta è abbastanza semplice!

terminare un programma in java

Questo perché ci sono sei possibilità e tutte sono ugualmente probabili (giusto morire). Quindi possiamo aggiungere 1 + 1 + 1 + 1 + 1 + 1 = 6. Ma, poiché siamo interessati a evento in cui compare 1 . C'è solo un modo in cui l'evento può verificarsi. Perciò,



Probabilità di 1 presentarsi = 1/6

Simile è il caso di tutti gli altri numeri poiché tutti gli eventi sono ugualmente probabili. Semplice, vero?

Bene, una definizione frequentista di probabilità per questo esempio suonerebbe come: la probabilità di 1 che si presenta è il rapporto tra il numero di volte 1 alzato e il numero totale di volte che il dado è stato lanciato se il dado è stato lanciato un numero infinito volte.Come può aver senso questo?



Rendiamolo più interessante. Considera i due casi: hai tirato un dado equo 5 volte. In un caso la sequenza di numeri che appaiono è - [1,4,2,6,4,3]. Nell'altro caso, otteniamo - [2,2,2,2,2,2]. Quale pensi sia più probabile?

Entrambi sono ugualmente probabili. Sembra strano vero?

Ora, considera un altro caso in cui si trovano tutti i 5 rotoli in ciascun caso indipendente . Significa che un tiro non influisce sull'altro. Nel primo caso, quando compare 6, non aveva idea che 2 si presentasse prima. Quindi, tutti e 5 i tiri sono ugualmente probabili.

Allo stesso modo, i 2 retti nel secondo caso possono essere intesi come una sequenza di eventi indipendenti. E tutti questi eventi sono ugualmente probabili. Nel complesso, poiché abbiamo gli stessi dadi, la probabilità che un particolare numero si presenti nel caso uno è la stessa del caso due. Successivamente, in questo articolo sulle statistiche per l'apprendimento automatico, cerchiamo di capire il termine Indipendenza.

Indipendenza

Due eventi A e B si dice che siano indipendenti se il verificarsi di A non influenza l'evento B. . Ad esempio, se lanci una moneta e tira un dado, il risultato del dado non ha effetto sul fatto che la moneta mostri testa o croce. Inoltre, per due eventi indipendenti A e B , il probabilità che A e B possano verificarsi insieme . Quindi, ad esempio, se vuoi la probabilità che la moneta mostri testa e il dado mostri 3.

P (A e B) = P (A) * P (B)

Quindi P = & frac12 (probabilità che salti di testa) * ⅙ (probabilità di 3 tiri su) = 1/12

Nell'esempio precedente, per entrambi i casi, P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

Ora parliamo di eventi che non sono indipendenti. Considera la seguente tabella:

Obeso Non obeso
Problemi di cuoreQuattro cinquequindici
Nessun problema di cuore1030

È stato effettuato un sondaggio su 100 persone. 60 avevano problemi cardiaci e 40 no. Dei 60 con problemi cardiaci, 45 erano obesi. Dei 40 che non avevano problemi cardiaci, 10 erano obesi. Se qualcuno ti chiede -

  1. Qual è la probabilità di avere un problema cardiaco?
  2. Qual è la probabilità di avere un problema cardiaco e non essere obeso?

La risposta alle prime domande è facile: 60/100. Per il secondo, sarebbe 15/100. Ora considera la terza domanda: una persona è stata scelta a caso. È stato scoperto che aveva una malattia cardiaca. Qual è la probabilità che sia obeso?

Ora pensa alle informazioni che ti vengono fornite: è noto che ha una malattia cardiaca. Quindi non può essere dei 40 che non hanno malattie cardiache. Ci sono solo 60 opzioni possibili (la riga in alto nella tabella). Ora, tra queste possibilità ridotte, la probabilità che sia obeso è 45/60. Ora che hai saputo cosa sono gli eventi indipendenti, nel prossimo articolo sulle statistiche per l'apprendimento automatico, comprendiamo le probabilità condizionali.

Probabilità condizionali

Per comprendere le probabilità condizionali, continuiamo la nostra discussione con l'esempio precedente. Lo stato di obesità e lo stato di sofferenza cardiaca non sono indipendenti. Se l'obesità non ha influenzato i problemi cardiaci, il numero di casi di obesità e non obesi per le persone con problemi cardiaci sarebbe stato lo stesso.

Inoltre, ci è stato dato che la persona ha problemi di cuore e abbiamo dovuto scoprire la probabilità che fosse obesa. Quindi, la probabilità, in questo caso, si dice che sia condizionata dal fatto che ha un problema cardiaco. Se la probabilità che l'evento A si verifichi è condizionata dall'evento B, lo rappresentiamo come

P (A | B)

Ora, c'è un teorema che ci aiuta a calcolare questa probabilità condizionata. Si chiama Regola di Bayes .

è sas un linguaggio di programmazione

P (A | B) = P (A e B) / P (B)

Puoi verificare questo teorema collegando l'esempio che abbiamo appena discusso. Se hai capito finora, puoi iniziare con quanto segue - Naive Bayes . Utilizza le probabilità condizionali per classificare se un'e-mail è uno spam o meno. Può eseguire molte altre attività di classificazione. Ma essenzialmente, la probabilità condizionale è al centro di .

Statistiche:

Le statistiche sono utilizzato per riepilogare e fare inferenze su un gran numero di punti dati. In Data Science e Machine Learning, ti imbatterai spesso nella seguente terminologia

  • Misure di centralità
  • Distribuzioni (soprattutto normali)

Misure di centralità e misure di spread

Significare:

La media è solo un file media dei numeri . Per scoprire la media, devi sommare i numeri e dividerlo per il numero di numeri. Ad esempio, la media di [1,2,3,4,5] è 15/5 = 3.

mean-statistics-for-machine-learning

Mediano:

La mediana è il elemento centrale di un insieme di numeri quando sono disposti in ordine crescente. Ad esempio, i numeri [1,2,4,3,5] sono disposti in ordine crescente [1,2,3,4,5]. Quello centrale di questi è 3. Quindi la mediana è 3. Ma cosa succede se il numero di numeri è pari e quindi non ha un numero centrale? In tal caso, prendi la media dei due numeri più medi. Per una sequenza di 2n numeri in ordine crescente, media l'ennesimo e (n + 1)thnumero per ottenere la mediana. Esempio: [1,2,3,4,5,6] ha la mediana (3 + 4) / 2 = 3,5

Modalità:

La modalità è semplicemente il file numero più frequente in una serie di numeri . Ad esempio, la modalità di [1,2,3,3,4,5,5,5] è 5.

Varianza:

La varianza non è una misura di centralità. Esso misura come i tuoi dati vengono distribuiti nella media . È quantificato come

Xè la media di N numeri. Prendi un punto, sottrai la media, prendi il quadrato di questa differenza. Fallo per tutti gli N numeri e calcola la media. La radice quadrata della varianza è chiamata deviazione standard. Successivamente, in questo articolo sulle statistiche per l'apprendimento automatico, comprendiamo la distribuzione normale.

Distribuzione normale

La distribuzione ci aiuta capire come vengono diffusi i nostri dati . Ad esempio, in un campione di età, potremmo avere più giovani rispetto agli anziani e quindi valori di età più piccoli rispetto a valori maggiori. Ma come si definisce una distribuzione? Considera l'esempio di seguito

L'asse y rappresenta la densità. La modalità di questa distribuzione è 30 poiché è il picco e quindi più frequente. Possiamo anche individuare la mediana. La mediana si trova nel punto dell'asse x in cui è coperta metà dell'area sotto la curva. L'area sotto qualsiasi distribuzione normale è 1 perché la somma delle probabilità di tutti gli eventi è 1. Ad esempio,

La mediana nel caso precedente è intorno a 4. Ciò significa che l'area sotto la curva prima di 4 è la stessa di quella dopo 4. Considera un altro esempio

Vediamo tre distribuzioni normali. Quelli blu e rossi hanno la stessa media. Quello rosso ha una maggiore varianza. Quindi, è più disteso di quello blu. Ma poiché l'area deve essere 1, il picco della curva rossa è più corto della curva blu, per mantenere l'area costante.

Spero che tu abbia capito le statistiche di base e le distribuzioni normali. Ora, nel prossimo articolo sulle statistiche per l'apprendimento automatico, impariamo a conoscere l'algebra lineare.

Algebra lineare

L'IA moderna non sarebbe possibile senza l'algebra lineare. Costituisce il nucleo di Apprendimento approfondito ed è stato utilizzato anche in semplici algoritmi come . Senza ulteriori indugi, iniziamo.

Devi avere familiarità con i vettori. Sono una sorta di rappresentazioni geometriche nello spazio. Ad esempio, un vettore [3,4] ha 3 unità lungo l'asse x e 4 unità lungo l'asse y. Considera la seguente immagine:

Il vettore d1 ha 0,707 unità lungo l'asse xe 0,707 unità lungo l'asse y. Un vettore ha 1 dimensione. Ha necessariamente una grandezza e una direzione. Per esempio,

qual è un vincolo di chiave primaria

L'immagine sopra ha un vettore (4,3). La sua magnitudine è 5 e fa 36,9 gradi con l'asse x.

Cos'è una matrice? Matrix è una matrice multidimensionale di numeri. A cosa serve? Vedremo avanti. Ma prima, vediamo come viene utilizzato.

Matrice

Una matrice può avere molte dimensioni. Consideriamo una matrice bidimensionale. Ha righe (m) e colonne (n). Quindi ha m * n elementi.

Per esempio,

Questa matrice ha 5 righe e 5 colonne. Chiamiamolo A. Quindi A (2,3) è la voce nella seconda riga e terza colonna che è 8.

Ora che sai cos'è una matrice, esaminiamo le diverse operazioni di matrice.

Operazioni con matrici

Aggiunta di matrici

Due matrici di stesso le dimensioni possono essere aggiunte. L'aggiunta avviene in base agli elementi.

Moltiplicazione scalare

Una matrice può essere moltiplicata per una quantità scalare. Una tale moltiplicazione fa sì che ogni voce nella matrice venga moltiplicata per lo scalare. Uno scalare è solo un numero

Matrix Transpose

La trasposizione della matrice è semplice. Per una matrice A (m, n), sia A ’la sua trasposizione. Poi

A '(i, j) = A (j, i)

Per esempio,

Moltiplicazione di matrici

Questo è probabilmente un po 'complicato rispetto ad altre operazioni. Prima di approfondirlo, definiamo il prodotto scalare tra due vettori.

Considera il vettore X = [1,4,6,0] e il vettore Y = [2,3,4,5]. Quindi il prodotto scalare tra X e Y è definito come

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

Quindi, è una moltiplicazione e un'addizione basata sugli elementi. Adesso,consideriamo due matrici A (m, n) e B (n, k), dove m, n, k sono dimensioni e quindi numeri interi. Definiamo moltiplicazione di matrici come

Nell'esempio sopra, il primo elemento del prodotto (44) è ottenuto dal prodotto scalare della prima riga della matrice sinistra con la prima colonna della matrice destra. Allo stesso modo, 72 è ottenuto dal prodotto scalare della prima riga della matrice sinistra con la seconda colonna della matrice destra.

Nota che per la matrice sinistra, il numero di colonne dovrebbe essere uguale al numero di righe nella colonna di destra. Nel nostro caso, il prodotto AB esiste ma non BA poiché m non è uguale a k. Per due matrici A (m, n) e B (n, k), il prodotto AB è definito e la dimensione del prodotto è (m, k) (le dimensioni più esterne di (m, n), (n, k )). Ma BA non è definito a meno che m = k.

Con questo, terminiamo questo articolo su Statistics for Machine Learning. Spero che qualcuno abbia compreso parte del gergo del machine learning. Ma non finisce qui. Per assicurarti di essere pronto per il settore, puoi dare un'occhiata ai corsi di Edureka su Data Science e AI. Possono essere trovati