Che cos'è la varianza bias nell'apprendimento automatico?



Questo articolo copre il concetto di bias e varianza nell'apprendimento automatico con una relazione tra loro che determina l'accuratezza predittiva del modello.

Nel , le prestazioni di un modello si basano sulle sue previsioni e sulla sua capacità di generalizzare verso dati invisibili e indipendenti. Un modo per misurare la precisione di un modello è tenere conto del bias e della varianza nel modello. In questo articolo impareremo come il bias-varianza gioca un ruolo importante nel determinare l'autenticità del modello. In questo articolo vengono discussi i seguenti argomenti:

Errore irriducibile

Qualsiasi modello in viene valutato in base all'errore di previsione su un nuovo set di dati indipendente e invisibile. L'errore non è altro che la differenza tra l'output effettivo e l'output previsto. Per calcolare l'errore, facciamo la somma dell'errore riducibile e irriducibile, nota anche come decomposizione bias-varianza.





L'errore irreversibile non è altro che quegli errori che non possono essere ridotti indipendentemente da nessuno che usi nel modello. È causato da variabili insolite che hanno un'influenza diretta sulla variabile di output. Quindi, al fine di rendere efficiente il tuo modello, ci resta l'errore riducibile che dobbiamo ottimizzare a tutti i costi.

come creare parametri in tableau

Un errore riducibile ha due componenti: Bias e varianza , la presenza di bias e varianza influenza l'accuratezza del modello in diversi modi, ad esempio overfitting, underfitting , eccetera.Diamo uno sguardo a bias e varianza per capire come affrontare l'errore riducibile in .



Che cos'è il bias nell'apprendimento automatico?

Il bias è fondamentalmente quanto lontano abbiamo previsto il valore dal valore effettivo. Diciamo che il bias è troppo alto se le previsioni medie sono lontane dai valori effettivi.

Un bias elevato farà sì che l'algoritmo perda un pattern o una relazione dominante tra le variabili di input e di output. Quando il bias è troppo alto, si presume che il modello sia abbastanza semplice e non calcoli la complessità del set di dati per determinare la relazione e quindi,causando underfitting.

Varianza in un modello di machine learning?

Su un set di dati indipendente e invisibile o un set di convalida. Quando un modello non funziona bene come con il set di dati addestrato, è possibile che il modello abbia una varianza. Fondamentalmente dice quanto sono dispersi i valori previsti dai valori effettivi.



Una varianza elevata in un set di dati significa che il modello è stato addestrato con molto rumore e dati irrilevanti. Causando così overfitting nel modello. Quando un modello ha una varianza elevata, diventa molto flessibile e fa previsioni sbagliate per nuovi punti dati. Perché si è sintonizzato sui punti dati del set di addestramento.

Cerchiamo anche di comprendere matematicamente il concetto di bias-varianza. Poniamo che la variabile che prevediamo sia Y e le altre variabili indipendenti siano X. Supponiamo ora che esista una relazione tra le due variabili tale che:

Y = f (X) + e

Nell'equazione sopra, qui e è l'errore stimato con un valore medio 0. Quando creiamo un classificatore utilizzando algoritmi come regressione lineare , e così via, l'errore al quadrato previsto al punto x sarà:

err (x) = Bias2+ Varianza + Errore irriducibile

Cerchiamo anche di capire come il Bias-Variance influenzerà a Apprendimento automatico le prestazioni del modello.

classe scanner nell'esempio java

In che modo influisce sul modello di apprendimento automatico?

Possiamo mettere la relazione tra bias-varianza in quattro categorie elencate di seguito:

  1. Varianza alta-Bias alta: il modello è incoerente e anche in media impreciso
  2. Varianza bassa-Bias alto: i modelli sono coerenti ma in media bassi
  3. Varianza alta-Bias bassa - Piuttosto accurata ma incoerente sulle medie
  4. Bassa varianza-Bias basso: è lo scenario ideale, il modello è in media coerente e accurato.

bias-variance in machine learning-edureka

Sebbene la rilevazione di bias e varianza in un modello sia abbastanza evidente. Un modello con varianza elevata avrà un basso errore di addestramento e un alto errore di convalida. E in caso di bias elevato, il modello avrà un errore di addestramento elevato e l'errore di convalida è lo stesso dell'errore di addestramento.

Mentre rilevare sembra facile, il vero compito è ridurlo al minimo. In tal caso, possiamo fare quanto segue:

  • Aggiungi altre funzionalità di input
  • Maggiore complessità grazie all'introduzione di caratteristiche polinomiali
  • Diminuisci il termine di regolarizzazione
  • Ottenere più dati di allenamento

Ora che sappiamo cosa sono bias e varianza e come influenzano il nostro modello, diamo un'occhiata a un compromesso bias-variance.

Compensazione pregiudizio-varianza

Trovare il giusto equilibrio tra il bias e la varianza del modello è chiamato trade-off Bias-Variance. È fondamentalmente un modo per assicurarsi che il modello non sia né overfitted né underfitted in ogni caso.

Se il modello è troppo semplice e ha pochissimi parametri, soffrirà di un alto bias e di una bassa varianza. D'altra parte, se il modello ha un numero elevato di parametri, avrà una varianza elevata e un bias basso. Questo compromesso dovrebbe tradursi in un rapporto perfettamente equilibrato tra i due. Idealmente, un bias basso e una varianza bassa sono l'obiettivo di qualsiasi modello di Machine Learning.

Errore totale

In qualsiasi modello di Machine Learning, un buon equilibrio tra bias e varianza funge da scenario perfetto in termini di accuratezza predittiva ed evita overfitting, underfitting del tutto. Un equilibrio ottimale tra bias e varianza, in termini di complessità dell'algoritmo, garantirà che il modello non sia mai sovradimensionato o sottodimensionato.

L'errore quadratico medio in un modello statistico è considerato come la somma del bias al quadrato e della varianza e della varianza dell'errore. Tutto questo può essere inserito in un errore totale in cui abbiamo bias, varianza ed errore irriducibile in un modello.

Cerchiamo di capire come possiamo ridurre l'errore totale con l'aiuto di un'implementazione pratica.

Abbiamo creato un file classificatore di regressione lineare nel Regressione lineare nell'apprendimento automatico articolo su Edureka utilizzando i dati sul diabete impostati nel modulo datasets di scikit impara biblioteca.

Quando abbiamo valutato l'errore quadratico medio del classificatore, abbiamo ottenuto un errore totale di circa 2500.

Per ridurre l'errore totale, abbiamo fornito più dati al classificatore e in cambio l'errore medio al quadrato è stato ridotto a 2000.

curriculum per sviluppatore front-end java

È una semplice implementazione per ridurre l'errore totale fornendo più dati di addestramento al modello. Allo stesso modo possiamo applicare altre tecniche per ridurre l'errore e mantenere un equilibrio tra bias e varianza per un modello di Machine Learning efficiente.

Questo ci porta alla fine di questo articolo in cui abbiamo appreso Bias-Variance in Machine Learning con la sua implementazione e il caso d'uso. Spero che tu sia chiaro con tutto ciò che è stato condiviso con te in questo tutorial.

Se hai trovato pertinente questo articolo su 'Bias-Variance In Machine Learning', consulta il una società di formazione online affidabile con una rete di oltre 250.000 studenti soddisfatti sparsi in tutto il mondo.

Siamo qui per aiutarti in ogni fase del tuo viaggio e per elaborare un curriculum progettato per studenti e professionisti che vogliono essere un . Il corso è progettato per darti un vantaggio nella programmazione Python e addestrarti per i concetti di base e avanzati di Python insieme a vari piace , , eccetera.

In caso di domande, non esitare a porre tutte le tue domande nella sezione commenti di 'Bias-Variance In Machine Learning' e il nostro team sarà lieto di rispondere.