GeeksforGeeks

Cos’è la regressione e la classificazione nell’apprendimento automatico?

Gli scienziati dei dati usano molti tipi diversi di algoritmi di apprendimento automatico per scoprire modelli nei grandi dati che portano a intuizioni utilizzabili. Ad un alto livello, questi diversi algoritmi possono essere classificati in due gruppi basati sul modo in cui “imparano” sui dati per fare previsioni: apprendimento supervisionato e non supervisionato.

Apprendimento automatico supervisionato: La maggior parte dell’apprendimento automatico pratico usa l’apprendimento supervisionato. L’apprendimento supervisionato è quello in cui si hanno variabili di input (x) e una variabile di output (Y) e si usa un algoritmo per imparare la funzione di mappatura dall’input all’output Y = f(X) . L’obiettivo è quello di approssimare la funzione di mappatura così bene che quando si hanno nuovi dati di input (x) si possono prevedere le variabili di output (Y) per quei dati.

Le tecniche degli algoritmi di apprendimento automatico supervisionato includono la regressione lineare e logistica, la classificazione multiclasse, gli alberi di decisione e le macchine vettoriali di supporto. L’apprendimento supervisionato richiede che i dati usati per addestrare l’algoritmo siano già etichettati con risposte corrette. Per esempio, un algoritmo di classificazione imparerà a identificare gli animali dopo essere stato addestrato su un set di dati di immagini che sono correttamente etichettate con la specie dell’animale e alcune caratteristiche identificative.
I problemi di apprendimento supervisionato possono essere ulteriormente raggruppati in problemi di regressione e classificazione. Entrambi i problemi hanno come obiettivo la costruzione di un modello sintetico che possa predire il valore dell’attributo dipendente dalle variabili di attributo. La differenza tra i due compiti è il fatto che l’attributo dipendente è numerico per la regressione e categorico per la classificazione.

Regressione

Un problema di regressione è quando la variabile di uscita è un valore reale o continuo, come “stipendio” o “peso”. Si possono usare molti modelli diversi, il più semplice è la regressione lineare. Cerca di adattare i dati con il miglior iper-piano che passa attraverso i punti.

Tipi di modelli di regressione:

Per esempio:
Quale dei seguenti è un compito di regressione?

  • Prevedere l’età di una persona
  • Prevedere la nazionalità di una persona
  • Prevedere se il prezzo delle azioni di una società aumenterà domani
  • Prevedere se un documento è collegato all’avvistamento degli UFO?

Soluzione: Predire l’età di una persona (perché è un valore reale, prevedere la nazionalità è categorico, se il prezzo delle azioni aumenterà è discreto-risposta si/no, prevedere se un documento è legato agli UFO è di nuovo discreto- una risposta si/no).

Prendiamo un esempio di regressione lineare. Abbiamo un insieme di dati Housing e vogliamo predire il prezzo della casa. Di seguito il codice python per questo.



L’output del codice di cui sopra sarà:
In questo grafico, tracciamo i dati del test. La linea rossa indica la linea migliore per prevedere il prezzo. Per fare una previsione individuale usando il modello di regressione lineare:

print( str(round(regr.predict(5000))) )

Classificazione

Un problema di classificazione è quando la variabile di uscita è una categoria, come “rosso” o “blu” o “malattia” e “nessuna malattia”. Un modello di classificazione cerca di trarre qualche conclusione dai valori osservati. Dati uno o più input, un modello di classificazione cercherà di predire il valore di uno o più risultati.
Per esempio, quando si filtrano le email “spam” o “non spam”, quando si guardano i dati delle transazioni, “fraudolento”, o “autorizzato”. In breve, la classificazione predice le etichette di classe categoriche o classifica i dati (costruisce un modello) sulla base del set di allenamento e dei valori (etichette di classe) negli attributi di classificazione e li usa per classificare i nuovi dati. Ci sono diversi modelli di classificazione. I modelli di classificazione includono la regressione logistica, l’albero decisionale, la foresta casuale, l’albero a gradiente, il perceptron multistrato, uno-vs-rest, e Naive Bayes.

Per esempio :
Quale dei seguenti è/sono problemi di classificazione?

  • Prevedere il sesso di una persona in base al suo stile di scrittura
  • Prevedere il prezzo della casa in base alla zona
  • Prevedere se il monsone sarà normale il prossimo anno
  • Prevedere il numero di copie che un album musicale sarà venduto il prossimo mese

Soluzione: Predire il sesso di una persona Predire se il monsone sarà normale il prossimo anno. Gli altri due sono regressione.
Come abbiamo discusso la classificazione con alcuni esempi. Ora c’è un esempio di classificazione in cui stiamo eseguendo la classificazione sul set di dati dell’iride utilizzando RandomForestClassifier in python. Potete scaricare il dataset da qui
Descrizione del dataset

Title: Iris Plants DatabaseAttribute Information: 1. sepal length in cm 2. sepal width in cm 3. petal length in cm 4. petal width in cm 5. class: -- Iris Setosa -- Iris Versicolour -- Iris Virginica Missing Attribute Values: NoneClass Distribution: 33.3% for each of 3 classes


Output:

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *