GeeksforGeeks

Qu’est-ce que la régression et la classification dans l’apprentissage automatique ?

Les spécialistes des données utilisent de nombreux types d’algorithmes d’apprentissage automatique pour découvrir des modèles dans les big data qui conduisent à des informations exploitables. À un haut niveau, ces différents algorithmes peuvent être classés en deux groupes en fonction de la façon dont ils  » apprennent  » sur les données pour faire des prédictions : l’apprentissage supervisé et non supervisé.

L’apprentissage automatique supervisé : La majorité de l’apprentissage automatique pratique utilise l’apprentissage supervisé. L’apprentissage supervisé est celui où vous avez des variables d’entrée (x) et une variable de sortie (Y) et où vous utilisez un algorithme pour apprendre la fonction de mappage de l’entrée à la sortie Y = f(X) . L’objectif est d’approcher la fonction de mappage si bien que lorsque vous avez de nouvelles données d’entrée (x) que vous pouvez prédire les variables de sortie (Y) pour ces données.

Les techniques d’algorithmes d’apprentissage automatique supervisé comprennent la régression linéaire et logistique, la classification multi-classes, les arbres de décision et les machines à vecteurs de support. L’apprentissage supervisé nécessite que les données utilisées pour entraîner l’algorithme soient déjà étiquetées avec des réponses correctes. Par exemple, un algorithme de classification apprendra à identifier des animaux après avoir été entraîné sur un ensemble de données d’images correctement étiquetées avec l’espèce de l’animal et certaines caractéristiques d’identification.
Les problèmes d’apprentissage supervisé peuvent être regroupés en problèmes de régression et de classification. Les deux problèmes ont pour objectif la construction d’un modèle succinct qui peut prédire la valeur de l’attribut dépendant à partir des variables de l’attribut. La différence entre les deux tâches est le fait que l’attribut dépendant est numérique pour la régression et catégorique pour la classification.

Régression

Un problème de régression est lorsque la variable de sortie est une valeur réelle ou continue, comme « salaire » ou « poids ». De nombreux modèles différents peuvent être utilisés, le plus simple est la régression linéaire. Elle tente d’ajuster les données avec le meilleur hyperplan qui passe par les points.

Types de modèles de régression :

Pour des exemples :
Quel est, parmi les tâches suivantes, une tâche de régression ?

  • Prédire l’âge d’une personne
  • Prédire la nationalité d’une personne
  • Prédire si le cours de l’action d’une société augmentera demain
  • Prédire si un document est lié à l’observation d’ovnis ?

Solution : Prédire l’âge d’une personne (car c’est une valeur réelle, prédire la nationalité est catégorique, savoir si le prix de l’action va augmenter est discret-réponse oui/non, prédire si un document est lié à l’observation d’OVNI est à nouveau discret-réponse oui/non).

Prenons un exemple de régression linéaire. Nous avons un ensemble de données de logement et nous voulons prédire le prix de la maison. Voici le code python pour cela.



La sortie du code ci-dessus sera :
Ici dans ce graphique, nous traçons les données de test. La ligne rouge indique la ligne de meilleur ajustement pour prédire le prix. Pour faire une prédiction individuelle en utilisant le modèle de régression linéaire:

print( str(round(regr.predict(5000))) )

Classification

Un problème de classification est lorsque la variable de sortie est une catégorie, comme « rouge » ou « bleu » ou « maladie » et « pas de maladie ». Un modèle de classification tente de tirer une certaine conclusion à partir des valeurs observées. Étant donné une ou plusieurs entrées, un modèle de classification essaiera de prédire la valeur d’un ou plusieurs résultats.
Par exemple, lors du filtrage des e-mails « spam » ou « pas spam », lors de l’examen des données de transaction, « frauduleux » ou « autorisé ». En bref, la classification permet soit de prédire des étiquettes de classe catégorielles, soit de classer des données (construire un modèle) sur la base de l’ensemble d’apprentissage et des valeurs (étiquettes de classe) dans les attributs de classification et de les utiliser pour classer de nouvelles données. Il existe un certain nombre de modèles de classification. Les modèles de classification comprennent la régression logistique, l’arbre de décision, la forêt aléatoire, l’arbre à gradient de boost, le perceptron multicouche, le one-vs-rest et Naive Bayes.

Par exemple :
Quel est le(s) problème(s) de classification parmi les suivants ?

  • Prédire le sexe d’une personne par son style d’écriture
  • Prédire le prix d’une maison en fonction de la zone
  • Prédire si la mousson sera normale l’année prochaine
  • Prédire le nombre d’exemplaires d’un album de musique qui sera vendu le mois prochain

Solution : Prédire le sexe d’une personne Prédire si la mousson sera normale l’année prochaine. Les deux autres sont la régression.
Comme nous avons discuté de la classification avec quelques exemples. Maintenant, il y a un exemple de classification dans lequel nous effectuons la classification sur le jeu de données de l’iris en utilisant RandomForestClassifier en python. Vous pouvez télécharger le jeu de données à partir d’Ici
Description du jeu de données

Title: Iris Plants DatabaseAttribute Information: 1. sepal length in cm 2. sepal width in cm 3. petal length in cm 4. petal width in cm 5. class: -- Iris Setosa -- Iris Versicolour -- Iris Virginica Missing Attribute Values: NoneClass Distribution: 33.3% for each of 3 classes


Sortie:

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *