GeeksforGeeks

¿Qué es la Regresión y Clasificación en el Aprendizaje Automático?

Los científicos de datos utilizan muchos tipos diferentes de algoritmos de aprendizaje automático para descubrir patrones en los grandes datos que conducen a conocimientos procesables. En un nivel alto, estos diferentes algoritmos se pueden clasificar en dos grupos basados en la forma en que «aprenden» sobre los datos para hacer predicciones: aprendizaje supervisado y no supervisado.

Aprendizaje automático supervisado: La mayor parte del aprendizaje automático práctico utiliza el aprendizaje supervisado. El aprendizaje supervisado es cuando se tienen variables de entrada (x) y una variable de salida (Y) y se utiliza un algoritmo para aprender la función de mapeo de la entrada a la salida Y = f(X) . El objetivo es aproximar la función de mapeo tan bien que cuando se tengan nuevos datos de entrada (x) se puedan predecir las variables de salida (Y) para esos datos.

Las técnicas de los algoritmos de aprendizaje automático supervisado incluyen la regresión lineal y logística, la clasificación multiclase, los árboles de decisión y las máquinas de vectores de soporte. El aprendizaje supervisado requiere que los datos utilizados para entrenar el algoritmo ya estén etiquetados con respuestas correctas. Por ejemplo, un algoritmo de clasificación aprenderá a identificar animales después de ser entrenado en un conjunto de datos de imágenes que están debidamente etiquetadas con la especie del animal y algunas características de identificación.
Los problemas de aprendizaje supervisado pueden agruparse a su vez en problemas de Regresión y Clasificación. Ambos problemas tienen como objetivo la construcción de un modelo sucinto que pueda predecir el valor del atributo dependiente a partir de las variables de atributo. La diferencia entre las dos tareas es el hecho de que el atributo dependiente es numérico para la regresión y categórico para la clasificación.

Regresión

Un problema de regresión es cuando la variable de salida es un valor real o continuo, como «salario» o «peso». Se pueden utilizar muchos modelos diferentes, el más sencillo es la regresión lineal. Trata de ajustar los datos con el mejor hiperplano que pasa por los puntos.

Tipos de modelos de regresión:

Por ejemplo:
¿Cuál de las siguientes es una tarea de regresión?

  • Predecir la edad de una persona
  • Predecir la nacionalidad de una persona
  • Predecir si el precio de las acciones de una empresa aumentará mañana
  • Predecir si un documento está relacionado con el avistamiento de ovnis?

Solución : Predecir la edad de una persona (porque es un valor real, predecir la nacionalidad es categórico, si el precio de las acciones aumentará es discreto-sí/no la respuesta, predecir si un documento está relacionado con el avistamiento de ovnis es de nuevo discreto-un sí/no la respuesta).

Tomemos un ejemplo de regresión lineal. Tenemos un conjunto de datos de Vivienda y queremos predecir el precio de la casa. A continuación se muestra el código python para ello.



La salida del código anterior será:
Aquí en este gráfico, trazamos los datos de prueba. La línea roja indica la línea de mejor ajuste para predecir el precio. Para hacer una predicción individual utilizando el modelo de regresión lineal:

print( str(round(regr.predict(5000))) )

Clasificación

Un problema de clasificación es cuando la variable de salida es una categoría, como «rojo» o «azul» o «enfermedad» y «sin enfermedad». Un modelo de clasificación intenta sacar alguna conclusión de los valores observados. Dado uno o más datos de entrada, un modelo de clasificación tratará de predecir el valor de uno o más resultados.
Por ejemplo, al filtrar los correos electrónicos «spam» o «no spam», al observar los datos de las transacciones, «fraudulento» o «autorizado». En resumen, la clasificación predice etiquetas de clase categóricas o clasifica los datos (construye un modelo) basándose en el conjunto de entrenamiento y en los valores (etiquetas de clase) de los atributos de clasificación y los utiliza para clasificar nuevos datos. Existen varios modelos de clasificación. Los modelos de clasificación incluyen la regresión logística, el árbol de decisión, el bosque aleatorio, el árbol de gradiente-boost, el perceptrón multicapa, el de uno a uno y el de Naive Bayes.

Por ejemplo :
¿Cuál de los siguientes es/son problema(s) de clasificación?

  • Predecir el género de una persona por su estilo de escritura
  • Predecir el precio de la vivienda en función de la zona
  • Predecir si el monzón será normal el próximo año
  • Predecir el número de copias que se venderán de un álbum de música el próximo mes
  • Solución : Predecir el género de una persona Predecir si el monzón será normal el próximo año. Las otras dos son de regresión.
    Como hemos comentado la clasificación con algunos ejemplos. Ahora hay un ejemplo de clasificación en el que estamos realizando la clasificación en el conjunto de datos del iris utilizando RandomForestClassifier en python. Puedes descargar el conjunto de datos desde Aquí
    Descripción del conjunto de datos

Title: Iris Plants DatabaseAttribute Information: 1. sepal length in cm 2. sepal width in cm 3. petal length in cm 4. petal width in cm 5. class: -- Iris Setosa -- Iris Versicolour -- Iris Virginica Missing Attribute Values: NoneClass Distribution: 33.3% for each of 3 classes


Salida:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *