O que é Regressão e Classificação na Aprendizagem de Máquinas?
Os cientistas de dados utilizam muitos tipos diferentes de algoritmos de aprendizagem de máquinas para descobrir padrões em grandes dados que conduzem a percepções accionáveis. A um nível elevado, estes diferentes algoritmos podem ser classificados em dois grupos com base na forma como “aprendem” sobre dados para fazer previsões: aprendizagem supervisionada e não supervisionada.
Aprendizagem supervisionada na aprendizagem de máquinas: A maioria da aprendizagem prática de máquinas utiliza a aprendizagem supervisionada. A aprendizagem supervisionada é onde se tem variáveis de entrada (x) e uma variável de saída (Y) e se utiliza um algoritmo para aprender a função de mapeamento desde a entrada até à saída Y = f(X) . O objectivo é aproximar tão bem a função de mapeamento que quando se tem novos dados de entrada (x) é possível prever as variáveis de saída (Y) para esses dados.
Técnicas de algoritmos de Aprendizagem Supervisionada de Máquinas incluem regressão linear e logística, classificação multiclasse, Árvores de Decisão e máquinas vectoriais de suporte. A aprendizagem supervisionada requer que os dados utilizados para treinar o algoritmo já estejam etiquetados com as respostas correctas. Por exemplo, um algoritmo de classificação aprenderá a identificar animais depois de ter sido treinado num conjunto de dados de imagens devidamente rotuladas com as espécies do animal e algumas características de identificação.
Problemas de aprendizagem supervisionada podem ser ainda agrupados em problemas de Regressão e Classificação. Ambos os problemas têm como objectivo a construção de um modelo sucinto que possa prever o valor do atributo dependente a partir das variáveis do atributo. A diferença entre as duas tarefas é o facto de o atributo dependente ser numérico para regressão e categórico para classificação.
Regressão
p> Um problema de regressão é quando a variável de saída é um valor real ou contínuo, tal como “salário” ou “peso”. Muitos modelos diferentes podem ser utilizados, o mais simples é a regressão linear. Tenta encaixar os dados com o melhor hiper-plano que passa pelos pontos.
Tipos de Modelos de Regressão:
Para exemplos:
Qual dos seguintes é uma tarefa de regressão?
- Prever a idade de uma pessoa
- Prever a nacionalidade de uma pessoa
- Prever se o preço das acções de uma empresa aumentará amanhã
- Prever se um documento está relacionado com a observação de OVNIs?
Solução: Prever a idade de uma pessoa (porque é um valor real, prever a nacionalidade é categórico, se o preço das acções irá aumentar é discreto – sim/não responde, prever se um documento está relacionado com OVNI é novamente discreto – uma resposta de sim/não).
Vejamos um exemplo de regressão linear. Temos um conjunto de dados de Habitação e queremos prever o preço da casa. Segue-se o código python para ele.
O resultado do código acima será:
Aqui neste gráfico, plotamos os dados do teste. A linha vermelha indica a linha mais adequada para prever o preço. Para fazer uma previsão individual utilizando o modelo de regressão linear:
print( str(round(regr.predict(5000))) )
Classificação
Um problema de classificação é quando a variável de saída é uma categoria, tal como “vermelho” ou “azul” ou “doença” e “nenhuma doença”. Um modelo de classificação tenta tirar alguma conclusão a partir dos valores observados. Dado um ou mais inputs, um modelo de classificação tentará prever o valor de um ou mais resultados.
Por exemplo, ao filtrar e-mails “spam” ou “não spam”, ao olhar para dados de transacção, “fraudulento”, ou “autorizado”. Em suma, a Classificação ou prevê etiquetas de classe categóricas ou classifica os dados (construir um modelo) com base no conjunto de formação e nos valores (etiquetas de classe) na classificação de atributos e utiliza-os na classificação de novos dados. Há uma série de modelos de classificação. Os modelos de classificação incluem regressão logística, árvore de decisão, floresta aleatória, árvore de gradiente, perceptron multi-camadas, um-vs-rest, e Naive Bayes.
Por exemplo :
Qual dos seguintes problemas de classificação é/são?
- Prever o sexo de uma pessoa pelo seu estilo de escrita
- Prever o preço da casa com base na área
- Prever se as monções serão normais no próximo ano
- Prever o número de cópias que um álbum de música será vendido no próximo mês
Solução: Prever o sexo de uma pessoa Prever se as monções serão normais no próximo ano. Os outros dois são regressão.
Como discutimos a classificação com alguns exemplos. Agora há um exemplo de classificação em que estamos a fazer classificação no conjunto de dados da íris usando RandomForestClassifier em python. Pode descarregar o conjunto de dados aqui
Descrição do conjunto de dados
Title: Iris Plants DatabaseAttribute Information: 1. sepal length in cm 2. sepal width in cm 3. petal length in cm 4. petal width in cm 5. class: -- Iris Setosa -- Iris Versicolour -- Iris Virginica Missing Attribute Values: NoneClass Distribution: 33.3% for each of 3 classes
p> Saída: