Matriz de Confusão
Para se medir a qualidade de um classificador utiliza-se um outro conjunto de teste rotulado (diferente daquele empregado em seu treinamento) e solicita-se a classificação de cada instância desse segundo conjunto de forma individual. Os acertos e os erros do classificador são anotados em uma matriz, denominada matriz de confusão, a tabela abaixo ilustra a matriz de confusão, no qual apresenta um exemplo de matriz de confusão para um conjunto de dados que possui apenas dois rótulos L = {Positivo, Negativo}.
| Real Positivo | Real Negativo | |
|---|---|---|
| Predito Positivo | TP | FP |
| Predito Negativo | FN | TN |
A matriz ilustra os índices de acerto e erro de um classificador, detalhando o que foi classificado como Positivo e realmente o é, denominado de Verdadeiro Positivo (TP), e o Negativo que foi rotulado como Positivo, denominado Falso Positivo (FP). Além disso, a matriz indica os dados Positivos classificados como Negativos, os chamados Falso Negativos (FN), e as instâncias Negativas realmente rotuladas como tal, os Verdadeiros Negativos (TN).
Por intermédio da matriz de confusão pode-se obter diversos índices e métricas de qualidade que avaliam o desempenho dos classificadores.
Métricas Avaliativas
Revocação ou Sensibilidade
Mede a proporção de verdadeiros positivos (TP) com relação a todos os positivos. Fórmula: Revocação = TP / (TP + FN)
Precisão ou Confiança
Denota a proporção de verdadeiros positivos (TP) considerando todas as instâncias rotuladas como positivas. Fórmula: Precisão = TP / (TP + FP)
Especificidade ou Seletividade
Mede a proporção de verdadeiros negativos (TN) com relação às instâncias preditas negativas. Fórmula: Especificidade = TN / (TN + FP)
Acurácia
Mostra o acerto global do classificador como uma proporção de resultados verdadeiros entre o número total de casos examinados. Fórmula: Acurácia = (TN + TP) / (TN + TP + FN + FP)
F-Measure
Combinam as medidas de Precisão e Revocação em uma média harmônica, focada nos exemplos positivos e nas previsões corretas. Fórmula: F-Measure = 2 * (Precisão * Revocação) / (Precisão + Revocação)
MSE e MAE
Quantificam os acertos das previsões. O Mean Squared Error (MSE) usa o erro quadrático médio e o Mean Absolute Error (MAE) usa a diferença absoluta entre a classe real e a predita.
Coeficiente Cohen–Kappa
Avalia os níveis de concordância entre dois conjuntos de rótulos. O Coeficiente de Cohen-Kappa permite interpretar a qualidade de um classificador em termos semânticos.
| Coeficiente de Kappa-Cohen | Nível de Concordância |
|---|---|
| 0 | Pobre |
| 0,00 - 0,2 | Leve |
| 0,21 - 0,4 | Considerável |
| 0,41 - 0,6 | Moderada |
| 0,61 - 0,8 | Substancial |
| 0,81 - 1,0 | Excelente |
Conclusão
Por último, usar simplesmente um único valor de qualidade pode ser enganoso, recomendando também aplicar outras formas de avaliações, como a curva de Característica do Operador do Receptor (ROC). Essa curva ilustra como o número de exemplos positivos corretamente classificados varia de acordo com o número de exemplos negativos classificados incorretamente. A curva ROC utiliza as métricas de Revocação e a Especificidade para sua elaboração, onde cada ponto na curva ROC representa um par de Revocação e Especificidade. Logo, é importante utilizar mais de uma métrica de avaliativa para verificar a qualidade da classificação, de maneira, a evitar qualquer tipo de visão excessivamente otimista do desempenho de um classificador.