Métricas Avaliativas

Matriz de Confusão

Para se medir a qualidade de um classificador utiliza-se um outro conjunto de teste rotulado (diferente daquele empregado em seu treinamento) e solicita-se a classificação de cada instância desse segundo conjunto de forma individual. Os acertos e os erros do classificador são anotados em uma matriz, denominada matriz de confusão, a tabela abaixo ilustra a matriz de confusão, no qual apresenta um exemplo de matriz de confusão para um conjunto de dados que possui apenas dois rótulos L = {Positivo, Negativo}.

Real Positivo Real Negativo
Predito Positivo TP FP
Predito Negativo FN TN

A matriz ilustra os índices de acerto e erro de um classificador, detalhando o que foi classificado como Positivo e realmente o é, denominado de Verdadeiro Positivo (TP), e o Negativo que foi rotulado como Positivo, denominado Falso Positivo (FP). Além disso, a matriz indica os dados Positivos classificados como Negativos, os chamados Falso Negativos (FN), e as instâncias Negativas realmente rotuladas como tal, os Verdadeiros Negativos (TN).

Por intermédio da matriz de confusão pode-se obter diversos índices e métricas de qualidade que avaliam o desempenho dos classificadores.

Métricas Avaliativas

Revocação ou Sensibilidade

Mede a proporção de verdadeiros positivos (TP) com relação a todos os positivos. Fórmula: Revocação = TP / (TP + FN)

Precisão ou Confiança

Denota a proporção de verdadeiros positivos (TP) considerando todas as instâncias rotuladas como positivas. Fórmula: Precisão = TP / (TP + FP)

Especificidade ou Seletividade

Mede a proporção de verdadeiros negativos (TN) com relação às instâncias preditas negativas. Fórmula: Especificidade = TN / (TN + FP)

Acurácia

Mostra o acerto global do classificador como uma proporção de resultados verdadeiros entre o número total de casos examinados. Fórmula: Acurácia = (TN + TP) / (TN + TP + FN + FP)

F-Measure

Combinam as medidas de Precisão e Revocação em uma média harmônica, focada nos exemplos positivos e nas previsões corretas. Fórmula: F-Measure = 2 * (Precisão * Revocação) / (Precisão + Revocação)

MSE e MAE

Quantificam os acertos das previsões. O Mean Squared Error (MSE) usa o erro quadrático médio e o Mean Absolute Error (MAE) usa a diferença absoluta entre a classe real e a predita.

Coeficiente Cohen–Kappa

Avalia os níveis de concordância entre dois conjuntos de rótulos. O Coeficiente de Cohen-Kappa permite interpretar a qualidade de um classificador em termos semânticos.

Coeficiente de Kappa-Cohen Nível de Concordância
0 Pobre
0,00 - 0,2 Leve
0,21 - 0,4 Considerável
0,41 - 0,6 Moderada
0,61 - 0,8 Substancial
0,81 - 1,0 Excelente

Conclusão

Por último, usar simplesmente um único valor de qualidade pode ser enganoso, recomendando também aplicar outras formas de avaliações, como a curva de Característica do Operador do Receptor (ROC). Essa curva ilustra como o número de exemplos positivos corretamente classificados varia de acordo com o número de exemplos negativos classificados incorretamente. A curva ROC utiliza as métricas de Revocação e a Especificidade para sua elaboração, onde cada ponto na curva ROC representa um par de Revocação e Especificidade. Logo, é importante utilizar mais de uma métrica de avaliativa para verificar a qualidade da classificação, de maneira, a evitar qualquer tipo de visão excessivamente otimista do desempenho de um classificador.