Métriques d'évaluation

Pour évaluer une méthode (classification, régression, ...), de nombreuses métriques sont utilisées dans la littérature. En fonction du problème étudié et de la nature de l'information traitée, les métriques utilisables pour estimer les performances d'un modèle sont différentes. Ainsi dans cette section chaque partie présenteras un ensemble de métrique associée à un problème spécifique.

Classification

Pour faciliter la compréhension, nous resterons au cas binaire et nous noterons $y \in \{0,1\}$ la vérité terrain et $p \in [0,1]$ la prédiction. Ainsi, les métriques de performance pour la classification binaire sont conçues à partir de quatre quantités de bases de population. Définies par une matrice de confusion, ces quatre quantités sont : les vrais positifs (TP), les faux positifs (FP), les vrais négatifs (TN) et les faux négatifs (FN). Finalement pour obtenir ces quatre quantités fondamentales, un seuillage est appliqué à la prédiction $p$ tel-que $p>0.5$.  Deux variables complémentaires sont introduites, données par $\overline{y} = 1-y$ et $\overline{p} = 1-p$. La matrice de confusion $C$ est donnée par :

$$ C =
\begin{bmatrix}
TP & FN \\[0.5em]
FP & TN
\end{bmatrix}
=
\sum_{i=0}^N
\begin{bmatrix}
y_i p_i & y_i \overline{p_i} \\[0.5em]
\overline{y_i} p_i & \overline{y_i p_i}
\end{bmatrix}$$

Il existe 21 métriques populaires que l'on peut calculer à partir de la matrice de confusion $C$ [Tharwat 2020]. Tel que démontré par [Koyejo 2014], la plupart des métriques issues de ces quatre quantités peuvent être dérivées de la fonction $\mathcal{L}$ définie ci-dessous :

$$ \mathcal{L} = \frac{a_0 + a_{11} TP + a_{01}FP + a_{00}TN + a_{10}FN} {b_0 + b_{11} TP + b_{01}FP + b_{00}TN + b_{10}FN} $$

Parmis toutes ces métriques, les plus utilisées dans la litératture, sont : Le pourcentage de prédictions correctes (Accuracy). La précision (Precision) qui est la proportion des items pertinents (TP) parmi l'ensemble des items proposés ($TP+FP$). Le rappel (Recall) qui est la proportion des items pertinents proposés (TP) parmi l'ensemble des items pertinents ($TP+FN$). Une mesure qui combine la précision et le rappel est leurs moyennes harmonique (\textbf{F-score}), donnée par la fonction générique $\mathcal{F}_\beta$ défini ci-dessous. A titre d'exemple, après simplification, la fonction $\mathcal{F}_1$ (aussi appelé Dice) est également proposé:

$$\mathcal{F}_\beta = \frac{(1+\beta^2) \cdot precision \cdot recall}{\beta^2 \cdot precision + recall}
\hspace{4em}
\mathcal{F}_1 = \frac{2TP}{2TP+FP+FN}$$

Cependant, les métriques issues de la matrice de confusion peuvent être trompeuses, surtout en présence de déséquilibre important dans la population des classes. Pour corriger ce problème, une pondération (par la population respective) des éléments de la matrice de confusion peut être effectuée

Régression et calibration

Les méthodes de régression visent à apprendre un modèle qui transforme des variables continues ($x_i$) vers un vecteur dans un espace continu de dimension $\mathbb{R}^N$. De ce fait, les métriques précédemment introduites pour la classification binaire sont moins adaptées. Cela est notamment du au seuillage utilisé pour obtenir la matrice de confusion qui rend impossible l'estimation d'un gradient utilisé pour l'optimisation de ces méthodes. Pour évaluer ces modèles, on a recours à des notions de distance et d'erreur.
Pour la suite, on noteras $y$ une observation attendue et $p$ une prédiction du modèle. Les indices $y_i$ et $p_i$ réfèrent aux dimensions des variables.

Fonction de perte

Une fonction de perte mesure la distance entre deux vecteurs, que l'on appelle aussi une fonction de dissimilarité, d'erreur ou de distance. Dans ce cas, plus la fonction $f(y,p)$ diminue, moins l'erreur est importante. On cherche donc à minimiser cette fonction. Il existe différentes mesures de distances dont la plus courante est la distance euclidienne. Elle correspond simplement à la longueur du chemin le plus court entre deux points dans un plan. Donc la longueur entre la position prédite et la position attendue.
Cette distance euclidienne se note $L^2$ et est dérivée de la norme $L^p$ (ou distance de Minkowski) définie ci-dessous. Elle synthétise une partie des mesures de distances. Il existe deux cas particulier : $L^0$ qui n'est pas considérée comme une norme et $L^\infty$ également définie ci-dessous.

$$
L_0 = \sum_{i=0}^{N}{ 2^{-i} \frac{|y_i - p_i|}{1+|y_i - p_i|} }
\hspace{4em}
L^\alpha = \sqrt[\alpha]{\sum_{i=0}^{N}{|y_i-p_i|^\alpha}}
\hspace{4em}
L^\infty = \max\limits_{i=0,\dots,N}(|y_i - p_i|)$$

A partir de cette norme $L^p$ différentes variantes ont été utilisées dans la littérature. Dont l'erreur absolue ($L^1$), l'erreur quadratique ($(L^2)^2$), ou encore la distance de Mahalanobis ($L^2$ avec prise en compte d'une matrice de covariance). D'autres variantes existent pour des cas particuliers, ce qui signifie que cette base doit être adaptée en fonction de la nature de l'infor\-mation et du problème. Par exemple la fonction $\Delta E_{00}$ calcule la distance perceptuelles entre deux couleurs, en prennent en considération différents espaces colorimétriques. Elle est donc utile pour la calibration d'une caméra à l'aide d'une mire.

$$\Delta E_{00} = \sqrt{(\frac{\Delta L'}{k_L S_L})^2 + (\frac{\Delta C'}{k_C S_C})^2 + (\frac{\Delta H'}{k_H S_H})^2 + R_T \frac{\Delta C'}{k_C S_C} \frac{\Delta H'}{k_H S_H} }$$

Dans cette formule, ${\Delta L'}$ est la différence de luminance entre les deux couleurs. Les facteurs $k_L, S_L, k_C, S_C, k_H, S_H$ sont les coefficients respectifs dans l'espace coulolrimétrique CIE 1976. $R_T$ est l'indice de rendu des couleurs de la couleur test. $\Delta C'$ est la différence de chromaticité entre les deux couleurs. Et $\Delta H'$ est la différence de teinte entre les deux couleurs.

Fonction objectif

Une fonction objectif mesure la ressemblance entre deux vecteurs, que l'on appelle aussi fonction de similarité. Dans ce cas, plus la fonction $f(y,p)$ diminue, plus l'erreur est importante. On cherche donc à maximiser cette fonction. La fonction de similarité du cosinus est la plus connue et est souvent utilisée pour mesurer la distance entre des vecteurs lorsque la magnitude (taille) des vecteurs n'a pas d'importance. C'est souvent le cas lorsque l'on travaille avec des données textuelles, où la seule chose qui compte est la fréquence d'apparition de chaque mot dans chaque texte. Dans ce cas, les vecteurs représentant les textes ne sont que des listes de nombres, et la distance entre deux textes est simplement le nombre de mots différents dans les deux textes.
Cette similarité est toujours comprise entre 0 et 1, où 1 correspond à une similarité parfaite et 0 à aucune similarité. Elle est définie comme suit :

$$ D = \cos\left({\vec{p} \cdot \vec{y}} \div {\|\vec{p}-\vec{y}\|}\right) $$

où $\vec{p}$ et $\vec{y}$ sont les vecteurs représentant les deux textes, et $\|\vec{p}-\vec{y}\|$ est la magnitude de la différence entre les deux vecteurs. C'est à dire la norme $L^2$.

Réciproque

Une fonction de perte peut être définie par une fonction objectif (et inversement) telle-que : $g(x) = 1-f(x)$ si $f(x) \in [0,1]$. D'autres fonctions existent, par exemple, en utilisant l'équation $\mathcal{L}$ mais sans seuillage sur $p$, on retrouve alors les fonctions de perte utilisées en segmentation d'image, telles-que ``Dice'' ou ``mIoU''.

Observations multiples

Les distances précédemment introduites permettent de calculer l'erreur entre deux points, pour l'étendre à l'ensemble des observations, une somme ou une moyenne entre toutes les observations est alors utilisée. On retrouve alors les métriques suivantes : Mean Absolute Error (MAE), Root Mean Squared Error (RMSE), Sum Absolute Error (SAE), etc.

Théorie de l'information

En théorie de l'information on s'intéresse à la distribution des données. On compare donc la distribution des valeurs d'une information connue $y$ à une distribution estimée $p$. Il existe deux possibilités pour comparer ces distributions : (1) l'entropie qui mesure le degré d'incertitude et (2) la divergence qui mesure la distance entre les distributions.

Entropie

La façon la plus courante de mesurer le gain d'information est l'entropie. C'est la quantité d'information supplémentaire contenue dans $y$ par rapport à la distribution estimée $p$. Il existe différentes formes d'entropies qui ont été généralisées par [Rényi 1961]. Étant donnés une variable aléatoire discrète X à k valeurs possibles $(x_{1},x_{2},\dots,x_{k})$, l'entropie de Rényi est définie par la fonction $H_\alpha$ ci-dessous :

$$H_\alpha = \frac{1}{\alpha-1} \log( \sum_{i=0}^{K}{P(X=x_i)^\alpha} ) $$

En fonction de $\alpha$ on retrouve les différentes formes d'entropie. Par exemple lorsque $\alpha \to 0$ alors $H_0$ est connu sous le nom de max-entropy ou entropie de Hartley. Lorsque $\alpha \to 1$ alors $H_1$ équivaut à l'entropy de Shannon. Tandis que $H_2$ correspond à une entropie de collision. Finalement $H_\mathcal{1}$ est défini comme l'entropie minimum : $$\lim_{\alpha \to \infty}H_\alpha = -\log_2(\max(p_i)) $$

Dans un scénario de classification binaire, il y a deux classes : la classe positive et la classe négative. Dans ce cas, en utilisant la définition $H_\alpha$ on peut définir la cross-entropie binaire (ou logistic loss) par la fonction $H_p$ ci-dessous. En lisant cette formule, on constate que, pour chaque élément de la classe 1 ($y_i=1$), on ajoute la probabilité logarithmique de sa prédiction $p_i=1$. Inversement, pour chaque élément de la classe 0 ($y_i=0$ soit $\bar{y_i}=1-y_i$).

$$H_p = - \frac{1}{N} \sum_{i=0}^{N}  \left[y_{i} \log (p_i) + \bar{y_i} \log (\bar{p_i}) \right]$$

Divergence

La divergence est un indice de dissimilarité entre des distributions continues et est souvent utile pour une régression sur l'espace des distributions. [Rényi 1961] a également généralisé les fonctions de divergences définies par la fonction $D_\alpha$ proposée ci-dessous :

$$D_\alpha(P||Q) = \frac{1}{1-\alpha} \log( \sum_{i=0}^{N}{ \frac{p_i^\alpha}{q_i^{1-\alpha}}} ) $$

La divergence $D_\alpha$ est donc une mesure de distance entre les distributions continues $P$ et $Q$. La divergence est croissante en l'absence d'information commune et décroissante lorsque les différences entre les distributions diminuent. La limite de $D$ lorsque $\alpha \to 1$ correspond à la divergence de Kullback-Leibler. Cette mesure est la plus courante en théorie de l'information et est définie par la fonction $D_{KL}$ :

$$D_{KL}(P||Q) = \sum_i {P(i) \log \frac{P(i)}{Q(i)} }$$

Dans ce type d'approche on retrouve également les ``Mutual Information'', la distance Hellinger, la divergence de Jeffrays, la divergence de Chernoff, la divergence exponentielle, ou encore la divergence de Kagan. Ces approches sont utiles lorsque l'on veut comparer deux ou plusieurs distributions.