Cependant, cette séparation se fait de manière aléatoire. Il existe donc un risque de créer par hasard des jeux de données non représentatifs. 

Pour éviter de valider un modèle sur des données non représentatives, une méthode est de reproduire la procédure d’entraînement sur un jeu puis de tester sur un autre jeu plusieurs fois, puis de moyenner les résultats. Cela permet de moyenner les effets aléatoires et d’obtenir une estimation de la performance sur des données non vues aléatoirement choisies.

Cette validation de modèle s’appelle la validation croisée ou cross validation en anglais.

Une validation croisée est composée de plusieurs folds. Chaque fold est une partition du jeu de données en deux ensembles (jeu d’entraînement et jeu de test). La validation croisée consiste pour chaque fold à entraîner le modèle sur le jeu d’entraînement puis de l’évaluer sur le jeu de test. 

Nous pouvons ensuite estimer la performance du modèle en évaluant la performance des prédicteurs de chaque fold sur le jeu de test de chacun des folds, puis en moyennant leurs performances. 

Cette approche permet également d’accéder à l’écart-type de ces performances, ce qui permet de se faire une bonne idée de la variabilité du modèle en fonction du jeu d’entraînement. Si la variabilité est élevée, alors il faudra faire d’autant plus attention au choix de notre jeu d’entraînement. Au contraire, avec une faible variabilité, le choix du jeu d’entraînement n’a pas beaucoup d’importance.

Write A Comment

fr_FRFrench