Quantcast
Channel: Commentaires sur : Apprentissage automatisé – quelques notions clefs
Viewing all articles
Browse latest Browse all 16

Par : Bertrand Dechoux

$
0
0

Cela fait plaisir de lire un article francais de cette qualité sur le sujet! Même si, étant habitué aux termes anglais, il m’a fallu souvent traduire ma propre langue maternelle…

Je rajouterai deux points que je considère importants.

Une des difficulté de l’apprentissage automatisé est que l’on laisse la main à l’algorithme. Effectivement, dans les exemples, il est facile de voir si le choix de l’algorithme ou des fonctions d’apprentissage est pertinent. Cependant, dès que le volume des données ou leur dimension deviennent trop importants, il peut être alors très difficile, voir impossible, de déterminer la pertinence du choix fait.

Ainsi la réduction de dimensions est également un outil qui doit être utilisé pour comprendre les données avant de construire un système de recommandation, par exemple.

Un cas classique de problème à grande dimensionnalité est l’ensemble des ‘notations’ utilisateur pour les objets vendus par Amazon. Une ‘notation’ est alors représentable par un vecteur dont la dimension est égale aux nombres d’utilisateurs ou aux nombre d’objets vendus, selon la manière dont on regarde le problème.

Le second point porte sur le cout de l’erreur. Avoir le moins d’erreur possible est un objectif louable mais il n’est bien sur pas possible de ne plus avoir d’erreur du tout, à moins que le problème soit trivial. Si ce cout n’est pas négligeable, il est alors important soit d’avoir une méthode qui associe à ses réponses un indicateur de fiabilité ou soit de forcer le biais à se faire vers la catégorie dont le cout de l’erreur est le moindre.

Supposons que l’on possède un médicament pouvant guérir une maladie. Il faut une méthode pour savoir si ce médicament doit être prescrit au patient. Ce médicament a un cout réel mais aussi des effets secondaires et ne fonctionne pas sur tout le monde.

Si le cout et les effets secondaires sont négligeables, il vaut mieux traiter le plus de patients possibles même ceux qui bénéficieront pas des effets positifs. Dans le jargon de la classification, il faut préférer avoir des faux positifs plutôt que des faux négatifs.

En revanche si le prix est prohibitif ou les effets secondaires très importants, il vaut mieux prescrire ce médicament que pour les cas critiques. Autrement dit, préférer avoir des les faux négatifs plutôt que des faux positifs.

Pour ceux intéressé par le sujet de la classification binaire, un outil important est la ‘caractéristique de fonctionnement du récepteur ‘ (ou ROC curve).


Viewing all articles
Browse latest Browse all 16