You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/fr/8-Reinforcement
Pikachú 9fc2b847b8
updated image translation for the various languages
7 months ago
..
1-QLearning updated image translation for the various languages 7 months ago
2-Gym updated image translation for the various languages 7 months ago
README.md updated image translation for the various languages 7 months ago

README.md

Introduction à l'apprentissage par renforcement

L'apprentissage par renforcement, RL, est considéré comme l'un des paradigmes fondamentaux de l'apprentissage automatique, aux côtés de l'apprentissage supervisé et de l'apprentissage non supervisé. Le RL est entièrement axé sur les décisions : prendre les bonnes décisions ou, du moins, apprendre de celles-ci.

Imaginez que vous avez un environnement simulé comme le marché boursier. Que se passe-t-il si vous imposez une réglementation donnée ? A-t-elle un effet positif ou négatif ? Si quelque chose de négatif se produit, vous devez prendre ce renforcement négatif, en tirer des leçons et changer de cap. Si c'est un résultat positif, vous devez capitaliser sur ce renforcement positif.

peter and the wolf

Peter et ses amis doivent échapper au loup affamé ! Image par Jen Looper

Sujet régional : Pierre et le Loup (Russie)

Pierre et le Loup est un conte musical écrit par un compositeur russe Sergei Prokofiev. C'est l'histoire du jeune pionnier Pierre, qui s'aventure courageusement hors de sa maison vers la clairière pour chasser le loup. Dans cette section, nous allons entraîner des algorithmes d'apprentissage automatique qui aideront Pierre :

  • Explorer les environs et construire une carte de navigation optimale
  • Apprendre à utiliser un skateboard et à s'y équilibrer, afin de se déplacer plus rapidement.

Pierre et le Loup

🎥 Cliquez sur l'image ci-dessus pour écouter Pierre et le Loup de Prokofiev

Apprentissage par renforcement

Dans les sections précédentes, vous avez vu deux exemples de problèmes d'apprentissage automatique :

  • Supervisé, où nous avons des ensembles de données qui suggèrent des solutions types au problème que nous voulons résoudre. Classification et régression sont des tâches d'apprentissage supervisé.
  • Non supervisé, où nous n'avons pas de données d'entraînement étiquetées. L'exemple principal de l'apprentissage non supervisé est Clustering.

Dans cette section, nous allons vous introduire à un nouveau type de problème d'apprentissage qui ne nécessite pas de données d'entraînement étiquetées. Il existe plusieurs types de tels problèmes :

Exemple - jeu vidéo

Supposons que vous souhaitiez apprendre à un ordinateur à jouer à un jeu, comme les échecs ou Super Mario. Pour que l'ordinateur puisse jouer à un jeu, nous devons lui faire prédire quel mouvement effectuer dans chacun des états du jeu. Bien que cela puisse sembler être un problème de classification, ce n'est pas le cas - car nous n'avons pas d'ensemble de données avec des états et des actions correspondantes. Bien que nous puissions avoir des données comme des parties d'échecs existantes ou des enregistrements de joueurs jouant à Super Mario, il est probable que ces données ne couvrent pas suffisamment un nombre assez large d'états possibles.

Au lieu de chercher des données de jeu existantes, l'apprentissage par renforcement (RL) repose sur l'idée de faire jouer l'ordinateur de nombreuses fois et d'observer le résultat. Ainsi, pour appliquer l'apprentissage par renforcement, nous avons besoin de deux choses :

  • Un environnement et un simulateur qui nous permettent de jouer à un jeu plusieurs fois. Ce simulateur définirait toutes les règles du jeu ainsi que les états et actions possibles.

  • Une fonction de récompense, qui nous indiquerait à quel point nous avons bien joué à chaque mouvement ou partie.

La principale différence entre les autres types d'apprentissage automatique et le RL est qu'en RL, nous ne savons généralement pas si nous gagnons ou perdons jusqu'à ce que nous terminions le jeu. Ainsi, nous ne pouvons pas dire si un certain mouvement à lui seul est bon ou non - nous ne recevons une récompense qu'à la fin du jeu. Et notre objectif est de concevoir des algorithmes qui nous permettront de former un modèle dans des conditions d'incertitude. Nous allons apprendre un algorithme de RL appelé Q-learning.

Leçons

  1. Introduction à l'apprentissage par renforcement et Q-Learning
  2. Utiliser un environnement de simulation gym

Crédits

"Introduction à l'apprentissage par renforcement" a été écrit avec ♥️ par Dmitry Soshnikov

Avertissement :
Ce document a été traduit à l'aide de services de traduction automatique basés sur l'IA. Bien que nous nous efforçons d'assurer l'exactitude, veuillez noter que les traductions automatiques peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue native doit être considéré comme la source autoritaire. Pour des informations critiques, une traduction humaine professionnelle est recommandée. Nous ne sommes pas responsables des malentendus ou des erreurs d'interprétation résultant de l'utilisation de cette traduction.