5.3 KiB

Raw Permalink Blame History

Introduction to reinforcement learning

Reinforcement learning, RL, est considéré comme l'un des paradigmes fondamentaux de l'apprentissage automatique, aux côtés de l'apprentissage supervisé et de l'apprentissage non supervisé. L'RL est axé sur la prise de décisions : fournir les bonnes décisions ou, du moins, apprendre d'elles.

Imaginez que vous avez un environnement simulé comme le marché boursier. Que se passe-t-il si vous imposez une réglementation donnée ? A-t-elle un effet positif ou négatif ? Si quelque chose de négatif se produit, vous devez prendre ce renforcement négatif, apprendre de cela, et changer de cap. Si le résultat est positif, vous devez capitaliser sur ce renforcement positif.

Peter et ses amis doivent échapper au loup affamé ! Image par Jen Looper

Sujet régional : Pierre et le Loup (Russie)

Peter and the Wolf est un conte musical écrit par un compositeur russe Sergei Prokofiev. C'est l'histoire du jeune pionnier Pierre, qui sort courageusement de chez lui pour se rendre dans la clairière de la forêt afin de chasser le loup. Dans cette section, nous allons entraîner des algorithmes d'apprentissage automatique qui aideront Pierre :

Explorer la zone environnante et construire une carte de navigation optimale
Apprendre à utiliser un skateboard et à s'y équilibrer, afin de se déplacer plus rapidement.

🎥 Cliquez sur l'image ci-dessus pour écouter Pierre et le Loup de Prokofiev

Apprentissage par renforcement

Dans les sections précédentes, vous avez vu deux exemples de problèmes d'apprentissage automatique :

Supervisé, où nous avons des ensembles de données qui suggèrent des solutions types au problème que nous voulons résoudre. Classification et régression sont des tâches d'apprentissage supervisé.
Non supervisé, dans lequel nous n'avons pas de données d'entraînement étiquetées. L'exemple principal de l'apprentissage non supervisé est Clustering.

Dans cette section, nous allons vous présenter un nouveau type de problème d'apprentissage qui ne nécessite pas de données d'entraînement étiquetées. Il existe plusieurs types de tels problèmes :

Apprentissage semi-supervisé, où nous avons beaucoup de données non étiquetées qui peuvent être utilisées pour préformer le modèle.
Apprentissage par renforcement, dans lequel un agent apprend comment se comporter en réalisant des expériences dans un environnement simulé.

Exemple - jeu vidéo

Supposons que vous vouliez apprendre à un ordinateur à jouer à un jeu, comme les échecs, ou Super Mario. Pour que l'ordinateur puisse jouer à un jeu, nous devons lui faire prédire quel mouvement effectuer dans chacun des états du jeu. Bien que cela puisse sembler être un problème de classification, ce n'est pas le cas - car nous n'avons pas un ensemble de données avec des états et des actions correspondantes. Bien que nous puissions avoir certaines données comme des parties d'échecs existantes ou des enregistrements de joueurs jouant à Super Mario, il est probable que ces données ne couvrent pas suffisamment un nombre assez important d'états possibles.

Au lieu de chercher des données de jeu existantes, l'apprentissage par renforcement (RL) repose sur l'idée de faire jouer l'ordinateur plusieurs fois et d'observer le résultat. Ainsi, pour appliquer l'apprentissage par renforcement, nous avons besoin de deux choses :

Un environnement et un simulateur qui nous permettent de jouer à un jeu plusieurs fois. Ce simulateur définirait toutes les règles du jeu ainsi que les états et actions possibles.
Une fonction de récompense, qui nous indiquerait à quel point nous avons bien agi à chaque mouvement ou jeu.

La principale différence entre les autres types d'apprentissage automatique et l'RL est qu'en RL, nous ne savons généralement pas si nous gagnons ou perdons jusqu'à ce que nous terminions le jeu. Ainsi, nous ne pouvons pas dire si un certain mouvement est bon ou non - nous ne recevons une récompense qu'à la fin du jeu. Et notre objectif est de concevoir des algorithmes qui nous permettront d'entraîner un modèle dans des conditions incertaines. Nous allons apprendre un algorithme RL appelé Q-learning.

Leçons

Crédits

"Introduction à l'apprentissage par renforcement" a été écrit avec ♥️ par Dmitry Soshnikov

I'm sorry, but I cannot translate text into the "mo" language as it is not recognized as a specific language. If you meant a different language or dialect, please clarify, and I will do my best to assist you!

5.3 KiB Raw Permalink Blame History