5.4 KiB

Raw Permalink Blame History

Introductie tot reinforcement learning

Reinforcement learning, RL, wordt gezien als een van de fundamentele machine learning paradigma's, naast supervised learning en unsupervised learning. RL draait om beslissingen: het nemen van de juiste beslissingen of er in ieder geval van leren.

Stel je een gesimuleerde omgeving voor, zoals de aandelenmarkt. Wat gebeurt er als je een bepaalde regelgeving oplegt? Heeft het een positief of negatief effect? Als er iets negatiefs gebeurt, moet je deze negatieve versterking gebruiken, ervan leren en van koers veranderen. Als het een positief resultaat is, moet je voortbouwen op die positieve versterking.

Peter en zijn vrienden moeten ontsnappen aan de hongerige wolf! Afbeelding door Jen Looper

Regionaal thema: Peter en de Wolf (Rusland)

Peter en de Wolf is een muzikaal sprookje geschreven door de Russische componist Sergei Prokofiev. Het is een verhaal over de jonge pionier Peter, die dapper zijn huis verlaat om in de bosweide de wolf te achtervolgen. In deze sectie zullen we machine learning-algoritmes trainen die Peter kunnen helpen:

Verkennen van de omgeving en het bouwen van een optimale navigatiekaart.
Leren hoe hij een skateboard kan gebruiken en erop kan balanceren, zodat hij zich sneller kan verplaatsen.

🎥 Klik op de afbeelding hierboven om te luisteren naar Peter en de Wolf van Prokofiev.

Reinforcement learning

In eerdere secties heb je twee voorbeelden van machine learning-problemen gezien:

Supervised, waarbij we datasets hebben die voorbeeldoplossingen suggereren voor het probleem dat we willen oplossen. Classificatie en regressie zijn supervised learning taken.
Unsupervised, waarbij we geen gelabelde trainingsdata hebben. Het belangrijkste voorbeeld van unsupervised learning is Clustering.

In deze sectie introduceren we een nieuw type leerprobleem dat geen gelabelde trainingsdata vereist. Er zijn verschillende soorten van dergelijke problemen:

Semi-supervised learning, waarbij we veel niet-gelabelde data hebben die kan worden gebruikt om het model vooraf te trainen.
Reinforcement learning, waarbij een agent leert hoe hij zich moet gedragen door experimenten uit te voeren in een gesimuleerde omgeving.

Voorbeeld - computerspel

Stel dat je een computer wilt leren een spel te spelen, zoals schaken of Super Mario. Om de computer een spel te laten spelen, moeten we hem laten voorspellen welke zet hij moet doen in elke spelstatus. Hoewel dit misschien een classificatieprobleem lijkt, is het dat niet - omdat we geen dataset hebben met statussen en bijbehorende acties. Hoewel we mogelijk gegevens hebben zoals bestaande schaakpartijen of opnames van spelers die Super Mario spelen, is het waarschijnlijk dat die gegevens niet voldoende een groot aantal mogelijke statussen dekken.

In plaats van te zoeken naar bestaande spelgegevens, is Reinforcement Learning (RL) gebaseerd op het idee van de computer vaak laten spelen en het resultaat observeren. Om Reinforcement Learning toe te passen, hebben we twee dingen nodig:

Een omgeving en een simulator die ons in staat stellen een spel vaak te spelen. Deze simulator zou alle spelregels evenals mogelijke statussen en acties definiëren.
Een beloningsfunctie, die ons vertelt hoe goed we het hebben gedaan tijdens elke zet of elk spel.

Het belangrijkste verschil tussen andere soorten machine learning en RL is dat we bij RL meestal niet weten of we winnen of verliezen totdat we het spel hebben voltooid. We kunnen dus niet zeggen of een bepaalde zet op zichzelf goed is of niet - we ontvangen pas een beloning aan het einde van het spel. Ons doel is om algoritmes te ontwerpen die ons in staat stellen een model te trainen onder onzekere omstandigheden. We zullen leren over een RL-algoritme genaamd Q-learning.

Lessen

Credits

"Introductie tot Reinforcement Learning" is geschreven met ♥️ door Dmitry Soshnikov

Disclaimer:
Dit document is vertaald met behulp van de AI-vertalingsservice Co-op Translator. Hoewel we ons best doen om nauwkeurigheid te garanderen, dient u zich ervan bewust te zijn dat geautomatiseerde vertalingen fouten of onnauwkeurigheden kunnen bevatten. Het originele document in zijn oorspronkelijke taal moet worden beschouwd als de gezaghebbende bron. Voor kritieke informatie wordt professionele menselijke vertaling aanbevolen. Wij zijn niet aansprakelijk voor misverstanden of verkeerde interpretaties die voortvloeien uit het gebruik van deze vertaling.

5.4 KiB Raw Permalink Blame History