You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/no/8-Reinforcement
leestott 98900475bd
🌐 Update translations via Co-op Translator
3 weeks ago
..
1-QLearning 🌐 Update translations via Co-op Translator 3 weeks ago
2-Gym 🌐 Update translations via Co-op Translator 3 weeks ago
README.md 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

Introduksjon til forsterkende læring

Forsterkende læring, RL, regnes som en av de grunnleggende paradigmer innen maskinlæring, ved siden av veiledet læring og uveiledet læring. RL handler om beslutninger: å ta riktige beslutninger eller i det minste lære av dem.

Tenk deg at du har et simulert miljø, som aksjemarkedet. Hva skjer hvis du innfører en gitt regulering? Har det en positiv eller negativ effekt? Hvis noe negativt skjer, må du ta denne negative forsterkningen, lære av den og endre kurs. Hvis det er et positivt utfall, må du bygge videre på den positive forsterkningen.

Peter og ulven

Peter og vennene hans må unnslippe den sultne ulven! Bilde av Jen Looper

Regionalt tema: Peter og ulven (Russland)

Peter og ulven er et musikalsk eventyr skrevet av den russiske komponisten Sergej Prokofjev. Det er en historie om den unge pioneren Peter, som modig går ut av huset sitt til skogkanten for å jage ulven. I denne delen skal vi trene maskinlæringsalgoritmer som vil hjelpe Peter:

  • Utforske området rundt og bygge et optimalt navigasjonskart.
  • Lære å bruke et skateboard og balansere på det, for å bevege seg raskere rundt.

Peter og ulven

🎥 Klikk på bildet over for å høre Peter og ulven av Prokofjev

Forsterkende læring

I tidligere deler har du sett to eksempler på maskinlæringsproblemer:

  • Veiledet, der vi har datasett som foreslår eksempler på løsninger til problemet vi ønsker å løse. Klassifisering og regresjon er oppgaver innen veiledet læring.
  • Uveiledet, der vi ikke har merkede treningsdata. Hovedeksempelet på uveiledet læring er Clustering.

I denne delen vil vi introdusere deg for en ny type læringsproblem som ikke krever merkede treningsdata. Det finnes flere typer slike problemer:

  • Semi-veiledet læring, der vi har mye umerkede data som kan brukes til å forhåndstrene modellen.
  • Forsterkende læring, der en agent lærer hvordan den skal oppføre seg ved å utføre eksperimenter i et simulert miljø.

Eksempel - dataspill

Anta at du vil lære en datamaskin å spille et spill, som sjakk eller Super Mario. For at datamaskinen skal spille et spill, må den forutsi hvilken handling den skal ta i hver spilltilstand. Selv om dette kan virke som et klassifiseringsproblem, er det ikke det - fordi vi ikke har et datasett med tilstander og tilsvarende handlinger. Selv om vi kanskje har noen data, som eksisterende sjakkpartier eller opptak av spillere som spiller Super Mario, er det sannsynlig at disse dataene ikke dekker et stort nok antall mulige tilstander.

I stedet for å lete etter eksisterende spilldata, er Forsterkende læring (RL) basert på ideen om å få datamaskinen til å spille mange ganger og observere resultatet. For å bruke forsterkende læring trenger vi to ting:

  • Et miljø og en simulator som lar oss spille et spill mange ganger. Denne simulatoren vil definere alle spillregler samt mulige tilstander og handlinger.

  • En belønningsfunksjon, som forteller oss hvor godt vi gjorde det under hver handling eller spill.

Den største forskjellen mellom andre typer maskinlæring og RL er at i RL vet vi vanligvis ikke om vi vinner eller taper før vi er ferdige med spillet. Dermed kan vi ikke si om en bestemt handling alene er god eller ikke - vi mottar bare en belønning ved slutten av spillet. Målet vårt er å designe algoritmer som lar oss trene en modell under usikre forhold. Vi skal lære om en RL-algoritme kalt Q-læring.

Leksjoner

  1. Introduksjon til forsterkende læring og Q-læring
  2. Bruke et gymsimuleringsmiljø

Kreditering

"Introduksjon til forsterkende læring" ble skrevet med ♥️ av Dmitry Soshnikov


Ansvarsfraskrivelse:
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten Co-op Translator. Selv om vi streber etter nøyaktighet, vær oppmerksom på at automatiserte oversettelser kan inneholde feil eller unøyaktigheter. Det originale dokumentet på sitt opprinnelige språk bør anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.