You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/sk/8-Reinforcement/2-Gym/assignment.md

55 lines
3.4 KiB

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "1f2b7441745eb52e25745423b247016b",
"translation_date": "2025-09-05T16:48:19+00:00",
"source_file": "8-Reinforcement/2-Gym/assignment.md",
"language_code": "sk"
}
-->
# Trénovanie Mountain Car
[OpenAI Gym](http://gym.openai.com) je navrhnutý tak, že všetky prostredia poskytujú rovnaké API - teda rovnaké metódy `reset`, `step` a `render`, a rovnaké abstrakcie **akčného priestoru** a **pozorovacieho priestoru**. Preto by malo byť možné prispôsobiť rovnaké algoritmy posilneného učenia rôznym prostrediam s minimálnymi zmenami kódu.
## Prostredie Mountain Car
[Prostredie Mountain Car](https://gym.openai.com/envs/MountainCar-v0/) obsahuje auto uviaznuté v údolí:
Cieľom je dostať sa z údolia a zachytiť vlajku, pričom na každom kroku vykonáte jednu z nasledujúcich akcií:
| Hodnota | Význam |
|---|---|
| 0 | Zrýchliť doľava |
| 1 | Nezrýchľovať |
| 2 | Zrýchliť doprava |
Hlavný trik tohto problému však spočíva v tom, že motor auta nie je dostatočne silný na to, aby vyšiel na horu na jeden pokus. Jediný spôsob, ako uspieť, je jazdiť tam a späť, aby sa získala hybnosť.
Pozorovací priestor pozostáva len z dvoch hodnôt:
| Číslo | Pozorovanie | Min | Max |
|-----|--------------|-----|-----|
| 0 | Poloha auta | -1.2| 0.6 |
| 1 | Rýchlosť auta | -0.07 | 0.07 |
Systém odmien pre Mountain Car je pomerne zložitý:
* Odmena 0 sa udeľuje, ak agent dosiahne vlajku (poloha = 0.5) na vrchole hory.
* Odmena -1 sa udeľuje, ak je poloha agenta menšia ako 0.5.
Epizóda sa ukončí, ak je poloha auta väčšia ako 0.5, alebo ak dĺžka epizódy presiahne 200.
## Pokyny
Prispôsobte náš algoritmus posilneného učenia na riešenie problému Mountain Car. Začnite s existujúcim kódom [notebook.ipynb](../../../../8-Reinforcement/2-Gym/notebook.ipynb), nahraďte nové prostredie, zmeňte funkcie na diskretizáciu stavu a pokúste sa upraviť existujúci algoritmus tak, aby sa trénoval s minimálnymi úpravami kódu. Optimalizujte výsledok úpravou hyperparametrov.
> **Poznámka**: Úprava hyperparametrov bude pravdepodobne potrebná na dosiahnutie konvergencie algoritmu.
## Hodnotenie
| Kritérium | Vynikajúce | Dostatočné | Potrebuje zlepšenie |
| --------- | ---------- | ---------- | ------------------- |
| | Algoritmus Q-Learning je úspešne prispôsobený z príkladu CartPole s minimálnymi úpravami kódu, ktorý dokáže vyriešiť problém zachytenia vlajky do 200 krokov. | Bol prijatý nový algoritmus Q-Learning z internetu, ale je dobre zdokumentovaný; alebo bol prijatý existujúci algoritmus, ale nedosahuje požadované výsledky. | Študent nebol schopný úspešne prijať žiadny algoritmus, ale urobil podstatné kroky k riešeniu (implementoval diskretizáciu stavu, dátovú štruktúru Q-Table, atď.) |
---
**Upozornenie**:
Tento dokument bol preložený pomocou služby AI prekladu [Co-op Translator](https://github.com/Azure/co-op-translator). Hoci sa snažíme o presnosť, prosím, berte na vedomie, že automatizované preklady môžu obsahovať chyby alebo nepresnosti. Pôvodný dokument v jeho pôvodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie sa odporúča profesionálny ľudský preklad. Nenesieme zodpovednosť za akékoľvek nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.