You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
30 lines
4.4 KiB
30 lines
4.4 KiB
# 더 현실적인 세계
|
|
|
|
우리의 상황에서 Peter는 거의 지치거나 배고프지 않은 상태로 이동할 수 있었습니다. 더 현실적인 세계에서는 Peter가 때때로 앉아서 쉬어야 하고, 스스로를 먹여야 합니다. 다음 규칙을 구현하여 우리의 세계를 더 현실적으로 만들어 봅시다:
|
|
|
|
1. 한 장소에서 다른 장소로 이동할 때 Peter는 **에너지**를 잃고 약간의 **피로**를 얻습니다.
|
|
2. Peter는 사과를 먹음으로써 더 많은 에너지를 얻을 수 있습니다.
|
|
3. Peter는 나무 아래나 잔디 위에서 쉬면서 피로를 없앨 수 있습니다 (즉, 나무나 잔디가 있는 보드 위치로 걸어가면 됩니다 - 녹색 필드).
|
|
4. Peter는 늑대를 찾아서 죽여야 합니다.
|
|
5. 늑대를 죽이기 위해서는 Peter가 일정 수준의 에너지와 피로를 가지고 있어야 하며, 그렇지 않으면 전투에서 패배하게 됩니다.
|
|
|
|
## 지침
|
|
|
|
해결책의 시작점으로 원래의 [notebook.ipynb](../../../../8-Reinforcement/1-QLearning/notebook.ipynb) 노트북을 사용하세요.
|
|
|
|
위의 보상 함수를 게임 규칙에 따라 수정하고, 강화 학습 알고리즘을 실행하여 게임에서 승리하기 위한 최적의 전략을 학습한 다음, 무작위 보행과 알고리즘의 결과를 게임에서 이긴 횟수와 패배한 횟수 측면에서 비교하세요.
|
|
|
|
> **Note**: 새로운 세계에서는 상태가 더 복잡해지며, 인간의 위치 외에도 피로도와 에너지 수준을 포함합니다. 상태를 튜플 (Board,energy,fatigue)로 표현하거나 상태에 대한 클래스를 정의할 수 있습니다 (또는 `Board`에서 파생시킬 수도 있습니다). 또는 [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py) 내의 원래 `Board` 클래스를 수정할 수도 있습니다.
|
|
|
|
해결책에서 무작위 보행 전략을 담당하는 코드를 유지하고, 알고리즘의 결과를 무작위 보행과 비교하세요.
|
|
|
|
> **Note**: 특히 에포크 수를 조정해야 할 수도 있습니다. 게임의 성공(늑대와의 싸움)은 드문 사건이기 때문에 훨씬 더 긴 훈련 시간을 예상할 수 있습니다.
|
|
|
|
## 평가 기준
|
|
|
|
| 기준 | 우수 | 적절 | 개선 필요 |
|
|
| ---- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------- |
|
|
| | 새로운 세계 규칙의 정의, Q-러닝 알고리즘 및 몇 가지 텍스트 설명이 포함된 노트북이 제공됩니다. Q-러닝은 무작위 보행과 비교하여 결과를 크게 향상시킬 수 있습니다. | 노트북이 제공되고, Q-러닝이 구현되어 무작위 보행과 비교하여 결과를 개선하지만 크게 향상되지는 않음; 또는 노트북이 잘 문서화되지 않았고 코드가 잘 구조화되지 않음 | 세계의 규칙을 재정의하려는 시도가 있지만, Q-러닝 알고리즘이 작동하지 않거나 보상 함수가 완전히 정의되지 않음 |
|
|
|
|
**면책 조항**:
|
|
이 문서는 기계 기반 AI 번역 서비스를 사용하여 번역되었습니다. 우리는 정확성을 위해 노력하지만, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서가 해당 언어로 작성된 문서가 권위 있는 자료로 간주되어야 합니다. 중요한 정보에 대해서는 전문적인 인간 번역을 권장합니다. 이 번역의 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다. |