4.4 KiB

Raw Permalink Blame History

더 현실적인 세계

우리의 상황에서 Peter는 거의 지치거나 배고프지 않은 상태로 이동할 수 있었습니다. 더 현실적인 세계에서는 Peter가 때때로 앉아서 쉬어야 하고, 스스로를 먹여야 합니다. 다음 규칙을 구현하여 우리의 세계를 더 현실적으로 만들어 봅시다:

한 장소에서 다른 장소로 이동할 때 Peter는 에너지를 잃고 약간의 피로를 얻습니다.
Peter는 사과를 먹음으로써 더 많은 에너지를 얻을 수 있습니다.
Peter는 나무 아래나 잔디 위에서 쉬면서 피로를 없앨 수 있습니다 (즉, 나무나 잔디가 있는 보드 위치로 걸어가면 됩니다 - 녹색 필드).
Peter는 늑대를 찾아서 죽여야 합니다.
늑대를 죽이기 위해서는 Peter가 일정 수준의 에너지와 피로를 가지고 있어야 하며, 그렇지 않으면 전투에서 패배하게 됩니다.

지침

해결책의 시작점으로 원래의 notebook.ipynb 노트북을 사용하세요.

위의 보상 함수를 게임 규칙에 따라 수정하고, 강화 학습 알고리즘을 실행하여 게임에서 승리하기 위한 최적의 전략을 학습한 다음, 무작위 보행과 알고리즘의 결과를 게임에서 이긴 횟수와 패배한 횟수 측면에서 비교하세요.

Note: 새로운 세계에서는 상태가 더 복잡해지며, 인간의 위치 외에도 피로도와 에너지 수준을 포함합니다. 상태를 튜플 (Board,energy,fatigue)로 표현하거나 상태에 대한 클래스를 정의할 수 있습니다 (또는 Board에서 파생시킬 수도 있습니다). 또는 rlboard.py 내의 원래 Board 클래스를 수정할 수도 있습니다.

해결책에서 무작위 보행 전략을 담당하는 코드를 유지하고, 알고리즘의 결과를 무작위 보행과 비교하세요.

Note: 특히 에포크 수를 조정해야 할 수도 있습니다. 게임의 성공(늑대와의 싸움)은 드문 사건이기 때문에 훨씬 더 긴 훈련 시간을 예상할 수 있습니다.

평가 기준

기준	우수	적절	개선 필요
	새로운 세계 규칙의 정의, Q-러닝 알고리즘 및 몇 가지 텍스트 설명이 포함된 노트북이 제공됩니다. Q-러닝은 무작위 보행과 비교하여 결과를 크게 향상시킬 수 있습니다.	노트북이 제공되고, Q-러닝이 구현되어 무작위 보행과 비교하여 결과를 개선하지만 크게 향상되지는 않음; 또는 노트북이 잘 문서화되지 않았고 코드가 잘 구조화되지 않음	세계의 규칙을 재정의하려는 시도가 있지만, Q-러닝 알고리즘이 작동하지 않거나 보상 함수가 완전히 정의되지 않음

면책 조항: 이 문서는 기계 기반 AI 번역 서비스를 사용하여 번역되었습니다. 우리는 정확성을 위해 노력하지만, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서가 해당 언어로 작성된 문서가 권위 있는 자료로 간주되어야 합니다. 중요한 정보에 대해서는 전문적인 인간 번역을 권장합니다. 이 번역의 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다.

4.4 KiB Raw Permalink Blame History

더 현실적인 세계

지침

평가 기준

4.4 KiB

Raw Permalink Blame History