From df153b7cd1d7dd8e53a94ce4c8b359de9d852491 Mon Sep 17 00:00:00 2001
From: Colin Zang <zyy0116@gmail.com>
Date: Fri, 16 Jul 2021 22:44:19 +0800
Subject: [PATCH 1/2] Update README.zh-cn.md

---
 translations/README.zh-cn.md | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/translations/README.zh-cn.md b/translations/README.zh-cn.md
index f46a50d6c..dfe0760cc 100644
--- a/translations/README.zh-cn.md
+++ b/translations/README.zh-cn.md
@@ -29,11 +29,11 @@
 
 - 从课前测验开始
 - 阅读课程内容，完成所有的活动，在每次 knowledge check 时暂停并思考
-- 我们建议你基于理解来创建项目（而不是仅仅跑一遍示例代码）示例代码的位置在每一个项目的 `/solution` 文件夹中。
+- 我们建议你基于理解来创建项目（而不是仅仅跑一遍示例代码）。示例代码的位置在每一个项目的 `/solution` 文件夹中。
 - 进行课后测验
 - 完成课程挑战
 - 完成作业
-- 一节课完成后, 访问[讨论版](https://github.com/microsoft/ML-For-Beginners/discussions)，通过天蝎相应的 PAT Rubric (课程目标)来深化自己的学习成果。你也可以回应其它的 PAT，这样我们可以一起学习。
+- 一节课完成后, 访问[讨论版](https://github.com/microsoft/ML-For-Beginners/discussions)，通过填写相应的 PAT Rubric (课程目标) 来深化自己的学习成果。你也可以回应其它的 PAT，这样我们可以一起学习。
 
 > 如果希望进一步学习，我们推荐跟随 [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/k7o7tg1gp306q4?WT.mc_id=academic-15963-cxa) 的模块和学习路径。
 
@@ -52,7 +52,7 @@
 
 此课程基于两个教学原则：学生应该上手进行**项目实践**，并完成**频繁的测验**。 此外，为了使整个课程更具有整体性，课程们有一个共同的**主题**。
 
-通过确保课程内容与项目强相关，我们让学习过程对学生更具吸引力，概念的学习也被深化了。难度较低的课前测验可以吸引学生学习课程，课后的第二次测验进一步重复了课堂中的概念。该课程被设计地灵活有趣，可以一次性全部学习，或者分开来一部分一部分学习。这些项目由浅入深，从第一周的的小项目开始，在第十二周的周期结束时变得较为复杂。本课程还包括一个关于机器学习实际应用的后记，可用作额外学分或讨论的基础。
+通过确保课程内容与项目强相关，我们让学习过程对学生更具吸引力，概念的学习也被深化了。难度较低的课前测验可以吸引学生学习课程，而课后的第二次测验也进一步重复了课堂中的概念。该课程被设计地灵活有趣，可以一次性全部学习，或者分开来一部分一部分学习。这些项目由浅入深，从第一周的小项目开始，在第十二周结束时变得较为复杂。本课程还包括一个关于机器学习实际应用的后记，可用作额外学分或进一步讨论的基础。
 
 > 在这里，你可以找到我们的[行为守则](../CODE_OF_CONDUCT.md)，[对项目作出贡献](../CONTRIBUTING.md)以及[翻译](../TRANSLATIONS.md)指南。我们欢迎各位提出有建设性的反馈！
 

From b217dddc18a78e712be6c3cb66121417f1170b30 Mon Sep 17 00:00:00 2001
From: Colin Zang <zyy0116@gmail.com>
Date: Fri, 16 Jul 2021 23:21:17 +0800
Subject: [PATCH 2/2] Create README.zh-cn.md

---
 8-Reinforcement/translations/README.zh-cn.md | 53 ++++++++++++++++++++
 1 file changed, 53 insertions(+)
 create mode 100644 8-Reinforcement/translations/README.zh-cn.md

diff --git a/8-Reinforcement/translations/README.zh-cn.md b/8-Reinforcement/translations/README.zh-cn.md
new file mode 100644
index 000000000..25a53cfc3
--- /dev/null
+++ b/8-Reinforcement/translations/README.zh-cn.md
@@ -0,0 +1,53 @@
+# 强化学习简介
+
+强化学习 (RL, Reinforcement Learning)，是基本的机器学习范式之一（仅次于监督学习 (Supervised Learning) 和无监督学习(Unsupervised Learning)）。强化学习和「策略」息息相关：它应当产生正确的策略，或从错误的策略中学习。
+
+假设有一个模拟环境，比如说股市。当我们用某一个规则来限制这个市场时，会发生什么？这个规则（或者说策略）有积极或消极的影响吗？如果它的影响是正面的，我们需要从这种_负面强化_中学习，改变我们的策略。如果它的影响是正面的，我们需要在这种_积极强化_的基础上再进一步发展。
+
+![彼得和狼](../images/peter.png)
+
+> 彼得和他的朋友们得从饥饿的狼这儿逃掉！图片来自 [Jen Looper](https://twitter.com/jenlooper)
+
+## 本节主题：彼得与狼（俄罗斯）
+
+[彼得与狼](https://en.wikipedia.org/wiki/Peter_and_the_Wolf) 是俄罗斯作曲家[谢尔盖·普罗科菲耶夫](https://en.wikipedia.org/wiki/Sergei_Prokofiev)创作的音乐童话。它讲述了彼得勇敢地走出家门，到森林中央追逐狼的故事。在本节中，我们将训练帮助 Peter 追狼的机器学习算法：
+
+- **探索**周边区域并构建最佳地图
+- **学习**如何使用滑板并在滑板上保持平衡，以便更快地移动。
+
+[![彼得和狼](https://img.youtube.com/vi/Fmi5zHg4QSM/0.jpg)](https://www.youtube.com/watch?v=Fmi5zHg4QSM)
+
+> 🎥 点击上面的图片，听普罗科菲耶夫的《彼得与狼》
+
+## 强化学习
+
+在前面的部分中，您已经看到了两类机器学习问题的例子：
+
+- **监督**，在有已经标记的，暗含解决方案的数据集的情况下。 [分类](../../4-Classification/README.md) 和 [回归](../../2-Regression/README.md) 是监督学习任务。
+- **无监督**，在我们没有标记训练数据集的情况下。无监督学习的主要例子是 [聚类](../../5-Clustering/README.md)。
+
+在本节中，我们将学习一类新的机器学习问题，它不需要已经标记的训练数据 —— 比如这两类问题：
+
+- **[半监督学习](https://wikipedia.org/wiki/Semi-supervised_learning)**，在我们有很多未标记的、可以用来预训练模型的数据的情况下。
+- **[强化学习](https://wikipedia.org/wiki/Reinforcement_learning)**，在这种方法中，机器通过在某种模拟环境中进行实验来学习最佳策略。
+
+### 示例 - 电脑游戏
+
+假设我们要教会计算机玩某一款游戏 —— 例如国际象棋，或者 [超级马里奥](https://wikipedia.org/wiki/Super_Mario)。为了让计算机学会玩游戏，我们需要它预测在每个游戏「状态」下，它应该做什么「操作」。虽然这看起来像是一个分类问题，但事实并非如此，因为我们并没有像这样的，包含「状态」和状态对应的「操作」的数据集。我们只有一些有限的数据，比如来自国际象棋比赛的记录，或者是玩家玩超级马里奥的记录。这些数据可能无法涵盖足够多的「状态」。
+
+不同于这种需要大量现有的数据的方法，**强化学习**是基于*让计算机多次玩*并观察玩的结果的想法。因此，要使用强化学习方法，我们需要两个要素：
+
+- **环境**和**模拟器**，它们允许我们多次玩游戏。该模拟器应该定义所有游戏规则，以及可能的状态和动作。
+
+- **奖励函数**，它会告诉我们每个每一步（或者每局游戏）的表现如何。
+
+其他类型的机器学习和强化学习 (RL) 之间的主要区别在于，在 RL 中，我们通常在完成游戏之前，都不知道我们是赢还是输。因此，我们不能说单独的某个动作是不是「好」的 - 我们只会在游戏结束时获得奖励。我们的目标是设计算法，使我们能够在这种不确定的条件下训练模型。我们将了解一种称为 **Q-learning** 的 RL 算法。
+
+## 课程
+
+1.【强化学习和 Q-Learning 介绍】(1-QLearning/README.md)
+2.【使用 Gym 模拟环境】(2-Gym/README.md)
+
+## 本文作者
+
+“强化学习简介” 由 [Dmitry Soshnikov](http://soshnikov.com) 用 ♥️ 编写
\ No newline at end of file