Add. Summarization

5 years ago · 087c36b594
parent 464f107928
commit 087c36b594
1 changed files with 20 additions and 0 deletions
--- a/机器学习算法理论及应用/李航——统计学习方法/5.决策树——每次选一边.md
+++ b/机器学习算法理论及应用/李航——统计学习方法/5.决策树——每次选一边.md
@ -234,3 +234,23 @@ ID3算法：
  5. 否则，对Ag的每一个可能值ai，依![1618750408613](assets/1618750408613.png)将D分割为若干非空子集Di，将Di中实例最大的类作为标记，构建子节点，由节点及其子节点构成树T，返回T；
  6. 对第i个子节点，以Di为训练集，以A - {Ag}为特征集，递归地调用1~5步，得到树Ti，返回Ti。

+C4.5算法，大体相同，只不过计算的是信息增益比，而不是信息增益。我们通常也是用C4.5作为决策树的算法，其区别也就在于多了个分母。
+
+
+
+### 总结
+
+Summarization
+
+1. 决策树的核心思想：以树结构为基础，每个节点对某特征进行判断，进入分支，直到到达叶节点。
+
+2. 决策树构造的核心思想：让信息熵快速下降，从而达到最少的判断次数获得标签。
+
+3. 判断信息熵下降速度的方法：信息增益。
+
+4. 构建决策树算法：ID3（使用信息增益）、C4.5（使用使用信息增益比）。
+
+5. 信息增益会导致节点偏向选取取值角度的特征的问题。
+
+   > 关于第5点的补充，统计学习和西瓜书都是给的这个解释，但还有另一种解释，就是信息增益导致大数问题——>概率是否准确的问题。
+