|
|
|
@ -234,3 +234,23 @@ ID3算法:
|
|
|
|
|
5. 否则,对Ag的每一个可能值ai,依将D分割为若干非空子集Di,将Di中实例最大的类作为标记,构建子节点,由节点及其子节点构成树T,返回T;
|
|
|
|
|
6. 对第i个子节点,以Di为训练集,以A - {Ag}为特征集,递归地调用1~5步,得到树Ti,返回Ti。
|
|
|
|
|
|
|
|
|
|
C4.5算法,大体相同,只不过计算的是信息增益比,而不是信息增益。我们通常也是用C4.5作为决策树的算法,其区别也就在于多了个分母。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
### 总结
|
|
|
|
|
|
|
|
|
|
Summarization
|
|
|
|
|
|
|
|
|
|
1. 决策树的核心思想:以树结构为基础,每个节点对某特征进行判断,进入分支,直到到达叶节点。
|
|
|
|
|
|
|
|
|
|
2. 决策树构造的核心思想:让信息熵快速下降,从而达到最少的判断次数获得标签。
|
|
|
|
|
|
|
|
|
|
3. 判断信息熵下降速度的方法:信息增益。
|
|
|
|
|
|
|
|
|
|
4. 构建决策树算法:ID3(使用信息增益)、C4.5(使用使用信息增益比)。
|
|
|
|
|
|
|
|
|
|
5. 信息增益会导致节点偏向选取取值角度的特征的问题。
|
|
|
|
|
|
|
|
|
|
> 关于第5点的补充,统计学习和西瓜书都是给的这个解释,但还有另一种解释,就是信息增益导致大数问题——>概率是否准确的问题。
|
|
|
|
|
|
|
|
|
|