From c3643829ccfa1f56a78a375aca28235a6a499e0a Mon Sep 17 00:00:00 2001 From: benjas <909336740@qq.com> Date: Tue, 6 Apr 2021 16:17:45 +0800 Subject: [PATCH] =?UTF-8?q?Create=201.=E7=BB=9F=E8=AE=A1=E5=AD=A6=E4=B9=A0?= =?UTF-8?q?=E6=96=B9=E6=B3=95=E6=A6=82=E8=AE=BA.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../1.统计学习方法概论.md | 245 ++++++++++++++++++ 1 file changed, 245 insertions(+) create mode 100644 机器学习算法理论及应用/李航——统计学习方法/1.统计学习方法概论.md diff --git a/机器学习算法理论及应用/李航——统计学习方法/1.统计学习方法概论.md b/机器学习算法理论及应用/李航——统计学习方法/1.统计学习方法概论.md new file mode 100644 index 0000000..6951c17 --- /dev/null +++ b/机器学习算法理论及应用/李航——统计学习方法/1.统计学习方法概论.md @@ -0,0 +1,245 @@ +# 统计学习方法概论 + +### 知识树 + +![1617682217280](assets/1617682217280.png) + +> 苹果表示比较重要的 + + + +### 监督学习 + +Supervised learning + +#### 监督学习的实现步骤: + +1. 得到一个有限的训练数据集合 +2. 确定模型的假设空间,也就是所有的备选模型 +3. 确定模型选择的准则,即学习策略 +4. 实现求解最优模型的算法 +5. 通过学习方法选择最优模型 +6. 利用学习的最优模型对新数据进行预测或分析 + +![1617682530100](assets/1617682530100.png) + +> 告诉它哪些东西是好的,哪些东西是坏的,它依据这些来学习 + +比如下面的例子: + +![1617682680722](assets/1617682680722.png) + +> 根据是否招女孩子喜欢的一些特征,来推导其它未知的数据是否招女孩子喜欢,而无监督学习是没有是否招女孩子喜欢这个标签,可能会采取一些聚类的方法,比如把身高聚的时候,高的一堆,矮的一堆,成绩高的一堆低的一堆,以得到类似的结果。 + +按照常理来讲有监督学习肯定比无监督学习好,但现实生活中,有监督学习需要标注,也就是要大量的人力成本,而无监督数据的获取往往是最低成本的。 + + + +### 统计学习三要素 + +Element of statistical learning + +#### 模型(假设空间) + +> 假设所有的点都在空间中,每个点是一个模型或者函数 + +决策函数:![1617683176867](assets/1617683176867.png) + +> f(x):把所有的函数假设为f(x) +> +> θ:f(x)里头的参数,用来确定模型 + +条件概率分布:![1617683208582](assets/1617683208582.png) + +策略: + +> 怎么确定θ的参数,让模型知道是否预测错了,错的偏差有多大 + +0-1损失函数 + +![1617683506221](assets/1617683506221.png) + +> 预测相同为0,否则为1,得继续努力,但这样有个很明显的缺陷,就是它只知道错了,但是不知道错在哪里 + +平方损失函数 + +![1617683522014](assets/1617683522014.png) + +> 弥补上面的缺陷,告诉它差距有多大,相等则不需要 + +绝对损失函数 + +![1617683540364](assets/1617683540364.png) + +> 防止小于0的情况,即Y-f(x)小于0,相当于非常非常好,这显然是不对的,所以加入绝对值,要么大于0,要么小于0 + +对数损失函数 + +![1617683559768](assets/1617683559768.png) + +> 让为0的概率越来越大,让为1的概率越来越小 + +经验风险最小化: + +![1617691844212](assets/1617691844212.png) + +> 对每个样本跑一遍,将所有的loss平均计算,loss越大表示离真实的越大,loss越小说明里真实越接近,模型也越好 + +结构风险最小化: + +![1617691949906](assets/1617691949906.png) + +> 加入正则项,防止过拟合,也就是模型过于复杂,过于只适合当前数据,导致预测其它数据的时候很差(泛化能力)。 + +算法:挑选一个合适的算法,使得可以求解最优模型 + + + +### 模型评估与选择 + +Model evaluation and model selection + +训练误差: + +![1617692106744](assets/1617692106744.png) + +> 对所有训练数据的结果做一个平均,误差越大模型可能越大。但如果以训练集来评估,就想考试一样,如果考试题目平时已经见过,当然能做出来,要解决的是平均没见过的类似题目。 + +测试误差: + +![1617692141368](assets/1617692141368.png) + +> 利用测试集去测试模型的训练情况。 + +验证集:我们通常来讲,会挑选测试集表现最好的,但是也有总可能就是测试集刚好和训练集的“题目”类似,那它当然能表现的好,这时候就需要引入验证集。我们一般选择验证集表现最好的模型。 + +多项式拟合问题: + +![1617692653540](assets/1617692653540.png) + +> 左上欠拟合严重,右上欠拟合,左下拟合正常,右下过拟合。实际中怎么判断过拟合,即训练集上误差非常低,但是在其它数据集上的误差非常高,一般就是过拟合。 + + + +### 正则化与交叉验证 + +Regularization and cross validation + +防止过拟合 + +最小化结构风险: + +![1617692872918](assets/1617692872918.png) + +交叉验证: + +数据集随机划分为以下3部分: + +- 训练集:模型的训练 +- 测试集:模型的选择 +- 验证集:模型的评估 + +![1617692942593](assets/1617692942593.png) + + + +### 泛化能力 + +Generalization ability + +定理1.1泛化误差上界 + +对于二分类问题,当假设空间是有限个函数的集合F = {f1,f2,...,fd}时,对任意一个函数f ∈ F,至少以概率1 - δ,以下不等式成立:![1617693142642](assets/1617693142642.png) + +其中, + +![1617693201106](assets/1617693201106.png) + +> 即以某种依据来确定模型是否具备泛化能力。但现实生活中这个是非常难实现的,问题在于有限个,而这个有限,在我们实际操作中是不可能知道是有限个的。 + + + +### 生成模型与判别模型 + +Generative model and discriminant model + +生成方法:![1617695077923](assets/1617695077923.png) + +> P(Y|X):表示PX条件下,Y的概率 + +判别方法:![1617695090214](assets/1617695090214.png) + +例子:如何知道女孩子的姓名呢? + +生成方法:我要是把她爸妈建模出来,直接问她爸妈不就行了吗? + +判别方法:她叫小红的概率是多少?她叫小刘的概率是多少? + + + +### 分类问题 + +Classification + +TP——将正类预测为正类数; + +FN——将正类预测为负类数; + +FP——将负类预测为正类数; + +TN——将负类预测为负类数; + +精确率:预测为正类的样本中有多少分对了; + +![1617695936634](assets/1617695936634.png) + +召回率:在实际正类中,有多少正类被模型发现了 + +![1617695964734](assets/1617695964734.png) + +F1值: + +![1617695979979](assets/1617695979979.png) + +![1617695988131](assets/1617695988131.png) + +一般会配合一个混淆矩阵: + +![1617696087388](assets/1617696087388.png) + + + +### 标注问题 + +Tagging + +输入: + +x = (x1, x2, ..., xn) T + +y = (y1, y2, ..., yn) T + + + +### 回归问题 + +Regression + +输出一个连续的值,不是0/1这种固定值 + + + +## 总结 + +Summarization + +1. 统计学习路线:设计模型->训练->预测 +2. 监督学习与非监督学习的联系与区别 +3. 统计学习三要素:模型、策略、算法 +4. 模型的评估:训练误差、验证误差、测试误差 +5. 正则化与交叉严重 +6. 泛化能力:泛化误差上界 +7. 生成模型与判别模型的联想与区别 +8. 分类问题:准确率、精确率、召回率、F1值 +9. 标准问题 +10. 回归问题:输出为连续的值 \ No newline at end of file