diff --git a/机器学习算法理论及应用/李航——统计学习方法/README.md b/机器学习算法理论及应用/李航——统计学习方法/README.md index cbd449f..dc226a6 100644 --- a/机器学习算法理论及应用/李航——统计学习方法/README.md +++ b/机器学习算法理论及应用/李航——统计学习方法/README.md @@ -41,7 +41,7 @@ Supervised learning Element of statistical learning -模型(假设空间): +#### 模型(假设空间) > 假设所有的点都在空间中,每个点是一个模型或者函数 @@ -81,3 +81,65 @@ Element of statistical learning > 让为0的概率越来越大,让为1的概率越来越小 +经验风险最小化: + +![1617691844212](assets/1617691844212.png) + +> 对每个样本跑一遍,将所有的loss平均计算,loss越大表示离真实的越大,loss越小说明里真实越接近,模型也越好 + +结构风险最小化: + +![1617691949906](assets/1617691949906.png) + +> 加入正则项,防止过拟合,也就是模型过于复杂,过于只适合当前数据,导致预测其它数据的时候很差(泛化能力)。 + +算法:挑选一个合适的算法,使得可以求解最优模型 + + + +### 模型评估与选择 + +Model evaluation and model selection + +训练误差: + +![1617692106744](assets/1617692106744.png) + +> 对所有训练数据的结果做一个平均,误差越大模型可能越大。但如果以训练集来评估,就想考试一样,如果考试题目平时已经见过,当然能做出来,要解决的是平均没见过的类似题目。 + +测试误差: + +![1617692141368](assets/1617692141368.png) + +> 利用测试集去测试模型的训练情况。 + +验证集:我们通常来讲,会挑选测试集表现最好的,但是也有总可能就是测试集刚好和训练集的“题目”类似,那它当然能表现的好,这时候就需要引入验证集。我们一般选择验证集表现最好的模型。 + +多项式拟合问题: + +![1617692653540](assets/1617692653540.png) + +> 左上欠拟合严重,右上欠拟合,左下拟合正常,右下过拟合。实际中怎么判断过拟合,即训练集上误差非常低,但是在其它数据集上的误差非常高,一般就是过拟合。 + + + +### 正则化与交叉验证 + +Regularization and cross validation + +防止过拟合 + +最小化结构风险: + +![1617692872918](assets/1617692872918.png) + +交叉验证: + +数据集随机划分为以下3部分: + +- 训练集:模型的训练 +- 测试集:模型的选择 +- 验证集:模型的评估 + +![1617692942593](assets/1617692942593.png) + diff --git a/机器学习算法理论及应用/李航——统计学习方法/assets/1617691844212.png b/机器学习算法理论及应用/李航——统计学习方法/assets/1617691844212.png new file mode 100644 index 0000000..df64dd1 Binary files /dev/null and b/机器学习算法理论及应用/李航——统计学习方法/assets/1617691844212.png differ diff --git a/机器学习算法理论及应用/李航——统计学习方法/assets/1617691949906.png b/机器学习算法理论及应用/李航——统计学习方法/assets/1617691949906.png new file mode 100644 index 0000000..b9907f8 Binary files /dev/null and b/机器学习算法理论及应用/李航——统计学习方法/assets/1617691949906.png differ diff --git a/机器学习算法理论及应用/李航——统计学习方法/assets/1617692106744.png b/机器学习算法理论及应用/李航——统计学习方法/assets/1617692106744.png new file mode 100644 index 0000000..b6499e1 Binary files /dev/null and b/机器学习算法理论及应用/李航——统计学习方法/assets/1617692106744.png differ diff --git a/机器学习算法理论及应用/李航——统计学习方法/assets/1617692141368.png b/机器学习算法理论及应用/李航——统计学习方法/assets/1617692141368.png new file mode 100644 index 0000000..fe76f2c Binary files /dev/null and b/机器学习算法理论及应用/李航——统计学习方法/assets/1617692141368.png differ diff --git a/机器学习算法理论及应用/李航——统计学习方法/assets/1617692653540.png b/机器学习算法理论及应用/李航——统计学习方法/assets/1617692653540.png new file mode 100644 index 0000000..b3cad82 Binary files /dev/null and b/机器学习算法理论及应用/李航——统计学习方法/assets/1617692653540.png differ diff --git a/机器学习算法理论及应用/李航——统计学习方法/assets/1617692872918.png b/机器学习算法理论及应用/李航——统计学习方法/assets/1617692872918.png new file mode 100644 index 0000000..1f2f7eb Binary files /dev/null and b/机器学习算法理论及应用/李航——统计学习方法/assets/1617692872918.png differ diff --git a/机器学习算法理论及应用/李航——统计学习方法/assets/1617692942593.png b/机器学习算法理论及应用/李航——统计学习方法/assets/1617692942593.png new file mode 100644 index 0000000..f461f90 Binary files /dev/null and b/机器学习算法理论及应用/李航——统计学习方法/assets/1617692942593.png differ