Update README.zh-cn.md

pull/126/head
feiyun0112 4 years ago committed by GitHub
parent 033659b7ed
commit a05577934b
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

@ -6,14 +6,14 @@
## 介绍
在关于回归的最后一课中,我们将学习逻辑回归,这是经典的基本技术之一。可以使用此技术来发现预测二元分类的模式。这是不是巧克力糖?这种病会传染吗?这个顾客会选择这个产品吗?
在关于回归的最后一课中,我们将学习逻辑回归,这是经典的基本技术之一。可以使用此技术来发现预测二元分类的模式。这是不是巧克力糖?这种病会传染吗?这个顾客会选择这个产品吗?
在本课中,将学习:
在本课中,将学习:
- 用于数据可视化的新库
- 逻辑回归技术
✅ 在此[学习模块](https://docs.microsoft.com/learn/modules/train-evaluate-classification-models?WT.mc_id=academic-15963-cxa) 中加深对使用此类回归的理解
✅ 在此[学习模块](https://docs.microsoft.com/learn/modules/train-evaluate-classification-models?WT.mc_id=academic-15963-cxa) 中加深对使用此类回归的理解
## 前提
@ -31,7 +31,7 @@
## 关于逻辑回归
逻辑回归在一些重要方面与之前了解的线性回归不同。
逻辑回归在一些重要方面与之前了解的线性回归不同。
### 二元分类
@ -81,7 +81,7 @@
new_pumpkins = new_pumpkins.apply(LabelEncoder().fit_transform)
```
可以随时查看新的数据帧:
可以随时查看新的数据帧:
```python
new_pumpkins.info
@ -89,9 +89,9 @@
### 可视化 - 并列网格
到现在为止,已经再次使用南瓜数据加载了[starter notebook](./notebook.ipynb)并对其进行了清理,以保留包含一些变量(包括`Color`的数据集。让我们使用不同的库来可视化notebook中的数据帧[Seaborn](https://seaborn.pydata.org/index.html)它是基于我们之前使用的Matplotlib构建的。
到现在为止,已经再次使用南瓜数据加载了[starter notebook](./notebook.ipynb)并对其进行了清理,以保留包含一些变量(包括`Color`的数据集。让我们使用不同的库来可视化notebook中的数据帧[Seaborn](https://seaborn.pydata.org/index.html)它是基于我们之前使用的Matplotlib构建的。
Seaborn提供了一些巧妙的方法来可视化您的数据。例如,您可以比较并列网格中每个点的数据分布。
Seaborn提供了一些巧妙的方法来可视化你的数据。例如,你可以比较并列网格中每个点的数据分布。
1. 通过实例化一个`PairGrid`,使用我们的南瓜数据`new_pumpkins`,然后调用`map()`来创建这样一个网格:
@ -104,15 +104,15 @@ Seaborn提供了一些巧妙的方法来可视化您的数据。例如您可
![可视化数据网格](images/grid.png)
通过并列观察数据,可以看到颜色数据与其他列的关系。
通过并列观察数据,可以看到颜色数据与其他列的关系。
✅ 鉴于此散点图网格,可以设想哪些有趣的探索?
✅ 鉴于此散点图网格,可以设想哪些有趣的探索?
### 使用分类散点图
由于颜色是一个二元类别(橙色或非橙色),它被称为“分类数据”,需要一种更[专业的方法](https://seaborn.pydata.org/tutorial/categorical.html?highlight=bar)来可视化。还有其他方法可以可视化此类别与其他变量的关系。
可以使用Seaborn图并列可视化变量。
可以使用Seaborn图并列可视化变量。
1. 尝试使用“分类散点”图来显示值的分布:
@ -124,7 +124,7 @@ Seaborn提供了一些巧妙的方法来可视化您的数据。例如您可
### 小提琴图
“小提琴”类型的图很有用,因为可以轻松地可视化两个类别中数据的分布方式。小提琴图不适用于较小的数据集,因为分布显示得更“平滑”。
“小提琴”类型的图很有用,因为可以轻松地可视化两个类别中数据的分布方式。小提琴图不适用于较小的数据集,因为分布显示得更“平滑”。
1. 作为参数`x=Color`、`kind="violin"`并调用`catplot()`
@ -181,7 +181,7 @@ Seaborn提供了一些巧妙的方法来可视化您的数据。例如您可
print('Accuracy: ', accuracy_score(y_test, predictions))
```
看看你的模型的记分板。考虑到只有大约1000行数据这还不错
看看你的模型的记分板。考虑到只有大约1000行数据这还不错
```output
precision recall f1-score support
@ -203,7 +203,7 @@ Seaborn提供了一些巧妙的方法来可视化您的数据。例如您可
## 通过混淆矩阵更好地理解
虽然可以通过获得记分板报告[条目](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html?highlight=classification_report#sklearn.metrics.classification_report)把上面的项目打印出来,通过使用[混淆矩阵](https://scikit-learn.org/stable/modules/model_evaluation.html#confusion-matrix)可以更容易地理解的模型,帮助我们了解模型的性能。
虽然可以通过获得记分板报告[条目](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html?highlight=classification_report#sklearn.metrics.classification_report)把上面的项目打印出来,通过使用[混淆矩阵](https://scikit-learn.org/stable/modules/model_evaluation.html#confusion-matrix)可以更容易地理解的模型,帮助我们了解模型的性能。
> 🎓 “[混淆矩阵](https://wikipedia.org/wiki/Confusion_matrix)”(或“误差矩阵”)是一个表格,用于表示模型的真假阳性和假阴性,从而衡量预测的准确性。
@ -223,16 +223,16 @@ Seaborn提供了一些巧妙的方法来可视化您的数据。例如您可
这里发生了什么?假设我们的模型被要求对两个二元类别之间的项目进行分类,即类别“南瓜”和类别“非南瓜”。
- 如果的模型将某物预测为南瓜并且它实际上属于“南瓜”类别,我们将其称为真阳性,由左上角的数字显示。
- 如果的模型预测某物不是南瓜,并且它实际上属于“南瓜”类别,我们将其称为假阳性,如右上角的数字所示。
- 如果的模型将某物预测为南瓜并且它实际上属于“非南瓜”类别,我们将其称为假阴性,由左下角的数字显示。
- 如果的模型预测某物不是南瓜,并且它实际上属于“非南瓜”类别,我们将其称为真阴性,如右下角的数字所示。
- 如果的模型将某物预测为南瓜并且它实际上属于“南瓜”类别,我们将其称为真阳性,由左上角的数字显示。
- 如果的模型预测某物不是南瓜,并且它实际上属于“南瓜”类别,我们将其称为假阳性,如右上角的数字所示。
- 如果的模型将某物预测为南瓜并且它实际上属于“非南瓜”类别,我们将其称为假阴性,由左下角的数字显示。
- 如果的模型预测某物不是南瓜,并且它实际上属于“非南瓜”类别,我们将其称为真阴性,如右下角的数字所示。
![混淆矩阵](images/confusion-matrix.png)
> 作者[Jen Looper](https://twitter.com/jenlooper)
正如可能已经猜到的那样,最好有更多的真阳性和真阴性以及较少的假阳性和假阴性,这意味着模型性能更好。
正如可能已经猜到的那样,最好有更多的真阳性和真阴性以及较少的假阳性和假阴性,这意味着模型性能更好。
✅ Q根据混淆矩阵模型怎么样 A还不错有很多真阳性但也有一些假阴性。
@ -255,7 +255,7 @@ Seaborn提供了一些巧妙的方法来可视化您的数据。例如您可
✅ 如果你想让你的模型减少假阴性的数量,你能想出应该关注哪个指标吗?
## 可视化该模型的ROC曲线
这不是一个糟糕的模型它的准确率在80%范围内,因此理想情况下,可以使用它来预测给定一组变量的南瓜颜色。
这不是一个糟糕的模型它的准确率在80%范围内,因此理想情况下,可以使用它来预测给定一组变量的南瓜颜色。
让我们再做一个可视化来查看所谓的“ROC”分数
@ -268,7 +268,7 @@ fpr, tpr, thresholds = roc_curve(y_test, y_scores[:,1])
sns.lineplot([0, 1], [0, 1])
sns.lineplot(fpr, tpr)
```
再次使用Seaborn绘制模型的[接收操作特性](https://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html?highlight=roc)或ROC。 ROC曲线通常用于根据分类器的真假阳性来了解分类器的输出。“ROC曲线通常具有Y轴上的真阳性率和X轴上的假阳性率。” 因此,曲线的陡度以及中点线与曲线之间的空间很重要:需要一条快速向上并越过直线的曲线。在我们的例子中,一开始就有误报,然后这条线正确地向上和重复:
再次使用Seaborn绘制模型的[接收操作特性](https://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html?highlight=roc)或ROC。 ROC曲线通常用于根据分类器的真假阳性来了解分类器的输出。“ROC曲线通常具有Y轴上的真阳性率和X轴上的假阳性率。” 因此,曲线的陡度以及中点线与曲线之间的空间很重要:需要一条快速向上并越过直线的曲线。在我们的例子中,一开始就有误报,然后这条线正确地向上和重复:
![ROC](./images/ROC.png)
@ -278,9 +278,9 @@ sns.lineplot(fpr, tpr)
auc = roc_auc_score(y_test,y_scores[:,1])
print(auc)
```
结果是`0.6976998904709748`。 鉴于AUC的范围从0到1需要一个高分因为预测100%正确的模型的AUC为1在这种情况下模型_相当不错_。
结果是`0.6976998904709748`。 鉴于AUC的范围从0到1需要一个高分因为预测100%正确的模型的AUC为1在这种情况下模型_相当不错_。
在以后的分类课程中,您将学习如何迭代以提高模型的分数。但是现在,恭喜!您已经完成了这些回归课程!
在以后的分类课程中,你将学习如何迭代以提高模型的分数。但是现在,恭喜!你已经完成了这些回归课程!
---
## 🚀挑战

Loading…
Cancel
Save