|
|
|
@ -40,9 +40,13 @@
|
|
|
|
|
|
|
|
|
|
✅ 在收集和处理你的数据后,花点时间看看它的形状是否能让你解决你的预期问题。正如我们在[聚类](../../../5-Clustering/1-Visualize/README.md)课程中发现的那样,数据可能在你的给定任务中表现不佳!
|
|
|
|
|
|
|
|
|
|
### 选择特征变量
|
|
|
|
|
### 功能和目标
|
|
|
|
|
|
|
|
|
|
功能是数据的可测量属性。在许多数据集中,它表示为标题为"日期""大小"或"颜色"的列。您的功能变量(通常在代码中表示为 `X`)表示用于训练模型的输入变量。
|
|
|
|
|
|
|
|
|
|
[特征](https://www.datasciencecentral.com/profiles/blogs/an-introduction-to-variable-and-feature-selection)是数据的可衡量属性。在许多数据集中,它表示为列标题,如“日期”、“大小”或“颜色”。你的特征变量(通常在代码中表示为`y`)代表你试图对数据提出的问题的答案:在12月,哪种**颜色**的南瓜最便宜?在旧金山,哪些街区的房地产**价格**最好?
|
|
|
|
|
目标就是你试图预测的事情。目标通常表示为代码中的 `y`,代表您试图询问数据的问题的答案:在 12 月,什么颜色的南瓜最便宜?在旧金山,哪些街区的房地产价格最好?有时目标也称为标签属性。
|
|
|
|
|
|
|
|
|
|
### 选择特征变量
|
|
|
|
|
|
|
|
|
|
🎓 **特征选择和特征提取** 构建模型时如何知道选择哪个变量?你可能会经历一个特征选择或特征提取的过程,以便为性能最好的模型选择正确的变量。然而,它们不是一回事:“特征提取是从基于原始特征的函数中创建新特征,而特征选择返回特征的一个子集。”([来源](https://wikipedia.org/wiki/Feature_selection))
|
|
|
|
|
### 可视化数据
|
|
|
|
@ -66,7 +70,7 @@
|
|
|
|
|
|
|
|
|
|
### 训练模型
|
|
|
|
|
|
|
|
|
|
有了你的训练数据,你就可以“拟合”它以创建模型。你会注意到,在许多ML库中,你会找到代码'model.fit'——此时你将数据作为值数组(通常为'X')和特征变量(通常为'y')发送)。
|
|
|
|
|
有了您的培训数据,您就可以"适应"它来创建模型。您会注意到,在许多 ML 库中,您会发现代码"model.fit"-此时,您将功能变量作为一系列值(通常是`X`)和目标变量(通常是`y`)发送。
|
|
|
|
|
|
|
|
|
|
### 评估模型
|
|
|
|
|
|
|
|
|
|