diff --git a/机器学习竞赛实战_优胜解决方案/建筑能源利用率预测/1_数据预处理_建筑能源利用率预测.ipynb b/机器学习竞赛实战_优胜解决方案/建筑能源利用率预测/1_数据预处理_建筑能源利用率预测.ipynb index cedf011..f91200c 100644 --- a/机器学习竞赛实战_优胜解决方案/建筑能源利用率预测/1_数据预处理_建筑能源利用率预测.ipynb +++ b/机器学习竞赛实战_优胜解决方案/建筑能源利用率预测/1_数据预处理_建筑能源利用率预测.ipynb @@ -1528,8 +1528,8 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### 缺失值处理\n", - "每个列缺失的比例,这里提供一个函数。" + "### 缺失值\n", + "计算每个列缺失的比例,这里提供一个函数。" ] }, { @@ -1948,6 +1948,15 @@ "missing_values_table(data)" ] }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "一般而言,我们不希望丢失任何数据,但我们也不希望数据对模型有负影响,所以我们尽可能减少无意义的、负影响的数据,这里我对缺失值超过50%的进行剔除。\n", + "\n", + "实际业务场景:我们曾尝试过使用缺失率较大的特征,使用后模型结果大幅度上涨,表明上看是好的,特征重要性也是最高的,我们产生了疑惑,随之去追溯数据源,发现有很大部分正样本有该数据,绝大多数负样本都没有,这样模型就以为有值的就是正样本,这其实是不正确的,后面我们修改了SQL语句,重新拿了数据集,模型结果才趋向正常" + ] + }, { "cell_type": "code", "execution_count": 8,