@ -1528,8 +1528,8 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"### 缺失值处理\n",
"每个列缺失的比例,这里提供一个函数。"
"### 缺失值\n",
"计算每个列缺失的比例,这里提供一个函数。"
]
},
{
@ -1948,6 +1948,15 @@
"missing_values_table(data)"
"一般而言,我们不希望丢失任何数据,但我们也不希望数据对模型有负影响,所以我们尽可能减少无意义的、负影响的数据,这里我对缺失值超过50%的进行剔除。\n",
"\n",
"实际业务场景:我们曾尝试过使用缺失率较大的特征,使用后模型结果大幅度上涨,表明上看是好的,特征重要性也是最高的,我们产生了疑惑,随之去追溯数据源,发现有很大部分正样本有该数据,绝大多数负样本都没有,这样模型就以为有值的就是正样本,这其实是不正确的,后面我们修改了SQL语句,重新拿了数据集,模型结果才趋向正常"
"cell_type": "code",
"execution_count": 8,