Add comment of missing values

pull/2/head
benjas 5 years ago
parent 69d2b7c8ab
commit 2d2162d77d

@ -1528,8 +1528,8 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"### 缺失值处理\n",
"每个列缺失的比例,这里提供一个函数。"
"### 缺失值\n",
"计算每个列缺失的比例,这里提供一个函数。"
]
},
{
@ -1948,6 +1948,15 @@
"missing_values_table(data)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"一般而言我们不希望丢失任何数据但我们也不希望数据对模型有负影响所以我们尽可能减少无意义的、负影响的数据这里我对缺失值超过50%的进行剔除。\n",
"\n",
"实际业务场景我们曾尝试过使用缺失率较大的特征使用后模型结果大幅度上涨表明上看是好的特征重要性也是最高的我们产生了疑惑随之去追溯数据源发现有很大部分正样本有该数据绝大多数负样本都没有这样模型就以为有值的就是正样本这其实是不正确的后面我们修改了SQL语句重新拿了数据集模型结果才趋向正常"
]
},
{
"cell_type": "code",
"execution_count": 8,

Loading…
Cancel
Save