Add comment of missing values

6 years ago · 2d2162d77d
parent 69d2b7c8ab
commit 2d2162d77d
1 changed files with 11 additions and 2 deletions
--- a/机器学习竞赛实战_优胜解决方案/建筑能源利用率预测/1_数据预处理_建筑能源利用率预测.ipynb
+++ b/机器学习竞赛实战_优胜解决方案/建筑能源利用率预测/1_数据预处理_建筑能源利用率预测.ipynb
@ -1528,8 +1528,8 @@
   "cell_type": "markdown",
   "metadata": {},
   "source": [
-    "### 缺失值处理\n",
-    "每个列缺失的比例，这里提供一个函数。"
+    "### 缺失值\n",
+    "计算每个列缺失的比例，这里提供一个函数。"
   ]
  },
  {
@ -1948,6 +1948,15 @@
    "missing_values_table(data)"
   ]
  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "一般而言，我们不希望丢失任何数据，但我们也不希望数据对模型有负影响，所以我们尽可能减少无意义的、负影响的数据，这里我对缺失值超过50%的进行剔除。\n",
+    "\n",
+    "实际业务场景：我们曾尝试过使用缺失率较大的特征，使用后模型结果大幅度上涨，表明上看是好的，特征重要性也是最高的，我们产生了疑惑，随之去追溯数据源，发现有很大部分正样本有该数据，绝大多数负样本都没有，这样模型就以为有值的就是正样本，这其实是不正确的，后面我们修改了SQL语句，重新拿了数据集，模型结果才趋向正常"
+   ]
+  },
  {
   "cell_type": "code",
   "execution_count": 8,