Add. The process of data mining

5 years ago · c93d0f2f24
parent ecee428b6c
commit c93d0f2f24
1 changed files with 31 additions and 0 deletions
--- a/机器学习竞赛实战_优胜解决方案/京东用户购买意向预测/数据清洗.ipynb
+++ b/机器学习竞赛实战_优胜解决方案/京东用户购买意向预测/数据清洗.ipynb
@ -97,6 +97,37 @@
    "|brand|品牌ID|脱敏|"
   ]
  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### 数据挖掘流程：\n",
+    "（一）.数据清洗\n",
+    "1. 数据集完整性验证\n",
+    "2. 数据集中是否存在缺失值\n",
+    "3. 数据集中各特征数值应该如何处理\n",
+    "4. 哪些数据是我们想要的，哪些是可以过滤掉的\n",
+    "5. 将有价值数据信息做成新的数据源\n",
+    "6. 去除无行为交互的商品和用户\n",
+    "7. 去掉浏览量很大而购买量很少的用户(惰性用户或爬虫用户)\n",
+    "\n",
+    "（二）.数据理解与分析\n",
+    "1. 掌握各个特征的含义\n",
+    "2. 观察数据有哪些特点，是否可利用来建模\n",
+    "3. 可视化展示便于分析\n",
+    "4. 用户的购买意向是否随着时间等因素变化\n",
+    "（三）.特征提取\n",
+    "1. 基于清洗后的数据集哪些特征是有价值\n",
+    "2. 分别对用户与商品以及其之间构成的行为进行特征提取\n",
+    "3. 行为因素中哪些是核心？如何提取？\n",
+    "4. 瞬时行为特征or累计行为特征？\n",
+    "\n",
+    "（四）.模型建立\n",
+    "1. 使用机器学习算法进行预测\n",
+    "2. 参数设置与调节\n",
+    "3. 数据集切分"
+   ]
+  },
  {
   "cell_type": "code",
   "execution_count": null,