Add. The process of data mining

pull/2/head
benjas 5 years ago
parent ecee428b6c
commit c93d0f2f24

@ -97,6 +97,37 @@
"|brand|品牌ID|脱敏|"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### 数据挖掘流程:\n",
"(一).数据清洗\n",
"1. 数据集完整性验证\n",
"2. 数据集中是否存在缺失值\n",
"3. 数据集中各特征数值应该如何处理\n",
"4. 哪些数据是我们想要的,哪些是可以过滤掉的\n",
"5. 将有价值数据信息做成新的数据源\n",
"6. 去除无行为交互的商品和用户\n",
"7. 去掉浏览量很大而购买量很少的用户(惰性用户或爬虫用户)\n",
"\n",
"(二).数据理解与分析\n",
"1. 掌握各个特征的含义\n",
"2. 观察数据有哪些特点,是否可利用来建模\n",
"3. 可视化展示便于分析\n",
"4. 用户的购买意向是否随着时间等因素变化\n",
"(三).特征提取\n",
"1. 基于清洗后的数据集哪些特征是有价值\n",
"2. 分别对用户与商品以及其之间构成的行为进行特征提取\n",
"3. 行为因素中哪些是核心?如何提取?\n",
"4. 瞬时行为特征or累计行为特征\n",
"\n",
"(四).模型建立\n",
"1. 使用机器学习算法进行预测\n",
"2. 参数设置与调节\n",
"3. 数据集切分"
]
},
{
"cell_type": "code",
"execution_count": null,

Loading…
Cancel
Save