diff --git a/机器学习竞赛实战_优胜解决方案/京东用户购买意向预测/数据清洗.ipynb b/机器学习竞赛实战_优胜解决方案/京东用户购买意向预测/数据清洗.ipynb index 8e5db25..918be19 100644 --- a/机器学习竞赛实战_优胜解决方案/京东用户购买意向预测/数据清洗.ipynb +++ b/机器学习竞赛实战_优胜解决方案/京东用户购买意向预测/数据清洗.ipynb @@ -97,6 +97,37 @@ "|brand|品牌ID|脱敏|" ] }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### 数据挖掘流程:\n", + "(一).数据清洗\n", + "1. 数据集完整性验证\n", + "2. 数据集中是否存在缺失值\n", + "3. 数据集中各特征数值应该如何处理\n", + "4. 哪些数据是我们想要的,哪些是可以过滤掉的\n", + "5. 将有价值数据信息做成新的数据源\n", + "6. 去除无行为交互的商品和用户\n", + "7. 去掉浏览量很大而购买量很少的用户(惰性用户或爬虫用户)\n", + "\n", + "(二).数据理解与分析\n", + "1. 掌握各个特征的含义\n", + "2. 观察数据有哪些特点,是否可利用来建模\n", + "3. 可视化展示便于分析\n", + "4. 用户的购买意向是否随着时间等因素变化\n", + "(三).特征提取\n", + "1. 基于清洗后的数据集哪些特征是有价值\n", + "2. 分别对用户与商品以及其之间构成的行为进行特征提取\n", + "3. 行为因素中哪些是核心?如何提取?\n", + "4. 瞬时行为特征or累计行为特征?\n", + "\n", + "(四).模型建立\n", + "1. 使用机器学习算法进行预测\n", + "2. 参数设置与调节\n", + "3. 数据集切分" + ] + }, { "cell_type": "code", "execution_count": null,