Machine learning - Wikipedia

{ "cells": [ { "cell_type": "markdown", "source": [ "# 挑战：分析关于数据科学的文本\n", "\n", "> *在本笔记本中，我们尝试使用不同的URL——维基百科上关于机器学习的文章。你会发现，与数据科学不同，这篇文章包含了许多术语，这使得分析变得更加复杂。我们需要在完成关键词提取后，想出另一种方法来清理数据，以去除一些频繁但无意义的词组。*\n", "\n", "在这个例子中，让我们做一个简单的练习，涵盖传统数据科学流程的所有步骤。你不需要编写任何代码，只需点击下面的单元格来执行它们并观察结果。作为一个挑战，我们鼓励你尝试用不同的数据运行这些代码。\n", "\n", "## 目标\n", "\n", "在本节课中，我们讨论了与数据科学相关的不同概念。现在让我们通过**文本挖掘**来发现更多相关概念。我们将从一段关于数据科学的文本开始，从中提取关键词，然后尝试可视化结果。\n", "\n", "作为文本来源，我将使用维基百科上关于数据科学的页面：\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## 第一步：获取数据\n", "\n", "数据科学流程的第一步是获取数据。我们将使用 `requests` 库来完成这一任务：\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "