{ "cells": [ { "cell_type": "markdown", "source": [ "# 挑战:分析关于数据科学的文本\n", "\n", "> *在本笔记本中,我们尝试使用不同的URL——维基百科上关于机器学习的文章。你会发现,与数据科学不同,这篇文章包含了许多术语,这使得分析变得更加复杂。我们需要在完成关键词提取后,想出另一种方法来清理数据,以去除一些频繁但无意义的词组。*\n", "\n", "在这个例子中,让我们做一个简单的练习,涵盖传统数据科学流程的所有步骤。你不需要编写任何代码,只需点击下面的单元格来执行它们并观察结果。作为一个挑战,我们鼓励你尝试用不同的数据运行这些代码。\n", "\n", "## 目标\n", "\n", "在本节课中,我们讨论了与数据科学相关的不同概念。现在让我们通过**文本挖掘**来发现更多相关概念。我们将从一段关于数据科学的文本开始,从中提取关键词,然后尝试可视化结果。\n", "\n", "作为文本来源,我将使用维基百科上关于数据科学的页面:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## 第一步:获取数据\n", "\n", "数据科学流程的第一步是获取数据。我们将使用 `requests` 库来完成这一任务:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "