{ "cells": [ { "cell_type": "markdown", "source": [ "# チャレンジ: データサイエンスに関するテキストの分析\n", "\n", "> *このノートブックでは、異なるURLを使用して実験を行います - 機械学習に関するWikipediaの記事です。データサイエンスとは異なり、この記事には多くの専門用語が含まれており、そのため分析がより困難になります。キーワード抽出を行った後に、頻出だが意味のない単語の組み合わせを取り除くための別の方法を考え出す必要があります。*\n", "\n", "この例では、伝統的なデータサイエンスプロセスのすべてのステップをカバーする簡単な演習を行います。コードを書く必要はありません。以下のセルをクリックして実行し、結果を観察するだけで構いません。チャレンジとして、異なるデータでこのコードを試してみることをお勧めします。\n", "\n", "## 目標\n", "\n", "このレッスンでは、データサイエンスに関連するさまざまな概念について議論してきました。**テキストマイニング**を行うことで、さらに関連する概念を発見してみましょう。データサイエンスに関するテキストを使用し、そこからキーワードを抽出し、結果を視覚化してみます。\n", "\n", "テキストとして、Wikipediaのデータサイエンスに関するページを使用します:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## ステップ1: データの取得\n", "\n", "データサイエンスプロセスの最初のステップは、データを取得することです。これには `requests` ライブラリを使用します:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "