{ "cells": [ { "cell_type": "markdown", "source": [ "# 도전 과제: 데이터 과학에 관한 텍스트 분석\n", "\n", "이 예제에서는 전통적인 데이터 과학 프로세스의 모든 단계를 다루는 간단한 연습을 해보겠습니다. 코드를 작성할 필요는 없으며, 아래 셀을 클릭하여 실행하고 결과를 관찰하기만 하면 됩니다. 도전 과제로, 다른 데이터를 사용하여 이 코드를 시도해보는 것을 권장합니다.\n", "\n", "## 목표\n", "\n", "이번 강의에서는 데이터 과학과 관련된 다양한 개념에 대해 논의했습니다. 이제 **텍스트 마이닝**을 통해 더 많은 관련 개념을 발견해 봅시다. 데이터 과학에 관한 텍스트를 시작으로 키워드를 추출하고, 결과를 시각화해 보겠습니다.\n", "\n", "텍스트로는 Wikipedia의 데이터 과학 페이지를 사용하겠습니다:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## 1단계: 데이터 가져오기\n", "\n", "데이터 과학 프로세스의 첫 번째 단계는 데이터를 가져오는 것입니다. 이를 위해 `requests` 라이브러리를 사용할 것입니다:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "