{ "cells": [ { "cell_type": "markdown", "source": [ "# 도전 과제: 데이터 과학에 대한 텍스트 분석\n", "\n", "> *이 노트북에서는 다양한 URL을 사용하여 실험을 진행합니다 - 머신 러닝에 대한 위키피디아 기사입니다. 데이터 과학과는 달리, 이 기사에는 많은 용어가 포함되어 있어 분석이 더 어렵습니다. 키워드 추출을 수행한 후 데이터를 정리하는 또 다른 방법을 찾아서 자주 등장하지만 의미 없는 단어 조합을 제거해야 합니다.*\n", "\n", "이 예제에서는 전통적인 데이터 과학 프로세스의 모든 단계를 다루는 간단한 연습을 해보겠습니다. 코드를 작성할 필요는 없으며, 아래 셀을 클릭하여 실행하고 결과를 관찰하기만 하면 됩니다. 도전 과제로, 다른 데이터를 사용하여 이 코드를 직접 시도해보는 것을 권장합니다.\n", "\n", "## 목표\n", "\n", "이번 수업에서는 데이터 과학과 관련된 다양한 개념을 논의했습니다. **텍스트 마이닝**을 통해 더 많은 관련 개념을 발견해 봅시다. 데이터 과학에 대한 텍스트를 시작으로 키워드를 추출하고, 결과를 시각화해 보겠습니다.\n", "\n", "텍스트로는 위키피디아의 데이터 과학 페이지를 사용할 것입니다.\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## 1단계: 데이터 가져오기\n", "\n", "데이터 과학 프로세스의 첫 번째 단계는 데이터를 가져오는 것입니다. 이를 위해 `requests` 라이브러리를 사용할 것입니다:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "