{ "cells": [ { "cell_type": "markdown", "source": [ "# Thử thách: Phân tích văn bản về Khoa học Dữ liệu\n", "\n", "Trong ví dụ này, chúng ta sẽ thực hiện một bài tập đơn giản bao gồm tất cả các bước của quy trình khoa học dữ liệu truyền thống. Bạn không cần phải viết bất kỳ mã nào, chỉ cần nhấp vào các ô bên dưới để thực thi và quan sát kết quả. Như một thử thách, bạn được khuyến khích thử nghiệm mã này với các dữ liệu khác nhau.\n", "\n", "## Mục tiêu\n", "\n", "Trong bài học này, chúng ta đã thảo luận về các khái niệm khác nhau liên quan đến Khoa học Dữ liệu. Hãy cùng khám phá thêm các khái niệm liên quan bằng cách thực hiện **khai thác văn bản**. Chúng ta sẽ bắt đầu với một văn bản về Khoa học Dữ liệu, trích xuất các từ khóa từ đó, và sau đó cố gắng trực quan hóa kết quả.\n", "\n", "Làm văn bản, tôi sẽ sử dụng trang về Khoa học Dữ liệu từ Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Bước 1: Lấy dữ liệu\n", "\n", "Bước đầu tiên trong mọi quy trình khoa học dữ liệu là lấy dữ liệu. Chúng ta sẽ sử dụng thư viện `requests` để thực hiện điều này:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "