{ "cells": [ { "cell_type": "markdown", "source": [ "# Thử thách: Phân tích văn bản về Khoa học Dữ liệu\n", "\n", "> *Trong notebook này, chúng ta thử nghiệm sử dụng URL khác - bài viết Wikipedia về Học Máy. Bạn có thể thấy rằng, không giống như Khoa học Dữ liệu, bài viết này chứa rất nhiều thuật ngữ, điều này làm cho việc phân tích trở nên khó khăn hơn. Chúng ta cần tìm ra một cách khác để làm sạch dữ liệu sau khi thực hiện trích xuất từ khóa, nhằm loại bỏ một số cụm từ thường xuyên xuất hiện nhưng không có ý nghĩa.*\n", "\n", "Trong ví dụ này, hãy thực hiện một bài tập đơn giản bao gồm tất cả các bước của quy trình khoa học dữ liệu truyền thống. Bạn không cần phải viết bất kỳ mã nào, chỉ cần nhấp vào các ô bên dưới để thực thi và quan sát kết quả. Như một thử thách, bạn được khuyến khích thử nghiệm mã này với dữ liệu khác.\n", "\n", "## Mục tiêu\n", "\n", "Trong bài học này, chúng ta đã thảo luận về các khái niệm khác nhau liên quan đến Khoa học Dữ liệu. Hãy thử khám phá thêm các khái niệm liên quan bằng cách thực hiện **khai thác văn bản**. Chúng ta sẽ bắt đầu với một văn bản về Khoa học Dữ liệu, trích xuất từ khóa từ đó, và sau đó cố gắng trực quan hóa kết quả.\n", "\n", "Làm văn bản, tôi sẽ sử dụng trang về Khoa học Dữ liệu từ Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Bước 1: Lấy dữ liệu\n", "\n", "Bước đầu tiên trong mọi quy trình khoa học dữ liệu là lấy dữ liệu. Chúng ta sẽ sử dụng thư viện `requests` để thực hiện điều này:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "