{ "cells": [ { "cell_type": "markdown", "source": [ "# چالش: تحلیل متن درباره علم داده\n", "\n", "در این مثال، بیایید یک تمرین ساده انجام دهیم که تمام مراحل یک فرآیند سنتی علم داده را پوشش می‌دهد. نیازی نیست کدی بنویسید، فقط می‌توانید روی سلول‌های زیر کلیک کنید تا آن‌ها را اجرا کرده و نتیجه را مشاهده کنید. به عنوان یک چالش، تشویق می‌شوید که این کد را با داده‌های مختلف امتحان کنید.\n", "\n", "## هدف\n", "\n", "در این درس، ما درباره مفاهیم مختلف مرتبط با علم داده صحبت کرده‌ایم. بیایید با انجام **متن‌کاوی** مفاهیم بیشتری را کشف کنیم. ما با متنی درباره علم داده شروع می‌کنیم، کلمات کلیدی را از آن استخراج می‌کنیم و سپس سعی می‌کنیم نتیجه را بصری‌سازی کنیم.\n", "\n", "به عنوان متن، از صفحه علم داده در ویکی‌پدیا استفاده خواهم کرد:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## مرحله ۱: دریافت داده‌ها\n", "\n", "اولین مرحله در هر فرآیند علم داده، دریافت داده‌ها است. ما از کتابخانه `requests` برای این کار استفاده خواهیم کرد:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "