{ "cells": [ { "cell_type": "markdown", "source": [ "# چالش: تحلیل متن درباره علم داده\n", "\n", "در این مثال، بیایید یک تمرین ساده انجام دهیم که تمام مراحل یک فرآیند سنتی علم داده را پوشش میدهد. نیازی نیست کدی بنویسید، فقط میتوانید روی سلولهای زیر کلیک کنید تا آنها را اجرا کرده و نتیجه را مشاهده کنید. به عنوان یک چالش، تشویق میشوید که این کد را با دادههای مختلف امتحان کنید.\n", "\n", "## هدف\n", "\n", "در این درس، ما درباره مفاهیم مختلف مرتبط با علم داده صحبت کردهایم. بیایید با انجام **متنکاوی** مفاهیم بیشتری را کشف کنیم. ما با متنی درباره علم داده شروع میکنیم، کلمات کلیدی را از آن استخراج میکنیم و سپس سعی میکنیم نتیجه را بصریسازی کنیم.\n", "\n", "به عنوان متن، از صفحه علم داده در ویکیپدیا استفاده خواهم کرد:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## مرحله ۱: دریافت دادهها\n", "\n", "اولین مرحله در هر فرآیند علم داده، دریافت دادهها است. ما از کتابخانه `requests` برای این کار استفاده خواهیم کرد:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "