{ "cells": [ { "cell_type": "markdown", "source": [ "# چالش: تحلیل متن درباره علم داده\n", "\n", "> *در این نوتبوک، ما با استفاده از مقاله ویکیپدیا درباره یادگیری ماشین آزمایش میکنیم. میتوانید ببینید که برخلاف علم داده، این مقاله شامل اصطلاحات زیادی است که تحلیل را پیچیدهتر میکند. ما باید راه دیگری برای پاکسازی دادهها پس از استخراج کلمات کلیدی پیدا کنیم تا از شر برخی ترکیبهای پرتکرار اما بیمعنی خلاص شویم.*\n", "\n", "در این مثال، بیایید یک تمرین ساده انجام دهیم که تمام مراحل یک فرآیند سنتی علم داده را پوشش میدهد. نیازی نیست کدی بنویسید، فقط میتوانید روی سلولهای زیر کلیک کنید تا آنها را اجرا کرده و نتیجه را مشاهده کنید. به عنوان یک چالش، تشویق میشوید که این کد را با دادههای مختلف امتحان کنید.\n", "\n", "## هدف\n", "\n", "در این درس، ما درباره مفاهیم مختلف مرتبط با علم داده صحبت کردهایم. بیایید سعی کنیم با انجام **استخراج متن** مفاهیم بیشتری را کشف کنیم. ما با متنی درباره علم داده شروع میکنیم، کلمات کلیدی را از آن استخراج میکنیم و سپس سعی میکنیم نتیجه را تجسم کنیم.\n", "\n", "به عنوان متن، از صفحه علم داده در ویکیپدیا استفاده خواهیم کرد:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## مرحله ۱: دریافت دادهها\n", "\n", "اولین مرحله در هر فرآیند علم داده، دریافت دادهها است. ما از کتابخانه `requests` برای این کار استفاده خواهیم کرد:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "