{ "cells": [ { "cell_type": "markdown", "source": [ "# چالش: تحلیل متن درباره علم داده\n", "\n", "> *در این نوت‌بوک، ما با استفاده از مقاله ویکی‌پدیا درباره یادگیری ماشین آزمایش می‌کنیم. می‌توانید ببینید که برخلاف علم داده، این مقاله شامل اصطلاحات زیادی است که تحلیل را پیچیده‌تر می‌کند. ما باید راه دیگری برای پاکسازی داده‌ها پس از استخراج کلمات کلیدی پیدا کنیم تا از شر برخی ترکیب‌های پرتکرار اما بی‌معنی خلاص شویم.*\n", "\n", "در این مثال، بیایید یک تمرین ساده انجام دهیم که تمام مراحل یک فرآیند سنتی علم داده را پوشش می‌دهد. نیازی نیست کدی بنویسید، فقط می‌توانید روی سلول‌های زیر کلیک کنید تا آن‌ها را اجرا کرده و نتیجه را مشاهده کنید. به عنوان یک چالش، تشویق می‌شوید که این کد را با داده‌های مختلف امتحان کنید.\n", "\n", "## هدف\n", "\n", "در این درس، ما درباره مفاهیم مختلف مرتبط با علم داده صحبت کرده‌ایم. بیایید سعی کنیم با انجام **استخراج متن** مفاهیم بیشتری را کشف کنیم. ما با متنی درباره علم داده شروع می‌کنیم، کلمات کلیدی را از آن استخراج می‌کنیم و سپس سعی می‌کنیم نتیجه را تجسم کنیم.\n", "\n", "به عنوان متن، از صفحه علم داده در ویکی‌پدیا استفاده خواهیم کرد:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## مرحله ۱: دریافت داده‌ها\n", "\n", "اولین مرحله در هر فرآیند علم داده، دریافت داده‌ها است. ما از کتابخانه `requests` برای این کار استفاده خواهیم کرد:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "