{ "cells": [ { "cell_type": "markdown", "source": [ "# التحدي: تحليل النصوص حول علم البيانات\n", "\n", "في هذا المثال، سنقوم بممارسة بسيطة تغطي جميع خطوات عملية علم البيانات التقليدية. لا تحتاج إلى كتابة أي كود، يمكنك فقط النقر على الخلايا أدناه لتنفيذها وملاحظة النتيجة. كجزء من التحدي، يُشجَّعك على تجربة هذا الكود مع بيانات مختلفة.\n", "\n", "## الهدف\n", "\n", "في هذه الدرس، ناقشنا مفاهيم مختلفة تتعلق بعلم البيانات. دعونا نحاول اكتشاف المزيد من المفاهيم ذات الصلة من خلال القيام بـ **تنقيب النصوص**. سنبدأ بنص حول علم البيانات، نستخرج الكلمات المفتاحية منه، ثم نحاول تصور النتيجة.\n", "\n", "كنص، سأستخدم الصفحة الخاصة بعلم البيانات من ويكيبيديا:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## الخطوة 1: الحصول على البيانات\n", "\n", "الخطوة الأولى في كل عملية علم البيانات هي الحصول على البيانات. سنستخدم مكتبة `requests` للقيام بذلك:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "