{ "cells": [ { "cell_type": "markdown", "source": [ "# التحدي: تحليل النصوص حول علم البيانات\n", "\n", "> *في هذا الدفتر، نجرب استخدام رابط مختلف - مقال ويكيبيديا عن التعلم الآلي. يمكنك أن تلاحظ أن هذا المقال، على عكس علم البيانات، يحتوي على الكثير من المصطلحات، مما يجعل التحليل أكثر تعقيدًا. نحتاج إلى إيجاد طريقة أخرى لتنظيف البيانات بعد استخراج الكلمات المفتاحية، للتخلص من بعض التراكيب الشائعة ولكن غير ذات المعنى.*\n", "\n", "في هذا المثال، دعونا نقوم بتمرين بسيط يغطي جميع خطوات عملية علم البيانات التقليدية. ليس عليك كتابة أي كود، يمكنك فقط النقر على الخلايا أدناه لتنفيذها وملاحظة النتيجة. كجزء من التحدي، يُشجَّعك على تجربة هذا الكود مع بيانات مختلفة.\n", "\n", "## الهدف\n", "\n", "في هذا الدرس، كنا نتحدث عن مفاهيم مختلفة تتعلق بعلم البيانات. دعونا نحاول اكتشاف المزيد من المفاهيم ذات الصلة من خلال القيام ببعض **التنقيب عن النصوص**. سنبدأ بنص حول علم البيانات، نستخرج منه الكلمات المفتاحية، ثم نحاول تصور النتيجة.\n", "\n", "كنص، سأستخدم صفحة علم البيانات من ويكيبيديا:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## الخطوة 1: الحصول على البيانات\n", "\n", "أول خطوة في أي عملية علم بيانات هي الحصول على البيانات. سنستخدم مكتبة `requests` للقيام بذلك:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "