{ "cells": [ { "cell_type": "markdown", "source": [ "# چیلنج: ڈیٹا سائنس کے بارے میں متن کا تجزیہ\n", "\n", "> *اس نوٹ بک میں، ہم مختلف یو آر ایل - ویکیپیڈیا کے مشین لرننگ کے مضمون کا استعمال کرنے کا تجربہ کرتے ہیں۔ آپ دیکھ سکتے ہیں کہ، ڈیٹا سائنس کے برعکس، اس مضمون میں بہت سے اصطلاحات شامل ہیں، جو تجزیے کو زیادہ مشکل بنا دیتی ہیں۔ ہمیں کلیدی الفاظ نکالنے کے بعد ڈیٹا کو صاف کرنے کا ایک اور طریقہ تلاش کرنا ہوگا تاکہ کچھ عام لیکن غیر معنی خیز لفظی مجموعوں سے چھٹکارا حاصل کیا جا سکے۔*\n", "\n", "اس مثال میں، آئیے ایک سادہ مشق کریں جو روایتی ڈیٹا سائنس کے عمل کے تمام مراحل کا احاطہ کرتی ہے۔ آپ کو کوئی کوڈ لکھنے کی ضرورت نہیں ہے، آپ صرف نیچے دیے گئے سیلز پر کلک کر کے انہیں چلا سکتے ہیں اور نتیجہ دیکھ سکتے ہیں۔ ایک چیلنج کے طور پر، آپ کو مختلف ڈیٹا کے ساتھ اس کوڈ کو آزمانے کی ترغیب دی جاتی ہے۔\n", "\n", "## مقصد\n", "\n", "اس سبق میں، ہم نے ڈیٹا سائنس سے متعلق مختلف تصورات پر بات کی ہے۔ آئیے **ٹیکسٹ مائننگ** کے ذریعے مزید متعلقہ تصورات دریافت کرنے کی کوشش کریں۔ ہم ڈیٹا سائنس کے بارے میں ایک متن سے آغاز کریں گے، اس سے کلیدی الفاظ نکالیں گے، اور پھر نتیجہ کو بصری شکل دینے کی کوشش کریں گے۔\n", "\n", "بطور متن، میں ویکیپیڈیا پر ڈیٹا سائنس کے صفحے کا استعمال کروں گا:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## مرحلہ 1: ڈیٹا حاصل کرنا\n", "\n", "ڈیٹا سائنس کے ہر عمل کا پہلا مرحلہ ڈیٹا حاصل کرنا ہوتا ہے۔ ہم اس کے لیے `requests` لائبریری استعمال کریں گے:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "