{ "cells": [ { "cell_type": "markdown", "source": [ "# چیلنج: ڈیٹا سائنس کے بارے میں متن کا تجزیہ\n", "\n", "اس مثال میں، آئیے ایک سادہ مشق کریں جو روایتی ڈیٹا سائنس کے عمل کے تمام مراحل کا احاطہ کرتی ہے۔ آپ کو کوئی کوڈ لکھنے کی ضرورت نہیں ہے، آپ صرف نیچے دیے گئے سیلز پر کلک کر کے انہیں چلا سکتے ہیں اور نتیجہ دیکھ سکتے ہیں۔ ایک چیلنج کے طور پر، آپ کو ترغیب دی جاتی ہے کہ اس کوڈ کو مختلف ڈیٹا کے ساتھ آزما کر دیکھیں۔\n", "\n", "## مقصد\n", "\n", "اس سبق میں، ہم نے ڈیٹا سائنس سے متعلق مختلف تصورات پر بات کی ہے۔ آئیے کچھ مزید متعلقہ تصورات دریافت کرنے کی کوشش کریں **ٹیکسٹ مائننگ** کے ذریعے۔ ہم ڈیٹا سائنس کے بارے میں ایک متن سے شروع کریں گے، اس سے کلیدی الفاظ نکالیں گے، اور پھر نتیجہ کو بصری طور پر پیش کرنے کی کوشش کریں گے۔\n", "\n", "بطور متن، میں ڈیٹا سائنس کے بارے میں ویکیپیڈیا کے صفحے کا استعمال کروں گا:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## مرحلہ 1: ڈیٹا حاصل کرنا\n", "\n", "ہر ڈیٹا سائنس کے عمل کا پہلا مرحلہ ڈیٹا حاصل کرنا ہوتا ہے۔ ہم اس کے لیے `requests` لائبریری استعمال کریں گے:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "