{ "cells": [ { "cell_type": "markdown", "source": [ "# चुनौती: डेटा साइंस के बारे में टेक्स्ट का विश्लेषण करना\n", "\n", "> *इस नोटबुक में, हम मशीन लर्निंग पर विकिपीडिया लेख का उपयोग करके विभिन्न URL के साथ प्रयोग करते हैं। आप देख सकते हैं कि, डेटा साइंस के विपरीत, इस लेख में कई तकनीकी शब्द हैं, जिससे विश्लेषण अधिक चुनौतीपूर्ण हो जाता है। हमें कीवर्ड एक्सट्रैक्शन के बाद डेटा को साफ करने का एक और तरीका ढूंढना होगा, ताकि कुछ सामान्य लेकिन अर्थहीन शब्द संयोजनों को हटाया जा सके।*\n", "\n", "इस उदाहरण में, चलिए एक साधारण अभ्यास करते हैं जो पारंपरिक डेटा साइंस प्रक्रिया के सभी चरणों को कवर करता है। आपको कोई कोड लिखने की आवश्यकता नहीं है, आप बस नीचे दिए गए सेल्स पर क्लिक करके उन्हें निष्पादित कर सकते हैं और परिणाम देख सकते हैं। एक चुनौती के रूप में, आप इस कोड को अलग-अलग डेटा के साथ आजमाने के लिए प्रोत्साहित किए जाते हैं।\n", "\n", "## उद्देश्य\n", "\n", "इस पाठ में, हमने डेटा साइंस से संबंधित विभिन्न अवधारणाओं पर चर्चा की है। चलिए **टेक्स्ट माइनिंग** करके और अधिक संबंधित अवधारणाओं की खोज करने की कोशिश करते हैं। हम डेटा साइंस के बारे में एक टेक्स्ट से शुरुआत करेंगे, उससे कीवर्ड निकालेंगे, और फिर परिणाम को विज़ुअलाइज़ करने की कोशिश करेंगे।\n", "\n", "टेक्स्ट के रूप में, मैं विकिपीडिया पर डेटा साइंस के पेज का उपयोग करूंगा:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## चरण 1: डेटा प्राप्त करना\n", "\n", "हर डेटा साइंस प्रक्रिया का पहला चरण डेटा प्राप्त करना होता है। इसके लिए हम `requests` लाइब्रेरी का उपयोग करेंगे:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "