{ "cells": [ { "cell_type": "markdown", "source": [ "# आव्हान: डेटा सायन्सबद्दल मजकूराचे विश्लेषण\n", "\n", "> *या नोटबुकमध्ये, आपण मशीन लर्निंगवरील विकिपीडिया लेखाचा वापर करून विविध URL वापरण्याचा प्रयोग करतो. आपण पाहू शकतो की, डेटा सायन्सच्या तुलनेत, या लेखामध्ये अनेक संज्ञा आहेत, ज्यामुळे विश्लेषण अधिक कठीण होते. कीवर्ड एक्स्ट्रॅक्शन केल्यानंतर डेटा साफ करण्याचा दुसरा मार्ग शोधणे आवश्यक आहे, जेणेकरून काही वारंवार, पण अर्थहीन शब्दसमूह काढून टाकता येतील.*\n", "\n", "या उदाहरणात, पारंपरिक डेटा सायन्स प्रक्रियेच्या सर्व टप्प्यांचा समावेश असलेला एक साधा व्यायाम करूया. तुम्हाला कोणताही कोड लिहिण्याची गरज नाही, तुम्ही खालील सेल्सवर क्लिक करून त्यांना चालवू शकता आणि परिणाम पाहू शकता. आव्हान म्हणून, तुम्हाला वेगळ्या डेटासह हा कोड वापरून पाहण्याचे प्रोत्साहन दिले जाते.\n", "\n", "## उद्दिष्ट\n", "\n", "या धड्यात, आपण डेटा सायन्सशी संबंधित विविध संकल्पनांवर चर्चा केली आहे. **टेक्स्ट मायनिंग** करून अधिक संबंधित संकल्पना शोधण्याचा प्रयत्न करूया. आपण डेटा सायन्सबद्दल मजकूर घेऊन सुरुवात करू, त्यातून कीवर्ड्स काढू आणि नंतर परिणामाचे व्हिज्युअलायझेशन करण्याचा प्रयत्न करू.\n", "\n", "मजकूर म्हणून, मी विकिपीडियावरील डेटा सायन्स पृष्ठाचा वापर करणार आहे:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## चरण 1: डेटा मिळवणे\n", "\n", "प्रत्येक डेटा सायन्स प्रक्रियेतील पहिलं पाऊल म्हणजे डेटा मिळवणे. यासाठी आपण `requests` लायब्ररीचा वापर करू:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "