{ "cells": [ { "cell_type": "markdown", "source": [ "# चुनौती: डेटा विज्ञान सम्बन्धी पाठको विश्लेषण\n", "\n", "> *यस नोटबुकमा, हामी विभिन्न URL - मेशिन लर्निङको विकिपीडिया लेख प्रयोग गरेर प्रयोग गर्छौं। तपाईं देख्न सक्नुहुन्छ कि, डेटा विज्ञानको तुलनामा, यो लेखमा धेरै शब्दावलीहरू छन्, जसले विश्लेषणलाई अझ समस्याग्रस्त बनाउँछ। कीवर्ड निकालिसकेपछि डेटा सफा गर्न अर्को तरिका खोज्न आवश्यक छ, ताकि बारम्बार प्रयोग हुने तर अर्थपूर्ण नभएका शब्द संयोजनहरू हटाउन सकियोस्।*\n", "\n", "यस उदाहरणमा, हामी परम्परागत डेटा विज्ञान प्रक्रियाका सबै चरणहरू समेट्ने एउटा साधारण अभ्यास गर्नेछौं। तपाईंले कुनै कोड लेख्न आवश्यक छैन, तपाईं केवल तलका सेलहरू क्लिक गरेर तिनीहरूलाई कार्यान्वयन गर्न सक्नुहुन्छ र परिणाम अवलोकन गर्न सक्नुहुन्छ। चुनौतीको रूपमा, तपाईंलाई यो कोड विभिन्न डेटा प्रयोग गरेर प्रयास गर्न प्रोत्साहित गरिन्छ।\n", "\n", "## उद्देश्य\n", "\n", "यस पाठमा, हामी डेटा विज्ञानसँग सम्बन्धित विभिन्न अवधारणाहरूको चर्चा गर्दैछौं। **पाठ खनन** गरेर थप सम्बन्धित अवधारणाहरू पत्ता लगाउने प्रयास गरौं। हामी डेटा विज्ञान सम्बन्धी पाठबाट सुरु गर्नेछौं, त्यसबाट कीवर्ड निकाल्नेछौं, र त्यसपछि परिणामलाई दृश्यात्मक बनाउने प्रयास गर्नेछौं।\n", "\n", "पाठको रूपमा, म विकिपीडियाको डेटा विज्ञान पृष्ठ प्रयोग गर्नेछु:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## चरण १: डाटा प्राप्त गर्ने\n", "\n", "प्रत्येक डाटा विज्ञान प्रक्रियाको पहिलो चरण भनेको डाटा प्राप्त गर्नु हो। हामीले यो गर्नका लागि `requests` लाइब्रेरी प्रयोग गर्नेछौं:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "