{ "cells": [ { "cell_type": "markdown", "source": [ "# चुनौती: डाटा साइन्स सम्बन्धी पाठको विश्लेषण\n", "\n", "यस उदाहरणमा, परम्परागत डाटा साइन्स प्रक्रियाका सबै चरणहरू समेट्ने एउटा साधारण अभ्यास गरौं। तपाईंले कुनै कोड लेख्न आवश्यक छैन, तपाईं तलका सेलहरूमा क्लिक गरेर तिनलाई कार्यान्वयन गर्न सक्नुहुन्छ र परिणाम अवलोकन गर्न सक्नुहुन्छ। चुनौतीको रूपमा, तपाईंलाई यो कोड फरक डाटासँग प्रयास गर्न प्रोत्साहित गरिन्छ।\n", "\n", "## उद्देश्य\n", "\n", "यस पाठमा, हामीले डाटा साइन्ससँग सम्बन्धित विभिन्न अवधारणाहरूको चर्चा गरिरहेका छौं। अब, केही **पाठ खनन** गरेर थप सम्बन्धित अवधारणाहरू पत्ता लगाउने प्रयास गरौं। हामी डाटा साइन्स सम्बन्धी एउटा पाठबाट सुरु गर्नेछौं, त्यसबाट मुख्य शब्दहरू निकाल्नेछौं, र त्यसपछि परिणामलाई दृश्यात्मक बनाउने प्रयास गर्नेछौं।\n", "\n", "पाठको रूपमा, म विकिपेडियाको डाटा साइन्स पृष्ठ प्रयोग गर्नेछु:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## चरण १: डाटा प्राप्त गर्ने\n", "\n", "प्रत्येक डाटा विज्ञान प्रक्रियाको पहिलो चरण भनेको डाटा प्राप्त गर्नु हो। हामी यसका लागि `requests` लाइब्रेरी प्रयोग गर्नेछौं:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "