{ "cells": [ { "cell_type": "markdown", "source": [ "# సవాలు: డేటా సైన్స్ గురించి టెక్స్ట్ విశ్లేషణ\n", "\n", "> *ఈ నోట్‌బుక్‌లో, మేము వేరే URL - మెషీన్ లెర్నింగ్ పై వికీపీడియా వ్యాసం ఉపయోగించి ప్రయోగం చేస్తున్నాము. డేటా సైన్స్‌తో పోలిస్తే, ఈ వ్యాసంలో చాలా పదాలు ఉన్నాయి, ఇది విశ్లేషణను మరింత సమస్యాత్మకంగా చేస్తుంది. కీవర్డ్ ఎక్స్‌ట్రాక్షన్ చేసిన తర్వాత, కొంత సార్వత్రికమైన కానీ అర్థవంతమైన కాని పద సంయోజనాలను తొలగించడానికి డేటాను శుభ్రం చేసే మరో మార్గాన్ని కనుగొనాలి.*\n", "\n", "ఈ ఉదాహరణలో, సంప్రదాయ డేటా సైన్స్ ప్రక్రియలోని అన్ని దశలను కవర్ చేసే ఒక సులభమైన వ్యాయామం చేద్దాం. మీరు ఏ కోడ్ రాయాల్సిన అవసరం లేదు, కేవలం క్రింద ఉన్న సెల్స్‌పై క్లిక్ చేసి వాటిని అమలు చేసి ఫలితాన్ని గమనించవచ్చు. ఒక సవాలుగా, మీరు ఈ కోడ్‌ను వేరే డేటాతో ప్రయత్నించమని ప్రోత్సహించబడుతున్నారు.\n", "\n", "## లక్ష్యం\n", "\n", "ఈ పాఠంలో, మేము డేటా సైన్స్‌కు సంబంధించిన వివిధ భావనలను చర్చిస్తున్నాము. కొంత **టెక్స్ట్ మైనింగ్** చేయడం ద్వారా మరిన్ని సంబంధిత భావనలను కనుగొనడానికి ప్రయత్నిద్దాం. మేము డేటా సైన్స్ గురించి ఒక టెక్స్ట్‌తో ప్రారంభించి, దానిలోని కీవర్డ్స్‌ను తీసుకుని, ఆ తర్వాత ఫలితాన్ని విజువలైజ్ చేయడానికి ప్రయత్నిస్తాము.\n", "\n", "టెక్స్ట్‌గా, నేను వికీపీడియా నుండి డేటా సైన్స్ పేజీని ఉపయోగిస్తాను:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Step 1: డేటాను పొందడం\n", "\n", "ప్రతి డేటా సైన్స్ ప్రక్రియలో మొదటి దశ డేటాను పొందడం. దీని కోసం మనం `requests` లైబ్రరీని ఉపయోగిస్తాము:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "