{ "cells": [ { "cell_type": "markdown", "source": [ "# ਚੁਣੌਤੀ: ਡਾਟਾ ਸਾਇੰਸ ਬਾਰੇ ਟੈਕਸਟ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ\n", "\n", "> *ਇਸ ਨੋਟਬੁੱਕ ਵਿੱਚ, ਅਸੀਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਵਿਕੀਪੀਡੀਆ ਲੇਖ ਵਰਗੇ ਵੱਖ-ਵੱਖ URL ਦੀ ਵਰਤੋਂ ਕਰਨ ਦਾ ਪ੍ਰਯੋਗ ਕਰਦੇ ਹਾਂ। ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ ਕਿ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਮੁਕਾਬਲੇ, ਇਸ ਲੇਖ ਵਿੱਚ ਕਈ ਸ਼ਬਦ ਹਨ, ਜਿਸ ਕਰਕੇ ਵਿਸ਼ਲੇਸ਼ਣ ਹੋਰ ਜਟਿਲ ਹੋ ਜਾਂਦਾ ਹੈ। ਕੀਵਰਡ ਐਕਸਟ੍ਰੈਕਸ਼ਨ ਕਰਨ ਤੋਂ ਬਾਅਦ ਡਾਟਾ ਨੂੰ ਸਾਫ਼ ਕਰਨ ਦਾ ਹੋਰ ਤਰੀਕਾ ਲੱਭਣ ਦੀ ਲੋੜ ਹੈ, ਤਾਂ ਜੋ ਕੁਝ ਆਮ, ਪਰ ਅਰਥਹੀਨ ਸ਼ਬਦ ਸੰਯੋਜਨਾਂ ਨੂੰ ਹਟਾਇਆ ਜਾ ਸਕੇ।*\n", "\n", "ਇਸ ਉਦਾਹਰਨ ਵਿੱਚ, ਆਓ ਇੱਕ ਸਧਾਰਨ ਅਭਿਆਸ ਕਰੀਏ ਜੋ ਰਵਾਇਤੀ ਡਾਟਾ ਸਾਇੰਸ ਪ੍ਰਕਿਰਿਆ ਦੇ ਸਾਰੇ ਕਦਮਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ। ਤੁਹਾਨੂੰ ਕੋਈ ਕੋਡ ਲਿਖਣ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ, ਤੁਸੀਂ ਸਿਰਫ ਹੇਠਾਂ ਦਿੱਤੇ ਸੈੱਲਾਂ 'ਤੇ ਕਲਿੱਕ ਕਰਕੇ ਉਨ੍ਹਾਂ ਨੂੰ ਚਲਾਉ ਅਤੇ ਨਤੀਜੇ ਨੂੰ ਦੇਖੋ। ਇੱਕ ਚੁਣੌਤੀ ਵਜੋਂ, ਤੁਹਾਨੂੰ ਇਹ ਕੋਡ ਵੱਖ-ਵੱਖ ਡਾਟਾ ਨਾਲ ਅਜ਼ਮਾਉਣ ਲਈ ਪ੍ਰੇਰਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।\n", "\n", "## ਲਕਸ਼\n", "\n", "ਇਸ ਪਾਠ ਵਿੱਚ, ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ ਨਾਲ ਸੰਬੰਧਿਤ ਵੱਖ-ਵੱਖ ਧਾਰਨਾਵਾਂ ਬਾਰੇ ਚਰਚਾ ਕਰ ਰਹੇ ਹਾਂ। ਆਓ ਕੁਝ ਹੋਰ ਸੰਬੰਧਿਤ ਧਾਰਨਾਵਾਂ ਦੀ ਖੋਜ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੀਏ **ਟੈਕਸਟ ਮਾਈਨਿੰਗ** ਕਰਕੇ। ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ ਬਾਰੇ ਇੱਕ ਟੈਕਸਟ ਨਾਲ ਸ਼ੁਰੂ ਕਰਾਂਗੇ, ਇਸ ਵਿੱਚੋਂ ਕੀਵਰਡ ਕੱਢਾਂਗੇ, ਅਤੇ ਫਿਰ ਨਤੀਜੇ ਨੂੰ ਵਿਜੁਅਲਾਈਜ਼ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਾਂਗੇ।\n", "\n", "ਟੈਕਸਟ ਵਜੋਂ, ਮੈਂ ਵਿਕੀਪੀਡੀਆ 'ਤੇ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਪੰਨੇ ਦੀ ਵਰਤੋਂ ਕਰਾਂਗਾ:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## ਪਹਲਾ ਕਦਮ: ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨਾ\n", "\n", "ਹਰ ਡਾਟਾ ਸਾਇੰਸ ਪ੍ਰਕਿਰਿਆ ਦਾ ਪਹਿਲਾ ਕਦਮ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨਾ ਹੁੰਦਾ ਹੈ। ਅਸੀਂ ਇਹ ਕੰਮ ਕਰਨ ਲਈ `requests` ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "