{ "cells": [ { "cell_type": "markdown", "source": [ "# சவால்: தரவியல் அறிவியல் பற்றிய உரையை பகுப்பாய்வு செய்வது\n", "\n", "> *இந்த நோட்புக்கில், நாங்கள் வெவ்வேறு URL-களை பயன்படுத்தி பரிசோதிக்கிறோம் - மெஷின் லெர்னிங் பற்றிய விக்கிபீடியா கட்டுரை. நீங்கள் காணலாம், தரவியல் அறிவியலுடன் ஒப்பிடும்போது, இந்த கட்டுரையில் பல சொற்கள் உள்ளன, இது பகுப்பாய்வை சிக்கலாக்குகிறது. முக்கியத்துவமற்ற, ஆனால் அடிக்கடி தோன்றும் சொற்கள் மற்றும் சொற்தொகுப்புகளை நீக்குவதற்கான மற்றொரு முறையை உருவாக்க வேண்டும்.*\n", "\n", "இந்த எடுத்துக்காட்டில், பாரம்பரிய தரவியல் அறிவியல் செயல்முறையின் அனைத்து படிகளையும் உள்ளடக்கிய ஒரு எளிய பயிற்சியை செய்யலாம். நீங்கள் எந்த குறியீடும் எழுத வேண்டியதில்லை, கீழே உள்ள செல்களை கிளிக் செய்து அவற்றை செயல்படுத்தி முடிவுகளை கவனிக்கலாம். சவாலாக, இந்த குறியீட்டை வேறு தரவுகளுடன் முயற்சிக்க உங்களை ஊக்குவிக்கிறோம்.\n", "\n", "## இலக்கு\n", "\n", "இந்த பாடத்தில், தரவியல் அறிவியலுடன் தொடர்புடைய பல கருத்துகளை நாம் விவாதித்தோம். **உரையிலிருந்து தகவல் சுரக்க** முயற்சிப்பதன் மூலம் மேலும் தொடர்புடைய கருத்துகளை கண்டறிய முயற்சிக்கலாம். தரவியல் அறிவியல் பற்றிய ஒரு உரையை எடுத்துக்கொண்டு, அதிலிருந்து முக்கிய சொற்களை சுரக்கிறோம், பின்னர் முடிவுகளை காட்சிப்படுத்த முயற்சிக்கிறோம்.\n", "\n", "உரையாக, நான் விக்கிபீடியாவில் தரவியல் அறிவியல் பற்றிய பக்கத்தை பயன்படுத்துகிறேன்:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## படி 1: தரவுகளை பெறுதல்\n", "\n", "ஒவ்வொரு தரவியல் அறிவியல் செயல்முறையிலும் முதல் படி தரவுகளை பெறுவதுதான். இதற்காக `requests` நூலகத்தை பயன்படுத்துவோம்:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "