{ "cells": [ { "cell_type": "markdown", "source": [ "# চ্যালেঞ্জ: ডেটা সায়েন্স সম্পর্কিত টেক্সট বিশ্লেষণ\n", "\n", "> *এই নোটবুকে, আমরা মেশিন লার্নিং সম্পর্কিত উইকিপিডিয়া নিবন্ধ ব্যবহার করে বিভিন্ন URL নিয়ে পরীক্ষা-নিরীক্ষা করি। আপনি দেখতে পাবেন যে, ডেটা সায়েন্সের তুলনায় এই নিবন্ধে অনেক বেশি পরিভাষা রয়েছে, যা বিশ্লেষণকে আরও জটিল করে তোলে। কীওয়ার্ড এক্সট্রাকশনের পরে কিছু সাধারণ কিন্তু অর্থহীন শব্দগুচ্ছ বাদ দেওয়ার জন্য আমাদের ডেটা পরিষ্কার করার আরেকটি পদ্ধতি বের করতে হবে।*\n", "\n", "এই উদাহরণে, আসুন একটি সহজ অনুশীলন করি যা ঐতিহ্যবাহী ডেটা সায়েন্স প্রক্রিয়ার সমস্ত ধাপ কভার করে। আপনাকে কোনো কোড লিখতে হবে না, আপনি শুধু নিচের সেলগুলোতে ক্লিক করে সেগুলো চালাতে পারেন এবং ফলাফল পর্যবেক্ষণ করতে পারেন। একটি চ্যালেঞ্জ হিসেবে, আপনাকে উৎসাহিত করা হচ্ছে যে আপনি এই কোডটি বিভিন্ন ডেটার সাথে চেষ্টা করুন। \n", "\n", "## লক্ষ্য\n", "\n", "এই পাঠে, আমরা ডেটা সায়েন্স সম্পর্কিত বিভিন্ন ধারণা নিয়ে আলোচনা করেছি। আসুন কিছু **টেক্সট মাইনিং** করে আরও সম্পর্কিত ধারণা আবিষ্কার করার চেষ্টা করি। আমরা ডেটা সায়েন্স সম্পর্কিত একটি টেক্সট দিয়ে শুরু করব, সেখান থেকে কীওয়ার্ড বের করব এবং তারপর ফলাফলটি ভিজুয়ালাইজ করার চেষ্টা করব।\n", "\n", "টেক্সট হিসেবে, আমি উইকিপিডিয়ার ডেটা সায়েন্স পৃষ্ঠাটি ব্যবহার করব:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## ধাপ ১: ডেটা সংগ্রহ করা\n", "\n", "প্রতিটি ডেটা সায়েন্স প্রক্রিয়ার প্রথম ধাপ হলো ডেটা সংগ্রহ করা। আমরা এটি করার জন্য `requests` লাইব্রেরি ব্যবহার করব:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "