{ "cells": [ { "cell_type": "markdown", "source": [ "# চ্যালেঞ্জ: ডেটা সায়েন্স সম্পর্কিত টেক্সট বিশ্লেষণ\n", "\n", "এই উদাহরণে, চলুন একটি সহজ অনুশীলন করি যা একটি প্রচলিত ডেটা সায়েন্স প্রক্রিয়ার সমস্ত ধাপকে অন্তর্ভুক্ত করে। আপনাকে কোনো কোড লিখতে হবে না, আপনি শুধু নিচের সেলগুলোতে ক্লিক করে সেগুলো চালাতে পারেন এবং ফলাফল পর্যবেক্ষণ করতে পারেন। একটি চ্যালেঞ্জ হিসেবে, আপনাকে উৎসাহিত করা হচ্ছে এই কোডটি বিভিন্ন ডেটার সাথে চেষ্টা করার জন্য।\n", "\n", "## লক্ষ্য\n", "\n", "এই পাঠে, আমরা ডেটা সায়েন্স সম্পর্কিত বিভিন্ন ধারণা নিয়ে আলোচনা করেছি। চলুন কিছু **টেক্সট মাইনিং** করে আরও সম্পর্কিত ধারণা আবিষ্কার করার চেষ্টা করি। আমরা ডেটা সায়েন্স সম্পর্কিত একটি টেক্সট দিয়ে শুরু করব, সেখান থেকে কীওয়ার্ড বের করব এবং তারপর ফলাফলটি ভিজুয়ালাইজ করার চেষ্টা করব।\n", "\n", "টেক্সট হিসেবে, আমি উইকিপিডিয়ার ডেটা সায়েন্স পৃষ্ঠাটি ব্যবহার করব:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## ধাপ ১: ডেটা সংগ্রহ করা\n", "\n", "প্রতিটি ডেটা সায়েন্স প্রক্রিয়ার প্রথম ধাপ হলো ডেটা সংগ্রহ করা। আমরা এটি করার জন্য `requests` লাইব্রেরি ব্যবহার করব:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "