[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
এই চ্যালেঞ্জে, আমরা ডেটা সায়েন্স ক্ষেত্রের সাথে সম্পর্কিত ধারণাগুলো খুঁজে বের করার চেষ্টা করব টেক্সট বিশ্লেষণ করে। আমরা ডেটা সায়েন্স সম্পর্কিত একটি উইকিপিডিয়া নিবন্ধ নেব, টেক্সট ডাউনলোড এবং প্রক্রিয়া করব, এবং তারপর একটি ওয়ার্ড ক্লাউড তৈরি করব যা এরকম দেখতে হবে:


[`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') পরিদর্শন করুন কোডটি পড়ার জন্য। আপনি কোডটি চালাতে পারেন এবং দেখতে পারেন এটি কীভাবে রিয়েল টাইমে সমস্ত ডেটা রূপান্তর সম্পন্ন করে।
"# চ্যালেঞ্জ: ডেটা সায়েন্স সম্পর্কে টেক্সট বিশ্লেষণ\n",
"\n",
"এই উদাহরণে, চলুন একটি সহজ অনুশীলন করি যা একটি প্রচলিত ডেটা সায়েন্স প্রক্রিয়ার সমস্ত ধাপকে অন্তর্ভুক্ত করে। আপনাকে কোনো কোড লিখতে হবে না, আপনি শুধু নিচের সেলগুলোতে ক্লিক করে সেগুলো চালাতে পারেন এবং ফলাফল পর্যবেক্ষণ করতে পারেন। একটি চ্যালেঞ্জ হিসেবে, আপনাকে উৎসাহিত করা হচ্ছে এই কোডটি বিভিন্ন ডেটার সাথে চেষ্টা করার জন্য।\n",
"এই উদাহরণে, আসুন একটি সহজ ব্যায়াম করি যা ঐতিহ্যগত ডেটা সায়েন্স প্রক্রিয়ার সমস্ত ধাপ কভার করে। আপনাকে কোন কোড লিখতে হবে না, আপনি কেবল নিচের সেলগুলোতে ক্লিক করে সেগুলো চালাতে পারেন এবং ফলাফল পর্যবেক্ষণ করতে পারেন। একটি চ্যালেঞ্জ হিসাবে, আপনাকে উত্সাহিত করা হচ্ছে এই কোডটি বিভিন্ন ডেটা দিয়ে চেষ্টা করতে।\n",
"\n",
"## লক্ষ্য\n",
"\n",
"এই পাঠে, আমরা ডেটা সায়েন্স সম্পর্কিত বিভিন্ন ধারণা নিয়ে আলোচনা করেছি। চলুন কিছু **টেক্সট মাইনিং** করে আরও সম্পর্কিত ধারণা আবিষ্কার করার চেষ্টা করি। আমরা ডেটা সায়েন্স সম্পর্কিত একটি টেক্সট দিয়ে শুরু করব, সেখান থেকে কীওয়ার্ড বের করব এবং তারপর ফলাফলটি ভিজুয়ালাইজ করার চেষ্টা করব।\n",
"এই পাঠে, আমরা ডেটা সায়েন্স সম্পর্কিত বিভিন্ন ধারণা আলোচনা করেছি। চলুন কিছু **টেক্সট মাইনিং** করে আরো সম্পর্কিত ধারণা আবিষ্কার করার চেষ্টা করি। আমরা ডেটা সায়েন্স সম্পর্কে একটি টেক্সট থেকে কীওয়ার্ড বের করব, এবং তারপর ফলাফলটি ভিজ্যুয়ালাইজ করার চেষ্টা করব।\n",
"\n",
"টেক্সট হিসেবে, আমি উইকিপিডিয়ার ডেটা সায়েন্স পৃষ্ঠাটি ব্যবহার করব:\n"
"একটি টেক্সট হিসাবে, আমি উইকিপিডিয়া থেকে ডেটা সায়েন্স পৃষ্ঠা ব্যবহার করব:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## ধাপ ১: ডেটা সংগ্রহ করা\n",
"## Step 1: ডেটা সংগ্রহ করা\n",
"\n",
"প্রতিটি ডেটা সায়েন্স প্রক্রিয়ার প্রথম ধাপ হলো ডেটা সংগ্রহ করা। আমরা এটি করার জন্য `requests` লাইব্রেরি ব্যবহার করব:\n"
"প্রতিটি ডেটা সায়েন্স প্রক্রিয়ার প্রথম পদক্ষেপ হল ডেটা সংগ্রহ করা। আমরা এটি করার জন্য `requests` লাইব্রেরি ব্যবহার করব:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## ধাপ ২: ডেটা রূপান্তর করা\n",
"## Step 2: ডেটা রূপান্তর করা\n",
"\n",
"পরবর্তী ধাপ হলো ডেটাকে এমন একটি ফর্মে রূপান্তর করা যা প্রক্রিয়াকরণের জন্য উপযুক্ত। আমাদের ক্ষেত্রে, আমরা পৃষ্ঠার HTML সোর্স কোড ডাউনলোড করেছি, এবং এটি সাধারণ টেক্সটে রূপান্তর করতে হবে।\n",
"পরবর্তী ধাপ হল প্রক্রিয়াকরণের জন্য উপযুক্ত আকারে ডেটা রূপান্তর করা। আমাদের ক্ষেত্রে, আমরা পৃষ্ঠা থেকে HTML সোর্স কোড ডাউনলোড করেছি, এবং আমাদের এটি প্লেইন টেক্সটে রূপান্তর করতে হবে।\n",
"\n",
"এটি করার অনেক পদ্ধতি রয়েছে। আমরা Python-এর সহজতম বিল্ট-ইন [HTMLParser](https://docs.python.org/3/library/html.parser.html) অবজেক্ট ব্যবহার করব। আমাদের `HTMLParser` ক্লাসটি সাবক্লাস করতে হবে এবং এমন কোড সংজ্ঞায়িত করতে হবে যা HTML ট্যাগগুলোর ভিতরের সমস্ত টেক্সট সংগ্রহ করবে, তবে `<script>` এবং `<style>` ট্যাগগুলো বাদ দিয়ে।\n"
"এটি করার অনেক উপায় রয়েছে। আমরা ব্যবহার করব [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), যা HTML পার্স করার জন্য জনপ্রিয় একটি পাইথন লাইব্রেরি। BeautifulSoup আমাদের নির্দিষ্ট HTML উপাদানগুলিকে লক্ষ্য করতে দেয়, তাই আমরা উইকিপিডিয়ার প্রধান প্রবন্ধ বিষয়বস্তুতে মনোনিবেশ করতে পারি এবং কিছু নেভিগেশন মেনু, সাইডবার, ফুটার এবং অন্য অনাবশ্যক বিষয়বস্তু হ্রাস করতে পারি (যদিও কিছু বোর্ডারপ্লেট টেক্সট এখনও থাকতে পারে)।\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"প্রথমে, আমাদের HTML পার্সিংয়ের জন্য BeautifulSoup লাইব্রেরি ইনস্টল করতে হবে:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## ধাপ ৩: অন্তর্দৃষ্টি অর্জন করা\n",
"\n",
"সবচেয়ে গুরুত্বপূর্ণ ধাপ হল আমাদের ডেটাকে এমন একটি রূপে রূপান্তর করা, যেখান থেকে আমরা অন্তর্দৃষ্টি অর্জন করতে পারি। আমাদের ক্ষেত্রে, আমরা টেক্সট থেকে কীওয়ার্ড বের করতে চাই এবং দেখতে চাই কোন কীওয়ার্ডগুলো বেশি অর্থবহ।\n",
"\n",
"আমরা কীওয়ার্ড বের করার জন্য [RAKE](https://github.com/aneesha/RAKE) নামক একটি পাইথন লাইব্রেরি ব্যবহার করব। প্রথমে, যদি এই লাইব্রেরি ইনস্টল না থাকে, তাহলে এটি ইনস্টল করি:\n"
"## Step 3: অন্তর্দৃষ্টি অর্জন করা\r\n",
"\r\n",
"সবচেয়ে গুরুত্বপূর্ণ ধাপ হল আমাদের ডেটা এমন একটি রূপে রূপান্তর করা যেখান থেকে আমরা অন্তর্দৃষ্টি অর্জন করতে পারি। আমাদের ক্ষেত্রে, আমরা পাঠ্য থেকে কীওয়ার্ড বের করতে চাই, এবং দেখতে চাই কোন কোন কীওয়ার্ড বেশি অর্থপূর্ণ।\r\n",
"\r\n",
"আমরা কীওয়ার্ড বের করার জন্য Python লাইব্রেরি [RAKE](https://github.com/aneesha/RAKE) ব্যবহার করব। প্রথমে, যদি এই লাইব্রেরিটি উপস্থিত না থাকে তবে এটি ইনস্টল করি: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"মূল কার্যকারিতা `Rake` অবজেক্ট থেকে পাওয়া যায়, যা আমরা কিছু প্যারামিটার ব্যবহার করে কাস্টমাইজ করতে পারি। আমাদের ক্ষেত্রে, আমরা একটি কীওয়ার্ডের ন্যূনতম দৈর্ঘ্য ৫ অক্ষর, ডকুমেন্টে একটি কীওয়ার্ডের ন্যূনতম ফ্রিকোয়েন্সি ৩, এবং একটি কীওয়ার্ডে সর্বাধিক শব্দের সংখ্যা ২ সেট করব। অন্যান্য মান নিয়ে পরীক্ষা-নিরীক্ষা করতে এবং ফলাফল পর্যবেক্ষণ করতে পারেন।\n"
"মূল কার্যকারিতা `Rake` অবজেক্ট থেকে পাওয়া যায়, যাকে আমরা কিছু প্যারামিটার ব্যবহার করে কাস্টমাইজ করতে পারি। আমাদের ক্ষেত্রে, আমরা একটি কীওয়ার্ডের সর্বনিম্ন দৈর্ঘ্য ৫ অক্ষর, ডকুমেন্টে একটি কীওয়ার্ডের সর্বনিম্ন ফ্রিকোয়েন্সি ৩, এবং একটি কীওয়ার্ডে সর্বোচ্চ শব্দের সংখ্যা ২ সেট করব। অন্যান্য মানগুলির সাথে খেলাধুলা করতে পারেন এবং ফলাফল পরিদর্শন করতে পারেন।\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"আমরা একটি তালিকা সংগ্রহ করেছি যেখানে শর্তসমূহ এবং তাদের সাথে সম্পর্কিত গুরুত্বের মাত্রা উল্লেখ করা হয়েছে। যেমনটি আপনি দেখতে পাচ্ছেন, সবচেয়ে প্রাসঙ্গিক বিষয়গুলো, যেমন মেশিন লার্নিং এবং বিগ ডেটা, তালিকার শীর্ষস্থানে রয়েছে।\n",
"আমরা একটি শব্দের তালিকা এবং সংশ্লিষ্ট গুরুত্বের ডিগ্রি পেয়েছি। যেমন আপনি দেখতে পাচ্ছেন, সবচেয়ে প্রাসঙ্গিক ডিসিপ্লিনগুলি, যেমন মেশিন লার্নিং এবং বড় ডেটা, তালিকার শীর্ষস্থানে উপস্থিত রয়েছে।\n",
"\n",
"## ধাপ ৪: ফলাফল ভিজুয়ালাইজ করা\n",
"## ধাপ ৪: ফলাফল ভিজ্যুয়ালাইজেশন\n",
"\n",
"মানুষ সাধারণত ভিজুয়াল ফর্মে ডেটা সবচেয়ে ভালোভাবে বুঝতে পারে। তাই কিছু অন্তর্দৃষ্টি পাওয়ার জন্য ডেটা ভিজুয়ালাইজ করা প্রায়ই যৌক্তিক হয়। আমরা পাইথনের `matplotlib` লাইব্রেরি ব্যবহার করে কীওয়ার্ডগুলোর সরল বণ্টন এবং তাদের প্রাসঙ্গিকতা প্লট করতে পারি:\n"
"মানুষেরা ডেটা সর্বোত্তমভাবে ভিজ্যুয়াল আকারে ব্যাখ্যা করতে পারে। তাই প্রায়শই কিছু অন্তর্দৃষ্টি অর্জনের জন্য ডেটা ভিজ্যুয়ালাইজ করা যুক্তিযুক্ত। আমরা অবশ্যই পাইথনের `matplotlib` লাইব্রেরি ব্যবহার করে কীওয়ার্ডগুলির প্রাসঙ্গিকতার সঙ্গে সহজ বন্টন প্লট করতে পারি:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"শব্দের ঘনত্ব চিত্রিত করার আরও ভালো উপায় রয়েছে - **ওয়ার্ড ক্লাউড** ব্যবহার করে। আমাদের কীওয়ার্ড তালিকা থেকে ওয়ার্ড ক্লাউড আঁকার জন্য আরেকটি লাইব্রেরি ইনস্টল করতে হবে।\n"
"তবে, শব্দের ঘনত্ব ভিজ্যুয়ালাইজ করার আরও একটি ভাল উপায় আছে - **ওয়ার্ড ক্লাউড** ব্যবহার করে। আমাদের কীওয়ার্ড তালিকা থেকে ওয়ার্ড ক্লাউড আঁকার জন্য আরেকটি লাইব্রেরি ইনস্টল করতে হবে।\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` অবজেক্ট মূল পাঠ্য বা পূর্ব-গণনা করা শব্দের তালিকা তাদের ফ্রিকোয়েন্সি সহ গ্রহণ করার জন্য দায়ী, এবং একটি চিত্র প্রদান করে, যা পরে `matplotlib` ব্যবহার করে প্রদর্শিত হতে পারে:\n"
"`WordCloud` অবজেক্ট মূল পাঠ, অথবা শব্দগুলির ফ্রিকোয়েন্সিসহ পূর্বগণিত শব্দের তালিকা গ্রহণ করার জন্য দায়িত্বশীল, এবং একটি ছবি রিটার্ন করে, যা পরে `matplotlib` ব্যবহার করে প্রদর্শন করা যেতে পারে:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"আমরা মূল পাঠ্যটিও `WordCloud`-এ পাস করতে পারি - চলুন দেখি আমরা কি একই রকম ফলাফল পেতে সক্ষম:\n"
"আমরা মূল টেক্সটও `WordCloud`-এ দিতে পারি - চল দেখি আমরা কি একইরকম ফলাফল পেতে পারি কি না:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"আপনি দেখতে পাচ্ছেন যে শব্দ মেঘ (word cloud) এখন আরও আকর্ষণীয় দেখাচ্ছে, তবে এটি অনেক অপ্রাসঙ্গিক শব্দও অন্তর্ভুক্ত করছে (যেমন `Retrieved on` এর মতো সম্পর্কহীন শব্দ)। এছাড়াও, আমরা কম সংখ্যক দুই-শব্দের কীওয়ার্ড পাচ্ছি, যেমন *data scientist* বা *computer science*। এর কারণ হলো RAKE অ্যালগরিদম পাঠ্য থেকে ভালো কীওয়ার্ড বাছাই করার ক্ষেত্রে অনেক ভালো কাজ করে। এই উদাহরণটি ডেটা প্রি-প্রসেসিং এবং পরিষ্কারের গুরুত্বকে তুলে ধরে, কারণ শেষ পর্যন্ত একটি পরিষ্কার চিত্র আমাদের আরও ভালো সিদ্ধান্ত নিতে সাহায্য করবে।\n",
"আপনি দেখতে পারেন যে ওয়ার্ড ক্লাউডটি এখন আরও আকর্ষণীয় দেখাচ্ছে, তবে এতে অনেক شورও রয়েছে (যেমন `Retrieved on` এর মতো সম্পর্কহীন শব্দ)। পাশাপাশি, আমরা কম কীওয়ার্ড পাই যা দুইটি শব্দের সমন্বয়ে গঠিত, যেমন *data scientist*, অথবা *computer science*। এর কারণ হল RAKE অ্যালগরিদম টেক্সট থেকে ভাল কীওয়ার্ড বেছে নেওয়ায় অনেক বেশী কার্যকর। এই উদাহরণটি ডেটা প্রিপ্রসেসিং এবং ক্লিনিংয়ের গুরুত্ব তুলে ধরে, কারণ শেষের দিকে স্পষ্ট ছবি আমাদের আরও ভাল সিদ্ধান্ত গ্রহণের সুযোগ দেবে।\n",
"\n",
"এই অনুশীলনে আমরা একটি সহজ প্রক্রিয়ার মধ্য দিয়ে গিয়েছি, যেখানে উইকিপিডিয়া পাঠ্য থেকে কীওয়ার্ড এবং শব্দ মেঘের আকারে কিছু অর্থ বের করার চেষ্টা করেছি। এই উদাহরণটি বেশ সহজ, তবে এটি একটি ডেটা সায়েন্টিস্ট সাধারণত ডেটা নিয়ে কাজ করার সময় যে ধাপগুলো অনুসরণ করেন, তা ভালোভাবে প্রদর্শন করে। এটি ডেটা সংগ্রহ থেকে শুরু করে ভিজ্যুয়ালাইজেশন পর্যন্ত সমস্ত ধাপকে অন্তর্ভুক্ত করে।\n",
"এই অনুশীলনে আমরা উইকিপিডিয়া পাঠ থেকে কীওয়ার্ড এবং ওয়ার্ড ক্লাউড আকারে কিছু অর্থ আহরণের একটি সরল প্রক্রিয়া পার করেছি। এই উদাহরণটি খুবই সহজ, কিন্তু এটি একটি ডেটা সায়েন্টিস্ট যেভাবে ডেটার সাথে কাজ করেন সেই সমস্ত সাধারণ ধাপগুলো ভালভাবে প্রদর্শন করে, যা ডেটা অর্জন থেকে শুরু করে ভিজ্যুয়ালাইজেশনের পর্যায় পর্যন্ত বিস্তৃত।\n",
"\n",
"আমাদের কোর্সে আমরা এই সমস্ত ধাপগুলো বিস্তারিতভাবে আলোচনা করব।\n"
"আমাদের কোর্সে আমরা এই সমস্ত ধাপ বিস্তারিতভাবে আলোচনা করব।\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**অস্বীকৃতি**: \nএই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদ প্রদানের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা দায়বদ্ধ থাকব না।\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**অস্বীকৃতি**: \nএই নথিটি AI অনুবাদ সেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনূদিত হয়েছে। আমরা সঠিকতার জন্য যথাসাধ্য চেষ্টা করি, তবে দয়া করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ভুল বা অমিল থাকতে পারে। মূল নথিটি যা তার নিজ ভাষায় রয়েছে তা আনুষ্ঠানিক ও নির্ভরযোগ্য উৎস হিসাবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানের মানব অনুবাদ প্রয়োজন। এই অনুবাদের ব্যবহার থেকে সৃষ্ট কোনো ভুল বোঝাবুঝি বা ব্যাখ্যাগত বিভ্রাটের জন্য আমরা দায়বদ্ধ নই।\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"# চ্যালেঞ্জ: ডাটা সায়েন্স সম্পর্কে টেক্সট বিশ্লেষণ\n",
"\n",
"> *এই নোটবুকে, আমরা মেশিন লার্নিং সম্পর্কিত উইকিপিডিয়া নিবন্ধ ব্যবহার করে বিভিন্ন URL নিয়ে পরীক্ষা-নিরীক্ষা করি। আপনি দেখতে পাবেন যে, ডেটা সায়েন্সের তুলনায় এই নিবন্ধে অনেক বেশি পরিভাষা রয়েছে, যা বিশ্লেষণকে আরও জটিল করে তোলে। কীওয়ার্ড এক্সট্রাকশনের পরে কিছু সাধারণ কিন্তু অর্থহীন শব্দগুচ্ছ বাদ দেওয়ার জন্য আমাদের ডেটা পরিষ্কার করার আরেকটি পদ্ধতি বের করতে হবে।*\n",
"> *এই নোটবুকে, আমরা বিভিন্ন URL - মেশিন লার্নিং সম্পর্কিত উইকিপিডিয়া নিবন্ধ ব্যবহার করার সঙ্গে পরীক্ষামূলক কাজ করছি। আপনি দেখতে পারবেন যে, ডাটা সায়েন্সের তুলনায়, এই নিবন্ধে অনেক শব্দ থাকে, যা বিশ্লেষণকে আরও সমস্যাজনক করে তোলে। কিওয়ার্ড নিষ্কাশনের পর, ডেটা পরিষ্কারের জন্য অন্য একটি উপায় বের করতে হবে, যাতে কিছু প্রায়শই ব্যবহৃত, কিন্তু অর্থবহ নয় এমন শব্দসমূহ থেকে মুক্তি পাওয়া যায়।*\n",
"\n",
"এই উদাহরণে, আসুন একটি সহজ অনুশীলন করি যা ঐতিহ্যবাহী ডেটা সায়েন্স প্রক্রিয়ার সমস্ত ধাপ কভার করে। আপনাকে কোনো কোড লিখতে হবে না, আপনি শুধু নিচের সেলগুলোতে ক্লিক করে সেগুলো চালাতে পারেন এবং ফলাফল পর্যবেক্ষণ করতে পারেন। একটি চ্যালেঞ্জ হিসেবে, আপনাকে উৎসাহিত করা হচ্ছে যে আপনি এই কোডটি বিভিন্ন ডেটার সাথে চেষ্টা করুন। \n",
"এই উদাহরণে, চলুন একটি সহজ অনুশীলন করি যা একটি প্রচলিত ডাটা সায়েন্স প্রক্রিয়ার সমস্ত ধাপ জুড়ে। আপনাকে কোনো কোড লিখতে হবে না, আপনি শুধু নিচের সেলগুলিতে ক্লিক করে সেগুলো চালাতে পারবেন এবং ফলাফল পর্যবেক্ষণ করতে পারবেন। একটি চ্যালেঞ্জ হিসেবে, আপনি এই কোডটি বিভিন্ন ডাটার সঙ্গে চেষ্টা করতে উৎসাহিত হবেন।\n",
"\n",
"## লক্ষ্য\n",
"\n",
"এই পাঠে, আমরা ডেটা সায়েন্স সম্পর্কিত বিভিন্ন ধারণা নিয়ে আলোচনা করেছি। আসুন কিছু **টেক্সট মাইনিং** করে আরও সম্পর্কিত ধারণা আবিষ্কার করার চেষ্টা করি। আমরা ডেটা সায়েন্স সম্পর্কিত একটি টেক্সট দিয়ে শুরু করব, সেখান থেকে কীওয়ার্ড বের করব এবং তারপর ফলাফলটি ভিজুয়ালাইজ করার চেষ্টা করব।\n",
"এই পাঠে, আমরা ডাটা সায়েন্স সম্পর্কিত বিভিন্ন ধারণা আলোচনা করেছি। চলুন কিছু **টেক্সট মাইনিং** করে আরও সম্পর্কিত ধারণা আবিষ্কার করার চেষ্টা করি। আমরা ডাটা সায়েন্স সম্পর্কিত একটি টেক্সট দিয়ে শুরু করব, তা থেকে কিওয়ার্ড বের করব, এবং তারপর ফলাফল ভিজ্যুয়ালাইজ করার চেষ্টা করব।\n",
"\n",
"টেক্সট হিসেবে, আমি উইকিপিডিয়ার ডেটা সায়েন্স পৃষ্ঠাটি ব্যবহার করব:\n"
"একটি টেক্সট হিসেবে, আমি উইকিপিডিয়ার ডাটা সায়েন্স পৃষ্ঠাটি ব্যবহার করব:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## ধাপ ১: ডেটা সংগ্রহ করা\n",
"## Step 1: ডেটা আনা\n",
"\n",
"প্রতিটি ডেটা সায়েন্স প্রক্রিয়ার প্রথম ধাপ হলো ডেটা সংগ্রহ করা। আমরা এটি করার জন্য `requests` লাইব্রেরি ব্যবহার করব:\n"
"প্র প্রতিটি ডেটা সায়েন্স প্রক্রিয়ার প্রথম ধাপ হল ডেটা আনা। আমরা এটি করার জন্য `requests` লাইব্রেরি ব্যবহার করব:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## ধাপ ২: ডেটা রূপান্তর করা\n",
"## পদক্ষেপ ২: ডেটা রূপান্তর করা\n",
"\n",
"পরবর্তী ধাপ হলো ডেটাকে এমন একটি ফর্মে রূপান্তর করা যা প্রক্রিয়াকরণের জন্য উপযুক্ত। আমাদের ক্ষেত্রে, আমরা পৃষ্ঠার HTML সোর্স কোড ডাউনলোড করেছি এবং এটি সাধারণ টেক্সটে রূপান্তর করতে হবে।\n",
"পরবর্তী পদক্ষেপটি হল ডেটাকে প্রক্রিয়াকরণের উপযোগী রূপে রূপান্তর করা। আমাদের ক্ষেত্রে, আমরা পৃষ্ঠার HTML সোর্স কোড ডাউনলোড করেছি এবং এটিকে সাধারণ টেক্সটে রূপান্তর করতে হবে।\n",
"\n",
"এটি করার অনেক পদ্ধতি রয়েছে। আমরা Python-এর সহজতম বিল্ট-ইন [HTMLParser](https://docs.python.org/3/library/html.parser.html) অবজেক্ট ব্যবহার করব। আমাদের `HTMLParser` ক্লাসটি সাবক্লাস করতে হবে এবং এমন কোড সংজ্ঞায়িত করতে হবে যা HTML ট্যাগগুলোর ভিতরের সমস্ত টেক্সট সংগ্রহ করবে, তবে `<script>` এবং `<style>` ট্যাগগুলো বাদ দিয়ে।\n"
"এটি করার অনেক উপায় রয়েছে। আমরা [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), একটি জনপ্রিয় পাইথন লাইব্রেরি যা HTML পার্সিংয়ের জন্য ব্যবহৃত হয়, ব্যবহার করব। BeautifulSoup আমাদের নির্দিষ্ট HTML উপাদানগুলো লক্ষ্য করার সুযোগ দেয়, তাই আমরা উইকিপিডিয়ার মূল প্রবন্ধের বিষয়বস্তুতে ফোকাস করতে পারি এবং কিছু নেভিগেশন মেনু, সাইডবার, ফুটার এবং অন্যান্য অপ্রাসঙ্গিক বিষয়বস্তু কমাতে পারি (যদিও কিছু বোর্তিলেট টেক্সট এখনও থাকতে পারে)।\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"প্রথমে, আমাদের HTML পার্সিং-এর জন্য BeautifulSoup লাইব্রেরি ইনস্টল করতে হবে:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## ধাপ ৩: অন্তর্দৃষ্টি অর্জন করা\n",
"## Step 3: অন্তর্দৃষ্টি অর্জন\n",
"\n",
"সবচেয়ে গুরুত্বপূর্ণ ধাপ হল আমাদের ডেটাকে এমন একটি রূপে রূপান্তর করা, যেখান থেকে আমরা অন্তর্দৃষ্টি পেতে পারি। আমাদের ক্ষেত্রে, আমরা টেক্সট থেকে কীওয়ার্ড বের করতে চাই এবং দেখতে চাই কোন কীওয়ার্ডগুলো বেশি অর্থবহ।\n",
"সবচেয়ে গুরুত্বপূর্ণ পদক্ষেপ হলো আমাদের ডেটাকে এমন একটি আকারে রূপান্তর করা যার মাধ্যমে আমরা অন্তর্দৃষ্টি আহরণ করতে পারি। আমাদের ক্ষেত্রে, আমরা টেক্সট থেকে কীওয়ার্ড বের করতে চাই, এবং দেখতে চাই কোন কীওয়ার্ডগুলো বেশি অর্থবহ।\n",
"\n",
"আমরা কীওয়ার্ড বের করার জন্য [RAKE](https://github.com/aneesha/RAKE) নামক একটি পাইথন লাইব্রেরি ব্যবহার করব। প্রথমে, যদি এই লাইব্রেরি ইনস্টল না করা থাকে, তাহলে এটি ইনস্টল করি:\n"
"আমরা কীওয়ার্ড নিষ্কাশনের জন্য Python লাইব্রেরি [RAKE](https://github.com/aneesha/RAKE) ব্যবহার করব। প্রথমে, যদি এই লাইব্রেরিটি উপস্থিত না থাকে তবে এটি ইনস্টল করি:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"মূল কার্যকারিতা `Rake` অবজেক্ট থেকে পাওয়া যায়, যা আমরা কিছু প্যারামিটার ব্যবহার করে কাস্টমাইজ করতে পারি। আমাদের ক্ষেত্রে, আমরা একটি কীওয়ার্ডের ন্যূনতম দৈর্ঘ্য ৫ অক্ষর, ডকুমেন্টে একটি কীওয়ার্ডের ন্যূনতম ফ্রিকোয়েন্সি ৩, এবং একটি কীওয়ার্ডে সর্বাধিক শব্দের সংখ্যা ২ নির্ধারণ করব। অন্যান্য মান নিয়ে পরীক্ষা-নিরীক্ষা করতে এবং ফলাফল পর্যবেক্ষণ করতে স্বাধীন অনুভব করুন।\n"
"মূল কার্যকারিতা `Rake` অবজেক্ট থেকে পাওয়া যায়, যেটি আমরা কিছু প্যারামিটার ব্যবহার করে কাস্টমাইজ করতে পারি। আমাদের ক্ষেত্রে, আমরা একটি কিওয়ার্ডের সর্বনিম্ন দৈর্ঘ্য ৫ অক্ষর, একটি কিওয়ার্ডের নথিতে সর্বনিম্ন ফ্রিকোয়েন্সি ৩ এবং একটি কিওয়ার্ডে সর্বোচ্চ শব্দের সংখ্যা ২ সেট করব। অন্যান্য মান নিয়ে পরীক্ষা-নিরীক্ষা করতে স্বাচ্ছন্দ্য বোধ করুন এবং ফলাফলটি পর্যবেক্ষণ করুন।\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"আমরা একটি তালিকা সংগ্রহ করেছি যেখানে শর্তসমূহ এবং তাদের সাথে সম্পর্কিত গুরুত্বের মাত্রা উল্লেখ করা হয়েছে। যেমনটি আপনি দেখতে পাচ্ছেন, সবচেয়ে প্রাসঙ্গিক বিষয়গুলো, যেমন মেশিন লার্নিং এবং বিগ ডেটা, তালিকার শীর্ষস্থানে রয়েছে।\n",
"আমরা একটি শব্দের তালিকা প্রাপ্ত করেছি যা সংশ্লিষ্ট গুরুত্বের ডিগ্রির সাথে রয়েছে। আপনি দেখতে পারেন, সবচেয়ে সম্পর্কিত বিষয়গুলি, যেমন মেশিন লার্নিং এবং বিগ ডেটা, তালিকার শীর্ষস্থানে উপস্থিত রয়েছে।\n",
"\n",
"## ধাপ ৪: ফলাফল ভিজুয়ালাইজ করা\n",
"## Step 4: ফলাফল ভিজুয়ালাইজ করা\n",
"\n",
"মানুষ সাধারণত ভিজুয়াল ফর্মে ডেটা সবচেয়ে ভালোভাবে বুঝতে পারে। তাই কিছু অন্তর্দৃষ্টি পাওয়ার জন্য ডেটা ভিজুয়ালাইজ করা প্রায়ই যৌক্তিক হয়। আমরা পাইথনের `matplotlib` লাইব্রেরি ব্যবহার করে কীওয়ার্ডগুলোর সরল বণ্টন এবং তাদের প্রাসঙ্গিকতা প্লট করতে পারি:\n"
"মানুষেরা সর্বোত্তমভাবে তথ্যকে ভিজুয়াল ফর্মে ব্যাখ্যা করতে পারে। তাই প্রায়ই কিছু অন্তর্দৃষ্টি আঁকতে তথ্যকে ভিজুয়ালাইজ করা অর্থপূর্ণ হয়। আমরা পাইথনে `matplotlib` লাইব্রেরি ব্যবহার করে কীওয়ার্ডগুলির প্রাসঙ্গিকতার সাথে সহজ ডিস্ট্রিবিউশন প্লট করতে পারি:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"তবে, শব্দের ঘনত্ব কল্পনা করার আরও ভালো উপায় রয়েছে - **ওয়ার্ড ক্লাউড** ব্যবহার করা। আমাদের কীওয়ার্ড তালিকা থেকে ওয়ার্ড ক্লাউড আঁকতে আরেকটি লাইব্রেরি ইনস্টল করতে হবে।\n"
"তবে শব্দের ঘনত্ব দেখানোর জন্য আরও একটা ভালো উপায় আছে - **ওয়ার্ড ক্লাউড** ব্যবহার করে। আমাদের কীওয়ার্ড তালিকা থেকে ওয়ার্ড ক্লাউড আঁকার জন্য আরেকটা লাইব্রেরি ইনস্টল করতে হবে।\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` অবজেক্ট মূল পাঠ্য বা পূর্ব-গণনা করা শব্দের তালিকা তাদের ফ্রিকোয়েন্সি সহ গ্রহণ করার জন্য দায়ী, এবং একটি চিত্র প্রদান করে, যা পরে `matplotlib` ব্যবহার করে প্রদর্শিত হতে পারে:\n"
"`WordCloud` অবজেক্ট মূল টেক্সট অথবা শব্দ এবং তাদের ফ্রিকোয়েন্সির পূর্বগণিত তালিকা গ্রহণ করার জন্য দায়ী, এবং একটি ইমেজ রিটার্ন করে, যা পরে `matplotlib` ব্যবহার করে প্রদর্শন করা যেতে পারে:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"আমরা মূল পাঠ্যটিও `WordCloud`-এ পাস করতে পারি - চলুন দেখি আমরা কি একই রকম ফলাফল পেতে সক্ষম:\n"
"আমরা মূল টেক্সটটি `WordCloud` এ পাসও করতে পারি - আসুন দেখি আমরা কি অনুরূপ ফলাফল পেতে পারি:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"আপনি দেখতে পাচ্ছেন যে শব্দ মেঘ (word cloud) এখন আরও আকর্ষণীয় দেখাচ্ছে, তবে এটি অনেক অপ্রাসঙ্গিক শব্দও ধারণ করছে (যেমন `Retrieved on` এর মতো শব্দ)। এছাড়াও, আমরা কম সংখ্যক দুই-শব্দের কীওয়ার্ড পাচ্ছি, যেমন *data scientist* বা *computer science*। এর কারণ হলো RAKE অ্যালগরিদম পাঠ্য থেকে ভালো কীওয়ার্ড বাছাই করার ক্ষেত্রে অনেক বেশি কার্যকর। এই উদাহরণটি ডেটা প্রি-প্রসেসিং এবং পরিষ্কারের গুরুত্বকে তুলে ধরে, কারণ শেষ পর্যন্ত একটি পরিষ্কার চিত্র আমাদের আরও ভালো সিদ্ধান্ত নিতে সাহায্য করবে।\n",
"আপনি দেখতে পাচ্ছেন যে ওয়ার্ড ক্লাউড বর্তমানে আরও প্রভাবশালী দেখাচ্ছে, তবে এতে অনেক শব্দের গোলযোগও রয়েছে (যেমন `Retrieved on` এর মতো অপ্রাসঙ্গিক শব্দ)। এছাড়াও, আমরা কম কীওয়ার্ড পাই যা দুটি শব্দ নিয়ে গঠিত, যেমন *data scientist* বা *computer science*। এর কারণ হলো RAKE অ্যালগরিদম টেক্সট থেকে ভাল কীওয়ার্ড বাছাই করার ক্ষেত্রে অনেক ভালো কাজ করে। এই উদাহরণটি ডেটা প্রি-প্রসেসিং এবং পরিষ্কারের গুরুত্ব প্রকাশ করে, কারণ শেষ পারিশ্লেষিক ছবি আমাদের ভাল সিদ্ধান্ত নিতে সাহায্য করবে।\n",
"\n",
"এই অনুশীলনে আমরা একটি সহজ প্রক্রিয়ার মধ্য দিয়ে গিয়েছি, যেখানে উইকিপিডিয়া পাঠ্য থেকে কীওয়ার্ড এবং শব্দ মেঘের আকারে কিছু অর্থ বের করার চেষ্টা করেছি। এই উদাহরণটি বেশ সহজ, তবে এটি খুব ভালোভাবে দেখায় যে ডেটা নিয়ে কাজ করার সময় একজন ডেটা বিজ্ঞানী সাধারণত যেসব ধাপ অনুসরণ করেন, সেগুলো কীভাবে শুরু থেকে (ডেটা সংগ্রহ) শেষ পর্যন্ত (ভিজুয়ালাইজেশন) সম্পন্ন হয়।\n",
"এই ব্যায়ামে আমরা উইকিপিডিয়া টেক্সট থেকে কিছু অর্থ বের করার একটি সহজ প্রক্রিয়ার মধ্য দিয়ে গিয়েছি, কীওয়ার্ড এবং ওয়ার্ড ক্লাউডের আকারে। এই উদাহরণটি বেশ সহজ, তবে এটি একটি ডেটা সায়েন্টিস্ট যখন ডেটা নিয়ে কাজ করেন তখন নেওয়া সমস্ত সাধারণ ধাপগুলি ভালভাবে প্রদর্শন করে, ডেটা সংগ্রহ থেকে শুরু করে ভিজ্যুয়ালাইজেশন পর্যন্ত।\n",
"\n",
"আমাদের কোর্সে আমরা এই সমস্ত ধাপগুলো বিস্তারিতভাবে আলোচনা করব।\n"
"আমাদের কোর্সে আমরা এই সমস্ত ধাপ বিস্তারিতভাবে আলোচনা করব।\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**অস্বীকৃতি**: \nএই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিকতার জন্য চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা তার জন্য দায়ী থাকব না।\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**দুদ্র্পিনীতি**:\nএই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনূদিত হয়েছে। আমরা যথাসাধ্য সঠিকতার চেষ্টা করি, তবে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অমিল থাকতে পারে। মূল নথিটি তার নিজ ভাষায় অবশ্যই কর্তৃপক্ষপূর্ণ উৎস হিসেবে বিবেচিত হওয়া উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানব অনুবাদের পরামর্শ দেওয়া হয়। এই অনুবাদের ব্যবহার থেকে সৃষ্ট যেকোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়বদ্ধ নই।\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
পরিসংখ্যান এবং সম্ভাবনা তত্ত্ব হল গণিতের দুটি ঘনিষ্ঠভাবে সম্পর্কিত শাখা, যা ডেটা সায়েন্সের জন্য অত্যন্ত গুরুত্বপূর্ণ। গভীর গণিত জ্ঞান ছাড়াও ডেটা নিয়ে কাজ করা সম্ভব, তবে কিছু মৌলিক ধারণা জানা সবসময়ই ভালো। এখানে আমরা একটি সংক্ষিপ্ত পরিচিতি উপস্থাপন করব যা আপনাকে শুরু করতে সাহায্য করবে।
আমরা কেবল একটি ভেরিয়েবলের নির্দিষ্ট মানের পরিসরে পড়ার সম্ভাবনা নিয়ে কথা বলতে পারি, যেমন P(t<sub>1</sub>≤X<t<sub>2</sub>)। এই ক্ষেত্রে, সম্ভাবনা বণ্টন একটি **সম্ভাবনা ঘনত্ব ফাংশন** p(x) দ্বারা বর্ণিত হয়, যাতে
সমবণ্টনের একটি অবিচ্ছিন্ন রূপকে **অবিচ্ছিন্ন সমবণ্টন** বলা হয়, যা একটি সসীম পরিসরে সংজ্ঞায়িত। একটি মান X একটি দৈর্ঘ্য l এর পরিসরে পড়ার সম্ভাবনা l এর সমানুপাতিক, এবং ১ পর্যন্ত বৃদ্ধি পায়।
@ -73,11 +73,11 @@
এখানে আমাদের ডেটার গড়, মধ্যক এবং চতুর্ভাগ দেখানো একটি বক্স প্লট রয়েছে:
আমাদের ডেটায় বিভিন্ন খেলোয়াড়ের **ভূমিকা** সম্পর্কিত তথ্য রয়েছে, তাই আমরা ভূমিকা অনুযায়ী বক্স প্লটও করতে পারি - এটি আমাদের দেখাবে কীভাবে প্যারামিটার মানগুলি ভূমিকা অনুযায়ী ভিন্ন হয়। এবার আমরা উচ্চতা বিবেচনা করব:


এই চিত্রটি নির্দেশ করে যে, গড়ে, প্রথম বেসম্যানদের উচ্চতা দ্বিতীয় বেসম্যানদের উচ্চতার চেয়ে বেশি। এই পাঠে আমরা শিখব কীভাবে আমরা এই অনুমানটি আরও আনুষ্ঠানিকভাবে পরীক্ষা করতে পারি এবং কীভাবে আমাদের ডেটা পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ তা প্রদর্শন করতে পারি।
@ -85,7 +85,7 @@
আমাদের ডেটার বণ্টন দেখতে, আমরা **হিস্টোগ্রাম** নামে একটি গ্রাফ আঁকতে পারি। X-অক্ষ বিভিন্ন ওজনের পরিসর (তথাকথিত **বিন**) ধারণ করবে, এবং উল্লম্ব অক্ষ দেখাবে আমাদের র্যান্ডম ভেরিয়েবল নমুনা একটি নির্দিষ্ট পরিসরে কতবার ছিল।


এই হিস্টোগ্রাম থেকে আপনি দেখতে পারেন যে সমস্ত মান একটি নির্দিষ্ট গড় ওজনের চারপাশে কেন্দ্রীভূত, এবং আমরা সেই ওজন থেকে যত দূরে যাই - সেই মানের ওজন তত কম পাওয়া যায়। অর্থাৎ, একটি বেসবল খেলোয়াড়ের ওজন গড় ওজন থেকে খুব আলাদা হওয়া খুবই অসম্ভাব্য। ওজনের বৈচিত্র্য দেখায় যে ওজনগুলি গড় থেকে কতটা ভিন্ন হতে পারে।
যদি আমরা তৈরি করা নমুনাগুলির হিস্টোগ্রাম আঁকি, আমরা উপরের ছবির মতো একটি চিত্র দেখতে পাব। এবং যদি আমরা নমুনার সংখ্যা এবং বিনের সংখ্যা বাড়াই, আমরা একটি আদর্শ স্বাভাবিক বণ্টনের আরও কাছাকাছি একটি চিত্র তৈরি করতে পারি:


*গড়=0 এবং মান বিচ্যুতি=1 সহ স্বাভাবিক বণ্টন*
@ -222,7 +222,7 @@ array([[1. , 0.52959196],
আমাদের ক্ষেত্রে, মান 0.53 নির্দেশ করে যে একজন ব্যক্তির ওজন এবং উচ্চতার মধ্যে কিছু করেলেশন রয়েছে। আমরা একটি স্ক্যাটার প্লটও তৈরি করতে পারি একটি মানের বিপরীতে অন্যটি সম্পর্কটি ভিজ্যুয়ালি দেখতে:


> করেলেশন এবং কোভেরিয়েন্সের আরও উদাহরণ [সংযুক্ত নোটবুকে](notebook.ipynb) পাওয়া যাবে।
> ছবি: <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">স্টিফেন ডসন</a> এর তোলা <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">আনস্প্ল্যাশ</a> এ
এই পাঠগুলোতে, আপনি শিখবেন কীভাবে ডেটা সায়েন্স সংজ্ঞায়িত হয় এবং একজন ডেটা বিজ্ঞানীর জন্য বিবেচনা করতে হবে এমন নৈতিক বিষয়গুলো সম্পর্কে জানবেন। আপনি ডেটা কীভাবে সংজ্ঞায়িত হয় তা শিখবেন এবং পরিসংখ্যান ও সম্ভাবনার বিষয়ে কিছুটা ধারণা পাবেন, যা ডেটা সায়েন্সের মূল একাডেমিক ক্ষেত্র।
ডেটাবেস ডেটা সংরক্ষণ এবং কুয়েরি করার জন্য খুবই কার্যকর পদ্ধতি প্রদান করে, তবে ডেটা প্রক্রিয়াকরণের সবচেয়ে নমনীয় উপায় হল আপনার নিজের প্রোগ্রাম লিখে ডেটা ম্যানিপুলেট করা। অনেক ক্ষেত্রে, ডেটাবেস কুয়েরি করা আরও কার্যকর হতে পারে। তবে, কিছু ক্ষেত্রে যখন আরও জটিল ডেটা প্রক্রিয়াকরণের প্রয়োজন হয়, তখন এটি সহজে SQL ব্যবহার করে করা সম্ভব হয় না।
ডেটা প্রক্রিয়াকরণ যেকোনো প্রোগ্রামিং ভাষায় করা যেতে পারে, তবে কিছু ভাষা ডেটার সাথে কাজ করার জন্য উচ্চতর স্তরের সুবিধা প্রদান করে। ডেটা বিজ্ঞানীরা সাধারণত নিম্নলিখিত ভাষাগুলোর একটি পছন্দ করেন:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
এখন ধরুন প্রতি সপ্তাহে আমরা বন্ধুদের জন্য একটি পার্টি আয়োজন করি এবং পার্টির জন্য অতিরিক্ত ১০ প্যাক আইসক্রিম নিই। আমরা এটি দেখানোর জন্য সপ্তাহ অনুযায়ী ইনডেক্স করা আরেকটি সিরিজ তৈরি করতে পারি:
> **নোট** যে আমরা সাধারণ সিনট্যাক্স `total_items+additional_items` ব্যবহার করছি না। যদি করতাম, তাহলে আমরা অনেক `NaN` (*Not a Number*) মান পেতাম। এর কারণ হল `additional_items` সিরিজের কিছু ইনডেক্স পয়েন্টে মান অনুপস্থিত, এবং `NaN`-এর সাথে কিছু যোগ করলে ফলাফল `NaN` হয়। তাই যোগ করার সময় আমাদের `fill_value` প্যারামিটার নির্দিষ্ট করতে হয়।
যেহেতু আমরা ডেটা নিয়ে কাজ করার পদ্ধতি প্রদর্শন করতে চাই, আমরা আপনাকে [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) খুলে শুরু থেকে শেষ পর্যন্ত পড়ার আমন্ত্রণ জানাই। আপনি সেলগুলো চালাতে পারেন এবং শেষে আমাদের দেওয়া কিছু চ্যালেঞ্জ সম্পন্ন করতে পারেন।
> যদি আপনি Jupyter Notebook-এ কোড চালানোর পদ্ধতি না জানেন, [এই আর্টিকেলটি](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) দেখুন।
@ -232,7 +232,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb) খুলুন এবং শুরু থেকে শেষ পর্যন্ত পড়ুন। আপনি সেলগুলো চালাতে পারেন এবং শেষে আমাদের দেওয়া কিছু চ্যালেঞ্জ সম্পন্ন করতে পারেন।


> ছবি <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">আলেকজান্ডার সিন</a> এর তোলা, <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">আনস্প্ল্যাশ</a> থেকে
এই পাঠগুলোতে, আপনি শিখবেন কীভাবে ডেটা পরিচালনা, পরিবর্তন এবং অ্যাপ্লিকেশনে ব্যবহার করা যায়। আপনি সম্পর্কিত এবং অ-সম্পর্কিত ডেটাবেস সম্পর্কে শিখবেন এবং কীভাবে ডেটা সেখানে সংরক্ষণ করা যায়। আপনি পাইথন ব্যবহার করে ডেটা পরিচালনার মৌলিক বিষয়গুলো শিখবেন এবং পাইথন ব্যবহার করে ডেটা পরিচালনা ও বিশ্লেষণের বিভিন্ন উপায় আবিষ্কার করবেন।
এখন, একই ডেটা একটি মধু রঙের স্কিম দিয়ে দেখান যাতে বছরের পর বছর ধরে দাম কীভাবে পরিবর্তিত হয়েছে তা বোঝা যায়। আপনি এটি 'hue' প্যারামিটার যোগ করে করতে পারেন, যা পরিবর্তন দেখায়:
এই রঙের স্কিম পরিবর্তনের মাধ্যমে, আপনি স্পষ্টভাবে দেখতে পারেন যে বছরের পর বছর মধুর প্রতি পাউন্ডের দামে একটি শক্তিশালী অগ্রগতি রয়েছে। আসলে, যদি আপনি ডেটার একটি নমুনা সেট পরীক্ষা করেন (উদাহরণস্বরূপ, একটি নির্দিষ্ট রাজ্য, অ্যারিজোনা), আপনি দেখতে পাবেন যে বছরের পর বছর দামের বৃদ্ধির একটি প্যাটার্ন রয়েছে, কয়েকটি ব্যতিক্রম সহ:
এটি কি সরবরাহ এবং চাহিদার একটি সাধারণ ঘটনা? জলবায়ু পরিবর্তন এবং কলোনি ধসের মতো কারণগুলির কারণে, প্রতি বছর কেনার জন্য কম মধু পাওয়া যাচ্ছে, এবং তাই দাম বাড়ছে?
✅ যেহেতু Seaborn একটি লাইন চার্টে ডেটা একত্রিত করছে, এটি "প্রতিটি x মানে একাধিক পরিমাপ প্রদর্শন করে গড় এবং গড়ের চারপাশে ৯৫% আত্মবিশ্বাসের ব্যবধান প্লট করে"। [সূত্র](https://seaborn.pydata.org/tutorial/relational.html)। এই সময়সাপেক্ষ আচরণটি `ci=None` যোগ করে নিষ্ক্রিয় করা যেতে পারে।
উত্তর: আসলে না। যদি আপনি মোট উৎপাদন দেখেন, এটি সেই নির্দিষ্ট বছরে বৃদ্ধি পেয়েছে বলে মনে হয়, যদিও সাধারণভাবে এই বছরগুলিতে উৎপাদিত মধুর পরিমাণ হ্রাস পাচ্ছে।
@ -130,7 +130,7 @@ sns.relplot(
```
এই ভিজ্যুয়ালাইজেশনে, আপনি প্রতি উপনিবেশের উৎপাদন এবং উপনিবেশের সংখ্যা বছর বছর, রাজ্য রাজ্য তুলনা করতে পারেন, যেখানে কলামের জন্য wrap ৩ সেট করা হয়েছে:
এই ডেটাসেটের জন্য, রাজ্য এবং বছর অনুযায়ী উপনিবেশের সংখ্যা এবং তাদের উৎপাদনের ক্ষেত্রে কিছুই বিশেষভাবে আলাদা করে দাঁড়ায় না। এই দুটি ভেরিয়েবলের মধ্যে সম্পর্ক খুঁজে বের করার জন্য কি দেখার অন্য কোনো উপায় আছে?
যদিও ২০০৩ সালের আশেপাশে চোখে কিছুই ধরা পড়ে না, এটি আমাদের এই পাঠটি একটি সামান্য সুখী নোটে শেষ করার অনুমতি দেয়: যদিও উপনিবেশের সংখ্যা সামগ্রিকভাবে হ্রাস পাচ্ছে, উপনিবেশের সংখ্যা স্থিতিশীল হচ্ছে, যদিও তাদের প্রতি উপনিবেশের উৎপাদন হ্রাস পাচ্ছে।
এখানে, আপনি `ggplot2` প্যাকেজটি ইনস্টল করেছেন এবং তারপর `library("ggplot2")` কমান্ড ব্যবহার করে এটি ওয়ার্কস্পেসে আমদানি করেছেন। ggplot-এ কোনো প্লট তৈরি করতে `ggplot()` ফাংশন ব্যবহার করা হয় এবং আপনি ডেটাসেট, x এবং y ভেরিয়েবলগুলোকে অ্যাট্রিবিউট হিসেবে নির্দিষ্ট করেন। এই ক্ষেত্রে, আমরা `geom_line()` ফাংশন ব্যবহার করি কারণ আমরা একটি লাইন প্লট তৈরি করতে চাই।
আপনি প্রথমেই কী লক্ষ্য করেন? অন্তত একটি আউটলাইয়ার রয়েছে - এটি বেশ বড় উইংসপ্যান! ২০০০+ সেন্টিমিটার উইংসপ্যান মানে ২০ মিটারের বেশি - মিনেসোটায় কি প্টেরোড্যাকটিল ঘুরে বেড়াচ্ছে? চলুন তদন্ত করি।
লেবেলগুলোকে ৪৫ ডিগ্রি কোণে ঘোরানোর পরেও, পড়ার জন্য খুব বেশি লেবেল রয়েছে। চলুন একটি ভিন্ন কৌশল চেষ্টা করি: শুধুমাত্র আউটলাইয়ারগুলো লেবেল করি এবং লেবেলগুলো চার্টের মধ্যে সেট করি। আপনি একটি স্ক্যাটার চার্ট ব্যবহার করতে পারেন যাতে লেবেলিংয়ের জন্য আরও জায়গা তৈরি হয়:
আমরা একটি নতুন ডেটাফ্রেম `birds_filtered` তৈরি করেছি এবং তারপর একটি স্ক্যাটার প্লট তৈরি করেছি। আউটলাইয়ারগুলো ফিল্টার করার মাধ্যমে, আপনার ডেটা এখন আরও সংহত এবং বোধগম্য।
নিম্নলিখিত স্নিপেটে, আমরা [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) এবং [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) প্যাকেজগুলো ইনস্টল করি যা ডেটা ম্যানিপুলেট এবং গ্রুপ করতে সাহায্য করে যাতে একটি স্ট্যাকড বার চার্ট প্লট করা যায়। প্রথমে, আপনি পাখির `Category` অনুযায়ী ডেটা গ্রুপ করেন এবং তারপর `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` কলামগুলো সারসংক্ষেপ করেন। তারপর, `ggplot2` প্যাকেজ ব্যবহার করে বার চার্ট প্লট করেন এবং বিভিন্ন বিভাগের জন্য রঙ এবং লেবেল নির্ধারণ করেন।


তবে এই বার চার্টটি পড়া কঠিন কারণ এখানে খুব বেশি অ-গ্রুপ করা ডেটা রয়েছে। আপনি শুধুমাত্র সেই ডেটা নির্বাচন করতে পারেন যা আপনি প্লট করতে চান, তাই চলুন পাখির বিভাগ অনুযায়ী দৈর্ঘ্য দেখার চেষ্টা করি।
প্রথমে আপনি `Category` কলামে অনন্য মানগুলো গণনা করেন এবং তারপর সেগুলোকে একটি নতুন ডেটাফ্রেম `birds_count`-এ সাজান। এই সাজানো ডেটা একই স্তরে ফ্যাক্টর করা হয় যাতে এটি সাজানোভাবে প্লট করা যায়। তারপর, `ggplot2` ব্যবহার করে আপনি ডেটা একটি বার চার্টে প্লট করেন। `coord_flip()` অনুভূমিক বার প্লট করে।
এই বার চার্টটি পাখির প্রতিটি বিভাগের সংখ্যার একটি ভালো দৃশ্য দেখায়। এক নজরে, আপনি দেখতে পারেন যে এই অঞ্চলে সবচেয়ে বেশি সংখ্যক পাখি হাঁস/গিজ/জলপাখি বিভাগে রয়েছে। মিনেসোটা '১০,০০০ হ্রদের ভূমি', তাই এটি আশ্চর্যজনক নয়!


এটি পাখির অর্ডার অনুযায়ী শরীরের দৈর্ঘ্যের সাধারণ ডিস্ট্রিবিউশন সম্পর্কে একটি ওভারভিউ দেয়, তবে এটি প্রকৃত ডিস্ট্রিবিউশন প্রদর্শনের জন্য সর্বোত্তম উপায় নয়। এই কাজটি সাধারণত একটি হিস্টোগ্রাম তৈরি করে করা হয়।


যেমনটি আপনি দেখতে পাচ্ছেন, এই ডেটাসেটের ৪০০+ পাখির বেশিরভাগই তাদের Max Body Mass এর ক্ষেত্রে ২০০০ এর নিচে পড়ে। ডেটা সম্পর্কে আরও অন্তর্দৃষ্টি অর্জন করতে `bins` প্যারামিটারটি একটি বড় সংখ্যায় পরিবর্তন করুন, যেমন ৩০:
এই চার্টটি আরও বিস্তারিতভাবে ডিস্ট্রিবিউশন দেখায়। একটি কম বাঁ দিকে ঝুঁকানো চার্ট তৈরি করা যেতে পারে নিশ্চিত করে যে আপনি শুধুমাত্র একটি নির্দিষ্ট পরিসরের মধ্যে ডেটা নির্বাচন করেছেন:


✅ কিছু অন্যান্য ফিল্টার এবং ডেটা পয়েন্ট চেষ্টা করুন। ডেটার সম্পূর্ণ ডিস্ট্রিবিউশন দেখতে, `['MaxBodyMass']` ফিল্টার সরিয়ে লেবেলযুক্ত ডিস্ট্রিবিউশন দেখান।


সর্বনিম্ন উইংসপ্যান এবং সংরক্ষণ অবস্থার মধ্যে ভালো সম্পর্ক দেখা যাচ্ছে না। এই পদ্ধতি ব্যবহার করে ডেটাসেটের অন্যান্য উপাদান পরীক্ষা করুন। আপনি বিভিন্ন ফিল্টারও চেষ্টা করতে পারেন। কোনো সম্পর্ক খুঁজে পাচ্ছেন কি?
আপনি দেখতে পাচ্ছেন যে প্লটটি পূর্বের সর্বনিম্ন উইংসপ্যান ডেটার মতোই প্রতিধ্বনিত করছে; এটি শুধু একটু মসৃণ। যদি আপনি দ্বিতীয় চার্টে তৈরি করা সেই খাঁজযুক্ত MaxBodyMass লাইনটি পুনরায় দেখতে চান, আপনি এটি এই পদ্ধতি ব্যবহার করে খুব ভালোভাবে মসৃণ করতে পারেন:
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```


দেখুন, একটি পাই চার্ট যা এই ডেটার অনুপাত দেখাচ্ছে এই দুই শ্রেণীর মাশরুম অনুযায়ী। এখানে লেবেলের ক্রম সঠিকভাবে পাওয়া খুবই গুরুত্বপূর্ণ, তাই নিশ্চিত করুন যে লেবেল অ্যারে তৈরি করার সময় ক্রমটি যাচাই করেছেন!
এই পাঠে, আপনি অনুপাত ভিজ্যুয়ালাইজ করার তিনটি উপায় শিখেছেন। প্রথমে, আপনাকে আপনার ডেটাকে ক্যাটাগরিতে গ্রুপ করতে হবে এবং তারপর সিদ্ধান্ত নিতে হবে কোনটি ডেটা প্রদর্শনের সেরা উপায় - পাই, ডোনাট, বা ওয়াফল। সবগুলোই মজাদার এবং ব্যবহারকারীকে একটি ডেটাসেটের তাৎক্ষণিক স্ন্যাপশট প্রদান করে।
এখন, একই ডেটা একটি মধু রঙের স্কিম দিয়ে দেখান যাতে বছরের পর বছর দাম কীভাবে পরিবর্তিত হয়েছে তা প্রদর্শিত হয়। এটি করতে, 'scale_color_gradientn' প্যারামিটার যোগ করুন যা পরিবর্তন দেখায়:
এই রঙের স্কিম পরিবর্তনের মাধ্যমে, আপনি দেখতে পারেন যে প্রতি পাউন্ড মধুর দামের ক্ষেত্রে বছরের পর বছর একটি শক্তিশালী অগ্রগতি রয়েছে। আসলে, যদি আপনি ডেটার একটি নমুনা সেট পরীক্ষা করেন (উদাহরণস্বরূপ, একটি নির্দিষ্ট রাজ্য, অ্যারিজোনা), আপনি দেখতে পাবেন যে বছরের পর বছর দামের বৃদ্ধির একটি প্যাটার্ন রয়েছে, কয়েকটি ব্যতিক্রম সহ:
এটি কি সরবরাহ এবং চাহিদার একটি সাধারণ ঘটনা? জলবায়ু পরিবর্তন এবং কলোনি ধ্বংসের মতো কারণগুলির কারণে, প্রতি বছর কেনার জন্য কম মধু পাওয়া যাচ্ছে, এবং তাই দাম বাড়ছে?
উত্তর: আসলে না। যদি আপনি মোট উৎপাদন দেখেন, এটি সেই নির্দিষ্ট বছরে বৃদ্ধি পেয়েছে বলে মনে হয়, যদিও সাধারণভাবে এই বছরগুলিতে উৎপাদিত মধুর পরিমাণ হ্রাস পাচ্ছে।
এই ভিজ্যুয়ালাইজেশনে, আপনি প্রতি কলোনির উৎপাদন এবং কলোনির সংখ্যা বছর বছর, রাজ্য রাজ্য পাশাপাশি তুলনা করতে পারেন, যেখানে কলামের জন্য wrap 3 সেট করা হয়েছে:
এই ডেটাসেটের জন্য, রাজ্য রাজ্য এবং বছর বছর কলোনির সংখ্যা এবং তাদের উৎপাদনের ক্ষেত্রে কিছুই বিশেষভাবে আলাদা করে দাঁড়ায় না। এই দুটি ভেরিয়েবলের মধ্যে সম্পর্ক খুঁজে বের করার জন্য দেখার অন্য কোনো উপায় কি আছে?
যদিও ২০০৩ সালের আশেপাশে চোখে কিছুই ধরা পড়ে না, এটি আমাদের এই পাঠটি একটি সামান্য সুখী নোটে শেষ করার অনুমতি দেয়: যদিও সামগ্রিকভাবে কলোনির সংখ্যা হ্রাস পাচ্ছে, কলোনির সংখ্যা স্থিতিশীল হচ্ছে যদিও তাদের প্রতি কলোনির উৎপাদন হ্রাস পাচ্ছে।
একজন ডেটা সায়েন্টিস্ট সঠিক ডেটার জন্য সঠিক চার্ট নির্বাচন করলেও, ডেটা এমনভাবে প্রদর্শন করা যেতে পারে যা একটি পয়েন্ট প্রমাণ করে, প্রায়শই ডেটার বিশ্বাসযোগ্যতাকে ক্ষুণ্ন করে। প্রতারণামূলক চার্ট এবং ইনফোগ্রাফিক্সের অনেক উদাহরণ রয়েছে!
[এই চার্টটি](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) আরও প্রতারণামূলক, কারণ চোখ ডানদিকে আকৃষ্ট হয় এবং মনে হয় যে সময়ের সাথে সাথে বিভিন্ন কাউন্টিতে COVID কেস কমেছে। প্রকৃতপক্ষে, তারিখগুলো ঘনিষ্ঠভাবে দেখলে, আপনি দেখতে পাবেন যে সেগুলো পুনর্বিন্যাস করা হয়েছে যাতে একটি প্রতারণামূলক নিম্নগামী প্রবণতা দেখানো যায়।
এই কুখ্যাত উদাহরণটি রঙ এবং একটি উল্টানো Y অক্ষ ব্যবহার করে প্রতারণা করে: বন্দুক-বান্ধব আইন পাস হওয়ার পরে বন্দুক মৃত্যুর সংখ্যা বেড়েছে, এটি বোঝানোর পরিবর্তে চোখকে প্রতারিত করে বিপরীতটি ভাবতে বাধ্য করে:
অতুলনীয় জিনিসের তুলনা করাও আরেকটি ছলনামূলক কৌশল। একটি [অসাধারণ ওয়েবসাইট](https://tylervigen.com/spurious-correlations) রয়েছে যা 'স্পুরিয়াস করেলেশন' প্রদর্শন করে, যেমন মেইনে ডিভোর্স রেট এবং মার্জারিনের খরচের মধ্যে সম্পর্ক। একটি Reddit গ্রুপও ডেটার [খারাপ ব্যবহারের](https://www.reddit.com/r/dataisugly/top/?t=all) উদাহরণ সংগ্রহ করে।
@ -91,13 +91,13 @@
যদি আপনার ডেটা X অক্ষে টেক্সট এবং বিস্তারিত হয়, তবে আরও ভালোভাবে পড়ার জন্য টেক্সটটি কোণাকৃতিতে সাজাতে পারেন। [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 3D প্লটিং অফার করে, যদি আপনার ডেটা এটি সমর্থন করে। এটি ব্যবহার করে উন্নত ডেটা ভিজ্যুয়ালাইজেশন তৈরি করা যায়।
আজকের সেরা ডেটা ভিজ্যুয়ালাইজেশনগুলোর মধ্যে কিছু অ্যানিমেটেড। শার্লি উ D3 দিয়ে তৈরি অসাধারণ ভিজ্যুয়ালাইজেশন করেছেন, যেমন '[ফিল্ম ফ্লাওয়ারস](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', যেখানে প্রতিটি ফুল একটি সিনেমার ভিজ্যুয়ালাইজেশন। আরেকটি উদাহরণ হলো 'বাস্ট আউট', যা গ্রিনসক এবং D3-এর সাথে ভিজ্যুয়ালাইজেশন এবং স্ক্রোলিটেলিং আর্টিকেল ফরম্যাটকে একত্রিত করে দেখায় কীভাবে NYC তার গৃহহীন সমস্যার সমাধান করে।
> "বাস্ট আউট: আমেরিকা কীভাবে তার গৃহহীন মানুষদের সরিয়ে দেয়" [দ্য গার্ডিয়ান](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) থেকে। ভিজ্যুয়ালাইজেশন: নাদিয়েহ ব্রেমার এবং শার্লি উ
@ -107,7 +107,7 @@
আপনি একটি ওয়েব অ্যাপ সম্পন্ন করবেন যা এই সামাজিক নেটওয়ার্কের একটি অ্যানিমেটেড ভিউ প্রদর্শন করবে। এটি একটি লাইব্রেরি ব্যবহার করে তৈরি করা হয়েছে যা Vue.js এবং D3 ব্যবহার করে একটি [নেটওয়ার্কের ভিজ্যুয়াল](https://github.com/emiliorizzo/vue-d3-network) তৈরি করে।


> ছবি <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">জেনা লি</a> এর তোলা <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">আনস্প্ল্যাশ</a> এ
ডেটা ভিজুয়ালাইজ করা একজন ডেটা সায়েন্টিস্টের সবচেয়ে গুরুত্বপূর্ণ কাজগুলোর একটি। একটি ছবি হাজার শব্দের সমান, এবং একটি ভিজুয়ালাইজেশন আপনাকে আপনার ডেটার বিভিন্ন আকর্ষণীয় অংশ যেমন স্পাইক, আউটলায়ার, গ্রুপিং, প্রবণতা এবং আরও অনেক কিছু চিহ্নিত করতে সাহায্য করতে পারে, যা আপনার ডেটা যে গল্পটি বলতে চায় তা বুঝতে সাহায্য করে।
| ছবি [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) দ্বারা | ছবি [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) দ্বারা |
> ছবি <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> এর সৌজন্যে <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> এ
এই পাঠগুলোতে, আপনি ডেটা সায়েন্স লাইফসাইকেলের কিছু দিক অন্বেষণ করবেন, যার মধ্যে ডেটা বিশ্লেষণ এবং যোগাযোগ অন্তর্ভুক্ত।
> ছবি: [Jelleke Vanooteghem](https://unsplash.com/@ilumire) [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) থেকে
বড় ডেটার সাথে ডেটা সায়েন্স করার ক্ষেত্রে ক্লাউড একটি বড় পরিবর্তন আনতে পারে। পরবর্তী তিনটি পাঠে আমরা দেখব ক্লাউড কী এবং এটি কেন খুবই সহায়ক হতে পারে। আমরা একটি হার্ট ফেইলিউর ডেটাসেট বিশ্লেষণ করব এবং একটি মডেল তৈরি করব যা কারো হার্ট ফেইলিউরের সম্ভাবনা মূল্যায়নে সাহায্য করবে। আমরা ক্লাউডের শক্তি ব্যবহার করে মডেলটি প্রশিক্ষণ, ডিপ্লয় এবং দুটি ভিন্ন উপায়ে ব্যবহার করব। একটি উপায় শুধুমাত্র ব্যবহারকারীর ইন্টারফেস ব্যবহার করে "লো কোড/নো কোড" পদ্ধতিতে, অন্যটি Azure Machine Learning Software Developer Kit (Azure ML SDK) ব্যবহার করে।
চিত্রটি ডেটা সায়েন্স কৌশল প্রয়োগের অন্যান্য ডোমেইন এবং উদাহরণ দেখায়। আরও প্রয়োগ অন্বেষণ করতে চান? নীচের [পর্যালোচনা এবং স্ব-অধ্যয়ন](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) বিভাগটি দেখুন।
2. ডেটাসেট [ক্যাটালগ](https://planetarycomputer.microsoft.com/catalog) অন্বেষণ করুন - প্রতিটির উদ্দেশ্য শিখুন।
3. এক্সপ্লোরার ব্যবহার করুন - একটি আগ্রহের ডেটাসেট নির্বাচন করুন, একটি প্রাসঙ্গিক কোয়েরি এবং রেন্ডারিং অপশন নির্বাচন করুন।


`আপনার কাজ:`
এখন ব্রাউজারে রেন্ডার করা ভিজ্যুয়ালাইজেশনটি অধ্যয়ন করুন এবং নিম্নলিখিত প্রশ্নগুলির উত্তর দিন:
# শিক্ষানবিসদের জন্য ডেটা সায়েন্স - একটি কার্যক্রম
# ডেটা সায়েন্স ফর বিগিনার্স - একটি পাঠ্যক্রম
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
মাইক্রোসফট-এর আজুর ক্লাউড অ্যাডভোকেটরা আনন্দিত যে তারা ১০ সপ্তাহ, ২০টি পাঠের একটি পুরোপুরি ডেটা সায়েন্স সম্পর্কিত কার্যক্রম প্রদান করছে। প্রতিটি পাঠের মধ্যে থাকে প্র-পাঠ ও পোস্ট-পাঠ কোয়িজ, পাঠ সম্পন্ন করার জন্য লিখিত নির্দেশাবলী, একটি সমাধান এবং একটি নিয়োগ। আমাদের প্রকল্প-ভিত্তিক শিক্ষণ পদ্ধতি আপনাকে শেখার সময় তৈরি করতে দেয়, যা নতুন দক্ষতার জন্য প্রমাণিত একটি কার্যকর পদ্ধতি।
মাইক্রোসফট-এর আজুর ক্লাউড অ্যাডভোকেটরা ১০ সপ্তাহ, ২০-টি পাঠের একটি পূর্ণাঙ্গ ডেটা সায়েন্স বিষয়ক পাঠ্যক্রম উপস্থাপন করতে পেরে আনন্দিত। প্রতিটি পাঠে অন্তর্ভুক্ত রয়েছে প্রাক-পাঠ এবং পাঠোত্তর কুইজ, পাঠ সম্পন্ন করার জন্য লিখিত নির্দেশাবলী, একটি সমাধান, এবং একটি অ্যাসাইনমেন্ট। আমাদের প্রকল্প-ভিত্তিক শিক্ষাদান পদ্ধতি আপনাকে তৈরি করে শেখার সুযোগ দেয়, যা নতুন দক্ষতা অর্জনের জন্য প্রমাণিত একটি পদ্ধতি।
> এই রিপোজিটোরিতে ৫০+ ভাষার অনুবাদ রয়েছে যা ডাউনলোড সাইজ বেশ বড় করে তোলে। অনুবাদ ছাড়া ক্লোন করতে sparse checkout ব্যবহার করুন:
>
> এই রিপোজিটরির মধ্যে ৫০+ ভাষার অনুবাদ অন্তর্ভুক্ত রয়েছে যা ডাউনলোডের আকার অনেক বাড়িয়ে দেয়। শুধুমাত্র মূল কোর্স ক্লোন করতে স্পার্স চেকআউট ব্যবহার করুন:
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> এর ফলে আপনি দ্রুত ডাউনলোড করে কোর্স সম্পন্ন করার জন্য প্রয়োজনীয় সকল কিছু পাবেন।
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**আপনি যদি অতিরিক্ত অনুবাদ ভাষাগুলি চান তবে তালিকাভুক্ত রয়েছে [এখানে](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**আপনি যদি অতিরিক্ত ভাষার অনুবাদের জন্য আগ্রহী হন তবে সেগুলো [এখানে](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md) পাওয়া যাবে**
আমাদের একটি Discord AI শেখার সিরিজ চলছে, আরও জানতে এবং যুক্ত হতে পারেন [Learn with AI Series](https://aka.ms/learnwithai/discord) এ ১৮ থেকে ৩০ সেপ্টেম্বর, ২০২৫। আপনি GitHub Copilot ব্যবহার করে ডেটা সায়েন্সের টিপস এবং ট্রিকস পাবেন।
আমাদের একটি ডিসকর্ড শেখার AI সিরিজ চলছে, আরো জানুন এবং আমাদের সঙ্গে যোগ দিন [Learn with AI Series](https://aka.ms/learnwithai/discord) ১৮ - ৩০ সেপ্টেম্বর, ২০২৫ থেকে। আপনি ডেটা সায়েন্সের জন্য GitHub Copilot ব্যবহারের টিপস এবং কৌশল শিখতে পারবেন।

# আপনি কি একজন ছাত্র?
নিম্নলিখিত সম্পদ দিয়ে শুরু করুন:
নিম্নলিখিত সম্পদ দিয়ে শুরু করুন:
- [ছাত্র হাব পেজ](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) এই পাতায় আপনি পাবেন শিক্ষানবিসদের জন্য সম্পদ, ছাত্র প্যাক এবং এমনকি একটি ফ্রি সার্টিফিকেট ভাউচারের উপায়। এটি একটি পাতা যা আপনি বুকমার্ক করে সময়ে সময়ে চেক করবেন কারণ আমরা অন্তত প্রতি মাসে বিষয়বস্তু পরিবর্তন করি।
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) গ্লোবাল ছাত্র অ্যাম্বাসেডরদের একটি সম্প্রদায়ে যোগ দিন, যা আপনার মাইক্রোসফটে প্রবেশদ্বার হতে পারে।
- [Student Hub page](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) এই পৃষ্ঠায় আপনি শুরু করার জন্য সম্পদ, ছাত্র প্যাক এবং এমনকি একটি ফ্রী সার্টিফিকেট ভাউচার পাওয়ার উপায় খুঁজে পাবেন। এটি একটি পৃষ্ঠা যা আপনি বুকমার্ক করে সময়ে সময়ে পরীক্ষা করবেন কারণ আমরা প্রতি মাসে অন্তত একটি বার কনটেন্ট পরিবর্তন করি।
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) একটি বৈশ্বিক ছাত্র অ্যাম্বাসেডর কমিউনিটির সঙ্গে যোগ দিন, এটি আপনার Microsoft-এ প্রবেশের পথ হতে পারে।
# শুরু করাঃ
# শুরু করুন
## 📚 ডকুমেন্টেশন
- **[ইনস্টলেশন গাইড](INSTALLATION.md)** - শিক্ষানবিসদের জন্য ধাপে ধাপে ইনস্টলেশন নির্দেশনা
- **[ব্যবহার নির্দেশিকা](USAGE.md)** - উদাহরণ এবং সাধারণ কাজের প্রবাহ
- **[ইনস্টলেশন গাইড](INSTALLATION.md)** - নতুনদের জন্য ধাপে ধাপে সেটআপ নির্দেশিকা
- **[ব্যবহার গাইড](USAGE.md)** - উদাহরণ এবং সাধারণ প্রকরণ
- **[সমস্যা সমাধান](TROUBLESHOOTING.md)** - সাধারণ সমস্যার সমাধান
- **[অংশগ্রহণ গাইড](CONTRIBUTING.md)** - এই প্রকল্পে কীভাবে অবদান রাখতে হয়
- **[শিক্ষকদের জন্য](for-teachers.md)** - শিক্ষাদান নির্দেশিকা এবং শ্রেণিকক্ষ সম্পদ
- **[কন্ট্রিবিউটিং গাইড](CONTRIBUTING.md)** - এই প্রকল্পে কিভাবে অবদান করতে হবে
- **[শিক্ষকদের জন্য](for-teachers.md)** - শিক্ষাদান নির্দেশিকা ও শ্রেণীকক্ষের সম্পদ
## 👨🎓 শিক্ষার্থীদের জন্য
> **সম্পূর্ণ শিক্ষানবিস**: ডেটা সায়েন্সে নতুন? আমাদের [শিখতে সহজ উদাহরণ](examples/README.md) দিয়ে শুরু করুন! এই সাধারণ, ভালোভাবে মন্তব্য করা উদাহরণগুলি আপনাকে পূর্ণ কার্যক্রমে প্রবেশ করার আগে মৌলিক বিষয়গুলি বুঝতে সাহায্য করবে।
> **[ছাত্রছাত্রীদের জন্য](https://aka.ms/student-page)**: এই কার্যক্রমটি নিজের মতো ব্যবহার করতে, পুরো রিপোটি fork করুন এবং নিজে নিজে pre-lecture quiz থেকে শুরু করে অনুশীলনগুলি সম্পন্ন করুন। তারপর পাঠ পড়ুন এবং বাকি কার্যকলাপগুলি সম্পন্ন করুন। সমাধান কোড অনুলিপি করার পরিবর্তে পাঠগুলি বুঝে প্রকল্পগুলি তৈরি করার চেষ্টা করুন; তবে সেই কোড প্রতিটি প্রকল্প-কেন্দ্রিক পাঠের /solutions ফোল্ডারে উপলব্ধ। আরেকটি ধারণা হল বন্ধুদের সাথে একটি অধ্যয়ন গোষ্ঠী গঠন করে একসঙ্গে বিষয়বস্তু পড়া। আরও অধ্যয়নের জন্য, আমরা সুপারিশ করি [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum)।
> **সম্পূর্ণ নতুন:** ডেটা সায়েন্সে নতুন? আমাদের [শুরু করার জন্য বন্ধুবৎসল উদাহরণ](examples/README.md) দিয়ে শুরু করুন! এই সহজ, ভালভাবে মন্তব্য করা উদাহরণগুলি আপনাকে সম্পূর্ণ পাঠ্যক্রমে প্রবেশ করার আগে মূল বিষয়গুলি বুঝতে সাহায্য করবে।
> **[ছাত্ররা](https://aka.ms/student-page):** এই পাঠ্যক্রম নিজে থেকে ব্যবহার করতে, পুরো রিপো ফর্ক করুন এবং প্রথমে প্রি-লেকচার কুইজ থেকে শুরু করে একে একে পাঠ শেষ করুন এবং বাকি কার্যক্রম সম্পন্ন করুন। সমাধান কোড কপি করার পরিবর্তে পাঠ বুঝে প্রকল্প তৈরি করার চেষ্টা করুন; যদিও প্রতিটি প্রকল্প-ভিত্তিক পাঠে /solutions ফোল্ডারে সেই কোড পাওয়া যায়। আরেকটি ধারণা হলো বন্ধুদের সাথে একটি স্টাডি গ্রুপ তৈরি করে একসাথে বিষয়বস্তু অনুসরণ করা। আরও অধ্যয়নের জন্য আমরা সুপারিশ করি [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum)।
**দ্রুত শুরু:**
1. আপনার পরিবেশ সেটআপ করার জন্য [ইনস্টলেশন গাইড](INSTALLATION.md) দেখে নিন
2. কার্যক্রম নিয়ে কাজ করার জন্য [ব্যবহার নির্দেশিকা](USAGE.md) পর্যালোচনা করুন
**দ্রুত শুরু করুন:**
1. পরিবেশ সেটআপের জন্য [ইনস্টলেশন গাইড](INSTALLATION.md) দেখুন
2. পাঠ্যক্রম নিয়ে কাজ করার জন্য [ব্যবহার গাইড](USAGE.md) পর্যালোচনা করুন
3. পাঠ ১ থেকে শুরু করে ধারাবাহিকভাবে কাজ করুন
4. সহায়তার জন্য আমাদের [Discord সম্প্রদায়ে](https://aka.ms/ds4beginners/discord) যোগ দিন
4. সহায়তার জন্য আমাদের [ডিসকর্ড কমিউনিটিতে](https://aka.ms/ds4beginners/discord) যোগ দিন
## 👩🏫 শিক্ষকদের জন্য
> **শিক্ষকগণ**: আমরা এই পাঠ্যক্রমটি কীভাবে ব্যবহার করবেন তার জন্য [কিছু পরামর্শ যুক্ত করেছি](for-teachers.md)। আমরা আপনার মতামত শুনতে আগ্রহী [আমাদের আলোচনার ফোরামে](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **শিক্ষকবৃন্দ**: আমরা [এই কার্যক্রম ব্যবহারের জন্য কিছু পরামর্শ](for-teachers.md) জুড়েছি। আপনার ফিডব্যাকের অপেক্ষায় আছি [আমাদের আলোচনা ফোরামে](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> 🎥 উপরের ছবিতে ক্লিক করুন প্রজেক্ট এবং এটি যারা তৈরি করেছে তাদের সম্পর্কে একটি ভিডিও দেখতে!
> 🎥 প্রকল্প ও এটি তৈরি করা ব্যক্তিদের সম্পর্কে ভিডিও দেখার জন্য উপরের ছবিতে ক্লিক করুন!
## শিক্ষণশাস্ত্র
## শিক্ষাদান পদ্ধতি
এই পাঠক্রম তৈরির সময় আমরা দুটি শিক্ষণমূলক নীতিমালা নির্বাচন করেছি: এটি প্রকল্পভিত্তিক হওয়া এবং এতে ঘনঘন কুইজ অন্তর্ভুক্ত থাকা। এই সিরিজ শেষ হওয়ার পর, শিক্ষার্থীরা ডেটা সায়েন্সের মৌলিক নীতিমালা শিখবে, যার মধ্যে রয়েছে নৈতিক ধারণা, ডেটা প্রস্তুতি, ডেটার সাথে কাজ করার বিভিন্ন পদ্ধতি, ডেটা ভিজ্যুয়ালাইজেশন, ডেটা বিশ্লেষণ, ডেটা সায়েন্সের বাস্তব প্রয়োগ, এবং আরও অনেক কিছু।
আমরা এই পাঠ্যক্রম তৈরি করার সময় দুটি শিক্ষাদান নীতি বেছে নিয়েছি: এটি অবশ্যই প্রকল্প-ভিত্তিক হতে হবে এবং এতে নিয়মিত কুইজ অন্তর্ভুক্ত থাকতে হবে। এই সিরিজের শেষে, শিক্ষার্থীরা ডাটা সায়েন্সের মৌলিক নীতিমালা শিখবে, যার মধ্যে রয়েছে নৈতিক বিষয়সমূহ, ডাটা প্রস্তুতি, ডাটার বিভিন্ন কাজের পদ্ধতি, তথ্যচিত্রায়ন, ডাটা বিশ্লেষণ, ডাটা সায়েন্সের বাস্তব-জগতের ব্যবহার এবং আরও অনেক কিছু।
অতিরিক্তভাবে, ক্লাসের আগে একটি নিম্ন চাপের কুইজ শিক্ষার্থীর একটি বিষয়ে শিখতে ইচ্ছা প্রকাশ করে, আর ক্লাসের পরের দ্বিতীয় কুইজ আরও ধারণ বজায় রাখে। এই পাঠক্রম নমনীয় এবং মজাদার করার জন্য ডিজাইন করা হয়েছে এবং এটি সম্পূর্ণ বা আংশিকভাবে নেওয়া যেতে পারে। প্রকল্পগুলি ছোট থেকে শুরু হয় এবং ১০ সপ্তাহের চক্র শেষ পর্যন্ত ক্রমশ জটিল হয়।
অতিরিক্তভাবে, ক্লাসের আগে একটি কম চাপে কুইজ শিক্ষার্থীর শেখার উদ্দেশ্য নির্ধারণ করে, এবং ক্লাসের পরে দ্বিতীয় কুইজ উচ্চতর ধারণা ধরে রাখার নিশ্চয়তা দেয়। এই পাঠ্যক্রমটি নমনীয় এবং মজাদার করে ডিজাইন করা হয়েছে এবং পুরোটা অথবা আংশিক অংশ গ্রহণ করা যায়। প্রকল্পগুলি ছোট থেকে শুরু হয়ে ১০ সপ্তাহের চক্রের শেষে ক্রমবর্ধমান জটিল হয়ে ওঠে।
> আমাদের [আচার সংহিতা](CODE_OF_CONDUCT.md), [অংশগ্রহণ নির্দেশিকা](CONTRIBUTING.md), [অনুবাদ নির্দেশিকা](TRANSLATIONS.md) দেখুন। আমরা আপনার গঠনমূলক প্রতিক্রিয়াকে স্বাগত জানাই!
> আমাদের [আচরণবিধি](CODE_OF_CONDUCT.md), [অংশগ্রহণের নিয়মাবলী](CONTRIBUTING.md), [অনুবাদ নির্দেশিকা](TRANSLATIONS.md) দেখুন। আমাদের গঠনমূলক প্রতিক্রিয়া স্বাগত!
## প্রতিটি পাঠে অন্তর্ভুক্ত:
- ঐচ্ছিক স্কেচনোট
- ঐচ্ছিক অতিরিক্ত ভিডিও
- পাঠের আগে প্রস্তুতিমূলক কুইজ
- পাঠের আগে উত্তপ্তকরণ কুইজ
- লিখিত পাঠ
- প্রকল্পভিত্তিক পাঠের জন্য, প্রকল্প তৈরির ধাপে ধাপে গাইড
- জ্ঞান যাচাই
- প্রকল্পভিত্তিক পাঠের জন্য প্রকল্পটি নির্মাণের ধাপে ধাপে নির্দেশিকা
- জ্ঞানের পরীক্ষা
- একটি চ্যালেঞ্জ
- অতিরিক্ত পাঠ্য
- অ্যাসাইনমেন্ট
- [পাঠের পর কুইজ](https://ff-quizzes.netlify.app/en/)
- অতিরিক্ত পাঠ
- নিয়মিত [পাঠের পরে কুইজ](https://ff-quizzes.netlify.app/en/)
> **কুইজ সম্পর্কে একটি টিপ**: সমস্ত কুইজ Quiz-App ফোল্ডারে রয়েছে, মোট ৪০টি কুইজ, প্রতিটিতে তিনটি প্রশ্ন। এগুলি পাঠ থেকে লিঙ্ক করা হয়েছে, তবে কুইজ অ্যাপটি স্থানীয়ভাবে চালানো বা Azure-এ মোতায়েন করা যেতে পারে; `quiz-app` ফোল্ডারের নির্দেশ অনুসরণ করুন। এগুলি ধাপে ধাপে স্থানীয়করণ করা হচ্ছে।
> **কুইজ সম্পর্কে একটি নোট**: সব কুইজগুলি Quiz-App ফোল্ডারে রয়েছে, মোট ৪০টি কুইজ আছে প্রত্যেকে তিনটি প্রশ্ন নিয়ে। এগুলো পাঠের ভেতর থেকে লিঙ্ক করা আছে, কিন্তু কুইজ অ্যাপটি স্থানীয়ভাবে চলানো বা Azure এ মোতায়েন করা যায়; নির্দেশনাগুলো `quiz-app` ফোল্ডারে পাওয়া যাবে। কুইজগুলো ধীরে ধীরে স্থানীয়করণ হচ্ছে।
## 🎓 শুরু কর্তা_সুলভ উদাহরণ
## 🎓 নবাগতদের উপযোগী উদাহরণ
**ডেটা সায়েন্সে নতুন?** আমরা একটি বিশেষ [উদাহরণ ডিরেক্টরি](examples/README.md) তৈরি করেছি সহজ, ভাল মন্তব্য করা কোডের সাথে যা আপনাকে শুরু করতে সাহায্য করবে:
**ডাটা সায়েন্স নতুন?** আমরা একটি বিশেষ [উদাহরণ ডিরেক্টরি](examples/README.md) তৈরি করেছি যেখানে সহজ, সুপরিচিত কোড রয়েছে যা আপনাকে শুরু করতে সাহায্য করবে:
- 🌟 **হ্যালো ওয়ার্ল্ড** - আপনার প্রথম ডেটা সায়েন্স প্রোগ্রাম
- 📂 **ডেটা লোড করা** - ডেটাসেট পড়া এবং অন্বেষণ করা শিখুন
| ০৩ | ডেটা সংজ্ঞায়িতকরণ | [পরিচিতি](1-Introduction/README.md) | ডেটা কীভাবে শ্রেণীবদ্ধ করা হয় এবং এর সাধারণ উৎস। | [পাঠ](1-Introduction/03-defining-data/README.md) | [জাসমিন](https://www.twitter.com/paladique) |
| ০৪ | পরিসংখ্যান ও সম্ভাবনা পরিচিতি | [পরিচিতি](1-Introduction/README.md) | ডেটা বোঝার জন্য সম্ভাব্যতা ও পরিসংখ্যানের গাণিতিক পদ্ধতি। | [পাঠ](1-Introduction/04-stats-and-probability/README.md) [ভিডিও](https://youtu.be/Z5Zy85g4Yjw) | [দমিত্রি](http://soshnikov.com) |
| ০৫ | সম্পর্কিত ডেটার সাথে কাজ | [ডেটার সাথে কাজ](2-Working-With-Data/README.md) | সম্পর্কিত ডেটার পরিচিতি ও Structured Query Language (SQL) ব্যবহার করে সম্পর্কিত ডেটা অনুসন্ধান ও বিশ্লেষণের মৌলিক ধারণা। | [পাঠ](2-Working-With-Data/05-relational-databases/README.md) | [ক্রিস্টোফার](https://www.twitter.com/geektrainer) |
| ০৬ | নন-রিলেশনাল ডেটার সাথে কাজ | [ডেটার সাথে কাজ](2-Working-With-Data/README.md) | নন-রিলেশনাল ডেটার পরিচিতি, তার বিভিন্ন প্রকার এবং ডকুমেন্ট ডেটাবেস অনুসন্ধান ও বিশ্লেষণের মৌলিক ধারণা। | [পাঠ](2-Working-With-Data/06-non-relational/README.md) | [জাসমিন](https://twitter.com/paladique)|
| ০৭ | পাইথনের সাথে কাজ | [ডেটার সাথে কাজ](2-Working-With-Data/README.md) | Pandas-এর মতো লাইব্রেরি নিয়ে ডেটা অন্বেষণের জন্য পাইথন ব্যবহারের মৌলিক ধারণা। পাইথন প্রোগ্রামিংয়ের প্রাথমিক বোঝাপড়া প্রয়োজন। | [পাঠ](2-Working-With-Data/07-python/README.md) [ভিডিও](https://youtu.be/dZjWOGbsN4Y) | [দমিত্রি](http://soshnikov.com) |
| ০৮ | ডেটা প্রস্তুতি | [ডেটার সাথে কাজ](2-Working-With-Data/README.md) | অনুপস্থিত, ভুল বা অসম্পূর্ণ ডেটার সমস্যাগুলো মোকাবেলায় ডেটা পরিষ্কার করা ও রূপান্তরের টেকনিক। | [পাঠ](2-Working-With-Data/08-data-preparation/README.md) | [জাসমিন](https://www.twitter.com/paladique) |
| ০৯ | পরিমাণের ভিজ্যুয়ালাইজেশন | [ডেটা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | Matplotlib ব্যবহার করে পাখির ডেটা ভিজ্যুয়ালাইজ করা শিখুন 🦆 | [পাঠ](3-Data-Visualization/09-visualization-quantities/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১০ | ডেটার বন্টনের ভিজ্যুয়ালাইজেশন | [ডেটা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | একটি ইন্টারভালের মধ্যে পর্যবেক্ষণ ও প্রবণতা ভিজ্যুয়ালাইজ করা। | [পাঠ](3-Data-Visualization/10-visualization-distributions/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১১ | অনুপাতের ভিজ্যুয়ালাইজেশন | [ডেটা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | ডিসক্রিট এবং গুচ্ছিত শতকরার ভিজ্যুয়ালাইজেশন। | [পাঠ](3-Data-Visualization/11-visualization-proportions/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১২ | সম্পর্কের ভিজ্যুয়ালাইজেশন | [ডেটা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | ডেটা সেট ও তাদের ভেরিয়েবলের মধ্যে সংযোগ ও সম্পর্ক ভিজ্যুয়ালাইজেশন। | [পাঠ](3-Data-Visualization/12-visualization-relationships/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১৩ | অর্থপূর্ণ ভিজ্যুয়ালাইজেশন | [ডেটা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | আপনার ভিজ্যুয়ালাইজেশনকে কার্যকর সমস্যা সমাধান ও অন্তর্দৃষ্টির জন্য মূল্যবান করার পদ্ধতি ও নির্দেশনা। | [পাঠ](3-Data-Visualization/13-meaningful-visualizations/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১৪ | ডেটা সায়েন্স জীবচক্রের পরিচিতি | [জীবচক্র](4-Data-Science-Lifecycle/README.md) | ডেটা সায়েন্স জীবচক্রের পরিচিতি এবং ডেটা সংগ্রহ ও আহরণের প্রথম ধাপ। | [পাঠ](4-Data-Science-Lifecycle/14-Introduction/README.md) | [জাসমিন](https://twitter.com/paladique) |
| ১৫ | বিশ্লেষণ | [জীবচক্র](4-Data-Science-Lifecycle/README.md) | ডেটা সায়েন্স জীবচক্রের এই পর্যায়ে ডেটা বিশ্লেষণের পদ্ধতিগুলো ফোকাস করা হয়। | [পাঠ](4-Data-Science-Lifecycle/15-analyzing/README.md) | [জাসমিন](https://twitter.com/paladique) |
| ১৬ | যোগাযোগ | [জীবচক্র](4-Data-Science-Lifecycle/README.md) | ডেটা থেকে প্রাপ্ত অন্তর্দৃষ্টি উপস্থাপনায় এই পর্যায় ফোকাস করে যাতে সিদ্ধান্ত গ্রহণকারীরা সহজে বুঝতে পারে। | [পাঠ](4-Data-Science-Lifecycle/16-communication/README.md) | [জালেন](https://twitter.com/JalenMcG) |
| ১৭ | ক্লাউডে ডেটা সায়েন্স | [ক্লাউড ডেটা](5-Data-Science-In-Cloud/README.md) | এই সিরিজের পাঠগুলি ক্লাউডে ডেটা সায়েন্স এবং এর সুবিধাসমূহ পরিচয় করিয়ে দেয়। | [পাঠ](5-Data-Science-In-Cloud/17-Introduction/README.md) | [টিফানি](https://twitter.com/TiffanySouterre) এবং [মড](https://twitter.com/maudstweets) |
| ১৮ | ক্লাউডে ডেটা সায়েন্স | [ক্লাউড ডেটা](5-Data-Science-In-Cloud/README.md) | Low Code টুল ব্যবহার করে মডেল ট্রেনিং। |[পাঠ](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [টিফানি](https://twitter.com/TiffanySouterre) এবং [মড](https://twitter.com/maudstweets) |
| ১৯ | ক্লাউডে ডেটা সায়েন্স | [ক্লাউড ডেটা](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio দিয়ে মডেল মোতায়েন। | [পাঠ](5-Data-Science-In-Cloud/19-Azure/README.md)| [টিফানি](https://twitter.com/TiffanySouterre) এবং [মড](https://twitter.com/maudstweets) |
| ২০ | প্রকৃত দুনিয়াতে ডেটা সায়েন্স | [ইন দ্য ওয়াইল্ড](6-Data-Science-In-Wild/README.md) | বাস্তব বিশ্বের ডেটা সায়েন্স চালিত প্রকল্প। | [পাঠ](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [নিত্য](https://twitter.com/nitya) |
| ০৩ | ডাটা সংজ্ঞায়িতকরণ | [পরিচিতি](1-Introduction/README.md) | ডাটা কীভাবে শ্রেণীবদ্ধ হয় এবং এর সাধারণ উৎস। | [পাঠ](1-Introduction/03-defining-data/README.md) | [জ্যাসমিন](https://www.twitter.com/paladique) |
| ০৪ | পরিসংখ্যান ও সম্ভাবনার পরিচিতি | [পরিচিতি](1-Introduction/README.md) | ডাটা বোঝার জন্য সম্ভাবনা ও পরিসংখ্যানের গাণিতিক পদ্ধতি। | [পাঠ](1-Introduction/04-stats-and-probability/README.md) [ভিডিও](https://youtu.be/Z5Zy85g4Yjw) | [ডমিত্রি](http://soshnikov.com) |
| ০৫ | রিলেশনাল ডাটার সাথে কাজ | [ডাটার সাথে কাজ](2-Working-With-Data/README.md) | রিলেশনাল ডাটার পরিচিতি এবং SQL (প্রসিদ্ধি "সি-ক্বেল") ব্যবহার করে ডাটা অনুসন্ধান ও বিশ্লেষণের মৌলিক বিষয়। | [পাঠ](2-Working-With-Data/05-relational-databases/README.md) | [ক্রিস্টোফার](https://www.twitter.com/geektrainer) | | |
| ০৬ | ননএসকিউএল ডাটার সাথে কাজ | [ডাটার সাথে কাজ](2-Working-With-Data/README.md) | অ-রিলেশনাল ডাটা, এর বিভিন্ন ধরণ, এবং ডকুমেন্ট ডাটাবেস অনুসন্ধান ও বিশ্লেষণের মৌলিক অংশ। | [পাঠ](2-Working-With-Data/06-non-relational/README.md) | [জ্যাসমিন](https://twitter.com/paladique)|
| ০৭ | পাইথনের সাথে কাজ | [ডাটার সাথে কাজ](2-Working-With-Data/README.md) | পাণ্ডাসের মতো লাইব্রেরি ব্যবহার করে ডাটা অনুসন্ধানের জন্য পাইথনের মৌলিক ব্যবহার। পাইথন প্রোগ্রামিংয়ের মৌলিক ধারণা সুপারিশ করা হয়। | [পাঠ](2-Working-With-Data/07-python/README.md) [ভিডিও](https://youtu.be/dZjWOGbsN4Y) | [ডমিত্রি](http://soshnikov.com) |
| ০৮ | ডাটা প্রস্তুতি | [ডাটার সাথে কাজ](2-Working-With-Data/README.md) | মিসিং, ভুল বা অসম্পূর্ণ ডাটা মোকাবেলায় ডাটা পরিষ্কার ও পরিবর্তনের কৌশল। | [পাঠ](2-Working-With-Data/08-data-preparation/README.md) | [জ্যাসমিন](https://www.twitter.com/paladique) |
| ০৯ | পরিমাণ ভিজ্যুয়ালাইজেশন | [ডাটা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | ম্যাটপ্লটলিব ব্যবহার করে পাখির ডাটা ভিজ্যুয়ালাইজেশন শিখুন 🦆 | [পাঠ](3-Data-Visualization/09-visualization-quantities/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১০ | ডাটার বন্টন ভিজ্যুয়ালাইজেশন | [ডাটা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | একটি অন্তরালের মধ্যে পর্যবেক্ষণ এবং প্রবণতা ভিজ্যুয়ালাইজেশন। | [পাঠ](3-Data-Visualization/10-visualization-distributions/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১১ | অনুপাত ভিজ্যুয়ালাইজেশন | [ডাটা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | বিচ্ছিন্ন এবং গুচ্ছভুক্ত শতাংশ ভিজ্যুয়ালাইজেশন। | [পাঠ](3-Data-Visualization/11-visualization-proportions/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১২ | সম্পর্ক ভিজ্যুয়ালাইজেশন | [ডাটা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | ডাটা সেট এবং তাদের ভেরিয়েবলের মধ্যে সংযোগ ও সম্পর্কের ভিজ্যুয়ালাইজেশন। | [পাঠ](3-Data-Visualization/12-visualization-relationships/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১৩ | তাৎপর্যপূর্ণ ভিজ্যুয়ালাইজেশন | [ডাটা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | কার্যকর সমাধান এবং অন্তর্দৃষ্টির জন্য আপনার ভিজ্যুয়ালাইজেশন মূল্যবান করার কৌশল ও নির্দেশনা। | [পাঠ](3-Data-Visualization/13-meaningful-visualizations/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১৪ | ডাটা সায়েন্স লাইফসাইকেলের পরিচিতি | [লাইফসাইকেল](4-Data-Science-Lifecycle/README.md) | ডাটা সায়েন্স লাইফসাইকেলের পরিচিতি এবং ডাটা সংগ্রহ ও নিষ্কাশনের প্রথম ধাপ। | [পাঠ](4-Data-Science-Lifecycle/14-Introduction/README.md) | [জ্যাসমিন](https://twitter.com/paladique) |
| ১৫ | বিশ্লেষণ | [লাইফসাইকেল](4-Data-Science-Lifecycle/README.md) | ডাটা সায়েন্স লাইফসাইকেলের এই ধাপ ডাটা বিশ্লেষণের কৌশলগুলোর উপর জোর দেয়। | [পাঠ](4-Data-Science-Lifecycle/15-analyzing/README.md) | [জ্যাসমিন](https://twitter.com/paladique) | | |
| ১৬ | যোগাযোগ | [লাইফসাইকেল](4-Data-Science-Lifecycle/README.md) | ডাটা থেকে প্রাপ্ত অন্তর্দৃষ্টিগুলো এমনভাবে উপস্থাপন করা যাতে সিদ্ধান্তগ্রহণকারীরা সহজে বুঝতে পারেন। | [পাঠ](4-Data-Science-Lifecycle/16-communication/README.md) | [জালেন](https://twitter.com/JalenMcG) | | |
| ১৭ | ক্লাউডে ডাটা সায়েন্স | [ক্লাউড ডাটা](5-Data-Science-In-Cloud/README.md) | ক্লাউডে ডাটা সায়েন্স ও এর সুবিধার পরিচিতি। | [পাঠ](5-Data-Science-In-Cloud/17-Introduction/README.md) | [টিফানি](https://twitter.com/TiffanySouterre) এবং [মোড](https://twitter.com/maudstweets) |
| ১৮ | ক্লাউডে ডাটা সায়েন্স | [ক্লাউড ডাটা](5-Data-Science-In-Cloud/README.md) | লো কোড টুলস ব্যবহার করে মডেল প্রশিক্ষণ। |[পাঠ](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [টিফানি](https://twitter.com/TiffanySouterre) এবং [মোড](https://twitter.com/maudstweets) |
এই নমুনাটি Codespace-এ খুলতে নিম্নলিখিত পদক্ষেপ অনুসরণ করুন:
১. কোড ড্রপডাউন মেনুতে ক্লিক করে Open with Codespaces অপশনটি নির্বাচন করুন।
২. পেনের নিচে + New codespace নির্বাচন করুন।
বিস্তারিত জানার জন্য দেখুন [GitHub ডকুমেন্টেশন](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace)।
এই নমুনাটি Codespace-এ খুলতে নিচের ধাপগুলো অনুসরণ করুন:
১. কোড ড্রপ-ডাউন মেনুতে ক্লিক করুন এবং Open with Codespaces অপশন নির্বাচন করুন।
২. প্যানের নিচে + New codespace নির্বাচন করুন।
আরো তথ্যের জন্য [GitHub ডকুমেন্টেশন](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) দেখুন।
## VSCode রিমোট - কন্টেইনার
## VSCode রিমোট - কন্টেইনারস
আপনার স্থানীয় মেশিন এবং VSCode ব্যবহার করে এই রিপোজিটরিটি কন্টেইনারে খুলতে নিম্নলিখিত পদক্ষেপ অনুসরণ করুন VS Code Remote - Containers এক্সটেনশন ব্যবহার করে:
আপনার স্থানীয় মেশিন ও VSCode ব্যবহার করে এই রিপোজিটরিটি কন্টেইনারে খোলার জন্য VS Code Remote - Containers এক্সটেনশন ব্যবহার করুন:
১. এটি যদি আপনার প্রথমবারের মতো ডেভেলপমেন্ট কন্টেইনার ব্যবহার হয়, দয়া করে নিশ্চিত করুন আপনার সিস্টেম প্রয়োজনীয়তা পূরণ করে (যেমন Docker ইনস্টল করা) [গেটিং স্টার্টেড ডকুমেন্টেশনে](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started)।
১. যদি আপনি প্রথমবার ডেভেলপমেন্ট কন্টেইনার ব্যবহার করেন, নিশ্চিত করুন আপনার সিস্টেমে প্রয়োজনীয়তা পূরণ হয়েছে (যেমন ডকার ইনস্টল করা আছে) [গেটিং স্টার্টেড ডকুমেন্টেশন](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) এ।
এই রিপোজিটরি ব্যবহার করতে, আপনি অথবা রিপোজিটরিটি একটি পৃথক Docker ভলিউমে খুলতে পারেন:
এই রিপোজিটরি ব্যবহার করতে আপনি বা তো রিপোজিটরিটি একটি পৃথক ডকার ভলিউমে খুলতে পারেন:
**দ্রষ্টব্য**: অভ্যন্তরে, এটি Remote-Containers: **Clone Repository in Container Volume...** কমান্ড ব্যবহার করবে সোর্স কোড ডকারের একটি ভলিউমে ক্লোন করার জন্য, স্থানীয় ফাইল সিস্টেমের পরিবর্তে। [ভলিউমগুলি](https://docs.docker.com/storage/volumes/) কন্টেইনার ডেটা সংরক্ষণের জন্য পছন্দের মাধ্যম।
**নোট**: এই প্রক্রিয়ায় Remote-Containers: **Clone Repository in Container Volume...** কমান্ড ব্যবহার করে সোর্স কোড স্থানীয় ফাইল সিস্টেমের বদলে ডকার ভলিউমে ক্লোন করবে। [ভলিউম](https://docs.docker.com/storage/volumes/) হল কন্টেইনার ডাটা সংরক্ষণের পছন্দের পদ্ধতি।
অথবা রিপোজিটরির একটি স্থানীয় ক্লোন করা বা ডাউনলোডকৃত সংস্করণ খুলুন:
অথবা স্থানীয় ক্লোন বা ডাউনলোড করা সংস্করণ খুলুন:
- এই রিপোজিটরিটি আপনার স্থানীয় ফাইল সিস্টেমে ক্লোন করুন।
- F1 চাপুন এবং **Remote-Containers: Open Folder in Container...** কমান্ড নির্বাচন করুন।
- এই ফোল্ডারটির ক্লোন করা কপি নির্বাচন করুন, কন্টেইনার শুরু হওয়ার জন্য অপেক্ষা করুন এবং পরীক্ষা করুন।
- ফোল্ডারটির ক্লোনকৃত কপি নির্বাচন করুন, কন্টেইনার শুরু হওয়া পর্যন্ত অপেক্ষা করুন, এবং কাজ শুরু করুন।
## অফলাইন অ্যাকসেস
## অফলাইন অ্যাক্সেস
আপনি [Docsify](https://docsify.js.org/#/) ব্যবহার করে এই ডকুমেন্টেশন অফলাইন চালাতে পারেন। এই রিপোটি ফর্ক করুন, আপনার স্থানীয় মেশিনে [Docsify ইনস্টল করুন](https://docsify.js.org/#/quickstart), তারপর এই রিপোর মূল ফোল্ডারে `docsify serve` টাইপ করুন। ওয়েবসাইটটি আপনার লোকালহোস্টের পোর্ট ৩০০০-এ চালু হবে: `localhost:3000`।
আপনি [Docsify](https://docsify.js.org/#/) ব্যবহার করে এই ডকুমেন্টেশন অফলাইনে চালাতে পারবেন। এই রিপো ফর্ক করুন, আপনার স্থানীয় মেশিনে [Docsify ইনস্টল করুন](https://docsify.js.org/#/quickstart), তারপর এই রিপোর মূল ফোল্ডারে `docsify serve` টাইপ করুন। ওয়েবসাইটটি পোর্ট ৩০০০ এ চালানো হবে: `localhost:3000`।
> লক্ষ্য করুন, নোটবুকগুলি Docsify দ্বারা রেন্ডার হবে না, তাই যখন আপনাকে নোটবুক চালাতে হবে, তা আলাদাভাবে VS Code-এ পাইথন কার্নেল দিয়ে চালান।
> লক্ষ্য করুন, নোটবুকগুলো Docsify দ্বারা রেন্ডার হবে না, সুতরাং নোটবুক চালানোর জন্য, আলাদাভাবে VS Code এ পাইথন কার্নেল চালাতে হবে।
## অন্যান্য পাঠক্রম
## অন্যান্য পাঠ্যক্রম
আমাদের দল অন্যান্য পাঠক্রমও তৈরি করে! দেখতে পাবেন:
আমাদের টিম আরও অন্যান্য পাঠ্যক্রম তৈরি করে! দেখুন:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / এজেন্টরা
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### জেনেরেটিভ AI সিরিজ
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
### জেনারেটিভ AI সিরিজ
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### মূল শিক্ষা
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
### মূল শেখা
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### কোপাইলট সিরিজ
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**সমস্যা হচ্ছে?** সাধারণ সমস্যার সমাধান জানতে আমাদের [ট্রাবলশুটিং গাইড](TROUBLESHOOTING.md) দেখুন।
**সমস্যায় পড়েছেন?** সাধারণ সমস্যার সমাধানের জন্য আমাদের [ট্রাবলশুটিং গাইড](TROUBLESHOOTING.md) দেখুন।
যদি আপনি আটকে যান বা AI অ্যাপ তৈরি সংক্রান্ত কোনো প্রশ্ন থাকে। MCP সম্পর্কে আলাপ-আলোচনায় অন্য শিক্ষার্থী এবং অভিজ্ঞ ডেভেলপারদের সাথে যোগ দিন। এটি একটি সহায়ক সম্প্রদায় যেখানে প্রশ্নরা স্বাগত এবং জ্ঞান শেয়ার করা হয় মুক্তভাবে।
আপনি আটকে গেলে বা AI অ্যাপ তৈরি সম্পর্কে কোনও প্রশ্ন থাকে, MCP নিয়ে অন্যান্য শিক্ষার্থী এবং অভিজ্ঞ ডেভেলপারদের সাথে আলোচনা করুন। এটি একটি সহায়ক কমিউনিটি যেখানে প্রশ্ন করা স্বাগত এবং জ্ঞান সাবলীলভাবে শেয়ার করা হয়।
এই নথিটি AI অনুবাদ সেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনূদিত হয়েছে। আমরা সঠিকতার জন্য চেষ্টা করি, তবে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল নথিটি তার নিজস্ব ভাষায় কর্তৃপক্ষপূর্ণ উৎস হিসেবে গণ্য করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানুষের অনুবাদ সুপারিশ করা হয়। এই অনুবাদের ব্যবহার থেকে উদ্ভূত কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়ী নই।
**ডিসক্লেইমার**:
এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসাধ্য সঠিকতার চেষ্টা করলেও, স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে তা অনুগ্রহ করে জানুন। মুল নথি যা নিজ ভাষায় রয়েছে সেটিকেই সর্বোচ্চ প্রামাণিক উৎস হিসেবে ধরা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানব অনুবাদ প্রয়োজন। এই অনুবাদের ব্যবহারে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়বদ্ধ নই।
या आव्हानात, आपण डेटा सायन्स क्षेत्राशी संबंधित संकल्पना शोधण्याचा प्रयत्न करू, ते मजकूर पाहून. आपण डेटा सायन्सवरील विकिपीडिया लेख घेऊ, मजकूर डाउनलोड आणि प्रक्रिया करू, आणि नंतर खालीलप्रमाणे एक वर्ड क्लाउड तयार करू:
कोड वाचण्यासाठी [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') ला भेट द्या. तुम्ही कोड चालवू शकता आणि तो प्रत्यक्षात डेटा ट्रान्सफॉर्मेशन कसे करतो ते पाहू शकता.
"या उदाहरणात, पारंपरिक डेटा सायन्स प्रक्रियेच्या सर्व टप्प्यांचा समावेश असलेला एक साधा सराव करूया. तुम्हाला कोणताही कोड लिहायची गरज नाही, फक्त खालील सेल्सवर क्लिक करून त्यांना चालवा आणि परिणाम पाहा. आव्हान म्हणून, तुम्हाला वेगवेगळ्या डेटासह हा कोड वापरून पाहण्यास प्रोत्साहित केले जाते.\n",
"या उदाहरणात, चला पारंपरिक डेटा सायन्स प्रक्रियेच्या सर्व चरणांचा समावेश करणारा एक सोपा सराव करूया. तुम्हाला कोणताही कोड लिहायचा नाही, तुम्ही खालील सेल्सवर क्लिक करून ते चालवू शकता आणि परिणाम पाहू शकता. एक आव्हान म्हणून, तुम्हाला वेगवेगळ्या डेटासह हा कोड वापरून पाहण्याचे प्रोत्साहन दिले जाते.\n",
"\n",
"## उद्दिष्ट\n",
"\n",
"या धड्यात, आपण डेटा सायन्सशी संबंधित वेगवेगळ्या संकल्पनांवर चर्चा केली आहे. **टेक्स्ट मायनिंग** करून आणखी संबंधित संकल्पना शोधण्याचा प्रयत्न करूया. आपण डेटा सायन्सबद्दलच्या मजकुरासह सुरुवात करू, त्यातून कीवर्ड्स काढू, आणि नंतर परिणामाचे दृश्यांकन करण्याचा प्रयत्न करू.\n",
"या धड्यांमध्ये, आपण डेटा सायन्सशी संबंधित वेगवेगळ्या संकल्पनांवर चर्चा केली आहे. चला काही **टेक्स्ट मायनिंग** करून आणखी संबंधित संकल्पना शोधण्याचा प्रयत्न करूया. आपण डेटा सायन्सबद्दलच्या एका मजकुरापासून सुरू करू, त्यातून कीवर्ड्स काढू आणि नंतर त्याचा आकलन करण्यासाठी व्हिज्युअलायझेशन करू.\n",
"\n",
"मजकूर म्हणून, मी विकिपीडियावरील डेटा सायन्स पृष्ठाचा वापर करणार आहे:\n"
"मजकूर म्हणून, मी विकिपीडियाच्या डेटा सायन्स पृष्ठाचा वापर करेन:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## चरण 1: डेटा मिळवणे\n",
"## Step 1: डेटा मिळवणे\n",
"\n",
"प्रत्येक डेटा सायन्स प्रक्रियेतील पहिलं पाऊल म्हणजे डेटा मिळवणे. यासाठी आपण `requests` लायब्ररीचा वापर करू:\n"
"डेटा सायन्स प्रक्रियेतील पहिला टप्पा म्हणजे डेटा मिळवणे. त्यासाठी आपण `requests` लायब्ररी वापरणार आहोत:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## चरण 2: डेटाचे रूपांतर करणे\n",
"## Step 2: डेटाचे रूपांतर करणे\n",
"\n",
"पुढील चरण म्हणजे डेटाला प्रक्रिया करण्यासाठी योग्य स्वरूपात रूपांतरित करणे. आपल्या बाबतीत, आपण पृष्ठावरील HTML स्रोत कोड डाउनलोड केला आहे आणि तो साध्या मजकुरात रूपांतरित करणे आवश्यक आहे.\n",
"पुढील टप्पा म्हणजे डेटाला प्रक्रिया करण्यायोग्य स्वरूपात रूपांतरित करणे. आमच्या बाबतीत, आम्ही पानावरून HTML स्रोत कोड डाउनलोड केला आहे, आणि तो साध्या मजकूरात रूपांतरित करणे आवश्यक आहे.\n",
"\n",
"हे करण्याचे अनेक मार्ग आहेत. आपण Python मधील अंगभूत [HTMLParser](https://docs.python.org/3/library/html.parser.html) ऑब्जेक्टचा सर्वात सोपा वापर करू. आपल्याला `HTMLParser` वर्गाचे सबक्लासिंग करावे लागेल आणि HTML टॅग्समधील सर्व मजकूर गोळा करणारा कोड परिभाषित करावा लागेल, `<script>` आणि `<style>` टॅग्स वगळून.\n"
"हे अनेक मार्गांनी केले जाऊ शकते. आम्ही [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) वापरणार आहोत, जी HTML पार्स करण्यासाठी एक लोकप्रिय Python लायब्ररी आहे. BeautifulSoup मुळे आम्हाला विशिष्ट HTML घटकांवर लक्ष केंद्रित करता येते, त्यामुळे आपण विकिपीडियाच्या मुख्य लेखाच्या सामग्रीवर लक्ष केंद्रित करू शकतो आणि काही नेव्हिगेशन मेनू, साइडबार, फुटर्स आणि इतर अनावश्यक सामग्री कमी करू शकतो (तरीही काही बोईलरप्लेट मजकूर राहू शकतो).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"सर्वप्रथम, HTML पार्सिंगसाठी BeautifulSoup लायब्ररी इन्स्टॉल करणे आवश्यक आहे:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## चरण ३: अंतर्दृष्टी मिळवणे\n",
"## टप्पा 3: अंतर्दृष्टी मिळवणे\n",
"\n",
"सर्वात महत्त्वाचे पाऊल म्हणजे आपला डेटा अशा स्वरूपात बदलणे ज्यातून आपण अंतर्दृष्टी मिळवू शकतो. आपल्या बाबतीत, आपल्याला मजकुरातून कीवर्ड्स काढायचे आहेत आणि कोणते कीवर्ड्स अधिक अर्थपूर्ण आहेत हे पाहायचे आहे.\n",
"सर्वात महत्त्वाचा टप्पा म्हणजे आपल्या डेटाला अशा स्वरूपात रूपांतरित करणे ज्यातून आपण अंतर्दृष्टी मिळवू शकू. आपल्या बाबतीत, आपण मजकूरातून कीवर्ड काढू इच्छित आहोत, आणि कोणते कीवर्ड अधिक अर्थपूर्ण आहेत ते पाहू इच्छितो.\n",
"\n",
"कीवर्ड्स काढण्यासाठी आपण [RAKE](https://github.com/aneesha/RAKE) नावाची Python लायब्ररी वापरणार आहोत. प्रथम, ही लायब्ररी नसल्यास ती इंस्टॉल करूया:\n"
"कीवर्ड काढण्यासाठी आपण Python लायब्ररी [RAKE](https://github.com/aneesha/RAKE) वापरणार आहोत. प्रथम, ही लायब्ररी अस्तित्वात नसेल तर ती इन्स्टॉल करूया:\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"मुख्य कार्यक्षमता `Rake` ऑब्जेक्टमधून उपलब्ध आहे, ज्याला आपण काही पॅरामीटर्स वापरून सानुकूलित करू शकतो. आपल्या बाबतीत, आपण कीवर्डची किमान लांबी 5 अक्षरे, दस्तऐवजामध्ये कीवर्डची किमान वारंवारता 3, आणि कीवर्डमधील जास्तीत जास्त शब्दांची संख्या 2 निश्चित करू. इतर मूल्यांसह प्रयोग करण्यास मोकळ्या मनाने आणि परिणाम पाहण्यास तयार रहा.\n"
"मुख्य कार्यक्षमता `Rake` ऑब्जेक्टमध्ये उपलब्ध आहे, ज्यास आपण काही पॅरामीटर्स वापरून सानुकूलित करू शकतो. आपल्या बाबतीत, आपण कीवर्डची किमान लांबी ५ अक्षरे, दस्तऐवजात कीवर्डची किमान वारंवारिता ३ आणि कीवर्डमधील शब्दांची जास्तीत जास्त संख्या २ सेट करू. इतर मूल्यांशी मोकळेपणाने खेळा आणि परिणाम पाहा.\n"
],
"metadata": {}
},
@ -211,11 +209,12 @@
{
"cell_type": "markdown",
"source": [
"आम्हाला महत्त्वाच्या अंशांसह संलग्न असलेल्या संज्ञांची यादी मिळाली. जसे तुम्ही पाहू शकता, यादीच्या शीर्षस्थानी मशीन लर्निंग आणि बिग डेटा यांसारख्या सर्वात संबंधित शाखा आहेत.\n",
"\n",
"## चरण ४: निकालाचे दृश्यरूपात सादरीकरण\n",
"आम्हाला संबंधित महत्त्वाच्या डिग्रीसह संज्ञांची यादी मिळाली. तुम्ही पाहू शकता की, मशीन लर्निंग आणि बिग डेटा सारख्या सर्वाधिक संबंधित शाखा यादीत वरच्या स्थानावर आहेत.\n",
"\n",
"लोक डेटा दृश्य स्वरूपात सर्वात चांगल्या प्रकारे समजून घेऊ शकतात. त्यामुळे डेटा दृश्यरूपात सादर करणे आणि काही अंतर्दृष्टी मिळवणे अनेकदा उपयुक्त ठरते. आपण Python मधील `matplotlib` लायब्ररीचा वापर करून कीवर्ड्सच्या महत्त्वासह साधी वितरण रचना तयार करू शकतो:\n"
"## टप्पा 4: परिणामाचे दृश्यमान करणे\n",
"\n",
"लोक डेटा सर्वोत्तम स्वरूपात समजू शकतात. म्हणूनच काही अंतर्दृष्टी काढण्यासाठी डेटाचे दृश्यमान रूप करता यावे, हे सहसा योग्य ठरते. आम्ही `matplotlib` लायब्ररी पायथनमध्ये वापरून कीवर्ड्सच्या त्यांच्या सुसंगततेसह साधी वितरण रेखाटू शकतो:\n"
],
"metadata": {}
},
@ -252,7 +251,7 @@
{
"cell_type": "markdown",
"source": [
"तथापि, शब्दांच्या वारंवारतेचे दृश्यीकरण करण्याचा आणखी चांगला मार्ग आहे - **शब्द मेघ** वापरणे. आपल्याला आपल्या कीवर्ड यादीतून शब्द मेघ तयार करण्यासाठी आणखी एक लायब्ररी स्थापित करावी लागेल.\n"
"तथापि, शब्द वारंवारता दाखवण्याचा आणखी एक उत्तम मार्ग आहे - **वर्ड क्लाउड** वापरणे. आपल्या कीवर्ड यादीतून वर्ड क्लाउड तयार करण्यासाठी आम्हाला आणखी एक लायब्ररी इन्स्टॉल करावी लागेल.\n"
],
"metadata": {}
},
@ -268,7 +267,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` ऑब्जेक्ट मूळ मजकूर किंवा पूर्व-गणना केलेल्या शब्दांची त्यांची वारंवारता असलेली यादी घेण्यासाठी जबाबदार आहे आणि प्रतिमा परत करते, जी नंतर `matplotlib` वापरून प्रदर्शित केली जाऊ शकते:\n"
"`WordCloud` ऑब्जेक्ट मूळ मजकूर किंवा आधीच गणना केलेल्या शब्दांच्या यादीसह त्यांच्या वारंवारतेसह घेण्यास जबाबदार असतो आणि एक प्रतिमा परत करतो, जी नंतर `matplotlib` वापरून दर्शवली जाऊ शकते:\n"
],
"metadata": {}
},
@ -312,7 +311,7 @@
{
"cell_type": "markdown",
"source": [
"आम्ही मूळ मजकूर `WordCloud` ला देखील पास करू शकतो - पाहूया आपण समान परिणाम मिळवू शकतो का:\n"
"आम्ही मूळ मजकूर `WordCloud` मध्ये देखील देऊ शकतो - पाहूया आपण सारखेच निकाल प्राप्त करू शकतो का:\n"
],
"metadata": {}
},
@ -372,11 +371,11 @@
{
"cell_type": "markdown",
"source": [
"आपण पाहू शकता की शब्द मेघ आता अधिक प्रभावी दिसतो, परंतु त्यात बरेच गोंधळ देखील आहे (उदा. `Retrieved on` सारखे असंबंधित शब्द). तसेच, आपल्याला दोन शब्दांपासून बनलेले कमी कीवर्ड मिळतात, जसे *डेटा सायंटिस्ट* किंवा *कंप्युटर सायन्स*. याचे कारण RAKE अल्गोरिदम मजकुरातून चांगले कीवर्ड निवडण्यात अधिक चांगले कार्य करते. हा उदाहरण डेटा पूर्व-प्रक्रिया आणि स्वच्छतेचे महत्त्व स्पष्ट करते, कारण शेवटी स्पष्ट चित्र आपल्याला चांगले निर्णय घेण्यास मदत करेल.\n",
"आपण पाहू शकता की शब्द क्लाउड आता अधिक प्रभावशाली दिसतो, परंतु त्यात बरेच आवाजही आहे (उदा. `Retrieved on` सारखे असंबंधित शब्द). याशिवाय, आपल्याला कमी कीवर्ड्स मिळतात जे दोन शब्दांचे असतात, जसे *data scientist*, किंवा *computer science*. याचे कारण म्हणजे RAKE अल्गोरिथम मजकूरातून चांगले कीवर्ड निवडण्यात खूपच चांगले काम करते. हे उदाहरण डेटा प्री-प्रोसेसिंग आणि क्लीनिंगच्या महत्त्वाचे दर्शन घडविते, कारण शेवटी स्पष्ट चित्र आपल्याला चांगले निर्णय घेण्यास अनुमती देते.\n",
"\n",
"या सरावामध्ये आपण Wikipedia मजकुरातून काही अर्थ काढण्याच्या सोप्या प्रक्रियेतून गेलो आहोत, कीवर्ड आणि शब्द मेघाच्या स्वरूपात. हा उदाहरण खूप सोपा आहे, परंतु तो डेटा सायंटिस्ट डेटा सोबत काम करताना घेतलेल्या सर्व सामान्य टप्प्यांचे चांगले प्रदर्शन करतो, डेटा मिळवण्यापासून ते व्हिज्युअलायझेशनपर्यंत.\n",
"या व्यायामात आपण विकिपीडिया मजकुरापासून काही अर्थ काढण्याच्या सोप्या प्रक्रियेतून गेलो आहोत, कीवर्ड आणि शब्द क्लाउडच्या रूपात. हे उदाहरण अगदी सोपे आहे, परंतु ते एक डेटा सायंटिस्ट डेटा सोबत काम करताना घेणाऱ्या सर्व टप्प्यांचे चांगले प्रदर्शन करते, जे डेटा मिळवण्यापासून सुरू होऊन व्हिज्युअलायझेशनपर्यंत आहे.\n",
"\n",
"आमच्या अभ्यासक्रमात आपण हे सर्व टप्पे सविस्तरपणे चर्चा करू.\n"
"आपल्या कोर्समध्ये आपण त्या सर्व टप्प्यांवर सविस्तर चर्चा करू.\n"
],
"metadata": {}
},
@ -394,7 +393,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**अस्वीकरण**: \nहा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) चा वापर करून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात घ्या की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील मूळ दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी, व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर केल्यामुळे उद्भवलेल्या कोणत्याही गैरसमजांकरिता किंवा चुकीच्या अर्थ लावण्याकरिता आम्ही जबाबदार राहणार नाही.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**अस्वीकरण**:\nहा दस्तऐवज AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) वापरून अनुवादित केला आहे. आम्ही अचूकतेसाठी प्रयत्न करतो, तरी कृपया लक्षात ठेवा की स्वयंचलित अनुवादात चुका किंवा अपूर्णता असू शकते. मूळ दस्तऐवज त्याच्या स्थानिक भाषेत अधिकृत स्त्रोत मानावा. महत्त्वपूर्ण माहितीसाठी व्यावसायिक मानवी अनुवाद शिफारसीय आहे. या अनुवादाचा वापर केल्यामुळे उद्भवणाऱ्या कोणत्याही गैरसमजुतीसाठी आम्ही जबाबदार नाही.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"> *या नोटबुकमध्ये, आपण मशीन लर्निंगवरील विकिपीडिया लेखाचा वापर करून विविध URL वापरण्याचा प्रयोग करतो. आपण पाहू शकतो की, डेटा सायन्सच्या तुलनेत, या लेखामध्ये अनेक संज्ञा आहेत, ज्यामुळे विश्लेषण अधिक कठीण होते. कीवर्ड एक्स्ट्रॅक्शन केल्यानंतर डेटा साफ करण्याचा दुसरा मार्ग शोधणे आवश्यक आहे, जेणेकरून काही वारंवार, पण अर्थहीन शब्दसमूह काढून टाकता येतील.*\n",
"> *या नोटबुकमध्ये, आपण वेगवेगळ्या URL वापरून प्रयोग करतो - मशीन लर्निंगवरील विकिपीडिया लेख. तुम्हाला दिसेल की, डेटा सायन्सच्या विपरीत, या लेखात खूपशी संज्ञा आहेत, ज्यामुळे विश्लेषण अधिक गुंतागुंतीचे होते. कीवर्ड एक्स्ट्रॅक्शन केल्यानंतर, काही वारंवार परंतु अर्थपूर्ण नसलेल्या शब्दसंपूर्णाकडून मुक्त होण्यासाठी डेटा साफ करण्याचा दुसरा मार्ग आम्हाला शोधावा लागेल.*\n",
"\n",
"या उदाहरणात, पारंपरिक डेटा सायन्स प्रक्रियेच्या सर्व टप्प्यांचा समावेश असलेला एक साधा व्यायाम करूया. तुम्हाला कोणताही कोड लिहिण्याची गरज नाही, तुम्ही खालील सेल्सवर क्लिक करून त्यांना चालवू शकता आणि परिणाम पाहू शकता. आव्हान म्हणून, तुम्हाला वेगळ्या डेटासह हा कोड वापरून पाहण्याचे प्रोत्साहन दिले जाते.\n",
"या उदाहरणात, चल तर पारंपारिक डेटा सायन्स प्रक्रियेतील सर्व टप्पे व्यापून घेतलेले एक सोपा व्यायाम करूया. तुम्हाला कोणतीही कोड लिहायची गरज नाही, तुम्ही खालील सेल वर क्लिक करून ते चालवू शकता आणि निकाल पाहू शकता. आव्हान म्हणून, तुम्ही वेगळ्या डेटासह हा कोड वापरून पाहण्याचा प्रयत्न करू शकता.\n",
"\n",
"## उद्दिष्ट\n",
"\n",
"या धड्यात, आपण डेटा सायन्सशी संबंधित विविध संकल्पनांवर चर्चा केली आहे. **टेक्स्ट मायनिंग** करून अधिक संबंधित संकल्पना शोधण्याचा प्रयत्न करूया. आपण डेटा सायन्सबद्दल मजकूर घेऊन सुरुवात करू, त्यातून कीवर्ड्स काढू आणि नंतर परिणामाचे व्हिज्युअलायझेशन करण्याचा प्रयत्न करू.\n",
"या धड्यात, आपण डेटा सायन्सशी संबंधित विविध संकल्पनांवर चर्चा केली आहे. चला काही **टेक्स्ट माइनिंग** करून अधिक संबंधित संकल्पना शोधण्याचा प्रयत्न करूया. आपण डेटा सायन्सवरील विकिपीडिया पृष्ठ वापरून सुरुवात करू, त्यातून कीवर्ड काढू, आणि नंतर निकालाचे दृश्यात्मक सादरीकरण करू.\n",
"\n",
"मजकूर म्हणून, मी विकिपीडियावरील डेटा सायन्स पृष्ठाचा वापर करणार आहे:\n"
"मजकूर म्हणून, मी विकिपीडिया मधून डेटा सायन्सवरील पृष्ठ वापरेल:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## चरण 1: डेटा मिळवणे\n",
"## Step 1: डेटा मिळवणे\n",
"\n",
"प्रत्येक डेटा सायन्स प्रक्रियेतील पहिलं पाऊल म्हणजे डेटा मिळवणे. यासाठी आपण `requests` लायब्ररीचा वापर करू:\n"
"प्रत्येक डेटा सायन्स प्रक्रियेतील पहिला टप्पा म्हणजे डेटा मिळवणे. आपण यासाठी `requests` लायब्ररी वापरणार आहोत:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## चरण 2: डेटाचे रूपांतर करणे\n",
"## Step 2: डेटा रूपांतरित करणे\n",
"\n",
"पुढील चरण म्हणजे डेटाला प्रक्रिया करण्यासाठी योग्य स्वरूपात रूपांतरित करणे. आपल्या बाबतीत, आपण पृष्ठावरून HTML स्रोत कोड डाउनलोड केला आहे आणि आता तो साध्या मजकुरात रूपांतरित करणे आवश्यक आहे.\n",
"पुढील टप्पा म्हणजे डेटा प्रक्रिया करण्यासाठी योग्य स्वरूपात रूपांतरित करणे. आमच्या प्रकरणात, आम्ही पानावरून HTML स्रोत कोड डाउनलोड केला आहे आणि तो प्लेन टेक्स्टमध्ये रूपांतरित करणे आवश्यक आहे.\n",
"\n",
"हे करण्याचे अनेक मार्ग आहेत. आपण Python मधील सर्वात सोपा अंगभूत [HTMLParser](https://docs.python.org/3/library/html.parser.html) ऑब्जेक्ट वापरणार आहोत. यासाठी आपल्याला `HTMLParser` वर्गाचे सबक्लासिंग करावे लागेल आणि HTML टॅग्समधील सर्व मजकूर गोळा करणारा कोड परिभाषित करावा लागेल, परंतु `<script>` आणि `<style>` टॅग्स वगळून.\n"
"हे करण्याच्या अनेक मार्ग आहेत. आपण [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), ही एक लोकप्रिय Python लायब्ररी जी HTML पार्स करण्यासाठी वापरली जाते, वापरणार आहोत. BeautifulSoup आपल्याला विशिष्ट HTML घटकांवर लक्ष केंद्रीत करण्याची अनुमती देते, त्यामुळे आपण Wikipedia मधील मुख्य लेख सामग्रीवर लक्ष केंद्रित करू शकतो आणि काही नेव्हिगेशन मेनू, साइडबार, फूटर्स, आणि इतर अप्रासंगिक सामग्री कमी करू शकतो (जरी काही बूटस्ट्रॅप टेक्स्ट अद्याप राहील).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"सर्वप्रथम, आपल्याला HTML पार्सिंगसाठी BeautifulSoup लायब्ररी इंस्टॉल करावी लागेल:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## चरण ३: माहिती मिळवणे\n",
"## टप्पा 3: अंतर्दृष्टी मिळविणे\n",
"\n",
"आपल्या डेटामधून उपयुक्त माहिती काढणे हा सर्वात महत्त्वाचा टप्पा आहे. आपल्या बाबतीत, आपल्याला मजकुरातून कीवर्ड्स काढायचे आहेत आणि कोणते कीवर्ड्स अधिक महत्त्वाचे आहेत हे पाहायचे आहे.\n",
"सर्वात महत्त्वाचा टप्पा म्हणजे आपला डेटा अशा स्वरुपात रुपांतर करणे ज्यातून आपण अंतर्दृष्टी काढू शकू. आपल्या बाबतीत, आपल्याला मजकूरातून किवर्ड काढायचे आहेत आणि कोणते कीवर्ड अधिक अर्थपूर्ण आहेत ते पाहायचे आहे.\n",
"\n",
"कीवर्ड्स काढण्यासाठी आपण [RAKE](https://github.com/aneesha/RAKE) नावाची Python लायब्ररी वापरणार आहोत. प्रथम, ही लायब्ररी नसल्यास ती इन्स्टॉल करूया:\n"
"आपण कीवर्ड काढण्यासाठी Python लायब्ररी [RAKE](https://github.com/aneesha/RAKE) वापरणार आहोत. प्रथम, जर ही लायब्ररी उपलब्ध नसेल तर ती इन्स्टॉल करूया:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"मुख्य कार्यक्षमता `Rake` ऑब्जेक्टमधून उपलब्ध आहे, ज्याला काही पॅरामीटर्स वापरून सानुकूलित करता येते. आमच्या बाबतीत, आम्ही कीवर्डची किमान लांबी 5 अक्षरे, दस्तऐवजात कीवर्डची किमान वारंवारता 3 आणि कीवर्डमधील शब्दांची कमाल संख्या - 2 सेट करू. इतर मूल्यांसह प्रयोग करण्यास आणि परिणाम पाहण्यास मोकळ्या मनाने प्रयत्न करा.\n"
"मुख्य कार्यक्षमता `Rake` ऑब्जेक्टमधून उपलब्ध आहे, ज्याला आपण काही पॅरामीटर्स वापरून सानुकूलित करू शकतो. आमच्या प्रकरणात, आपण कीवर्डची किमान लांबी ५ अक्षरे, कागदपत्रातील कीवर्डची किमान वारंवारिता ३, आणि कीवर्डमधील शब्दांची कमाल संख्या २ सेट करू. इतर मूल्यांसह खेळण्यास मोकळ्या मनाने प्रयत्न करा आणि परिणाम पहा.\n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"आम्हाला महत्त्वाच्या अंशांसह संलग्न असलेल्या संज्ञांची यादी मिळाली. जसे तुम्ही पाहू शकता, यादीच्या शीर्षस्थानी मशीन लर्निंग आणि बिग डेटा यांसारख्या सर्वात संबंधित शाखा आहेत.\n",
"\n",
"## चरण ४: निकालाचे दृश्यरूपात सादरीकरण\n",
"आम्हाला संबंधित महत्त्वाच्या डिग्रीसह संज्ञांची यादी मिळाली आहे. आपण पाहू शकता की, मशीन लर्निंग आणि बिग डेटा सारख्या सर्वात संबंधित क्षेत्रे यादीतील वरच्या स्थानांवर आहेत.\n",
"\n",
"लोक डेटा दृश्य स्वरूपात सर्वात चांगल्या प्रकारे समजून घेऊ शकतात. त्यामुळे डेटा दृश्यरूपात सादर करणे आणि काही अंतर्दृष्टी मिळवणे अनेकदा उपयुक्त ठरते. आपण Python मधील `matplotlib` लायब्ररीचा वापर करून कीवर्ड्सच्या महत्त्वासह साधी वितरण रचना तयार करू शकतो:\n"
"## चरण ४: निकालाचे दृश्यांकन\n",
"\n",
"लोक डेटा सर्वोत्तम रीतीने दृश्य स्वरूपात समजू शकतात. त्यामुळे काही अंतर्दृष्टी काढण्यासाठी डेटा दृश्य स्वरूपात सादर करणे यथार्थ असते. आपण Python मध्ये `matplotlib` लायब्ररीचा वापर करून कीवर्डच्या संबंधिततेसह साधी वितरण रेखाटू शकतो:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"तथापि, शब्दांच्या वारंवारतेचे दृश्यीकरण करण्याचा आणखी चांगला मार्ग आहे - **शब्द मेघ** वापरणे. आपल्या कीवर्ड यादीतून शब्द मेघ तयार करण्यासाठी आपल्याला आणखी एक लायब्ररी स्थापित करावी लागेल.\n"
"तथापि, शब्दांची वारंवारता पाहण्याचा आणखी चांगला मार्ग आहे - **Word Cloud** वापरून. आपल्याला आपल्या कीवर्ड यादीतून वर्ड क्लाउड तयार करण्यासाठी आणखी एक लायब्ररी इंस्टॉल करावी लागेल.\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` ऑब्जेक्ट मूळ मजकूर किंवा पूर्व-गणना केलेल्या शब्दांची त्याच्या वारंवारतेसह यादी घेण्यासाठी जबाबदार आहे आणि प्रतिमा परत करते, जी नंतर `matplotlib` वापरून प्रदर्शित केली जाऊ शकते:\n"
"`WordCloud` ऑब्जेक्ट मूळ मजकूर किंवा शब्दांची पूर्वगणना केलेली यादी ज्यात त्यांच्या वारंवारता असतात, यापैकी काही एक घेण्याचे कार्य करते आणि एक प्रतिमा परत करते, जी नंतर `matplotlib` वापरून प्रदर्शित केली जाऊ शकते:\n"
],
"metadata": {}
},
@ -441,7 +440,7 @@
{
"cell_type": "markdown",
"source": [
"आम्ही मूळ मजकूर `WordCloud` ला देखील पास करू शकतो - पाहूया आपण समान परिणाम मिळवू शकतो का:\n"
"आपण मूळ मजकूर `WordCloud` मध्ये देखील पास करू शकतो - पाहूया आपण समान निकाल मिळवू शकतो का:\n"
],
"metadata": {}
},
@ -490,11 +489,11 @@
{
"cell_type": "markdown",
"source": [
"आपण पाहू शकता की शब्द मेघ आता अधिक प्रभावी दिसतो, परंतु त्यात बरेच अनावश्यक शब्द (उदा. `Retrieved on` सारखे असंबंधित शब्द) देखील आहेत. तसेच, आपल्याला दोन शब्दांपासून बनलेले कमी कीवर्ड मिळतात, जसे की *data scientist* किंवा *computer science*. याचे कारण म्हणजे RAKE अल्गोरिदम मजकुरातून चांगले कीवर्ड निवडण्यात अधिक चांगले कार्य करते. हा उदाहरण डेटा पूर्व-प्रक्रिया आणि स्वच्छतेचे महत्त्व स्पष्ट करते, कारण शेवटी स्पष्ट चित्र आपल्याला चांगले निर्णय घेण्यास मदत करेल.\n",
"आपण पाहू शकता की शब्दांचे ढग आता अधिक प्रभावी दिसत आहे, परंतु त्यात खूप गोंधळ देखील आहे (उदा. `Retrieved on` सारखे संबंधित नसलेले शब्द). तसेच, आपल्याला दोन शब्दांपासून बनलेले कमी कीवर्ड मिळतात, जसे की *data scientist*, किंवा *computer science*. हे कारण RAKE अल्गोरिदम मजकूरातून चांगले कीवर्ड निवडण्यात बरेच चांगले काम करते. हे उदाहरण डेटा पूर्वप्रक्रिया आणि स्वच्छतेचे महत्त्व दर्शवते, कारण शेवटी स्पष्ट चित्र आपल्याला चांगले निर्णय घेण्यास अनुमती देईल.\n",
"\n",
"या व्यायामात आपण Wikipedia मजकुरातून काही अर्थ काढण्याची एक साधी प्रक्रिया पाहिली, कीवर्ड आणि शब्द मेघाच्या स्वरूपात. हे उदाहरण खूप सोपे आहे, परंतु डेटा सायंटिस्ट डेटा सोबत काम करताना घेतलेल्या सर्व सामान्य टप्प्यांचे चांगले प्रदर्शन करते, डेटा मिळवण्यापासून ते व्हिज्युअलायझेशनपर्यंत.\n",
"या सरावामध्ये आपण विकिपीडिया मजकूरावरून कीवर्ड आणि शब्द ढग या स्वरूपात काही अर्थ काढण्याची सोपी प्रक्रिया केली आहे. हे उदाहरण खूप सोपे आहे, परंतु हे डेटा सायंटिस्ट जेव्हा डेटासह काम करतो तेव्हा घेण्यात येणाऱ्या सर्व प्रकारच्या टप्प्यांचे चांगले प्रदर्शन करते, जे डेटा प्राप्त करण्यापासून सुरू करून व्हिज्युअलायजेशनपर्यंत आहे.\n",
"\n",
"आमच्या कोर्समध्ये आपण या सर्व टप्प्यांवर सविस्तर चर्चा करू.\n"
"आमच्या अभ्यासक्रमामध्ये आपण त्या सर्व टप्प्यांवर सविस्तर चर्चा करू.\n"
],
"metadata": {}
},
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**अस्वीकरण**: \nहा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) चा वापर करून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात घ्या की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील मूळ दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी, व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर केल्यामुळे उद्भवणाऱ्या कोणत्याही गैरसमजांकरिता किंवा चुकीच्या अर्थ लावण्याकरिता आम्ही जबाबदार राहणार नाही.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**जबाबदारीची सूचना**:\nहा दस्तऐवज AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) वापरून अनुवादित केला आहे. आम्ही अचूकतेसाठी प्रयत्न करतो, तरी कृपया लक्षात घ्या की स्वयंचलित अनुवादांमध्ये चुका किंवा अचूकतेतील त्रुटी असू शकतात. मूळ दस्तऐवज त्याच्या स्थानिक भाषेत अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी अनुवादाची शिफारस केली जाते. या अनुवादाच्या वापरामुळे उद्भवलेल्या कोणत्याही गैरसमजुतीसाठी किंवा चुकीच्या अर्थलिंगासाठी आम्ही जबाबदार नाही.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
सांख्यिकी आणि संभाव्यता सिद्धांत हे गणिताचे दोन परस्पर संबंधित क्षेत्र आहेत जे डेटा सायन्ससाठी अत्यंत महत्त्वाचे आहेत. गणिताचा सखोल अभ्यास न करता डेटा हाताळणे शक्य आहे, परंतु किमान काही मूलभूत संकल्पना जाणून घेणे चांगले आहे. येथे आम्ही एक छोटा परिचय सादर करू जो तुम्हाला सुरुवात करण्यात मदत करेल.
आपण फक्त एखाद्या व्हेरिएबलने दिलेल्या मूल्यांच्या अंतरालात पडण्याच्या संभाव्यतेबद्दल बोलू शकतो, उदा. P(t<sub>1</sub>≤X<t<sub>2</sub>). या प्रकरणात, संभाव्यता वितरण **संभाव्यता घनता फंक्शन** p(x) द्वारे वर्णन केले जाते, ज्यामुळे
सातत्यपूर्ण समान वितरणाचा सातत्यपूर्ण समकक्ष **सातत्यपूर्ण समान वितरण** म्हणून ओळखला जातो, जो एका मर्यादित अंतरालावर परिभाषित केला जातो. X मूल्य लांबी l च्या अंतरालात पडण्याची संभाव्यता l च्या प्रमाणात असते आणि ती 1 पर्यंत वाढते.
@ -73,11 +73,11 @@
आमच्या डेटासाठी सरासरी, माध्य आणि चतुर्थांश दर्शवणारा बॉक्स प्लॉट येथे आहे:
आमच्या डेटामध्ये वेगवेगळ्या खेळाडूंच्या **भूमिका** आहेत, त्यामुळे आम्ही भूमिकेनुसार बॉक्स प्लॉट देखील करू शकतो - यामुळे आम्हाला समजेल की मापदंड मूल्ये भूमिकांमध्ये कशी वेगवेगळी आहेत. यावेळी आपण उंची विचारात घेऊ:


ही आकृती सूचित करते की, सरासरी, पहिल्या बेसमनची उंची दुसऱ्या बेसमनच्या उंचीपेक्षा जास्त आहे. या धड्याच्या पुढील भागात आपण अधिक औपचारिकपणे ही गृहीतके कशी तपासू शकतो आणि आपला डेटा सांख्यिकीयदृष्ट्या महत्त्वाचा असल्याचे कसे सिद्ध करू शकतो हे शिकू.
@ -85,7 +85,7 @@
आमच्या डेटाचे वितरण काय आहे हे पाहण्यासाठी, आपण **हिस्टोग्राम** नावाचा ग्राफ तयार करू शकतो. X-अक्षामध्ये विविध वजनाच्या अंतरालांची संख्या (ज्याला **बिन्स** म्हणतात) असेल, आणि उभ्या अक्षामध्ये दिलेल्या अंतरालात आमचा रँडम व्हेरिएबल नमुना किती वेळा होता हे दर्शवले जाईल.


या हिस्टोग्राममधून तुम्ही पाहू शकता की सर्व मूल्ये विशिष्ट सरासरी वजनाभोवती केंद्रित आहेत, आणि जसे आपण त्या वजनापासून दूर जातो - त्या मूल्याचे वजन असलेले नमुने कमी आढळतात. म्हणजेच, बेसबॉल खेळाडूचे वजन सरासरी वजनापासून खूप वेगळे असणे अत्यंत अशक्य आहे. वजनाचे विचलन दर्शवते की वजन सरासरीपासून किती प्रमाणात वेगळे असण्याची शक्यता आहे.
जर आपण तयार केलेल्या नमुन्यांचा हिस्टोग्राम तयार केला तर आपल्याला वर दर्शवलेल्या चित्रासारखे चित्र दिसेल. आणि जर आपण नमुन्यांची संख्या आणि बिन्सची संख्या वाढवली, तर आपण आदर्श सामान्य वितरणाच्या अधिक जवळ असलेले चित्र तयार करू शकतो:


*सरासरी=0 आणि मानक विचलन=1 असलेले सामान्य वितरण*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
आमच्या बाबतीत, मूल्य 0.53 सूचित करते की व्यक्तीच्या वजन आणि उंचीमध्ये काही सहसंबंध आहे. आम्ही एक मूल्य दुसऱ्याच्या विरुद्ध स्कॅटर प्लॉट देखील तयार करू शकतो जेणेकरून संबंध दृश्यरित्या पाहता येईल:


> सहसंबंध आणि परस्पर संबंधाचे अधिक उदाहरणे [संबंधित नोटबुक](notebook.ipynb) मध्ये सापडू शकतात.
> फोटो <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">स्टीफन डॉसन</a> यांनी Unsplash वर <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">प्रकाशित केला</a>.
या धड्यांमध्ये, तुम्हाला डेटा सायन्स कसे परिभाषित केले जाते हे समजेल आणि डेटा सायंटिस्टने विचारात घ्याव्या लागणाऱ्या नैतिक बाबींबद्दल शिकायला मिळेल. तुम्हाला डेटा कसा परिभाषित केला जातो हे समजेल आणि डेटा सायन्सच्या मुख्य शैक्षणिक शाखा असलेल्या सांख्यिकी आणि संभाव्यता याबद्दल थोडेसे शिकायला मिळेल.
डेटाबेस डेटा साठवण्यासाठी आणि क्वेरी भाषांचा वापर करून त्यावर क्वेरी करण्यासाठी अत्यंत कार्यक्षम पद्धती प्रदान करतात, परंतु डेटा प्रक्रिया करण्याचा सर्वात लवचिक मार्ग म्हणजे स्वतःचा प्रोग्राम लिहून डेटा हाताळणे. अनेक वेळा, डेटाबेस क्वेरी करणे अधिक प्रभावी ठरते. परंतु काही वेळा जेव्हा अधिक जटिल डेटा प्रक्रिया आवश्यक असते, तेव्हा ती SQL वापरून सहजपणे करता येत नाही.
डेटा प्रक्रिया कोणत्याही प्रोग्रामिंग भाषेत प्रोग्राम केली जाऊ शकते, परंतु काही भाषा डेटा सोबत काम करण्याच्या दृष्टीने उच्च स्तरावर असतात. डेटा वैज्ञानिक सामान्यतः खालील भाषांपैकी एक निवडतात:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")


आता समजा प्रत्येक आठवड्यात आम्ही मित्रांसाठी पार्टी आयोजित करतो आणि पार्टीसाठी अतिरिक्त 10 ice-cream पॅक्स घेतो. आम्ही हे दाखवण्यासाठी आठवड्याने index केलेली आणखी एक series तयार करू शकतो:


> **Note** की आम्ही साधी syntax `total_items+additional_items` वापरत नाही. जर आम्ही तसे केले असते, तर आम्हाला resulting series मध्ये अनेक `NaN` (*Not a Number*) मूल्ये मिळाली असती. कारण `additional_items` series मध्ये काही index point साठी missing values आहेत, आणि `NaN` कशाशीही जोडल्यास `NaN` मिळते. त्यामुळे addition दरम्यान `fill_value` parameter specify करणे आवश्यक आहे.
@ -84,7 +84,7 @@ Time series सोबत, आपण वेगवेगळ्या time interval
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```


### DataFrame
@ -210,7 +210,7 @@ df = pd.read_csv('file.csv')
आम्ही डेटा कसा हाताळायचा हे दाखवायचे असल्याने, आम्ही तुम्हाला [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) उघडून वरपासून खालपर्यंत वाचण्याचे आमंत्रण देतो. तुम्ही सेल्स चालवू शकता आणि शेवटी आम्ही तुमच्यासाठी ठेवलेल्या काही आव्हाने पूर्ण करू शकता.
> जर तुम्हाला Jupyter Notebook मध्ये कोड कसा चालवायचा माहित नसेल, तर [या लेखाचा](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) अभ्यास करा.
@ -232,7 +232,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb) उघडा आणि वरपासून खालपर्यंत वाचा. तुम्ही सेल्स चालवू शकता आणि शेवटी आम्ही तुमच्यासाठी ठेवलेल्या काही आव्हाने पूर्ण करू शकता.


> फोटो <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">अलेक्झांडर सिन</a> यांनी Unsplash वर <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> वर दिला आहे
या धड्यांमध्ये, तुम्ही डेटा व्यवस्थापित करणे, बदलणे आणि अनुप्रयोगांमध्ये वापरण्याचे काही मार्ग शिकाल. तुम्ही रिलेशनल आणि नॉन-रिलेशनल डेटाबेसबद्दल शिकाल आणि त्यामध्ये डेटा कसा संग्रहित केला जाऊ शकतो हे समजून घ्याल. तुम्ही डेटा व्यवस्थापित करण्यासाठी Python सोबत काम करण्याचे मूलभूत तत्त्व शिकाल आणि Python चा वापर करून डेटा व्यवस्थापित आणि शोधण्यासाठी असलेल्या अनेक पद्धती शोधाल.
या रंगसंगती बदलासह, तुम्हाला स्पष्टपणे दिसते की मधाच्या प्रति पाउंड किंमतीत वर्षानुवर्षे मजबूत प्रगती आहे. खरंच, जर तुम्ही डेटामधील नमुना सेट तपासला (उदाहरणार्थ, एरिझोना राज्य निवडा) तर तुम्हाला किंमतीत वर्षानुवर्षे वाढ होण्याचा नमुना दिसतो, काही अपवाद वगळता:
हे साध्या पुरवठा आणि मागणीचे प्रकरण आहे का? हवामान बदल आणि वसाहतींचा नाश यासारख्या घटकांमुळे, वर्षानुवर्षे खरेदीसाठी कमी मध उपलब्ध आहे का, आणि त्यामुळे किंमती वाढत आहेत?
✅ कारण Seaborn डेटा एका रेषेभोवती एकत्रित करत आहे, तो "प्रत्येक x मूल्यावर एकाधिक मोजमापांचे सरासरी आणि सरासरीभोवती 95% विश्वास अंतर प्लॉट करून" दाखवतो. [Source](https://seaborn.pydata.org/tutorial/relational.html). ही वेळखाऊ प्रक्रिया `ci=None` जोडून अक्षम केली जाऊ शकते.
या डेटासेटसाठी, राज्यानुसार आणि वर्षानुसार वसाहतींची संख्या आणि त्यांचे उत्पादन याबाबत काहीही विशेषतः वेगळे दिसत नाही. या दोन व्हेरिएबल्समधील नातेसंबंध शोधण्यासाठी वेगळ्या प्रकारे पाहण्याचा प्रयत्न करता येईल का?
2003 च्या सुमारास डोळ्यांना काहीही वेगळे दिसत नाही, परंतु हे आपल्याला थोड्या आनंददायक नोटवर धडा संपवण्याची परवानगी देते: जरी वसाहतींची संख्या एकूण कमी होत असली तरी, वसाहतींची संख्या स्थिर होत आहे जरी त्यांचे प्रति वसाहती उत्पादन कमी होत आहे.
येथे, तुम्ही `ggplot2` पॅकेज इन्स्टॉल करता आणि नंतर `library("ggplot2")` कमांड वापरून ते वर्कस्पेसमध्ये आयात करता. ggplot मध्ये कोणताही प्लॉट तयार करण्यासाठी `ggplot()` फंक्शन वापरले जाते आणि तुम्ही डेटासेट, x आणि y व्हेरिएबल्स अॅट्रिब्युट्स म्हणून निर्दिष्ट करता. या प्रकरणात, आम्ही लाइन प्लॉट तयार करण्यासाठी `geom_line()` फंक्शन वापरतो.
तुम्हाला लगेच काय दिसते? किमान एक आउटलाईअर आहे - हा पंखांचा विस्तार खूपच मोठा आहे! 2000+ सेंटीमीटर पंखांचा विस्तार म्हणजे 20 मीटरपेक्षा जास्त - मिनेसोटामध्ये पॅटरोडॅक्टाइल्स आहेत का? चला तपास करूया.
लेबल्स 45 अंशांवर फिरवूनही वाचण्यासाठी खूप जास्त आहेत. वेगळी रणनीती वापरूया: फक्त आउटलाईअर्सना लेबल करा आणि लेबल्स चार्टमध्ये सेट करा. अधिक जागा मिळवण्यासाठी तुम्ही स्कॅटर चार्ट वापरू शकता:
आम्ही नवीन डेटाफ्रेम `birds_filtered` तयार केला आणि नंतर स्कॅटर प्लॉट तयार केला. आउटलाईअर्स फिल्टर करून, तुमचा डेटा आता अधिक सुसंगत आणि समजण्यास सोपा आहे.
खालील कोडमध्ये, आम्ही [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) आणि [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) पॅकेजेस इन्स्टॉल करतो जे डेटा हाताळण्यासाठी आणि गटबद्ध करण्यासाठी मदत करतात, जेणेकरून स्टॅक्ड बार चार्ट प्लॉट करता येईल. प्रथम, तुम्ही पक्ष्यांच्या `Category` नुसार डेटा गटबद्ध करता आणि नंतर `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` स्तंभांचे सारांश तयार करता. नंतर, `ggplot2` पॅकेज वापरून बार चार्ट प्लॉट करा आणि विविध श्रेणींसाठी रंग आणि लेबल्स निर्दिष्ट करा.


हा बार चार्ट, तथापि, वाचण्यायोग्य नाही कारण खूप जास्त न गटबद्ध डेटा आहे. तुम्हाला फक्त प्लॉट करायचा डेटा निवडण्याची गरज आहे, म्हणून पक्ष्यांच्या श्रेणीवर आधारित लांबी पाहूया.
तुम्ही `Category` स्तंभातील अद्वितीय मूल्ये मोजता आणि त्यांना नवीन डेटाफ्रेम `birds_count` मध्ये क्रमवारी लावता. ही क्रमवारी लावलेली डेटा नंतर त्याच स्तरावर फॅक्टर केली जाते जेणेकरून ती क्रमवारीत प्लॉट केली जाईल. नंतर, `ggplot2` वापरून तुम्ही डेटा बार चार्टमध्ये प्लॉट करता. `coord_flip()` क्षैतिज बार्स प्लॉट करते.
हा बार चार्ट प्रत्येक श्रेणीतील पक्ष्यांची संख्या चांगल्या प्रकारे दाखवतो. एका झटक्यात, तुम्हाला दिसते की या प्रदेशातील सर्वाधिक पक्षी बदके/हंस/पाणपक्षी या श्रेणीत आहेत. मिनेसोटा '10,000 तलावांचे प्रदेश' असल्याने हे आश्चर्यकारक नाही!
येथे काहीही आश्चर्यकारक नाही: हुमिंगबर्ड्सचे `MaxLength` पेलिकन्स किंवा गीसेच्या तुलनेत सर्वात कमी आहे. जेव्हा डेटा तार्किक अर्थ लावतो तेव्हा ते चांगले असते!


हे प्रत्येक पक्ष्याच्या ऑर्डरनुसार शरीराच्या लांबीचे सामान्य वितरण दर्शवते, परंतु खऱ्या वितरणाचे प्रदर्शन करण्यासाठी हा सर्वोत्तम मार्ग नाही. ही जबाबदारी सहसा हिस्टोग्राम तयार करून हाताळली जाते.
जसे तुम्ही पाहू शकता, या डेटासेटमधील 400+ पक्ष्यांपैकी बहुतेक पक्षी त्यांच्या जास्तीत जास्त शरीर वजनासाठी 2000 च्या श्रेणीत येतात. `bins` पॅरामीटरचा आकडा जास्त, जसे की 30, करून डेटाबद्दल अधिक अंतर्दृष्टी मिळवा:


✅ इतर फिल्टर्स आणि डेटा पॉइंट्स वापरून पहा. डेटाचे पूर्ण वितरण पाहण्यासाठी, `['MaxBodyMass']` फिल्टर काढून टाका आणि लेबल केलेले वितरण दर्शवा.


किमान पंखांचा विस्तार आणि संवर्धन स्थिती यामध्ये चांगला संबंध दिसत नाही. या पद्धतीचा वापर करून डेटासेटमधील इतर घटकांची चाचणी घ्या. तुम्ही वेगवेगळे फिल्टर्स देखील वापरू शकता. तुम्हाला काही संबंध सापडतो का?
तुम्ही पाहू शकता की हा प्लॉट किमान पंखांचा विस्तार डेटा दर्शवणाऱ्या मागील प्लॉटसारखाच आहे; तो फक्त थोडा गुळगुळीत आहे. जर तुम्हाला दुसऱ्या चार्टमधील जास्तीत जास्त शरीर वजनाच्या खडबडीत रेषेला गुळगुळीत करायचे असेल, तर तुम्ही ही पद्धत वापरून ती खूप चांगल्या प्रकारे गुळगुळीत करू शकता:


✅ या प्रकारच्या प्लॉटसाठी उपलब्ध पॅरामीटर्सबद्दल वाचा आणि प्रयोग करा!
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```


पाई चार्ट तयार झाला आहे, जो या दोन मशरूम्स वर्गांनुसार डेटाचे प्रमाण दर्शवतो. लेबल्सचा क्रम योग्य असणे खूप महत्त्वाचे आहे, विशेषतः येथे, त्यामुळे लेबल अॅरे तयार करताना क्रम सत्यापित करा!
या धड्यात, तुम्ही प्रमाणांचे दृश्यांकन करण्याचे तीन मार्ग शिकले. प्रथम, तुम्हाला तुमचा डेटा श्रेणींमध्ये गटबद्ध करावा लागतो आणि नंतर डेटा प्रदर्शित करण्याचा सर्वोत्तम मार्ग ठरवावा लागतो - पाई, डोनट, किंवा वाफल. सर्व प्रकार स्वादिष्ट आहेत आणि वापरकर्त्याला डेटासेटचा त्वरित स्नॅपशॉट देतात.
या रंगसंगती बदलासह, तुम्ही पाहू शकता की मधाच्या प्रति पाउंड किंमतीत वर्षानुवर्षे स्पष्टपणे प्रगती होत आहे. खरंच, जर तुम्ही डेटामधील नमुना सेट तपासला (उदाहरणार्थ, एरिझोना राज्य निवडा) तर तुम्ही वर्षानुवर्षे किंमती वाढण्याचा नमुना पाहू शकता, काही अपवादांसह:
हे साधे पुरवठा आणि मागणीचे प्रकरण आहे का? हवामान बदल आणि वसाहतींचा नाश यासारख्या घटकांमुळे, वर्षानुवर्षे खरेदीसाठी कमी मध उपलब्ध आहे का, आणि त्यामुळे किंमत वाढत आहे का?
उत्तर: तसे नाही. जर तुम्ही एकूण उत्पादन पाहिले तर, त्या विशिष्ट वर्षात ते प्रत्यक्षात वाढलेले दिसते, जरी सामान्यतः मधाचे उत्पादन या वर्षांमध्ये घटत आहे.
या डेटासेटसाठी, वसाहतींची संख्या आणि त्यांचे उत्पादन, वर्षानुवर्षे आणि राज्यानुसार काहीही विशेषतः वेगळे दिसत नाही. या दोन व्हेरिएबल्समधील नातेसंबंध शोधण्यासाठी वेगळ्या प्रकारे पाहण्याचा प्रयत्न करता येईल का?
2003 च्या सुमारास डोळ्याला काहीही वेगळे दिसत नाही, परंतु हे आपल्याला थोड्या आनंददायक नोटवर धडा संपवण्याची परवानगी देते: जरी वसाहतींची संख्या एकूण घटत आहे, तरीही वसाहतींची संख्या स्थिर होत आहे जरी त्यांचे वसाहतीप्रति उत्पादन कमी होत आहे.
जरी डेटा वैज्ञानिक योग्य डेटा साठी योग्य चार्ट निवडण्यात काळजी घेत असेल, तरीही डेटा अशा प्रकारे प्रदर्शित केला जाऊ शकतो ज्यामुळे मुद्दा सिद्ध होतो, परंतु अनेकदा डेटा स्वतःच कमजोर होतो. फसव्या चार्ट्स आणि इन्फोग्राफिक्सचे अनेक उदाहरणे आहेत!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 वरील प्रतिमेवर क्लिक करा फसव्या चार्ट्सबद्दलच्या परिषदेतल्या चर्चेसाठी
हा चार्ट X अक्ष उलटवतो, जेणेकरून तारीख आधारित सत्याच्या उलट दाखवले जाते:
[हा चार्ट](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) आणखी फसवणूक करणारा आहे, कारण डोळा उजवीकडे जातो आणि असा निष्कर्ष काढतो की, कालांतराने, विविध काउंटीजमध्ये COVID प्रकरणे कमी झाली आहेत. प्रत्यक्षात, जर तुम्ही तारखांकडे बारकाईने पाहिले, तर तुम्हाला आढळेल की त्या फसव्या उतरणाऱ्या ट्रेंडसाठी पुन्हा व्यवस्था करण्यात आल्या आहेत.
हा कुप्रसिद्ध उदाहरण रंग आणि उलटवलेल्या Y अक्षाचा वापर करून फसवणूक करतो: बंदूक-संबंधित कायदे लागू झाल्यानंतर बंदूक मृत्यू वाढले, असे निष्कर्ष काढण्याऐवजी, प्रत्यक्षात डोळा उलट विचार करतो:
अतुलनीय गोष्टींची तुलना करणे हा आणखी एक छुपा युक्ती आहे. [एक अप्रतिम वेबसाइट](https://tylervigen.com/spurious-correlations) 'स्प्युरियस करिलेशन्स' बद्दल 'तथ्ये' प्रदर्शित करते, जसे की मेनमधील घटस्फोट दर आणि मार्जरीनचा वापर. रेडिट ग्रुप देखील डेटाच्या [अगदी वाईट उपयोग](https://www.reddit.com/r/dataisugly/top/?t=all) गोळा करतो.
@ -91,13 +91,13 @@
जर तुमचा डेटा X अक्षावर टेक्स्ट स्वरूपात आणि विस्तृत असेल, तर वाचनीयतेसाठी टेक्स्ट अँगल करा. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 3D प्लॉटिंग ऑफर करते, जर तुमचा डेटा त्याला समर्थन देत असेल. त्याचा वापर करून प्रगत डेटा दृश्यांकन तयार करता येते.
आजकाल काही सर्वोत्तम डेटा दृश्यांकन अॅनिमेटेड आहेत. Shirley Wu ने D3 वापरून केलेली अप्रतिम उदाहरणे आहेत, जसे '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', जिथे प्रत्येक फूल एका चित्रपटाचे दृश्यांकन आहे. गार्डियनसाठी आणखी एक उदाहरण आहे 'bussed out', एक परस्पर अनुभव जो दृश्यांकन Greensock आणि D3 सह स्क्रोलिटेलिंग लेख स्वरूपात NYC कसे त्याच्या बेघर लोकांना शहराबाहेर पाठवते हे दाखवतो.
> "Bussed Out: How America Moves its Homeless" [गार्डियन](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) कडून. दृश्यांकन Nadieh Bremer & Shirley Wu यांनी.
@ -107,7 +107,7 @@
तुम्ही एक वेब अॅप पूर्ण कराल जे या सामाजिक नेटवर्कचे अॅनिमेटेड दृश्य प्रदर्शित करेल. Vue.js आणि D3 वापरून नेटवर्कचे [दृश्य](https://github.com/emiliorizzo/vue-d3-network) तयार करण्यासाठी एक लायब्ररी वापरली जाते. अॅप चालू असताना, तुम्ही स्क्रीनवर नोड्स खेचून डेटा हलवू शकता.
> फोटो <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">जेनना ली</a> यांनी Unsplash वरून घेतला आहे. <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
डेटा सायंटिस्टसाठी डेटा दृश्यचित्रण करणे ही एक महत्त्वाची जबाबदारी आहे. एक चित्र हजार शब्दांपेक्षा जास्त सांगते, आणि दृश्यचित्रण तुम्हाला तुमच्या डेटामधील अनेक मनोरंजक गोष्टी शोधण्यात मदत करू शकते, जसे की स्पाइक्स, आउटलाईयर्स, गट, प्रवृत्ती, आणि बरेच काही, ज्यामुळे तुम्हाला तुमचा डेटा काय सांगू इच्छित आहे हे समजण्यास मदत होते.
> फोटो <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">हेडवे</a> यांनी <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">अनस्प्लॅश</a> वर घेतला आहे
या धड्यांमध्ये, तुम्ही डेटा सायन्स जीवनचक्राच्या काही पैलूंवर चर्चा कराल, ज्यामध्ये डेटाचे विश्लेषण आणि संवाद यांचा समावेश आहे.
> फोटो [Jelleke Vanooteghem](https://unsplash.com/@ilumire) यांनी [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) वरून घेतला आहे
मोठ्या डेटासह डेटा सायन्स करताना, क्लाउड एक गेम चेंजर ठरू शकतो. पुढील तीन धड्यांमध्ये, आपण क्लाउड म्हणजे काय आणि ते कसे उपयुक्त ठरू शकते हे पाहणार आहोत. तसेच, आपण हृदय विकाराचा डेटा सेट एक्सप्लोर करणार आहोत आणि कोणाला हृदय विकार होण्याची शक्यता किती आहे हे ठरवण्यासाठी एक मॉडेल तयार करणार आहोत. क्लाउडची ताकद वापरून आपण मॉडेल ट्रेन, डिप्लॉय आणि दोन वेगवेगळ्या पद्धतींनी वापरणार आहोत. एक पद्धत फक्त यूजर इंटरफेस वापरून Low code/No code प्रकारात, आणि दुसरी पद्धत Azure Machine Learning Software Developer Kit (Azure ML SDK) वापरून.
* [Data Science in Healthcare](https://data-flair.training/blogs/data-science-in-healthcare/) - वैद्यकीय प्रतिमा (उदा., एमआरआय, एक्स-रे, सीटी-स्कॅन), जीनोमिक्स (डीएनए अनुक्रमण), औषध विकास (जोखीम मूल्यांकन, यशाचा अंदाज), प्रेडिक्टिव अॅनालिटिक्स (रुग्णांची काळजी आणि पुरवठा लॉजिस्टिक्स), रोग ट्रॅकिंग आणि प्रतिबंध यासारख्या अनुप्रयोगांवर प्रकाश टाकतो.
 प्रतिमा क्रेडिट: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 प्रतिमा क्रेडिट: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
आकृतीत डेटा सायन्स तंत्र लागू करण्यासाठी इतर डोमेन आणि उदाहरणे दर्शविली आहेत. इतर अनुप्रयोगांचा शोध घ्यायचा आहे? खालील [पुनरावलोकन आणि स्व-अभ्यास](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) विभाग तपासा.
@ -13,7 +13,7 @@ Explorer इंटरफेस (खालील स्क्रीनशॉट
2. [Catalog](https://planetarycomputer.microsoft.com/catalog) डेटासेटचा अभ्यास करा - प्रत्येकाचा उद्देश जाणून घ्या.
3. Explorer वापरा - तुमच्या आवडीचा डेटासेट निवडा, संबंधित क्वेरी आणि रेंडरिंग पर्याय निवडा.


`तुमचे काम:`
आता ब्राउझरमध्ये तयार झालेले व्हिज्युअलायझेशन अभ्यासा आणि खालील प्रश्नांची उत्तरे द्या:
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
मायक्रोसॉफ्टमधील Azure Cloud Advocates आपल्याला डेटा सायन्सबद्दल 10 आठवड्यांचा, 20 धड्यांचा एक अभ्यासक्रम प्रदान करण्यात आनंदित आहेत. प्रत्येक धडयात पूर्व-परीक्षा आणि पश्चात-परीक्षा, धड्याचे पूर्ण करण्यासाठी लेखी सूचना, एक समाधान आणि एक असाइनमेंट समाविष्ट आहे. आमच्या प्रोजेक्ट-आधारित शिक्षण पद्धतीमुळे तुम्हाला शिकतांना तयार करता येते, नवीन कौशल्ये 'जपण्याचा' एक सिद्ध मार्ग.
मायक्रोसॉफ्टमधील Azure Cloud Advocates डेटा सायन्सबाबत 10 आठवडे, 20 धड्यांचा अभ्यासक्रम देण्यास आनंदित आहेत. प्रत्येक धड्यात प्री-लेसन आणि पोस्ट-लेसन क्विझ, धडा पूर्ण करण्यासाठी लेखी सूचना, उपाय आणि असाईनमेंट असते. आमची प्रकल्प-आधारित अध्यापनपद्धती तुम्हाला शिकत असतानाच तयार करण्याची परवानगी देते, जी नवीन कौशल्ये 'अडकण्यासाठी' सिद्ध झालेले मार्ग आहे.
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> तुम्हाला अभ्यासक्रम पूर्ण करण्यासाठी आवश्यक सर्वकाही हे जलद डाउनलोडसह मिळेल.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**जर तुम्हाला अतिरिक्त भाषांतरांना समर्थन हवे असल्यास, ते येथे यादीबद्ध आहेत [येथे](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
आमच्याकडे एक Discord AI सह शिका मालिका चालू आहे, अधिक जाणून घेण्यासाठी आणि सामील होण्यासाठी [Learn with AI Series](https://aka.ms/learnwithai/discord) या ठिकाणी 18 - 30 सप्टेंबर, 2025 दरम्यान. तुम्हाला डेटा सायन्ससाठी GitHub Copilot वापरण्याचे टिप्स आणि ट्रिक्स मिळतील.
आमच्याकडे डिसकॉर्डवर AI सह शिकण्याची मालिका सुरू आहे, अधिक जाणून घेण्यासाठी आणि आमच्यात सामील होण्यासाठी [Learn with AI Series](https://aka.ms/learnwithai/discord) येथे १८ ते ३० सप्टेंबर, २०२५. तुम्हाला GitHub Copilot चा डेटा सायन्ससाठी वापर याबाबत तंत्र सांगितले जातील.

# तुम्ही विद्यार्थी आहात का?
खालील संसाधनांपासून सुरु करा:
खालील संसाधनांपासून सुरुवात करा:
- [विद्यार्थी हब पेज](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) या पेजवर, तुम्हाला बिगिनर्ससाठी संसाधने, विद्यार्थी पॅक्स आणि अगदी मोफत प्रमाणपत्र व्हाउचर मिळवण्याचे मार्गही सापडतील. हा एक असा पृष्ठ आहे ज्याला तुम्ही bookmark करून ठेवा आणि वेळोवेळी तपासा कारण आम्ही महिनाभरांनी सामग्री बदलतो.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) जागतिक विद्यार्थी अँम्बॅसडर समुदायात सामील व्हा, हे तुमच्यासाठी मायक्रोसॉफ्टमध्ये प्रवेशाचा मार्ग असू शकतो.
- [विद्यार्थी हब पेज](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) या पेजवर तुम्हाला नवीन सुरुवातीसाठी संसाधने, विद्यार्थी पॅक्स आणि अगदी मोफत सर्टिफिकेट वाउचर मिळण्याचे मार्ग सापडतील. हा असा एक पान आहे जे तुम्ही आवर्जून बुकमार्क करा व काळा कालांतराने तपासा कारण आम्ही दर महिन्याला सामग्री अद्यतनित करतो.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) जागतिक विद्यार्थी अॅम्बेसेडर समुदायात सामील व्हा, हे मायक्रोसॉफ्टमध्ये तुमच्या प्रवेशाचे मार्ग असू शकते.
# सुरुवात कशी करावी
## 📚 दस्तऐवजीकरण
## 📚 दस्तऐवज
- **[इंस्टॉलेशन मार्गदर्शक](INSTALLATION.md)** - बिगिनर्ससाठी टप्प्याटप्प्याने सेटअप सूचना
- **[वापर मार्गदर्शक](USAGE.md)** - उदाहरणे आणि सामान्य कार्यप्रवाह
- **[समस्या निवारण](TROUBLESHOOTING.md)** - सामान्य समस्यांसाठी उपाय
- **[योगदान मार्गदर्शक](CONTRIBUTING.md)** - या प्रकल्पात कसे योगदान द्यावे
- **[शिक्षकांसाठी](for-teachers.md)** - शिक्षण मार्गदर्शन आणि वर्गातील संसाधने
- **[इंस्टॉलेशन मार्गदर्शिका](INSTALLATION.md)** - नवीन लोकांसाठी टप्प्याटप्प्याने सेटअप सूचना
- **[वापर मार्गदर्शिका](USAGE.md)** - उदाहरणे व सामान्य कार्यप्रवाह
- **[समस्या निवारण](TROUBLESHOOTING.md)** - सामान्य समस्या सोडवण्याचे उपाय
- **[योगदान कसे करावे](CONTRIBUTING.md)** - या प्रकल्पात योगदान देण्याचा मार्गदर्शक
- **[शिक्षकांसाठी](for-teachers.md)** - शिकवणी मार्गदर्शन आणि वर्गातील संसाधने
## 👨🎓 विद्यार्थ्यांसाठी
> **संपूर्ण नवशिक्या**: डेटा सायन्समध्ये नवीन आहात? आमच्या [नवशिक्यांसाठी सोप्या उदाहरणांपासून](examples/README.md) सुरुवात करा! हे सोपे, चांगले टिपण लिहिलेले उदाहरणे तुम्हाला मुलभूत गोष्टी समजून घेण्यास मदत करतील, पूर्ण अभ्यासक्रमात डोकावण्याआधी.
> **[विद्यार्थी](https://aka.ms/student-page)**: हा अभ्यासक्रम स्वतंत्रपणे वापरण्यासाठी, संपूर्ण रेपॉजिटरी फोर्क करा आणि व्यायाम स्वतः पूर्ण करा, पूर्व-व्याख्यान चाचणीने सुरु करा. मग व्याख्यान वाचा आणि उर्वरित क्रिया पूर्ण करा. प्रकल्प निवडायला शक्यतो धडा समजून घेऊन तयार करा, समाधान कोड कॉपी करण्याऐवजी; तरीही त्या कोड प्रकल्प-आधारित प्रत्येक धड्याच्या /solutions फोल्डरमध्ये उपलब्ध आहेत. आणखी एक कल्पना म्हणजे मित्रांसह अभ्यास गट बनवून एकत्रून सामग्री पूर्ण करणे. पुढील अभ्यासासाठी, आम्ही [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) ची शिफारस करतो.
> **पूर्णपणे नवीन:** डेटा सायन्समध्ये नवीन आहात? आमच्या [नवीन सुरुवातीसाठी उदाहरणांपासून](examples/README.md) सुरुवात करा! ही सोपी, उत्कृष्ट टिप्पण्यांसह उदाहरणे तुम्हाला मूलभूत गोष्टी समजून घेण्यासाठी मदत करतील पूर्ण अभ्यासक्रमात काहीही डुबकी मारण्याअगोदर.
> **[विद्यार्थी](https://aka.ms/student-page)**: हा अभ्यासक्रम स्वतः वापरण्यासाठी, संपूर्ण रेपो फोर्क करा आणि स्वतःच सराव पूर्ण करा, प्री-लेक्चर क्विझपासून सुरू करा. नंतर लेक्चर वाचा आणि बाकीच्या क्रियाकलाप पूर्ण करा. उपाययोजना कोड सहज कॉपी करण्याऐवजी, धडे समजून घेऊन प्रकल्प तयार करण्याचा प्रयत्न करा; तरीसुद्धा, त्या कोड सोल्यूशन्स फोल्डरमध्ये प्रत्येक प्रकल्प-आधारित धड्यात उपलब्ध आहे. आणखी एक कल्पना म्हणजे मित्रांसोबत अभ्यास गट तयार करणे आणि एकत्रून सामग्री पाहणे. अधिक अभ्यासासाठी, आम्ही [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) यांचा सल्ला देतो.
**जलद सुरुवात:**
1. तुमचे वातावरण सेट करण्यासाठी [इंस्टॉलेशन मार्गदर्शक](INSTALLATION.md) पहा
2. अभ्यासक्रमाशी कसे काम करायचे ते जाणून घेण्यासाठी [वापर मार्गदर्शक](USAGE.md) पहा
3. धडा 1 पासून सुरुवात करा आणि क्रमाने पुढे जा
4. आमच्या [Discord समुदायात](https://aka.ms/ds4beginners/discord) सामील व्हा मदतीसाठी
**त्वरित प्रारंभ:**
1. तुमचे वातावरण सेटअप करण्यासाठी [इंस्टॉलेशन मार्गदर्शिका](INSTALLATION.md) तपासा
2. अभ्यासक्रम कसा वापरायचा ते शिकण्यासाठी [वापर मार्गदर्शिका](USAGE.md) वाचा
3. प्रथम धड्यापासून सुरु करा आणि अनुक्रमे काम करा
4. मदतीसाठी आमच्या [Discord समुदायात](https://aka.ms/ds4beginners/discord) सामील व्हा
## 👩🏫 शिक्षकांसाठी
> **शिक्षक**: आम्ही या अभ्यासक्रमाचा कसा वापर करावा याबाबत काही [सूचना समाविष्ट केल्या आहेत](for-teachers.md). आम्हाला तुमची अभिप्राय [आमच्या चर्चा मंचावर](https://github.com/microsoft/Data-Science-For-Beginners/discussions) आवडेल!
> **शिक्षकांनो**: आम्ही [या अभ्यासक्रमाचा उपयोग कसा करावा याबाबत काही सूचना](for-teachers.md) दिल्या आहेत. कृपया आमच्या [चर्चा मंचावर](https://github.com/microsoft/Data-Science-For-Beginners/discussions) तुमचा अभिप्राय द्या!
**गिफ** [मोहित जैसाळ](https://www.linkedin.com/in/mohitjaisal) यांनी
**जीआयएफ** [मोहित जैसाळ](https://www.linkedin.com/in/mohitjaisal) यांचे
> 🎥 प्रोजेक्ट आणि त्याला तयार करणाऱ्या लोकांबद्दल व्हिडिओसाठी वरील प्रतिमा क्लिक करा!
> 🎥 प्रोजेक्ट बद्दल व्हिडिओसाठी वरच्या प्रतिमेवर क्लिक करा ज्यांनी ही तयार केली आहे त्यांच्यावर!
## अध्यापनशास्त्र
आम्ही या अभ्यासक्रमाच्या बांधणीसाठी दोन अध्यापन तत्त्व निवडले आहेत: हे प्रोजेक्ट-आधारित असणे आणि त्यात वारंवार क्विझ असणे. या मालिकेच्या शेवटी, विद्यार्थी डेटा विज्ञानाचे मूलभूत तत्त्वे शिकतील, ज्यात नैतिक संकल्पना, डेटा तयारी, डेटा हाताळण्याचे वेगवेगळे मार्ग, डेटा दृश्यांकन, डेटा विश्लेषण, डेटा विज्ञानाच्या प्रत्यक्ष वापराच्या बाबी आणि बरेच काही यांचा समावेश असेल.
आम्ही हा अभ्यासक्रम तयार करताना दोन अध्यापन तत्त्वे निवडली आहेत: प्रकल्प-आधारित असणे आणि वारंवार क्विझ समाविष्ट करणे. या मालिकेच्या शेवटी, विद्यार्थी डेटा सायन्सच्या मूलभूत तत्त्वांबाबत शिकतील, ज्यामध्ये नैतिक संकल्पना, डेटा तयारी, डेटा वापरण्याचे विविध मार्ग, डेटा व्हिज्युअलायझेशन, डेटा विश्लेषण, डेटा सायन्सच्या प्रत्यक्ष उपयोगाच्या केससह इत्यादी समाविष्ट आहेत.
याव्यतिरिक्त, वर्गाच्या आधीचा कमी धोका असलेला क्विझ विद्यार्थ्यांच्या विषय शिकण्याच्या हेतूची स्थापन करतो, तर वर्गानंतरचा दुसरा क्विझ अधिक रक्षण खात्री करतो. हा अभ्यासक्रम लवचिक आणि मजेदार बनविण्यासाठी तयार केला गेला असून तो पूर्ण किंवा भागात घेतला जाऊ शकतो. प्रोजेक्ट्स सुरुवातीला छोटे असून १० आठवड्यांच्या चक्राच्या शेवटी अधिक क्लिष्ट होतात.
याशिवाय, वर्गाच्या आधी एक कमी-कठोर क्विझ विद्यार्थ्यांच्या विषयाची जाण ठेवण्यासाठी सेट केली जाते, तर वर्गानंतर दुसऱ्या क्विझमुळे अधिक टिकाव सुनिश्चित होतो. हा अभ्यासक्रम लवचिक आणि मजेदार असावा यासाठी डिझाइन करण्यात आला आहे आणि तो पूर्णपणे किंवा भागांमध्ये घेतला जाऊ शकतो. प्रकल्प लहानपासून सुरुवात होतात आणि १० आठवड्यांच्या चक्राच्या शेवटी हळूहळू जटिल होतात.
> आमचा [व्यवहार संहिता](CODE_OF_CONDUCT.md), [योगदान](CONTRIBUTING.md), [अनुवाद](TRANSLATIONS.md) मार्गदर्शक तत्त्वे पाहा. आम्ही तुमच्या रचनात्मक अभिप्रायाचे स्वागत करतो!
> **क्विझबद्दल एक टीप**: सर्व क्विझ Quiz-App फोल्डरमध्ये आहेत, एकूण ४० क्विझ ज्या प्रत्येकी तीन प्रश्नांच्या आहेत. त्यांना धड्यांमधून लिंक केले जाते, पण क्विझ अॅप स्थानिकरित्या चालवला जाऊ शकतो किंवा Azure वर तैनात केला जाऊ शकतो; `quiz-app` फोल्डरमधील सूचना पाळा. ते हळूहळू स्थानिक केले जात आहेत.
> **क्विझबाबत एक नोट**: सर्व क्विझ Quiz-App फोल्डरमध्ये आहेत, जे तीन प्रश्नांचे एकूण ४० क्विझ आहेत. हे धड्यांमध्ये लिंक्ड आहेत, पण क्विझ अॅप स्थानिकपणे चालवू शकता किंवा Azure वर तैनात करू शकता; `quiz-app` फोल्डरमधील सूचना अनुसरा. ते हळूहळू स्थानिकीकरण होत आहेत.
## 🎓 सुरुवातीसाठी सोपे उदाहरणे
## 🎓 नवशिक्यांसाठी सोपे उदाहरणे
**डेटा सायन्समध्ये नवीन आहात?** आम्ही एक विशेष [उदाहरणे निर्देशिका](examples/README.md) तयार केली आहे ज्यात सोपे आणि चांगल्या प्रकारे टिप्पणीसहित कोड आहे ज्यामुळे तुम्हाला सुरुवात करणे सोपे जाईल:
**डेटा सायन्स मधे नवीन आहेस?** आम्ही एक विशेष [उदाहरणे निर्देशिका](examples/README.md) तयार केली आहे ज्यात सोपा, व्यवस्थित कोड आहे ज्यामुळे तुम्ही सुरुवात करू शकाल:
- 🌟 **हॅलो वर्ल्ड** - तुमचा पहिला डेटा सायन्स प्रोग्राम
| ०१ | डेटा सायन्सची व्याख्या | [परिचय](1-Introduction/README.md) | डेटा सायन्सच्या मूलभूत संकल्पना आणि कसे ते कृत्रिम बुद्धिमत्ता, मशीन लर्निंग, आणि बिग डेटा यासंबंधीत आहे ते शिका. | [धडा](1-Introduction/01-defining-data-science/README.md) [व्हिडिओ](https://youtu.be/beZ7Mb_oz9I) | [डमित्रि](http://soshnikov.com) |
| ०३ | डेटा व्याख्या | [परिचय](1-Introduction/README.md) | डेटा कसा वर्गीकृत केला जातो आणि त्याचे सामान्य स्रोत काय आहेत. | [धडा](1-Introduction/03-defining-data/README.md) | [जॅस्मीन](https://www.twitter.com/paladique) |
| ०४ | सांख्यिकी व संभाव्यता परिचय | [परिचय](1-Introduction/README.md) | डेटा समजून घेण्यासाठी संभाव्यता आणि सांख्यिकी यांचे गणितीय तंत्र. | [धडा](1-Introduction/04-stats-and-probability/README.md) [व्हिडिओ](https://youtu.be/Z5Zy85g4Yjw) | [डमित्रि](http://soshnikov.com) |
| ०५ | संबंधी डेटा सोबत काम करणे | [डेटा सोबत काम करणे](2-Working-With-Data/README.md) | संबंधी डेटाचा परिचय आणि SQL (ज्याला "सी-क्वेल" म्हणतात) वापरून संबंधी डेटा शोधणे आणि विश्लेषण करण्याचे मूलतत्त्वे. | [धडा](2-Working-With-Data/05-relational-databases/README.md) | [क्रिस्टोफर](https://www.twitter.com/geektrainer) | | |
| ०६ | नोSQL डेटासोबत काम करणे | [डेटा सोबत काम करणे](2-Working-With-Data/README.md) | नॉन-रिलेशनल डेटाचा परिचय, त्याचे वेगवेगळे प्रकार आणि दस्तऐवज डेटाबेस कसे शोधायचे आणि विश्लेषण करायचे याचे मूलतत्त्व. | [धडा](2-Working-With-Data/06-non-relational/README.md) | [जॅस्मीन](https://twitter.com/paladique)|
| ०७ | पायथन सोबत काम करणे | [डेटा सोबत काम करणे](2-Working-With-Data/README.md) | पायथन वापरून डेटा तपासणीसाठी Pandas सारख्या लायब्ररीजची मूलभूत माहिती. पायथन प्रोग्रॅमिंगचा प्राथमिक समज आवश्यक. | [धडा](2-Working-With-Data/07-python/README.md) [व्हिडिओ](https://youtu.be/dZjWOGbsN4Y) | [डमित्रि](http://soshnikov.com) |
| ०८ | डेटा तयारी | [डेटा सोबत काम करणे](2-Working-With-Data/README.md) | हरवलेला, चुकीचा किंवा अपूर्ण डेटा यांसारख्या आव्हानांसाठी डेटा स्वच्छीकरण आणि रूपांतरण तंत्रे. | [धडा](2-Working-With-Data/08-data-preparation/README.md) | [जॅस्मीन](https://www.twitter.com/paladique) |
| ०९ | प्रमाणांची दृश्यांकन | [डेटा दृश्यांकन](3-Data-Visualization/README.md) | Matplotlib वापरून पक्षी डेटा 🦆 कसा दृश्य करायचा ते शिका | [धडा](3-Data-Visualization/09-visualization-quantities/README.md) | [जेन](https://twitter.com/jenlooper) |
| १० | डेटा वितरण दृश्यांकन | [डेटा दृश्यांकन](3-Data-Visualization/README.md) | अवधीतील निरीक्षणे व प्रवाह दृश्य करणे. | [धडा](3-Data-Visualization/10-visualization-distributions/README.md) | [जेन](https://twitter.com/jenlooper) |
| ११ | प्रमाणांचे दृश्यांकन | [डेटा दृश्यांकन](3-Data-Visualization/README.md) | निरंतर व समूहित टक्केवारीचे दृश्यांकन. | [धडा](3-Data-Visualization/11-visualization-proportions/README.md) | [जेन](https://twitter.com/jenlooper) |
| १२ | नातेसंबंधांचे दृश्यांकन | [डेटा दृश्यांकन](3-Data-Visualization/README.md) | डेटा सेट्स व त्यांचे बदल यामधील संबंध व सहसंबंधांचे दृश्यांकन. | [धडा](3-Data-Visualization/12-visualization-relationships/README.md) | [जेन](https://twitter.com/jenlooper) |
| १३ | अर्थपूर्ण दृश्यांकन | [डेटा दृश्यांकन](3-Data-Visualization/README.md) | प्रभावी समस्या सोडवण्यासाठी आणि अंतर्दृष्टीसाठी तुमच्या दृश्यांकनांना कसे मूल्यवान बनवायचे याबाबत तंत्रे व मार्गदर्शन. | [धडा](3-Data-Visualization/13-meaningful-visualizations/README.md) | [जेन](https://twitter.com/jenlooper) |
| १४ | डेटा सायन्स जीवनचक्र परिचय | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डेटा सायन्स जीवनचक्राचा परिचय आणि डेटाची प्राप्ती व बाहेर काढण्याचा पहिला टप्पा. | [धडा](4-Data-Science-Lifecycle/14-Introduction/README.md) | [जॅस्मीन](https://twitter.com/paladique) |
| १५ | विश्लेषण | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डेटा सायन्स जीवनचक्राचा हा टप्पा डेटाचे विश्लेषण करण्याच्या तंत्रांवर लक्ष केंद्रित करतो. | [धडा](4-Data-Science-Lifecycle/15-analyzing/README.md) | [जॅस्मीन](https://twitter.com/paladique) | | |
| १६ | संवाद | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | हा टप्पा डेटा मधील अंतर्दृष्टीजम्हणून निर्णय घेणाऱ्यांना समजायला सोप्या पद्धतीने सादर करण्यावर लक्ष केंद्रित करतो. | [धडा](4-Data-Science-Lifecycle/16-communication/README.md) | [जालेन](https://twitter.com/JalenMcG) | | |
| १७ | क्लाउड मध्ये डेटा सायन्स | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | क्लाउडमधील डेटा सायन्स आणि त्याचे फायदे याची मालिका परिचय देते. | [धडा](5-Data-Science-In-Cloud/17-Introduction/README.md) | [टिफनी](https://twitter.com/TiffanySouterre) आणि [मॉड](https://twitter.com/maudstweets) |
| १८ | क्लाउड मध्ये डेटा सायन्स | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | लो कोड साधने वापरून मॉडेल्स प्रशिक्षण. |[धडा](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [टिफनी](https://twitter.com/TiffanySouterre) आणि [मॉड](https://twitter.com/maudstweets) |
| १९ | क्लाउड मध्ये डेटा सायन्स | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio वापरून मॉडेल्स तैनात करणे. | [धडा](5-Data-Science-In-Cloud/19-Azure/README.md)| [टिफनी](https://twitter.com/TiffanySouterre) आणि [मॉड](https://twitter.com/maudstweets) |
| २० | वास्तविक जगात डेटा सायन्स | [वैल्डमध्ये](6-Data-Science-In-Wild/README.md) | प्रत्यक्ष जगातील डेटा सायन्स चालित प्रोजेक्ट्स. | [धडा](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [नित्या](https://twitter.com/nitya) |
## GitHub Codespaces
या सॅम्पलला Codespace मध्ये उघडण्यासाठी हे पावले करा:
१. कोड ड्रॉपडाऊन मेनू क्लिक करा आणि Open with Codespaces पर्याय निवडा.
२. पॅनलखाली + New codespace निवडा.
अधिक माहितीसाठी, [GitHub दस्तऐवज](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) पहा.
| 01 | डेटा सायन्सची व्याख्या | [परिचय](1-Introduction/README.md) | डेटा सायन्सच्या मूलभूत संकल्पना आणि त्याचा कृत्रिम बुद्धिमत्ता, मशीन लर्निंग, व बिग डेटा यांच्याशी संबंध कसा आहे हे शिका. | [धडा](1-Introduction/01-defining-data-science/README.md) [व्हिडिओ](https://youtu.be/beZ7Mb_oz9I) | [डिमित्री](http://soshnikov.com) |
| 03 | डेटाची व्याख्या | [परिचय](1-Introduction/README.md) | डेटाचे वर्गीकरण कसे होते आणि त्याचे सामान्य स्रोत काय आहेत. | [धडा](1-Introduction/03-defining-data/README.md) | [जॅस्मीन](https://www.twitter.com/paladique) |
| 04 | सांख्यिकी व संभाव्यता परिचय | [परिचय](1-Introduction/README.md) | डेटा समजून घेण्यासाठी संभाव्यता व सांख्यिकीचे गणितीय तंत्र. | [धडा](1-Introduction/04-stats-and-probability/README.md) [व्हिडिओ](https://youtu.be/Z5Zy85g4Yjw) | [डिमित्री](http://soshnikov.com) |
| 05 | रिलेशनल डेटासोबत काम करणं | [डेटासोबत काम](2-Working-With-Data/README.md) | रिलेशनल डेटाचा परिचय आणि संरचित क्वेरी भाषा (SQL) वापरून रिलेशनल डेटाचे विश्लेषण व शोधण्याचे मूलतत्त्वे. | [धडा](2-Working-With-Data/05-relational-databases/README.md) | [क्रिस्टोफर](https://www.twitter.com/geektrainer) | | |
| 06 | नोएसक्यूएल डेटासोबत काम करणं | [डेटासोबत काम](2-Working-With-Data/README.md) | नॉन-रिलेशनल डेटा, त्याचे विविध प्रकार आणि डोक्युमेंट डेटाबेससह विश्लेषण. | [धडा](2-Working-With-Data/06-non-relational/README.md) | [जॅस्मीन](https://twitter.com/paladique)|
| 07 | पाइथनसह काम करणं | [डेटासोबत काम](2-Working-With-Data/README.md) | पायथन वापरून डेटा एक्सप्लोरेशनसाठी मूलतत्त्वे, जसे की पँडास लायब्ररी. पायथन प्रोग्रामींगचे मूलतत्त्व समजणे शिफारसीय आहे. | [धडा](2-Working-With-Data/07-python/README.md) [व्हिडिओ](https://youtu.be/dZjWOGbsN4Y) | [डिमित्री](http://soshnikov.com) |
| 08 | डेटा तयारी | [डेटासोबत काम](2-Working-With-Data/README.md) | डेटाशी निगडीत साफसफाई आणि रूपांतरण तंत्र जे गहाळ, चुकीचा किंवा अपूर्ण डेटा हाताळतात. | [धडा](2-Working-With-Data/08-data-preparation/README.md) | [जॅस्मीन](https://www.twitter.com/paladique) |
| 09 | प्रमाण व्हिज्युअलायझेशन | [डेटा व्हिज्युअलायझेशन](3-Data-Visualization/README.md) | मॅटप्लॉटलिब वापरून पक्षी डेटाचे व्हिज्युअलायझेशन 🦆 | [धडा](3-Data-Visualization/09-visualization-quantities/README.md) | [जेन](https://twitter.com/jenlooper) |
| 12 | संबंधांचे व्हिज्युअलायझेशन | [डेटा व्हिज्युअलायझेशन](3-Data-Visualization/README.md) | डेटासेट्समधील संबंध आणि सहसंबंधांचे व्हिज्युअलायझेशन. | [धडा](3-Data-Visualization/12-visualization-relationships/README.md) | [जेन](https://twitter.com/jenlooper) |
| 13 | अर्थपूर्ण व्हिज्युअलायझेशन | [डेटा व्हिज्युअलायझेशन](3-Data-Visualization/README.md) | प्रभावी समस्या सोडवण्यासाठी आणि अंतर्दृष्टीसाठी व्हिज्युअलायझेशनचे तंत्र आणि मार्गदर्शन. | [धडा](3-Data-Visualization/13-meaningful-visualizations/README.md) | [जेन](https://twitter.com/jenlooper) |
| 14 | डेटा सायन्स जीवनचक्राचा परिचय | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डेटा सायन्स जीवनचक्राचा परिचय आणि त्याचा पहिला टप्पा म्हणजे डेटा प्राप्त करणे आणि त्याचे निष्कर्ष काढणे. | [धडा](4-Data-Science-Lifecycle/14-Introduction/README.md) | [जॅस्मीन](https://twitter.com/paladique) |
| 15 | विश्लेषण | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डेटा सायन्स जीवनचक्राचा हा टप्पा डेटाचे विश्लेषण करण्याच्या तंत्रांवर लक्ष केंद्रित करतो. | [धडा](4-Data-Science-Lifecycle/15-analyzing/README.md) | [जॅस्मीन](https://twitter.com/paladique) | | |
| 16 | संवाद | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | हा टप्पा निर्णय घेणाऱ्यांसाठी डेटामधून अंतर्दृष्टी सादर करण्यावर केंद्रित आहे. | [धडा](4-Data-Science-Lifecycle/16-communication/README.md) | [जालेन](https://twitter.com/JalenMcG) | | |
| 17 | क्लाउडमध्ये डेटा सायन्स | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | क्लाउडमध्ये डेटा सायन्स आणि त्याचे फायदे यांचा परिचय. | [धडा](5-Data-Science-In-Cloud/17-Introduction/README.md) | [टिफनी](https://twitter.com/TiffanySouterre) आणि [मावड](https://twitter.com/maudstweets) |
| 18 | क्लाउडमध्ये डेटा सायन्स | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | लो कोड साधने वापरून मॉडेल प्रशिक्षण. |[धडा](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [टिफनी](https://twitter.com/TiffanySouterre) आणि [मावड](https://twitter.com/maudstweets) |
| 20 | वास्तवात डेटा सायन्स | [वास्तवात](6-Data-Science-In-Wild/README.md) | प्रत्यक्ष जगातील डेटा सायन्स प्रकल्प. | [धडा](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [नित्या](https://twitter.com/nitya) |
## GitHub कोडस्पेसेस
या नमुन्याला कोडस्पेसमध्ये उघडण्यासाठी खालील टप्पे पाळा:
1. Code ड्रॉपडाउन मेनूत क्लिक करा आणि Open with Codespaces पर्याय निवडा.
2. खालील पॅनवर + New codespace निवडा.
अधिक माहितीसाठी [GitHub दस्तऐवज](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) तपासा.
## VSCode Remote - कंटेनर्स
तुमच्या स्थानिक संगणकावर आणि VSCode वापरून VS Code Remote - Containers एक्सटेंशन वापरून या रिपोजिटरीला कंटेनरमध्ये उघडण्यासाठी हे पावले करा:
तुमच्या स्थानीय संगणकावर VSCode वापरून या रिपॉजिटरीला कंटेनरमध्ये उघडण्यासाठी खालील टप्पे वापरा:
१. जर तुम्ही प्रथमच डेव्हलपमेंट कंटेनर वापरत असाल तर, कृपया [प्रारंभिक दस्तऐवज](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) मध्ये नमूद केलेली पूर्वअट तपासा (उदा. Docker इन्स्टॉल केलेले आहे की नाही).
1. जर तुम्ही प्रथमच डेव्हलपमेंट कंटेनर वापरत असाल तर, तुमची प्रणाली आवश्यक अटी पूर्ण करते की नाही हे खात्री करा (उदा. Docker इंस्टॉल असणे) [गेटिंग स्टार्टेड डॉक्युमेंटेशन](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) मध्ये.
हा रिपोजिटरी वापरण्यासाठी, तुम्ही रिपोजिटरीला वेगळ्या Docker व्हॉल्यूममध्ये उघडू शकता:
हे रिपॉजिटरी वापरण्यासाठी, तुम्ही रिपॉजिटरी एका वेगळ्या Docker व्हॉल्यूममध्ये उघडू शकता:
**टीप**: यामुळे Remote-Containers: **Clone Repository in Container Volume...** कमांड वापरून स्रोत कोड स्थानिक फाइलसिस्टमऐवजी Docker व्हॉल्यूममध्ये क्लोन केला जाईल. [व्हॉल्यूम](https://docs.docker.com/storage/volumes/) ही कंटेनर डेटा टिकवण्यासाठी पसंतीची पद्धत आहे.
**टीप**: अंतर्गत, हे Remote-Containers: **Clone Repository in Container Volume...** कमांड वापरून स्त्रोत कोड एका डॉकर व्हॉल्यूममध्ये क्लोन करते, स्थानिक फाइलसिस्टमच्या ऐवजी. [व्हॉल्युम](https://docs.docker.com/storage/volumes/) कंटेनर डेटासाठी टिकवण्यासाठी प्राधान्याने वापरले जातात.
किंवा रिपोजिटरीची स्थानिक क्लोन किंवा डाउनलोड केलेली आवृत्ती उघडा:
किंवा स्थानिकरित्या क्लोन केलेले किंवा डाउनलोड केलेले रिपॉजिटरी उघडा:
- ही रिपोजिटरी तुमच्या स्थानिक फाइलसिस्टमवर क्लोन करा.
- हा रिपॉजिटरी तुमच्या स्थानिक फाइलसिस्टमवर क्लोन करा.
- F1 दाबा आणि **Remote-Containers: Open Folder in Container...** कमांड निवडा.
- या फोल्डरची क्लोन केलेली कॉपी निवडा, कंटेनर सुरू होईपर्यंत थांबा, आणि वापर करून पहा.
- या फोल्डरच्या क्लोन केलेल्या प्रत निवडा, कंटेनर सुरू होण्यासाठी वाट पहा, आणि प्रयोग करा.
## ऑफलाइन प्रवेश
तुम्ही हा दस्तऐवज ऑफलाइन चालवू शकता [Docsify](https://docsify.js.org/#/) वापरून. या रिपोजिटरीला फोर्क करा, तुमच्या स्थानिक संगणकावर [Docsify इंस्टॉल](https://docsify.js.org/#/quickstart) करा, नंतर या रिपोजिटरीच्या मूळ फोल्डरमध्ये `docsify serve` टाईप करा. वेबसाइट लोकलहोस्टच्या पोर्ट 3000 वर सेवा देईल: `localhost:3000`.
तुम्ही [Docsify](https://docsify.js.org/#/) वापरून ही दस्तऐवज ऑफलाइन चालवू शकता. हा रिपॉजिटरी फोर्क करा, [Docsify इन्स्टॉल करा](https://docsify.js.org/#/quickstart) तुमच्या स्थानिक संगणकावर, नंतर या रिपॉजिटरीच्या मूळ फोल्डरमध्ये टाइप करा `docsify serve`. वेबसाइट तुमच्या लोकलहोस्टच्या पोर्ट 3000 वर कार्यान्वित होईल: `localhost:3000`.
> लक्षात ठेवा, नोटबुक्स Docsify द्वारे रेंडर केले जाणार नाहीत, त्यामुळे नोटबुक चालवणे आवश्यक असल्यास VS Code मध्ये वेगळे Python कर्नेल वापरून ते करा.
> लक्षात ठेवा, नोटबुक्स Docsify द्वारे रेंडर होणार नाहीत, त्यामुळे जेव्हा तुम्हाला नोटबुक चालवायचा असेल, तेव्हा ते स्वतंत्रपणे VS Code मध्ये Python कर्नेल चालवून करा.
## इतर अभ्यासक्रम
आमची टीम इतर अभ्यासक्रम देखील तयार करते! हे पाहा:
आमची टीम इतर अभ्यासक्रम तयार करते! पाहा:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
### Azure / Edge / MCP / Agents
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
### Generative AI Series
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**समस्या येत आहेत?** सामान्य समस्यांसाठी सोडवणुकीसाठी आमची [तक्रार निराकरण मार्गदर्शिका](TROUBLESHOOTING.md) तपासा.
**समस्या येत आहेत?** सामान्य समस्यांसाठी उपायांसाठी आमचा [Troubleshooting Guide](TROUBLESHOOTING.md) तपासा.
जर तुम्हाला अडचण येत असेल किंवा AI अनुप्रयोग तयार करण्याबाबत काही प्रश्न असतील तर, MCP बद्दल चर्चा करण्यासाठी इतर शिकणाऱ्यांशी आणि अनुभवी विकसकांशी सामील व्हा. हे एक सहकार्यशील समुदाय आहे जिथे प्रश्न विचारणे स्वागतार्ह आहे आणि ज्ञान मुक्तपणे शेअर केले जाते.
जर तुम्ही अडकले असाल किंवा AI अॅप्स तयार करण्याबाबत कोणतेही प्रश्न असतील, तर MCP बद्दल चर्चेत सहभागी होण्यासाठी इतर शिकणाऱ्या आणि अनुभवी विकासकांमध्ये सामील व्हा. ही एक समर्थक समुदाय आहे जिथे प्रश्न विचारले जातात आणि ज्ञान मोकळेपणाने वाटले जाते.
हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्न करतो, तरी कृपया लक्षात ठेवा की स्वयंचलित भाषांतरांमध्ये चुका किंवा अपूर्णता असू शकतात. मूळ दस्तऐवज त्याच्या नैसर्गिक भाषेत अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतर शिफारस केली जाते. या भाषांतराच्या वापरामुळे झालेल्या कोणत्याही गैरसमजुती किंवा चुकीच्या अर्थाच्या जबाबदारी आम्ही घेत नाही.
हा दस्तऐवज AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) वापरून अनुवादित केला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात घ्या की स्वयंचलित अनुवादांमध्ये चुका किंवा अचूकतेचा अभाव असू शकतो. मूळ दस्तऐवज त्याच्या मूळ भाषेत अधिकृत स्रोत मानला जातो. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी अनुवाद करण्याची शिफारस केली जाते. या अनुवादाच्या वापरामुळे होणाऱ्या कोणत्याही गैरसमजुती किंवा चुकीच्या अर्थ लावणीबाबत आम्ही जबाबदार नाही.
यस चुनौतीमा, हामी डेटा साइन्सको क्षेत्रमा सान्दर्भिक अवधारणाहरू पत्ता लगाउने प्रयास गर्नेछौं। हामी डेटा साइन्सको विषयमा विकिपिडिया लेख लिनेछौं, पाठ डाउनलोड र प्रक्रिया गर्नेछौं, र त्यसपछि यस्तो वर्ड क्लाउड बनाउनेछौं:


कोड पढ्नका लागि [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') मा जानुहोस्। तपाईं कोड चलाउन सक्नुहुन्छ, र वास्तविक समयमा सबै डेटा रूपान्तरणहरू कसरी प्रदर्शन हुन्छन् हेर्न सक्नुहुन्छ।
"# चुनौती: डाटा साइन्स सम्बन्धी पाठको विश्लेषण\n",
"# चुनौती: डेटा विज्ञान सम्बन्धी पाठ्य विश्लेषण\n",
"\n",
"यस उदाहरणमा, परम्परागत डाटा साइन्स प्रक्रियाका सबै चरणहरू समेट्ने एउटा साधारण अभ्यास गरौं। तपाईंले कुनै कोड लेख्न आवश्यक छैन, तपाईं तलका सेलहरूमा क्लिक गरेर तिनलाई कार्यान्वयन गर्न सक्नुहुन्छ र परिणाम अवलोकन गर्न सक्नुहुन्छ। चुनौतीको रूपमा, तपाईंलाई यो कोड फरक डाटासँग प्रयास गर्न प्रोत्साहित गरिन्छ।\n",
"यस उदाहरणमा, हामीले परम्परागत डेटा विज्ञान प्रक्रिया का सबै चरणहरू समेट्ने एउटा सरल अभ्यास गर्नेछौं। तपाईंले कुनै पनि कोड लेख्न आवश्यक छैन, तपाईंले तलका सेलहरूमा क्लिक गरेर ती कार्यहरू सक्रिय गर्न सक्नुहुन्छ र परिणाम अवलोकन गर्न सक्नुहुन्छ। चुनौतीको रूपमा, तपाईंलाई यो कोड फरक डेटा संग प्रयास गर्न प्रोत्साहित गरिन्छ।\n",
"\n",
"## उद्देश्य\n",
"## लक्ष्य\n",
"\n",
"यस पाठमा, हामीले डाटा साइन्ससँग सम्बन्धित विभिन्न अवधारणाहरूको चर्चा गरिरहेका छौं। अब, केही **पाठ खनन** गरेर थप सम्बन्धित अवधारणाहरू पत्ता लगाउने प्रयास गरौं। हामी डाटा साइन्स सम्बन्धी एउटा पाठबाट सुरु गर्नेछौं, त्यसबाट मुख्य शब्दहरू निकाल्नेछौं, र त्यसपछि परिणामलाई दृश्यात्मक बनाउने प्रयास गर्नेछौं।\n",
"यस पाठमा, हामीले डेटा विज्ञानसँग सम्बन्धित विभिन्न अवधारणाहरूको छलफल गरिरहेका छौँ। आउनुहोस्, हामी केही **पाठ उत्खनन** गरेर थप सम्बन्धित अवधारणाहरू पत्ता लगाउने प्रयास गरौं। हामी डेटा विज्ञान सम्बन्धी एउटा पाठबाट सुरु गर्नेछौं, त्यसबाट कुञ्जीशब्दहरू निकाली त्यसपछि परिणामलाई दृश्यात्मक बनाउने प्रयास गर्नेछौं।\n",
"\n",
"पाठको रूपमा, म विकिपेडियाको डाटा साइन्स पृष्ठ प्रयोग गर्नेछु:\n"
"पाठको रूपमा, म विकिपिडियाबाट डेटा विज्ञान पेज प्रयोग गर्नेछु:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## चरण १: डाटा प्राप्त गर्ने\n",
"## Step 1: डाटा प्राप्त गर्दै\n",
"\n",
"प्रत्येक डाटा विज्ञान प्रक्रियाको पहिलो चरण भनेको डाटा प्राप्त गर्नु हो। हामी यसका लागि `requests` लाइब्रेरी प्रयोग गर्नेछौं:\n"
"हरेक डाटा विज्ञान प्रक्रियाको पहिलो चरण भनेको डाटा प्राप्त गर्नु हो। हामीलेत्यसका लागि `requests` लाइब्रेरी प्रयोग गर्नेछौं:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## चरण २: डाटालाई रूपान्तरण गर्नु\n",
"## Step 2: डाटा रूपान्तरण\n",
"\n",
"अर्को चरण भनेको डाटालाई प्रशोधनका लागि उपयुक्त स्वरूपमा रूपान्तरण गर्नु हो। हाम्रो अवस्थामा, हामीले पृष्ठबाट HTML स्रोत कोड डाउनलोड गरेका छौं, र यसलाई साधारण पाठमा रूपान्तरण गर्न आवश्यक छ।\n",
"अर्को चरण डाटालाई प्रक्रिया गर्न उपयुक्त स्वरूपमा परिवर्तन गर्नु हो। हाम्रो अवस्थामा, हामीले पृष्ठबाट HTML स्रोत कोड डाउनलोड गरेका छौं, र हामीले यसलाई सामान्य पाठमा रूपान्तरण गर्न आवश्यक छ।\n",
"\n",
"यसलाई गर्नका लागि धेरै तरिकाहरू छन्। हामी Python को साधारण बिल्ट-इन [HTMLParser](https://docs.python.org/3/library/html.parser.html) वस्तु प्रयोग गर्नेछौं। हामीले `HTMLParser` वर्गलाई सबक्लास गर्नुपर्छ र HTML ट्यागहरूभित्रको सबै पाठ सङ्कलन गर्ने कोड परिभाषित गर्नुपर्छ, तर `<script>` र `<style>` ट्यागहरू बाहेक।\n"
"यसलाई गर्ने धेरै तरिकाहरू छन्। हामी [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) प्रयोग गर्नेछौं, जुन HTML पार्स गर्ने लोकप्रिय Python पुस्तकालय हो। BeautifulSoup हामीलाई विशिष्ट HTML तत्वहरू लक्षित गर्न अनुमति दिन्छ, त्यसैले हामी विकिपीडिया बाट मुख्य लेख सामग्रीमा केन्द्रित हुन सक्छौं र केही नेभिगेसन मेनुहरू, साइडबारहरू, फुटरहरू, र अन्य अप्रासंगिक सामग्रीहरू घटाउन सक्छौं (यद्यपि केही बोइलरप्लेट पाठ अझै पनि रहन सक्छ)।\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"पहिले, हामीलाई HTML पार्सिङको लागि BeautifulSoup लाइब्रेरी स्थापना गर्न आवश्यक छ:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## चरण ३: जानकारी प्राप्त गर्दै\n",
"## Step 3: अन्तर्दृष्टि प्राप्त गर्दै\n",
"\n",
"सबैभन्दा महत्त्वपूर्ण चरण भनेको हाम्रो डाटालाई यस्तो रूपमा बदल्नु हो जसबाट हामी जानकारी निकाल्न सक्छौं। हाम्रो केसमा, हामी पाठबाट मुख्य शब्दहरू निकाल्न चाहन्छौं र कुन शब्दहरू बढी अर्थपूर्ण छन् भनेर हेर्न चाहन्छौं।\n",
"सबैभन्दा महत्वपूर्ण चरण भनेको हाम्रो डाटालाई केहि रूपान्तरण गर्नु हो जहाँबाट हामीले अन्तर्दृष्टिहरू निकाल्न सक्छौं। हाम्रो मामलामा, हामी पाठबाट कीवर्डहरू निकाल्न चाहन्छौं, र कुन कीवर्डहरू बढी अर्थपूर्ण छन् भनि हेर्न चाहन्छौं।\n",
"\n",
"हामी मुख्य शब्द निकाल्नको लागि [RAKE](https://github.com/aneesha/RAKE) नामक Python लाइब्रेरी प्रयोग गर्नेछौं। पहिलो चरणमा, यदि यो लाइब्रेरी उपलब्ध छैन भने यसलाई स्थापना गरौं:\n"
"कीवर्ड निकालीका लागि हामीले Python पुस्तकालय [RAKE](https://github.com/aneesha/RAKE) प्रयोग गर्नेछौं। पहिले, यदि यो पुस्तकालय उपलब्ध छैन भने यसलाई स्थापना गरौं:\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"मुख्य कार्यक्षमता `Rake` वस्तुबाट उपलब्ध छ, जसलाई हामी केही प्यारामिटरहरू प्रयोग गरेर अनुकूलित गर्न सक्छौं। हाम्रो अवस्थामा, हामी कुञ्जीशब्दको न्यूनतम लम्बाइ ५ अक्षर, दस्तावेजमा कुञ्जीशब्दको न्यूनतम आवृत्ति ३, र कुञ्जीशब्दमा अधिकतम शब्दहरूको संख्या २ मा सेट गर्नेछौं। अन्य मानहरूसँग खेल्न र परिणाम अवलोकन गर्न स्वतन्त्र महसुस गर्नुहोस्।\n"
"मुख्य कार्यक्षमता `Rake` वस्तुबाट उपलब्ध छ, जुन हामी केही प्यारामिटरहरू प्रयोग गरेर अनुकूलित गर्न सकिन्छ। हाम्रो अवस्थामा, हामीले एउटा कुञ्जीशब्दको न्यूनतम लम्बाइ ५ अक्षरमा सेट गर्नेछौं, दस्तावेजमा कुञ्जीशब्दको न्यूनतम आवृत्ति ३ मा सेट गर्नेछौं, र कुञ्जीशब्दमा अधिकतम शब्दहरूको संख्या २ मा सेट गर्नेछौं। अन्य मानहरूसँग खेल्न स्वतन्त्र महसुस गर्नुस् र परिणाम अवलोकन गर्नुस्।\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"हामीले महत्त्वको स्तरसँग सम्बन्धित शब्दहरूको सूची प्राप्त गर्यौं। तपाईंले देख्न सक्नुहुन्छ, सबैभन्दा महत्त्वपूर्ण विषयहरू, जस्तै मशीन लर्निङ र बिग डाटा, सूचीको शीर्ष स्थानमा छन्।\n",
"हामीले सम्बन्धित महत्त्वको डिग्री सहितका पदहरूको सूची प्राप्त गरेका छौं। तपाईंले देख्न सक्नुहुन्छ, सबैभन्दा सान्दर्भिक विषयहरू, जस्तै मेशीन लर्निंग र ठूलो डाटा, सूचीमा शीर्ष स्थानहरूमा उपस्थित छन्।\n",
"\n",
"## चरण ४: नतिजा दृश्यात्मक बनाउने\n",
"## Step 4: परिणामको दृश्यांकन\n",
"\n",
"मानिसहरूले डेटा दृश्यात्मक रूपमा सबैभन्दा राम्रोसँग बुझ्न सक्छन्। त्यसैले केही जानकारी निकाल्नका लागि डेटा दृश्यात्मक बनाउनु प्रायः उपयुक्त हुन्छ। हामी `matplotlib` लाइब्रेरी प्रयोग गरेर कुञ्जीशब्दहरूको महत्त्वको साथमा साधारण वितरणको ग्राफ बनाउन सक्छौं:\n"
"मान्छेहरूले डेटा सबैभन्दा राम्रोसँग दृश्यरुपमा व्याख्या गर्न सक्छन्। त्यसैले प्रायः केही अन्तर्दृष्टिहरू निकाल्न डेटा दृश्यांकन गर्नु बुद्धिमानी हुन्छ। हामी Python मा `matplotlib` पुस्तकालय प्रयोग गरेर उनीहरूको सान्दर्भिकता सहित कीवर्डहरूको सरल वितरण प्लट गर्न सक्दछौं:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"यद्यपि, शब्द आवृत्तिहरूलाई देखाउने अझ राम्रो तरिका छ - **शब्द बादल** प्रयोग गरेर। हाम्रो कुञ्जीशब्द सूचीबाट शब्द बादल बनाउन अर्को पुस्तकालय स्थापना गर्न आवश्यक हुनेछ।\n"
"तर, शब्द आवृत्तिहरूलाई दृश्यात्मक बनाउन अझ राम्रो तरिका छ - **Word Cloud** प्रयोग गरेर। हामी हाम्रो कुञ्जीशब्द सूचीबाट शब्द बादल प्लट गर्न अर्को पुस्तकालय स्थापना गर्नुपर्नेछ।\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` वस्तु मूल पाठ वा पहिले गणना गरिएको शब्दहरूको सूची तिनीहरूको आवृत्तिहरूसँग लिने र छवि फिर्ता गर्ने जिम्मेवार छ, जसलाई त्यसपछि `matplotlib` प्रयोग गरेर प्रदर्शन गर्न सकिन्छ:\n"
"`WordCloud` वस्तुले मूल पाठ वा तिनका आवृत्तिहरू सहितको पूर्वगणना गरिएको शब्दहरूको सूची लिन्छ, र एक छवि फिर्ता दिन्छ, जुन त्यसपछि `matplotlib` प्रयोग गरेर प्रदर्शन गर्न सकिन्छ:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"हामी मूल पाठलाई `WordCloud` मा पनि पास गर्न सक्छौं - हेरौं कि हामी समान परिणाम प्राप्त गर्न सक्षम छौं कि छैन:\n"
"हामीले मूल पाठलाई पनि `WordCloud` मा पास गर्न सक्छौं - हेर्नुहोस् हामी समान परिणाम प्राप्त गर्न सक्षम छौं कि छैनौं:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"तपाईं देख्न सक्नुहुन्छ कि शब्द बादल अब अझ प्रभावशाली देखिन्छ, तर यसमा धेरै अनावश्यक शब्दहरू (जस्तै `Retrieved on` जस्ता असम्बन्धित शब्दहरू) पनि समावेश छन्। साथै, हामीलाई दुई शब्दहरू मिलेर बनेका कुञ्जीशब्दहरू, जस्तै *data scientist* वा *computer science*, कम प्राप्त हुन्छन्। यसको कारण RAKE एल्गोरिदमले पाठबाट राम्रो कुञ्जीशब्दहरू चयन गर्न धेरै राम्रो काम गर्छ। यो उदाहरणले डाटा पूर्व-प्रशोधन र सफाइको महत्त्वलाई देखाउँछ, किनभने अन्त्यमा स्पष्ट तस्वीरले हामीलाई राम्रो निर्णय लिन सहयोग पुर्याउँछ।\n",
"तपाईंले देख्न सक्नुहुन्छ कि वर्ड क्लाउड अब बढी प्रभावशाली देखिन्छ, तर यसमा धेरै आवाज पनि छ (जस्तै `Retrieved on` जस्ता असम्बन्धित शब्दहरू)। साथै, हामीले दुई शब्दहरू मिलेर बनेका कम कुञ्जीशब्दहरू पाउँछौं, जस्तै *data scientist*, वा *computer science*। यो किनभने RAKE एल्गोरिद्मले टेक्स्टबाट राम्रो कुञ्जीशब्दहरू छनौट गर्न धेरै राम्रो काम गर्छ। यो उदाहरणले डाटा पूर्व-प्रक्रिया र सफाईको महत्त्व देखाउँछ, किनभने अन्त्यमा स्पष्ट तस्वीरले हामीलाई राम्रो निर्णय लिन अनुमति दिनेछ।\n",
"\n",
"यस अभ्यासमा हामीले विकिपेडियाको पाठबाट कुञ्जीशब्दहरू र शब्द बादलको रूपमा केही अर्थ निकाल्ने सरल प्रक्रिया पार गरेका छौं। यो उदाहरण धेरै सरल छ, तर यसले डाटा वैज्ञानिकले डाटासँग काम गर्दा लिने सबै सामान्य चरणहरू राम्रोसँग प्रदर्शन गर्छ, डाटा प्राप्तिबाट लिएर भिजुअलाइजेसनसम्म।\n",
"यस अभ्यासमा हामीले विकिपीडिया टेक्स्टबाट केहि अर्थ निकाल्ने सरल प्रक्रिया पार गर्यौं, कुञ्जीशब्द र वर्ड क्लाउडको रूपमा। यो उदाहरण धेरै सरल छ, तर यसले राम्रोसँग ती सबै सामान्य कदमहरू प्रदर्शन गर्छ जुन डाटा वैज्ञानिकहरूले डेटा संग काम गर्दा लिन्छन्, डाटा अधिग्रहणबाट सुरु गरेर, भिजुअलाइजेसन सम्म।\n",
"\n",
"हाम्रो पाठ्यक्रममा हामी ती सबै चरणहरूलाई विस्तृत रूपमा छलफल गर्नेछौं।\n"
"हाम्रो पाठ्यक्रममा हामी ती सबै कदमहरू विस्तारमा छलफल गर्नेछौं।\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**अस्वीकरण**: \nयो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सटीकता सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषामा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्त्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याका लागि हामी जिम्मेवार हुने छैनौं।\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**अस्वीकरण**:\nयो दस्तावेज AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) बाट अनुवाद गरिएको हो। हामी यथासम्भव शुद्धताको प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटि वा अशुद्धता हुनसक्छ। मूल भाषा मा रहेको दस्तावेजलाई प्रामाणिक स्रोतको रूपमा लिनुहोस्। महत्वपूर्ण जानकारीको लागि पेशेवर मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट हुने कुनै पनि गलतफहमी वा गलत व्याख्याका लागि हामी जिम्मेवार छैनौं।\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"# चुनौती: डेटा विज्ञान सम्बन्धी पाठको विश्लेषण\n",
"# चुनौती: डेटा विज्ञान बारे पाठ विश्लेषण\n",
"\n",
"> *यस नोटबुकमा, हामी विभिन्न URL - मेशिन लर्निङको विकिपीडिया लेख प्रयोग गरेर प्रयोग गर्छौं। तपाईं देख्न सक्नुहुन्छ कि, डेटा विज्ञानको तुलनामा, यो लेखमा धेरै शब्दावलीहरू छन्, जसले विश्लेषणलाई अझ समस्याग्रस्त बनाउँछ। कीवर्ड निकालिसकेपछि डेटा सफा गर्न अर्को तरिका खोज्न आवश्यक छ, ताकि बारम्बार प्रयोग हुने तर अर्थपूर्ण नभएका शब्द संयोजनहरू हटाउन सकियोस्।*\n",
"> *यस नोटबुकमा, हामी विभिन्न URL - मेशिन लर्निङ्ग सम्बन्धी विकिपिडिया लेख प्रयोग गर्ने प्रयोग गर्छौँ। तपाईं देख्न सक्नुहुन्छ कि डेटा विज्ञान भन्दा फरक यो लेखमा धेरै शब्दहरू छन्, जसले विश्लेषणलाई अझ जटिल बनाउँछ। हामीले कुञ्जीशब्द निकाल्ने काम गरेपछि डाटा सफा गर्ने अर्को तरिका फेला पार्नु पर्छ, जसले केही बारम्बार आउने तर अर्थहीन शब्द संयोजनहरू हटाउन सकियोस्।*\n",
"\n",
"यस उदाहरणमा, हामी परम्परागत डेटा विज्ञान प्रक्रियाका सबै चरणहरू समेट्ने एउटा साधारण अभ्यास गर्नेछौं। तपाईंले कुनै कोड लेख्न आवश्यक छैन, तपाईं केवल तलका सेलहरू क्लिक गरेर तिनीहरूलाई कार्यान्वयन गर्न सक्नुहुन्छ र परिणाम अवलोकन गर्न सक्नुहुन्छ। चुनौतीको रूपमा, तपाईंलाई यो कोड विभिन्न डेटा प्रयोग गरेर प्रयास गर्न प्रोत्साहित गरिन्छ।\n",
"यस उदाहरणमा, हामी परम्परागत डेटा विज्ञान प्रक्रियाका सबै चरणहरू समेट्ने साधारण अभ्यास गरौं। तपाईंले कुनै कोड लेख्न जरूरी छैन, तलका सेलहरू क्लिक गरेर तिनीहरू चलाउन र परिणाम हेर्न सक्नुहुन्छ। चुनौतीको रूपमा, तपाईंलाई यो कोड विभिन्न डाटासँग प्रयोग गर्न प्रोत्साहित गरिन्छ।\n",
"\n",
"## उद्देश्य\n",
"## लक्ष्य\n",
"\n",
"यस पाठमा, हामी डेटा विज्ञानसँग सम्बन्धित विभिन्न अवधारणाहरूको चर्चा गर्दैछौं। **पाठ खनन** गरेर थप सम्बन्धित अवधारणाहरू पत्ता लगाउने प्रयास गरौं। हामी डेटा विज्ञान सम्बन्धी पाठबाट सुरु गर्नेछौं, त्यसबाट कीवर्ड निकाल्नेछौं, र त्यसपछि परिणामलाई दृश्यात्मक बनाउने प्रयास गर्नेछौं।\n",
"यस पाठमा, हामी डेटा विज्ञानसँग सम्बन्धित विभिन्न अवधारणाहरू छलफल गर्दै आएका छौं। अब केही **पाठ खानी** गरेर सम्बन्धित थप अवधारणाहरू पत्ता लगाउने प्रयास गरौं। हामी डेटा विज्ञानको बारेमा एउटा पाठबाट सुरु गर्नेछौं, त्यसबाट कुञ्जीशब्द निकाल्नेछौं, र त्यसपछि परिणामलाई दृश्यमा उतार्नेछौं।\n",
"\n",
"पाठको रूपमा, म विकिपीडियाको डेटा विज्ञान पृष्ठ प्रयोग गर्नेछु:\n"
"पाठको रूपमा, म विकिपिडियाको डेटा विज्ञान पृष्ठ प्रयोग गर्नेछु:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## चरण १: डाटा प्राप्त गर्ने\n",
"## चरण 1: डाटा प्राप्त गर्दै\n",
"\n",
"प्रत्येक डाटा विज्ञान प्रक्रियाको पहिलो चरण भनेको डाटा प्राप्त गर्नु हो। हामीले यो गर्नका लागि `requests` लाइब्रेरी प्रयोग गर्नेछौं:\n"
"हरेक डेटा विज्ञान प्रक्रियाको पहिलो चरण हो डाटा प्राप्त गर्नु। हामी त्यसका लागि `requests` पुस्तकालय प्रयोग गर्नेछौं:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## चरण २: डाटालाई रूपान्तरण गर्नु\n",
"## चरण २: डेटा रूपान्तरण\n",
"\n",
"अर्को चरण भनेको डाटालाई प्रशोधनका लागि उपयुक्त स्वरूपमा रूपान्तरण गर्नु हो। हाम्रो अवस्थामा, हामीले पृष्ठबाट HTML स्रोत कोड डाउनलोड गरेका छौं, र यसलाई साधारण पाठमा रूपान्तरण गर्न आवश्यक छ।\n",
"अर्को चरण भनेको डेटा प्रशोधनका लागि उपयुक्त स्वरूपमा रूपान्तरण गर्नु हो। हाम्रो केसमा, हामीले पृष्ठबाट HTML स्रोत कोड डाउनलोड गरेका छौं, र हामीलाई यसलाई सादा पाठमा रूपान्तरण गर्न आवश्यक छ।\n",
"\n",
"यसलाई गर्नका लागि धेरै तरिकाहरू छन्। हामी Python को साधारण बिल्ट-इन [HTMLParser](https://docs.python.org/3/library/html.parser.html) वस्तु प्रयोग गर्नेछौं। हामीले `HTMLParser` वर्गलाई सबक्लास गर्नुपर्छ र HTML ट्यागहरूभित्रको सबै पाठ सङ्कलन गर्ने कोड परिभाषित गर्नुपर्छ, तर `<script>` र `<style>` ट्यागहरू बाहेक।\n"
"यसलाई गर्ने धेरै तरिकाहरू छन्। हामीले [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) प्रयोग गर्नेछौं, जुन HTML पार्सिङका लागि लोकप्रिय पाइथन लाइब्रेरी हो। BeautifulSoup ले हामीलाई निश्चित HTML तत्वहरू लक्षित गर्न अनुमति दिन्छ, जसले गर्दा हामी विकिपीडियाको मुख्य लेख सामग्रीमा केन्द्रित हुन सक्छौं र केही नेभिगेशन मेनुहरू, साइडबारहरू, फुटरहरू, र अन्य अप्रासंगिक सामग्रीहरू घटाउन सक्छौं (यद्यपि केही बोइलरप्लेट पाठ अझै बाँकी हुन सक्छ)।\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"पहिला, हामीलाई HTML पार्सिङको लागि BeautifulSoup लाइब्रेरी इन्स्टल गर्न आवश्यक छ:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## चरण ३: जानकारी प्राप्त गर्दै\n",
"## Step 3: विचारहरू प्राप्त गर्दै\n",
"\n",
"सबैभन्दा महत्त्वपूर्ण चरण भनेको हाम्रो डाटालाई यस्तो रूपमा बदल्नु हो जसबाट हामी जानकारी निकाल्न सकौं। हाम्रो केसमा, हामी पाठबाट मुख्य शब्दहरू निकाल्न चाहन्छौं, र हेर्न चाहन्छौं कि कुन शब्दहरू बढी अर्थपूर्ण छन्।\n",
"सबैभन्दा महत्वपूर्ण कदम भनेको हाम्रा डेटा केही रूपान्तरण गर्नु हो जसबाट हामी विचारहरू निकाल्न सक्छौं। हाम्रो अवस्थामा, हामी पाठबाट कुञ्जीशब्दहरू निकाल्न चाहन्छौं, र कुन कुञ्जीशब्दहरू बढी अर्थपूर्ण छन् हेर्न चाहन्छौं।\n",
"\n",
"हामी मुख्य शब्द निकाल्नको लागि [RAKE](https://github.com/aneesha/RAKE) नामक Python लाइब्रेरी प्रयोग गर्नेछौं। पहिलो, यदि यो लाइब्रेरी उपलब्ध छैन भने यसलाई स्थापना गरौं:\n"
"हामी कुञ्जीशब्द निकाल्नका लागि Python लाइब्रेरी [RAKE](https://github.com/aneesha/RAKE) प्रयोग गर्नेछौं। पहिले, यदि यो लाइब्रेरी उपलब्ध छैन भने यो इन्स्टल गरौं:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"मुख्य कार्यक्षमता `Rake` वस्तुबाट उपलब्ध छ, जसलाई हामी केही प्यारामिटरहरू प्रयोग गरेर अनुकूलन गर्न सक्छौं। हाम्रो अवस्थामा, हामी कुञ्जीशब्दको न्यूनतम लम्बाइ ५ अक्षर, दस्तावेजमा कुञ्जीशब्दको न्यूनतम आवृत्ति ३, र कुञ्जीशब्दमा अधिकतम शब्दहरूको संख्या २ मा सेट गर्नेछौं। अन्य मानहरूसँग खेल्न र परिणाम अवलोकन गर्न स्वतन्त्र महसुस गर्नुहोस्।\n"
"मुख्य कार्यक्षमता `Rake` वस्तुबाट उपलब्ध छ, जुन हामीले केही प्यारामिटरहरूको प्रयोग गरेर अनुकूलित गर्न सक्छौं। हाम्रो अवस्थामा, हामी एउटा कुञ्जीशब्दको न्यूनतम लम्बाई ५ अक्षरमा, दस्तावेजमा कुञ्जीशब्दको न्यूनतम आवृत्ति ३ मा, र कुञ्जीशब्दमा शब्दहरूको अधिकतम संख्या २ मा सेट गर्नेछौं। अन्य मानहरूसँग खेल्न नहिचकिचाउनुहोस् र परिणामलाई अवलोकन गर्नुहोस्।\n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"हामीले महत्त्वको डिग्रीसँग सम्बन्धित शब्दहरूको सूची प्राप्त गर्यौं। तपाईंले देख्न सक्नुहुन्छ, सबैभन्दा महत्त्वपूर्ण क्षेत्रहरू, जस्तै मेसिन लर्निङ र बिग डाटा, सूचीको शीर्ष स्थानमा छन्।\n",
"\n",
"## चरण ४: नतिजा दृश्यात्मक बनाउने\n",
"हामीले महत्वको डिग्रीसँग सम्बन्धित सर्तहरूको सूची प्राप्त गर्यौं। तपाईंले देख्न सक्नुहुन्छ, सबैभन्दा सान्दर्भिक विषयहरू, जस्तै मेसिन लर्निङ र ठूलो डेटा, शीर्ष स्थानहरूमा सूचीमा उपस्थित छन्।\n",
"\n",
"मानिसहरूले डेटा दृश्यात्मक रूपमा सबैभन्दा राम्रोसँग बुझ्न सक्छन्। त्यसैले, केही अन्तर्दृष्टि निकाल्नका लागि डेटा दृश्यात्मक बनाउनु प्रायः उपयोगी हुन्छ। हामी `matplotlib` पुस्तकालयलाई प्रयोग गरेर कुञ्जीशब्दहरूको महत्त्वको साथमा साधारण वितरणको ग्राफ बनाउन सक्छौं:\n"
"## Step 4: परिणामलाई दृश्यात्मक बनाउने\n",
"\n",
"मान्छेहरूले डेटा दृश्यात्मक रूपमा सबैभन्दा राम्रो व्याख्या गर्न सक्छन्। त्यसैले केही सूचनाहरू निकाल्नको लागि प्रायः डेटा दृश्यात्मक बनाउनु उपयुक्त हुन्छ। हामी यीवाक्यसँग_keywords_को साधारण वितरण प्लट गर्न Python मा `matplotlib` पुस्तकालय प्रयोग गर्न सक्छौं:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"यद्यपि, शब्द आवृत्तिहरूलाई देखाउने अझ राम्रो तरिका छ - **शब्द बादल** प्रयोग गरेर। हाम्रो कुञ्जीशब्द सूचीबाट शब्द बादल बनाउन अर्को पुस्तकालय स्थापना गर्न आवश्यक हुनेछ।\n"
"तर, शब्द आवृत्तिहरूलाई दृश्यात्मक बनाउनको लागि अझ राम्रो तरिका छ - **Word Cloud** प्रयोग गरेर। हाम्रो कुञ्जीशब्द सूचीबाट शब्द बादल बनाउन अर्को पुस्तकालय स्थापना गर्न आवश्यक पर्छ।\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` वस्तु मूल पाठ वा पहिले गणना गरिएको शब्दहरूको सूची तिनीहरूको आवृत्तिहरूसँग लिन्छ, र छवि फिर्ता गर्छ, जसलाई त्यसपछि `matplotlib` प्रयोग गरेर प्रदर्शन गर्न सकिन्छ:\n"
"`WordCloud` वस्तु मूल पाठ वा तिनीहरूको आवृत्ति सहित पूर्व-गणना गरिएका शब्दहरूको सूची लिन जिम्मेवार हुन्छ, र एउटा छवि फर्काउँछ, जुन पछि `matplotlib` प्रयोग गरेर प्रदर्शन गर्न सकिन्छ:\n"
],
"metadata": {}
},
@ -441,7 +440,7 @@
{
"cell_type": "markdown",
"source": [
"हामी मूल पाठलाई `WordCloud` मा पनि पास गर्न सक्छौं - हेरौं कि हामी समान परिणाम प्राप्त गर्न सक्षम छौं कि छैन:\n"
"हामी `WordCloud` मा मूल पाठ पनि पास गर्न सक्छौं - हेरौं हामीसँग समान परिणाम आउँछ कि छैन:\n"
],
"metadata": {}
},
@ -490,11 +489,11 @@
{
"cell_type": "markdown",
"source": [
"तपाईं देख्न सक्नुहुन्छ कि शब्द बादल अब अझ प्रभावशाली देखिन्छ, तर यसमा धेरै अनावश्यक शब्दहरू (जस्तै `Retrieved on` जस्ता असम्बन्धित शब्दहरू) पनि समावेश छन्। साथै, हामीलाई दुई शब्दहरू मिलेर बनेका कुञ्जीशब्दहरू, जस्तै *data scientist* वा *computer science*, कम प्राप्त हुन्छन्। यसको कारण RAKE एल्गोरिदमले पाठबाट राम्रो कुञ्जीशब्दहरू चयन गर्न धेरै राम्रो काम गर्छ। यो उदाहरणले डाटा पूर्व-प्रशोधन र सफाइको महत्त्वलाई देखाउँछ, किनभने अन्त्यमा स्पष्ट तस्वीरले हामीलाई राम्रो निर्णय लिन सहयोग गर्दछ।\n",
"तपाईंले देख्न सक्नुहुन्छ कि शब्द बादल अब बढी प्रभावशाली देखिन्छ, तर यसमा धेरै अवाञ्छित शब्दहरू पनि छन् (जस्तै `Retrieved on` जस्ता अप्रासंगिक शब्दहरू)। साथै, हामीलाई कम कीवर्डहरू प्राप्त हुन्छन् जुन दुई शब्दहरू मिलेर बनेका छन्, जस्तै *data scientist* वा *computer science*। यसको कारण RAKE एल्गोरिदमले पाठबाट राम्रो कीवर्डहरू चयन गर्न धेरै राम्रो काम गर्छ। यस उदाहरणले डेटा पूर्व-प्रक्रिया र सफाइको महत्त्व देखाउँछ, किनभने अन्त्यमा स्पष्ट चित्रले हामीलाई राम्रो निर्णय लिन अनुमति दिन्छ। \n",
"\n",
"यस अभ्यासमा हामीले विकिपेडियाको पाठबाट केही अर्थ निकाल्ने सरल प्रक्रिया पार गरेका छौं, कुञ्जीशब्द र शब्द बादलको रूपमा। यो उदाहरण धेरै सरल छ, तर यसले डाटा वैज्ञानिकले डाटासँग काम गर्दा लिने सबै सामान्य चरणहरू राम्रोसँग देखाउँछ, डाटा प्राप्तिबाट लिएर भिजुअलाइजेसनसम्म।\n",
"यस अभ्यासमा हामीले विकिपीडिया पाठबाट केही अर्थ निकाल्ने एक सरल प्रक्रिया पारित गरेका छौं, कीवर्ड र शब्द बादलको रूपमा। यो उदाहरण तुलनात्मक रूपमा सरल छ, तर यसले डेटा वैज्ञानिकले डेटा संग काम गर्दा लिने सबै सामान्य कदमहरू राम्रोसँग देखाउँछ, डेटा प्राप्तिबाट सुरु गरेर दृश्यांकनसम्म।\n",
"\n",
"हाम्रो पाठ्यक्रममा हामी ती सबै चरणहरूलाई विस्तृत रूपमा छलफल गर्नेछौं।\n"
"हाम्रो कोर्समा हामी ती सबै चरणहरू विस्तारमा छलफल गर्नेछौं।\n"
],
"metadata": {}
},
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**अस्वीकरण**: \nयो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सटीकता सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषामा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्त्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं। \n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**अस्वीकरण**:\nयो दस्तावेज़ [Co-op Translator](https://github.com/Azure/co-op-translator) नामक एआई अनुवाद सेवा प्रयोग गरी अनुवाद गरिएको हो। जब हामी सही अनुवादका लागि प्रयास गर्छौं, कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा गलतफहमीहरू हुनसक्छन्। मूल दस्तावेज़ आफ्नो मातृभाषामा नै प्रामाणिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीहरूको लागि व्यावसायिक मानव अनुवाद सुझाव गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलत बुझाइ वा गलत व्याख्याको लागि हामी जिम्मेवार हुँदैनौं।\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
तथ्यांक र सम्भाव्यता सिद्धान्त गणितका दुई अत्यन्तै सम्बन्धित क्षेत्रहरू हुन्, जसको डाटा विज्ञानमा ठूलो महत्त्व छ। गहिरो गणितीय ज्ञान बिना पनि डाटासँग काम गर्न सम्भव छ, तर कम्तीमा केही आधारभूत अवधारणाहरू थाहा हुनु राम्रो हुन्छ। यहाँ हामी तपाईंलाई सुरु गर्न मद्दत गर्ने छोटो परिचय प्रस्तुत गर्नेछौं।
## [पाठ अघि क्विज](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
हामी केवल कुनै निश्चित मानहरूको दायरामा भेरिएबल पर्ने सम्भाव्यताको कुरा गर्न सक्छौं, जस्तै P(t<sub>1</sub>≤X<t<sub>2</sub>)। यस अवस्थामा, सम्भाव्यता वितरणलाई **सम्भाव्यता घनत्व कार्य (probability density function)** p(x) द्वारा वर्णन गरिन्छ, जसले गर्दा
यूनिफर्म वितरणको कन्टिनुअस संस्करणलाई **कन्टिनुअस यूनिफर्म** भनिन्छ, जुन सीमित दायरामा परिभाषित हुन्छ। कुनै निश्चित लम्बाइ l को दायरामा X पर्ने सम्भाव्यता l को समानुपातिक हुन्छ, र १ सम्म पुग्छ।
@ -73,11 +73,11 @@
यहाँ हाम्रो डाटाको लागि माध्य, माध्यिका र क्वार्टाइलहरू देखाउने बक्स प्लट छ:
हाम्रो डाटामा विभिन्न खेलाडीका **भूमिकाहरू** को जानकारी समावेश भएकाले, हामी भूमिकाअनुसार बक्स प्लट पनि बनाउन सक्छौं - यसले हामीलाई बुझ्न मद्दत गर्छ कि भूमिकाहरूमा आधारित रूपमा मानहरू कसरी फरक छन्। यस पटक हामी उचाइलाई विचार गर्नेछौं:


यो चित्रले सुझाव दिन्छ कि, औसतमा, पहिलो बेसम्यानहरूको उचाइ दोस्रो बेसम्यानहरूको उचाइभन्दा बढी छ। यस पाठको पछि, हामी यो परिकल्पनालाई औपचारिक रूपमा परीक्षण गर्ने र हाम्रो डाटा सांख्यिकीय रूपमा महत्त्वपूर्ण छ भनेर देखाउने तरिका सिक्नेछौं।
@ -85,7 +85,7 @@
हाम्रो डाटाको वितरण कस्तो छ भनेर हेर्न, हामी **हिस्टोग्राम** नामक ग्राफ बनाउन सक्छौं। X-अक्षमा विभिन्न तौल अन्तरालहरूको संख्या (जसलाई **बिनहरू** भनिन्छ) हुनेछ, र ठाडो अक्षमा हाम्रो र्यान्डम भेरिएबल नमूना कुनै निश्चित अन्तरालभित्र भएको संख्या देखाइनेछ।


यस हिस्टोग्रामबाट तपाईं देख्न सक्नुहुन्छ कि सबै मानहरू निश्चित माध्य तौलको वरिपरि केन्द्रित छन्, र हामी त्यो तौलबाट जति टाढा जान्छौं, त्यति नै कम तौलका मानहरू भेटिन्छन्। अर्थात्, बेसबल खेलाडीको तौल माध्य तौलभन्दा धेरै फरक हुने सम्भाव्यता धेरै कम छ। तौलहरूको विचलनले तौलहरू माध्यबाट कति फरक हुन सक्छन् भन्ने देखाउँछ।
यदि हामी उत्पन्न गरिएका नमूनाहरूको हिस्टोग्राम बनाउँछौं भने, माथि देखाइएको चित्रसँग धेरै मिल्दोजुल्दो चित्र देखिनेछ। र यदि हामी नमूनाहरूको संख्या र बिनहरूको संख्या बढाउँछौं भने, हामी नर्मल वितरणको आदर्श चित्र बनाउन सक्छौं:


*माध्य=0 र मानक विचलन=1 भएको नर्मल वितरण*
@ -222,7 +222,7 @@ array([[1. , 0.52959196],
हाम्रो केसमा, मान 0.53 ले व्यक्तिको वजन र उचाइ बीच केही सहसंबंध रहेको संकेत गर्दछ। हामी सम्बन्धलाई दृश्य रूपमा हेर्नको लागि एउटा मानलाई अर्कोको विरुद्ध स्क्याटर प्लट बनाउन सक्छौं:


> सहसंबंध र सहविचलनका थप उदाहरणहरू [संगत नोटबुक](notebook.ipynb) मा भेट्न सकिन्छ।
> फोटो <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> द्वारा <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a मा
यी पाठहरूमा, तपाईंले डाटा साइन्स कसरी परिभाषित गरिन्छ भन्ने कुरा पत्ता लगाउनुहुनेछ र डाटा वैज्ञानिकले विचार गर्नुपर्ने नैतिक पक्षहरूको बारेमा सिक्नुहुनेछ। तपाईंले डाटा कसरी परिभाषित गरिन्छ भन्ने कुरा पनि सिक्नुहुनेछ र डाटा साइन्सका मुख्य शैक्षिक क्षेत्रहरू, जस्तै तथ्यांक र सम्भावनाको बारेमा थोरै जानकारी प्राप्त गर्नुहुनेछ।
डाटाबेसहरूले डाटा भण्डारण गर्न र क्वेरी भाषाहरू प्रयोग गरेर तिनीहरूलाई सोधपुछ गर्न धेरै प्रभावकारी तरिका प्रदान गर्छन्। तर, डाटा प्रशोधनको सबैभन्दा लचिलो तरिका भनेको आफ्नो प्रोग्राम लेखेर डाटालाई हेरफेर गर्नु हो। धेरै अवस्थामा, डाटाबेस क्वेरी गर्नु अझ प्रभावकारी हुन्छ। तर, कहिलेकाहीँ जटिल डाटा प्रशोधन आवश्यक पर्दा, SQL प्रयोग गरेर सजिलै गर्न सकिँदैन।
@ -65,7 +65,7 @@ print(f"Length of index is {len(idx)}")
अब कल्पना गर्नुहोस् कि प्रत्येक हप्ता हामी साथीहरूको लागि पार्टी आयोजना गर्छौं, र पार्टीको लागि १० प्याक आइसक्रिम थप्छौं। हामी अर्को सिरिज सिर्जना गर्न सक्छौं, हप्ताद्वारा इन्डेक्स गरिएको, यो देखाउन:
> **नोट** कि हामीले साधारण `total_items+additional_items` सिन्ट्याक्स प्रयोग गरेका छैनौं। यदि हामीले त्यसो गरेका भए, हामीले परिणामस्वरूप धेरै `NaN` (*Not a Number*) मानहरू पाउने थियौं। यो किनभने `additional_items` सिरिजमा केही इन्डेक्स बिन्दुहरूको लागि मानहरू हराइरहेका छन्, र `NaN` लाई कुनै पनि चीजमा जोड्दा `NaN` परिणाम दिन्छ। त्यसैले हामीले थप गर्दा `fill_value` प्यारामिटर निर्दिष्ट गर्न आवश्यक छ।
@ -85,7 +85,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```


### डाटाफ्रेम
@ -211,7 +211,7 @@ df = pd.read_csv('file.csv')
हामी डाटासँग कसरी व्यवहार गर्ने देखाउन चाहन्छौं, त्यसैले कृपया [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) खोल्नुहोस् र माथिदेखि तलसम्म पढ्नुहोस्। तपाईंले सेलहरू चलाउन सक्नुहुन्छ, र अन्त्यमा हामीले तपाईंका लागि छोडेका केही चुनौतीहरू गर्न सक्नुहुन्छ।
> यदि तपाईंलाई Jupyter Notebook मा कोड कसरी चलाउने थाहा छैन भने, [यस लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) हेर्नुहोस्।
@ -233,7 +233,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb) खोल्नुहोस् र माथिदेखि तलसम्म पढ्नुहोस्। तपाईंले सेलहरू चलाउन सक्नुहुन्छ, र अन्त्यमा हामीले तपाईंका लागि छोडेका केही चुनौतीहरू गर्न सक्नुहुन्छ।
> फोटो: <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">एलेक्जेन्डर सिन</a> द्वारा <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">अनस्प्ल्यास</a> मा उपलब्ध
यी पाठहरूमा, तपाईंले डाटालाई व्यवस्थापन, हेरफेर, र अनुप्रयोगहरूमा प्रयोग गर्न सकिने केही तरिकाहरू सिक्नुहुनेछ। तपाईंले सम्बन्धात्मक (relational) र गैर-सम्बन्धात्मक (non-relational) डाटाबेसहरूको बारेमा सिक्नुहुनेछ र तिनमा डाटा कसरी भण्डारण गर्न सकिन्छ भन्ने कुरा बुझ्नुहुनेछ। तपाईंले डाटालाई व्यवस्थापन गर्न Python प्रयोग गर्ने आधारभूत कुराहरू सिक्नुहुनेछ, साथै Python प्रयोग गरेर डाटालाई व्यवस्थापन र खनन गर्ने विभिन्न तरिकाहरू पत्ता लगाउनुहुनेछ।
यो रंग योजनाको परिवर्तनसँगै, तपाईंले स्पष्ट रूपमा देख्न सक्नुहुन्छ कि महको प्रति पाउन्ड मूल्यमा वर्ष दर वर्ष बलियो प्रगति भएको छ। वास्तवमा, यदि तपाईं डेटाको नमूना सेट हेर्नुहुन्छ (उदाहरणका लागि, एरिजोना राज्य चयन गर्नुहोस्) तपाईंले वर्ष दर वर्ष मूल्य वृद्धि भएको ढाँचा देख्न सक्नुहुन्छ, केही अपवादहरू सहित:
✅ किनकि Seaborn ले एक लाइन वरिपरि डेटा समेट्दै छ, यसले "प्रत्येक x मानमा बहु मापनहरू औसत र औसत वरिपरि ९५% विश्वास अन्तराल प्लट गरेर देखाउँछ।" [स्रोत](https://seaborn.pydata.org/tutorial/relational.html)। यो समय लाग्ने व्यवहारलाई `ci=None` थपेर अक्षम गर्न सकिन्छ।
उत्तर: वास्तवमा होइन। यदि तपाईंले कुल उत्पादन हेर्नुभयो भने, यो विशेष वर्षमा बढेको जस्तो देखिन्छ, यद्यपि सामान्य रूपमा मह उत्पादनको मात्रा यी वर्षहरूमा घट्दै गएको छ।
@ -130,7 +130,7 @@ sns.relplot(
```
यस दृश्यमा, तपाईंले प्रति उपनिवेश उत्पादन र उपनिवेशहरूको संख्या वर्ष दर वर्ष, राज्य दर राज्य, सँगसँगै तुलना गर्न सक्नुहुन्छ, स्तम्भहरूको लागि wrap लाई ३ मा सेट गरेर:
यस डेटासेटका लागि, उपनिवेशहरूको संख्या र तिनीहरूको उत्पादनको सम्बन्धमा वर्ष दर वर्ष र राज्य दर राज्य केही विशेष कुरा बाहिर देखिँदैन। के यी दुई चरहरू बीचको सम्बन्ध पत्ता लगाउन हेर्ने फरक तरिका छ?
२००३ को वरिपरि आँखा बाहिर केही नजम्पे पनि, यसले हामीलाई यो पाठलाई अलिकति खुशीको नोटमा अन्त्य गर्न अनुमति दिन्छ: उपनिवेशहरूको संख्या घट्दै गएको भए पनि, उपनिवेशहरूको संख्या स्थिर हुँदैछ, यद्यपि तिनीहरूको प्रति उपनिवेश उत्पादन घट्दैछ।
यहाँ, तपाईंले `ggplot2` प्याकेज इन्स्टल गर्नुभयो र त्यसलाई `library("ggplot2")` आदेश प्रयोग गरेर कार्यक्षेत्रमा आयात गर्नुभयो। ggplot मा कुनै पनि प्लट बनाउन `ggplot()` फङ्क्सन प्रयोग गरिन्छ र तपाईं डेटासेट, x र y चरहरूलाई विशेषता रूपमा निर्दिष्ट गर्नुहुन्छ। यस अवस्थामा, हामीले लाइन प्लट बनाउन `geom_line()` फङ्क्सन प्रयोग गर्यौं।
तपाईंले के तुरुन्तै देख्नुभयो? कम्तीमा एउटा बाहिरको मान (outlier) देखिन्छ - यो त धेरै ठूलो पखेटा फैलावट हो! २०००+ सेन्टिमिटरको पखेटा फैलावट भनेको २० मिटरभन्दा बढी हो - के मिनेसोटामा प्टेरोड्याक्टाइलहरू छन्? अनुसन्धान गरौं।
लेबलहरूलाई ४५ डिग्रीमा घुमाउँदा पनि धेरै पढ्न गाह्रो छ। अर्को रणनीति प्रयास गरौं: बाहिरका मानहरूलाई मात्र लेबल गरौं र चार्टभित्रै लेबल राखौं। स्क्याटर चार्ट प्रयोग गरेर लेबलिङका लागि बढी ठाउँ बनाऔं:
तलको स्निपेटमा, हामीले डेटा हेरफेर र समूह गर्नका लागि [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) र [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) प्याकेजहरू इन्स्टल गर्यौं। त्यसपछि, `ggplot2` प्रयोग गरेर बार चार्ट प्लट गर्यौं।


तर यो बार चार्ट पढ्न गाह्रो छ किनभने धेरै गैर-समूहित डेटा छ। तपाईंले प्लट गर्न चाहेको डेटा मात्र चयन गर्न आवश्यक छ। चराहरूको श्रेणीको आधारमा लम्बाइ हेर्नुहोस्।
तपाईंले `Category` स्तम्भमा अद्वितीय मानहरूको गणना गर्नुभयो र त्यसलाई नयाँ डेटाफ्रेम `birds_count` मा क्रमबद्ध गर्नुभयो। यो क्रमबद्ध डेटालाई `ggplot2` प्रयोग गरेर बार चार्टमा प्लट गर्यौं। `coord_flip()` ले तेर्सो बारहरू प्लट गर्छ।
यो बार चार्टले प्रत्येक श्रेणीमा चराहरूको सङ्ख्याको राम्रो दृश्य दिन्छ। एक झलकमा, तपाईंले देख्न सक्नुहुन्छ कि यस क्षेत्रमा सबैभन्दा धेरै सङ्ख्यामा चरा हाँस/बतासे/पानीपक्षी श्रेणीमा छन्। मिनेसोटा '१०,००० तालहरूको भूमि' भएकाले यो आश्चर्यजनक छैन!
यसले प्रत्येक चराको क्रम अनुसार शरीरको लम्बाइको सामान्य वितरणको झलक दिन्छ, तर यो वास्तविक वितरण देखाउनको लागि उत्तम तरिका होइन। यो कार्य सामान्यतया हिस्टोग्राम बनाएर गरिन्छ।
जस्तो देखिन्छ, यस डेटासेटका 400+ चराहरूको अधिकांश Max Body Mass 2000 भन्दा कमको दायरामा पर्दछन्। `bins` प्यारामिटरलाई उच्च संख्यामा, जस्तै 30 मा परिवर्तन गरेर डाटाको बारेमा थप जानकारी प्राप्त गर्नुहोस्:
यो चार्टले वितरणलाई अलि बढी विस्तृत रूपमा देखाउँछ। कम बाँया तिर झुकिएको चार्ट बनाउन, तपाईंले निश्चित दायराभित्रको डाटा मात्र चयन गरेर सुनिश्चित गर्न सक्नुहुन्छ:


✅ अन्य फिल्टरहरू र डाटाका बिन्दुहरू प्रयास गर्नुहोस्। डाटाको पूर्ण वितरण हेर्नको लागि, `['MaxBodyMass']` फिल्टर हटाएर लेबल गरिएको वितरणहरू देखाउनुहोस्।


न्यूनतम पखेटा फैलावट र संरक्षण स्थितिको बीचमा राम्रो सम्बन्ध देखिँदैन। यस विधि प्रयोग गरेर डेटासेटका अन्य तत्वहरू परीक्षण गर्नुहोस्। तपाईं विभिन्न फिल्टरहरू पनि प्रयास गर्न सक्नुहुन्छ। के तपाईं कुनै सम्बन्ध पाउनुहुन्छ?
तपाईंले देख्न सक्नुहुन्छ कि यो प्लटले न्यूनतम पखेटा फैलावट डाटाको लागि अघिल्लो चार्टलाई प्रतिध्वनित गर्दछ; यो केवल अलि चिल्लो छ। यदि तपाईंले दोस्रो चार्टमा रहेको जंगली MaxBodyMass लाइनलाई चिल्लो बनाउन चाहनुहुन्छ भने, यस विधि प्रयोग गरेर यसलाई धेरै राम्रोसँग पुनः निर्माण गर्न सक्नुहुन्छ:
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```


ल, पाई चार्ट तयार भयो, जसले यी दुई वर्गका च्याउहरूको अनुपातलाई देखाउँछ। लेबलहरूको क्रम सही राख्नु यहाँ धेरै महत्त्वपूर्ण छ, त्यसैले लेबल एरे बनाउँदा क्रम जाँच गर्न निश्चित गर्नुहोस्!
यस पाठमा, तपाईंले अनुपातहरू दृश्यात्मक बनाउन तीन तरिकाहरू सिक्नुभयो। पहिलो, तपाईंले आफ्नो डेटा श्रेणीमा समूह गर्नुपर्छ र त्यसपछि डेटा देखाउन सबैभन्दा उपयुक्त तरिका निर्णय गर्नुपर्छ - पाई, डोनट, वा वाफल। यी सबै स्वादिष्ट छन् र प्रयोगकर्तालाई डाटासेटको झलक तुरुन्तै दिन्छन्।
अब, महको मूल्य वर्ष-प्रति-वर्ष कसरी परिवर्तन भएको छ भनेर देखाउन महको रंग योजना प्रयोग गरेर उही डेटा देखाउनुहोस्। तपाईंले 'scale_color_gradientn' प्यारामिटर थपेर यो गर्न सक्नुहुन्छ:
यो रंग योजनाको परिवर्तनसँगै, तपाईंले स्पष्ट रूपमा देख्न सक्नुहुन्छ कि महको प्रति पाउन्ड मूल्य वर्ष-प्रति-वर्ष बलियो रूपमा बढिरहेको छ। उदाहरणका लागि, एरिजोना राज्यको डेटा हेर्दा, मूल्यमा वर्ष-प्रति-वर्ष वृद्धि भएको देखिन्छ, केही अपवादहरू बाहेक:
के यो आपूर्ति र मागको साधारण मामला हो? जलवायु परिवर्तन र कोलोनी कोलाप्स जस्ता कारकहरूको कारण, के वर्ष-प्रति-वर्ष किन्नको लागि कम मह उपलब्ध छ, जसका कारण मूल्य बढिरहेको छ?
यस दृश्यमा, तपाईंले प्रति उपनिवेश उत्पादन र उपनिवेशहरूको संख्या वर्ष-प्रति-वर्ष, राज्य-प्रति-राज्य तुलना गर्न सक्नुहुन्छ, ३ स्तम्भमा सेट गरिएको र्यापसँग:
यस डेटासेटका लागि, उपनिवेशहरूको संख्या र तिनको उत्पादनमा वर्ष-प्रति-वर्ष र राज्य-प्रति-राज्य केही विशेष कुरा देखिँदैन। के यी दुई चरहरू बीचको सम्बन्ध पत्ता लगाउन हेर्ने अर्को तरिका छ?
२००३ को आसपास आँखा तान्ने केही देखिँदैन, तर यसले हामीलाई यो पाठलाई अलिकति खुसीको नोटमा अन्त्य गर्न अनुमति दिन्छ: उपनिवेशहरूको संख्या घट्दो भए पनि, उपनिवेशहरूको संख्या स्थिर हुँदैछ, यद्यपि तिनको प्रति उपनिवेश उत्पादन घट्दो छ।
डाटा वैज्ञानिकले सही डाटाको लागि सही चार्ट चयन गर्न सावधान भए पनि, डाटालाई कुनै बिन्दु प्रमाणित गर्न, प्रायः डाटाको विश्वसनीयता कमजोर पार्ने तरिकामा प्रस्तुत गर्न सकिन्छ। भ्रामक चार्ट र इन्फोग्राफिक्सका धेरै उदाहरणहरू छन्!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 माथिको चित्रमा क्लिक गरेर भ्रामक चार्टहरूको बारेमा सम्मेलनको कुरा हेर्नुहोस्
यो चार्टले X अक्षलाई उल्टाएर सत्यको विपरीत देखाउँछ, मिति अनुसार:
[यो चार्ट](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) अझ भ्रामक छ, किनकि आँखा दायाँतिर तानिन्छ र निष्कर्ष निकाल्छ कि समयको साथ, विभिन्न काउन्टीहरूमा COVID केसहरू घटेका छन्। वास्तवमा, यदि तपाईं मितिहरूलाई ध्यानपूर्वक हेर्नुहुन्छ भने, तपाईंले पत्ता लगाउनुहुनेछ कि ती मितिहरूलाई भ्रामक घट्दो प्रवृत्ति देखाउन पुनः व्यवस्था गरिएको छ।
यो कुख्यात उदाहरणले रंग र उल्टिएको Y अक्ष प्रयोग गरेर भ्रम सिर्जना गर्दछ: बन्दुक-मैत्री कानून पारित भएपछि बन्दुक मृत्युहरू बढेको निष्कर्ष निकाल्नुको सट्टा, वास्तवमा आँखा उल्टो सोच्न बाध्य पारिन्छ:
अतुलनीयको तुलना गर्नु अर्को छायादार चाल हो। 'स्प्युरियस कोरिलेसन' नामक [एक अद्भुत वेबसाइट](https://tylervigen.com/spurious-correlations) छ जसले 'तथ्यहरू' प्रदर्शन गर्दछ, जस्तै माइनको डिभोर्स दर र मार्जरीनको खपत। एक Reddit समूहले डाटाको [खराब प्रयोगहरू](https://www.reddit.com/r/dataisugly/top/?t=all) पनि सङ्कलन गर्दछ।
@ -91,13 +91,13 @@
यदि तपाईंको डाटा X अक्षमा पाठ्य र विस्तृत छ भने, राम्रो पढ्नका लागि पाठलाई कोण दिन सक्नुहुन्छ। [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) ले 3D प्लटिङ प्रदान गर्दछ, यदि तपाईंको डाटाले समर्थन गर्दछ भने। यसले परिष्कृत डाटा दृश्यहरू उत्पादन गर्न सक्छ।
आजका केही उत्कृष्ट डाटा दृश्यहरू एनिमेटेड छन्। Shirley Wu ले D3 प्रयोग गरेर अद्भुत दृश्यहरू बनाएकी छिन्, जस्तै '[फिल्म फ्लावरहरू](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', जहाँ प्रत्येक फूल एउटा चलचित्रको दृश्य हो। Guardian का लागि अर्को उदाहरण 'बुस्ड आउट' हो, जसले NYC ले आफ्नो बेघर समस्या समाधान गर्न मानिसहरूलाई शहरबाट बाहिर बसमा पठाउने तरिका देखाउन दृश्यहरूलाई Greensock र D3 सँग मिलाएर स्क्रोलिटेलिङ लेखको ढाँचामा प्रस्तुत गर्दछ।
> "बुस्ड आउट: कसरी अमेरिका आफ्नो बेघर मानिसहरूलाई सार्छ" [Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) बाट। दृश्यहरू Nadieh Bremer & Shirley Wu द्वारा।
@ -107,7 +107,7 @@
तपाईंले एक वेब एप पूरा गर्नुहुनेछ जसले यस सामाजिक नेटवर्कको एनिमेटेड दृश्य प्रदर्शन गर्नेछ। यसले Vue.js र D3 प्रयोग गरेर [नेटवर्कको दृश्य](https://github.com/emiliorizzo/vue-d3-network) बनाउनको लागि बनाइएको पुस्तकालय प्रयोग गर्दछ। जब एप चलिरहेको छ, तपाईं स्क्रिनमा नोडहरू तान्न सक्नुहुन्छ ताकि डाटालाई वरिपरि मिलाउन सकियोस्।
> फोटो <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">जेन्ना ली</a> द्वारा <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">अनस्प्ल्यास</a> मा
डेटा दृश्यात्मक बनाउनु डेटा वैज्ञानिकको सबैभन्दा महत्त्वपूर्ण कामहरूमध्ये एक हो। एउटा तस्बिरले १००० शब्द बराबरको मूल्य राख्छ, र दृश्यात्मकताले तपाईंलाई तपाईंको डेटाको रोचक पक्षहरू जस्तै उचालो, असामान्य डाटा, समूहहरू, प्रवृत्तिहरू, र अन्य धेरै कुरा पत्ता लगाउन मद्दत गर्न सक्छ, जसले तपाईंको डेटा भन्न खोजिरहेको कथा बुझ्न सहयोग पुर्याउँछ।
> [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/) द्वारा फोटो
## डाटा संकलन
@ -88,7 +88,7 @@
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
| |  |
| |  |
| [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) द्वारा छवि | [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) द्वारा छवि |
## [पाठ पछि क्विज](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> फोटो <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> द्वारा <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> मा
यी पाठहरूमा, तपाईंले डाटा साइन्स जीवनचक्रका केही पक्षहरू, जस्तै डाटाको विश्लेषण र संवादको बारेमा अध्ययन गर्नुहुनेछ।
> फोटो [Jelleke Vanooteghem](https://unsplash.com/@ilumire) द्वारा [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) बाट
ठूलो डेटा प्रयोग गरेर डेटा विज्ञान गर्न आउँदा, क्लाउडले खेल बदल्न सक्छ। आगामी तीन पाठहरूमा, हामी क्लाउड के हो र यो किन उपयोगी हुन सक्छ भन्ने कुरा हेर्नेछौं। हामी हृदय विफलता सम्बन्धी डेटा सेटको अन्वेषण गर्नेछौं र कसैलाई हृदय विफलता हुने सम्भावना मूल्यांकन गर्न मद्दत गर्ने मोडेल निर्माण गर्नेछौं। हामी क्लाउडको शक्ति प्रयोग गरेर मोडेललाई दुई फरक तरिकामा प्रशिक्षण, तैनात र उपभोग गर्नेछौं। एउटा तरिका केवल प्रयोगकर्ता इन्टरफेस प्रयोग गरेर "Low code/No code" शैलीमा हुनेछ भने अर्को तरिका Azure Machine Learning Software Developer Kit (Azure ML SDK) प्रयोग गरेर हुनेछ।
चित्रले डाटा साइन्स प्रविधिहरू लागू गर्नका लागि अन्य डोमेनहरू र उदाहरणहरू देखाउँछ। अन्य अनुप्रयोगहरू अन्वेषण गर्न चाहनुहुन्छ? तलको [समीक्षा र आत्म अध्ययन](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) खण्ड जाँच गर्नुहोस्।
# नवशिक्षार्थीहरूका लागि डाटा विज्ञान - एक पाठ्यक्रम
# शुरुआतीहरूको लागि डाटा साइन्स - एक पाठ्यक्रम
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
माइक्रोसफ्टका Azure क्लाउड एड्भोकेटहरूले डाटा विज्ञान सम्बन्धी १० हप्ता, २० पाठहरूको पाठ्यक्रम उपलब्ध गराएकोमा खुशी व्यक्त गर्दछौं। प्रत्येक पाठमा पूर्व-पाठ र पछि-पाठ क्विजहरू, पाठ पूरा गर्नको लागि लेखिएको निर्देशनहरू, समाधान, र असाइन्मेन्ट समावेश छन्। हाम्रो परियोजना-आधारित शिक्षण विधिले तपाईलाई सिकाइरहँदा निर्माण गर्न अनुमति दिन्छ, जुन नयाँ सीपहरू स्थायी रूपमा बसाल्न प्रमाणित उपाय हो।
Microsoft का Azure Cloud Advocates ले डाटा साइन्स सम्बन्धी १० हप्ते, २० पाठहरूको पाठ्यक्रम प्रदान गर्न पाउँदा खुशी छ। हरेक पाठमा पूर्व-पाठ र पछि-पाठ क्विजहरू, पाठ पूरा गर्न लेखिएका निर्देशनहरू, समाधान, र असाइनमेन्टहरू समावेश छन्। हाम्रो परियोजना-आधारित शिक्षण विधिले तपाईंलाई बनाउन सिकाउँछ, जुन नयाँ कौशलहरू 'टिकाऊ' बनाउन प्रमाणित तरिका हो।
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> यसले तपाईंलाई पाठ्यक्रम पूरा गर्न आवश्यक सबै कुरा छिटो डाउनलोडको साथ दिनेछ।
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**यदि तपाईलाई थप अनुवाद भाषा चाहिन्छ भने ती यहाँ सूचीबद्ध गरिएको छ [यहाँ](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**यदि तपाईं थप अनुवाद भाषाहरू समर्थित गर्न चाहनुहुन्छ भने ती यहाँ सूचीबद्ध छन् [यहाँ](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
हामीसँग डिस्कोर्डमा AI सँग सिक्ने सिरिज चलिरहेको छ, थप जान्न र हामीसँग सामेल हुन [Learn with AI Series](https://aka.ms/learnwithai/discord) मा सेप्टेम्बर १८ - ३०, २०२५ सम्म। तपाईंलाई डाटा विज्ञानको लागि GitHub Copilot प्रयोग गर्नका लागि सुझाव र तरिकाहरू प्राप्त हुनेछ।
हामीसँग डिस्कोर्डमा AI सँग सिक्ने श्रृंखला चलिरहेको छ, थप जानकारीका लागि र हामीसँग सामेल हुनुहोस् [Learn with AI Series](https://aka.ms/learnwithai/discord) १८ - ३० सेप्टेम्बर, २०२५ बाट। तपाईंले डाटा साइन्सका लागि GitHub Copilot प्रयोग गर्ने टिप्स र ट्रिक्स पाउनुहुनेछ।

# के तपाईं विद्यार्थी हुनुहुन्छ?
तलका स्रोतहरूबाट सुरू गर्नुहोस्:
तलका स्रोतहरूसँग सुरु गर्नुहोस्:
- [विद्यार्थी हब पृष्ठ](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) यस पृष्ठमा, तपाईले नवशिक्षार्थी स्रोतहरू, विद्यार्थी प्याकहरू र निशुल्क प्रमाणपत्र कुपन प्राप्त गर्ने तरिकाहरू पाउनुहुनेछ। यो पृष्ठलाई बुकमार्क गर्नुहोस् र समय-समयमा जाँच गर्नुहोस् जब हामी प्रत्येक महिनामा सामग्री परिवर्तन गर्छौं।
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) एक विश्वव्यापी विद्यार्थी राजदूत समुदायमा सहभागी हुनुहोस्, यो तपाईको माइक्रोसफ्टमा प्रवेश गर्ने बाटो हुन सक्छ।
- [विद्यार्थी हब पृष्ठ](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) यस पृष्ठमा, तपाईंले शुरुवाती स्रोतहरू, विद्यार्थी प्याकहरू र नि:शुल्क प्रमाणपत्र भौचर पाउने तरिकाहरू पाउनुहुनेछ। यो एउटा पृष्ठ हो जुन तपाईंले बुकमार्क गर्न र समय-समयमा जाँच गर्न चाहनुहुन्छ किनकि हामी मासिक रूपमा सामग्री परिवर्तन गर्छौं।
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) अन्तर्राष्ट्रिय विद्यार्थी राजदूतहरूको समुदायमा सामेल हुनुहोस्, यो तपाईंको Microsoft मा प्रवेश गर्ने अवसर हुन सक्छ।
# सुरु गर्ने तरिका
# सुरु गर्दै
## 📚 कागजातहरू
- **[इन्स्टलेशन गाइड](INSTALLATION.md)** - नवशिक्षार्थीहरूको लागि चरण-द्वारा-चरण सेटअप निर्देशनहरू
- **[प्रयोग गाइड](USAGE.md)** - उदाहरणहरू र सामान्य कार्यप्रवाहहरू
- **[समस्या समाधान](TROUBLESHOOTING.md)** - सामान्य समस्याहरूको समाधानहरू
- **[योगदान गाइड](CONTRIBUTING.md)** - यो परियोजनामा योगदान कसरी गर्ने
- **[शिक्षकहरूको लागि](for-teachers.md)** - शिक्षण निर्देशन र कक्षाकोठाका स्रोतहरू
- **[स्थापना मार्गदर्शन](INSTALLATION.md)** - शुरुवातीहरूको लागि चरण-दर-चरण सेटअप निर्देशनहरू
- **[प्रयोग मार्गदर्शन](USAGE.md)** - उदाहरणहरू र सामान्य कार्यप्रवाहहरू
- **[समस्या समाधान](TROUBLESHOOTING.md)** - सामान्य समस्याहरूका समाधानहरू
- **[योगदान गर्ने मार्गदर्शन](CONTRIBUTING.md)** - यस परियोजनामा योगदान कसरी गर्ने
- **[शिक्षकहरूको लागि](for-teachers.md)** - शिक्षण मार्गदर्शन र कक्षाकोठाका स्रोतहरू
## 👨🎓 विद्यार्थीहरूको लागि
> **पूर्ण नवशिक्षार्थीहरू**: डाटा विज्ञानमा नयाँ हुनुहुन्छ? हाम्रो [आसान उदाहरणहरू](examples/README.md) बाट सुरु गर्नुहोस्! यी सरल, राम्रो व्याख्या गरिएको उदाहरणहरूले आधारभूत कुरा बुझ्न मद्दत गर्नेछन्, यसपछि पूर्ण पाठ्यक्रममा जानुहोस्।
> **[विद्यार्थीहरू](https://aka.ms/student-page)**: यो पाठ्यक्रम आफैले प्रयोग गर्न, पूर्ण रिपोजिटरी फोर्क गर्नुहोस् र सबै अभ्यासहरू आफैँ पुरा गर्नुहोस्, पूर्व-पाठ क्विजबाट शुरु गरेर। त्यसपछि व्याख्यान पढ्नुहोस् र अरू गतिविधिहरू पुरा गर्नुहोस्। समाधान कोड नक्कल नगरी पाठहरू बुझेर परियोजनाहरू बनाउन प्रयास गर्नुहोस्; तर त्यो कोड प्रत्येक परियोजना-केन्द्रित पाठका /solutions फोल्डरहरूमा उपलब्ध छ। अर्को विचार भनेको साथीहरूसँग अध्ययन समूह बनाएर सामग्री सँगै पढ्नु हो। थप अध्ययनका लागि, हामी [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) सिफारिस गर्छौं।
> **पूर्ण शुरुवात गर्नेहरू**: डाटा साइन्समा नयाँ हुनुहुन्छ? हाम्रो [शुरुवातमै अनुकूल उदाहरणहरू](examples/README.md) बाट सुरु गर्नुहोस्! यी सरल, राम्रोसँग टिप्पणी गरिएका उदाहरणहरूले तपाईंलाई पूरा पाठ्यक्रममा जाने अघि आधारभूत कुरा बुझ्न मद्दत गर्नेछन्।
> **[विद्यार्थीहरू](https://aka.ms/student-page)**: यो पाठ्यक्रम आफैं प्रयोग गर्न, सम्पूर्ण रिपो फोर्क गरेर आफ्नै अभ्यासहरू पूरा गर्नुहोस्, पूर्व-व्याख्यान क्विजबाट सुरु गर्दै। त्यसपछि व्याख्यान पढ्नुहोस् र बाँकी क्रियाकलापहरू पूरा गर्नुहोस्। समाधान कोड प्रतिलिपि गर्ने भन्दा पाठहरू बुझेर परियोजनाहरू बनाउन प्रयास गर्नुहोस्; त्यस कोड पनि हरेक परियोजना-केंद्रित पाठमा /solutions फोल्डरमा उपलब्ध छ। अर्को विचार भनेको साथीहरूसँग अध्ययन समूह बनाएर सँगै सामग्री हेर्नु हो। थप अध्ययनको लागि, हामी [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) सिफारिस गर्दछौं।
**छिटो सुरु गर्नुहोस्:**
1. आफ्नो वातावरण सेटअप गर्न [इन्स्टलेशन गाइड](INSTALLATION.md) जाँच गर्नुहोस्
2. पाठ्यक्रमसँग कसरी काम गर्ने जान्न [प्रयोग गाइड](USAGE.md) पढ्नुहोस्
3. पाठ १ बाट सुरु गरेर क्रमिक रूपमा पढ्नुहोस्
4. सहयोगका लागि हाम्रो [Discord समुदाय](https://aka.ms/ds4beginners/discord) मा सामेल हुनुहोस्
**छिटो सुरु गर्दा:**
1. तपाईंको वातावरण सेटअप गर्न [स्थापना मार्गदर्शन](INSTALLATION.md) जाँच गर्नुहोस्
2. पाठ्यक्रम कसरी काम गर्ने थाहा पाउन [प्रयोग मार्गदर्शन](USAGE.md) समीक्षा गर्नुहोस्
3. पाठ १ बाट सुरु गरी लागातार अघि बढ्नुहोस्
4. सहयोगको लागि हाम्रो [Discord समुदाय](https://aka.ms/ds4beginners/discord) मा सामेल हुनुहोस्
## 👩🏫 शिक्षकहरूको लागि
> **शिक्षकहरू**: हामीले यो पाठ्यक्रम कसरी प्रयोग गर्ने बारे केही सुझावहरू [समावेश गरेका छौं](for-teachers.md)। हामी तपाईंको प्रतिक्रिया [हाम्रो छलफल फोरममा](https://github.com/microsoft/Data-Science-For-Beginners/discussions) पाउन चाहन्छौं!
> **शिक्षकहरू**: हामीले यस पाठ्यक्रम कसरी प्रयोग गर्ने बारे केही सुझावहरू [यहाँ](for-teachers.md) राखेका छौं। कृपया आफ्नो प्रतिक्रिया [हाम्रो छलफल मञ्चमा](https://github.com/microsoft/Data-Science-For-Beginners/discussions) दिनुहोस्!
> 🎥 माथि तस्वीरमा क्लिक गर्नुहोस् परियोजना र यसलाई बनाउने व्यक्तिहरूको भिडियो हेर्नको लागि!
> 🎥 माथिको छविमा क्लिक गर्नुहोस् परियोजनाको बारेमा भिडियोको लागि जसले यसलाई सिर्जना गरेका छन्!
## पेडागोजी
## पेडागोगी
हामीले यो पाठ्यक्रम तयार गर्दा दुई शैक्षिक सिद्धान्तहरू छनौट गरेका छौं: यसले परियोजना-आधारित हुनु र बारम्बार क्विजहरू समावेश गर्नु। यस शृंखलाको अन्त्यसम्म, विद्यार्थीहरूले डाटा विज्ञानका आधारभूत सिद्धान्तहरू सिक्नेछन्, जसमा नैतिक अवधारणाहरू, डाटा तयारी, डाटासँग काम गर्ने विभिन्न तरिकाहरू, डाटा भिजुअलाइजेशन, डाटा विश्लेषण, डाटा विज्ञानका वास्तविक-विश्व केसहरू र थप समावेश छन्।
हामीले यो पाठ्यक्रम बनाउने क्रममा दुई शैक्षिक सिद्धान्तहरू छनोट गरेका छौं: यसलाई परियोजना-आधारित बनाउन र बारम्बार क्विजहरू समावेश गर्न। यो श्रृंखलाको अन्त्यसम्म, विद्यार्थीहरूले डाटा विज्ञानका आधारभूत सिद्धान्तहरू सिक्नेछन्, जसमा नैतिक अवधारणाहरू, डाटा तयारी, डाटासँग काम गर्ने विभिन्न तरिकाहरू, डाटा दृश्यिकरण, डाटा विश्लेषण, डाटा विज्ञानका वास्तविक उपयोगका केसहरू र थप समावेश छन्।
अर्थात्, कक्षाको अगाडि एक कम जोखिमको क्विजले विद्यार्थीलाई विषय सिक्नको लागि उत्साहित गर्छ भने कक्षापछि दोस्रो क्विजले अझ राम्रो सम्झनामा मद्दत गर्छ। यो पाठ्यक्रम लचिलो र रमाइलो बनाउन डिजाइन गरिएको छ र पूरै वा आंशिक रूपमा लिन सकिन्छ। परियोजनाहरू सानोतिनोबाट सुरु भई १० हप्ता चक्रको अन्त्यसम्म जटिल हुँदै जान्छन्।
थप रूपमा, कक्षाको अघि एक पूर्व-कक्षा कम जोखिमयुक्त क्विजले शिक्षार्थीलाई विषय सिक्न उत्साहित गर्छ, जबकि कक्षाको पछि दोस्रो क्विजले थप सम्झन सक्षम पार्छ। यो पाठ्यक्रम लचिलो र रमाइलो हुने गरी डिजाइन गरिएको हो र पूर्ण रूपमा वा आंशिक रूपमा लिएर गर्न सकिन्छ। परियोजनाहरू सानातिना रूपमा सुरु हुन्छन् र १० हप्ते चक्रको अन्त्यसम्म क्रमिक रूपमा जटिल बन्छन्।
> हाम्रो [आचारसंहिता](CODE_OF_CONDUCT.md), [योगदान गर्ने तरिका](CONTRIBUTING.md), [अनुवाद](TRANSLATIONS.md) निर्देशिका पत्ता लगाउनुहोस्। हामी तपाईंको रचनात्मक अभिप्रायलाई स्वागत गर्छौं!
> हामी हाम्रो [व्यवहार संहिता](CODE_OF_CONDUCT.md), [योगदान मार्गदर्शन](CONTRIBUTING.md), र [अनुवाद दिशानिर्देशहरू](TRANSLATIONS.md) पाउन सक्नुहुन्छ। तपाईंको रचनात्मक प्रतिक्रिया स्वागत छ!
## हरेक पाठमा समावेश छ:
## प्रत्येक पाठमा समावेश छ:
- वैकल्पिक स्केच नोट
- वैकल्पिक पूरक भिडियो
- पूर्व-पाठ तत्परता क्विज
- वैकल्पिक अतिरिक्त भिडियो
- पाठपूर्व तयारी क्विज
- लिखित पाठ
- परियोजना-आधारित पाठहरूको लागि, परियोजना निर्माण गर्ने चरण-द्वारा-चरण मार्गनिर्देशन
- परियोजना-आधारित पाठहरूको लागि परियोजना कसरी निर्माण गर्ने चरण-दर-चरण गाइडहरू
> **क्विजहरू सम्बन्धी टिप्पणी**: सबै क्विजहरू Quiz-App फोल्डरमा छन्, कुल ४० क्विजहरू प्रत्येकमा तीन प्रश्नहरू। तिनीहरू पाठहरूबाट लिंक गरिएको छन्, तर क्विज एप स्थानीय रूपमा चलाउन वा Azure मा तैनाथ गर्न सकिन्छ; `quiz-app` फोल्डरमा निर्देशनहरू पालना गर्नुहोस्। तिनीहरू क्रमशः स्थानीयकरण हुँदैछन्।
> **क्विजहरूको बारेमा एउटा नोट**: सबै क्विजहरू क्विज-एप फोल्डरमा समावेश छन्, जसमा ४० क्विजहरू छन् जुन प्रत्येकमा तीन प्रश्न हुन्छन्। तिनीहरू पाठहरूबाट लिंक गरिएका छन्, तर क्विज एप स्थानीय रूपमा चलाउन वा Azure मा तैनाथ गर्न सकिन्छ; `quiz-app` फोल्डरमा निर्देशनहरू पालना गर्नुहोस्। तिनीहरू क्रमशः स्थानीयकृत हुँदैछन्।
## 🎓 नयाँ सिक्नेहरूका लागि उदाहरणहरू
## 🎓 सुरुवाती स्तरका उदाहरणहरू
**डाटा विज्ञानमा नयाँ?** हामीले विशेष [उदाहरण निर्देशिका](examples/README.md) बनाएका छौं जसले सरल, राम्रो व्याख्यात्मक कोड प्रदान गर्दछ:
**डाटा विज्ञानमा नयाँ हुनुहुन्छ?** हामीले तपाईंलाई सुरु गर्न सहयोग गर्न सरल, राम्ररी टिप्पणी गरिएको कोड सहित विशेष [उदाहरण निर्देशिका](examples/README.md) तयार पारेका छौं:
- 🌟 **हेल्लो वर्ल्ड** - तपाईंको पहिलो डाटा विज्ञान प्रोग्राम
- 📂 **डाटा लोड गर्दै** - डेटासेट पढ्न र अन्वेषण गर्न सिक्नुहोस्
- 📊 **सरल विश्लेषण** - तथ्याङ्क गणना र ढाँचाहरू खोज्नुहोस्
- 📈 **आधारभूत भिजुअलाइजेशन** - चार्ट र ग्राफहरू सिर्जना गर्नुहोस्
- 🔬 **वास्तविक परियोजना** - सुरु देखि अन्तसम्म पूरा कार्यप्रवाह
- 🌟 **हेल्लो वर्ल्ड** - तपाईंको पहिलो डाटा विज्ञान कार्यक्रम
- 📂 **डाटा लोड गर्दै** - डाटासेट पढ्न र अन्वेषण गर्न सिक्नुहोस्
| ०१ | डाटा विज्ञान परिभाषा | [परिचय](1-Introduction/README.md) | डाटा विज्ञानका आधारभूत अवधारणाहरू सिक्नु र यसले कृत्रिम बुद्धिमत्ता, मेसिन लर्निङ, र ठूलो डाटासँग कसरी सम्बन्ध राख्छ बुझ्नु। | [पाठ](1-Introduction/01-defining-data-science/README.md) [भिडियो](https://youtu.be/beZ7Mb_oz9I) | [डिमिट्री](http://soshnikov.com) |
| ०२ | डाटा विज्ञान नैतिकता | [परिचय](1-Introduction/README.md) | डाटा नैतिकता अवधारणाहरू, चुनौतीहरू र रूपरेखा। | [पाठ](1-Introduction/02-ethics/README.md) | [नित्य](https://twitter.com/nitya) |
| ०३ | डाटाको परिभाषा | [परिचय](1-Introduction/README.md) | डाटा कसरी वर्गीकृत हुन्छ र यसको सामान्य स्रोतहरू। | [पाठ](1-Introduction/03-defining-data/README.md) | [जास्मिन](https://www.twitter.com/paladique) |
| ०५ | रिलेशनल डाटासँग काम गर्ने | [डेटासँग काम](2-Working-With-Data/README.md) | रिलेशनल डाटा परिचय र SQL (स्ट्रक्चर्ड क्वेरी ल्यान्ग्वेज) प्रयोग गरी डाटा अन्वेषण र विश्लेषणका आधारहरू। | [पाठ](2-Working-With-Data/05-relational-databases/README.md) | [क्रिस्टोफर](https://www.twitter.com/geektrainer) | | |
| ०६ | नोएसक्यूएल डाटासँग काम गर्ने | [डेटासँग काम](2-Working-With-Data/README.md) | गैर-रिलेशनल डाटा परिचय, यसको विभिन्न प्रकारहरू र डक्युमेन्ट डाटाबेसहरूको अन्वेषण र विश्लेषणका आधारहरू। | [पाठ](2-Working-With-Data/06-non-relational/README.md) | [जास्मिन](https://twitter.com/paladique)|
| ०७ | पायथनसँग काम गर्ने | [डेटासँग काम](2-Working-With-Data/README.md) | पायथनका पुस्तकालयहरू जस्तै Pandas प्रयोग गरेर डाटा अन्वेषणका आधारभूतहरू। पायथन प्रोग्रामिङको आधारभूत ज्ञान आवश्यक। | [पाठ](2-Working-With-Data/07-python/README.md) [भिडियो](https://youtu.be/dZjWOGbsN4Y) | [डिमिट्री](http://soshnikov.com) |
| ०८ | डेटा तयारी | [डेटासँग काम](2-Working-With-Data/README.md) | हराएको, गलत, वा अपूरो डाटालाई सम्हाल्न सफा र रुपान्तरण गर्ने डाटा प्रविधिहरू। | [पाठ](2-Working-With-Data/08-data-preparation/README.md) | [जास्मिन](https://www.twitter.com/paladique) |
| ०९ | परिमाणहरू भिजुअलाइज गर्दै | [डेटा भिजुअलाइजेशन](3-Data-Visualization/README.md) | Matplotlib प्रयोग गरेर चराहरूको डाटा भिजुअलाइज गर्न सिक्नुहोस् 🦆 | [पाठ](3-Data-Visualization/09-visualization-quantities/README.md) | [जेन](https://twitter.com/jenlooper) |
| १० | डाटाको वितरण भिजुअलाइज गर्दै | [डेटा भिजुअलाइजेशन](3-Data-Visualization/README.md) | अन्तराल भित्रको अवलोकन र प्रवृत्तिहरू भिजुअलाइज गर्दै। | [पाठ](3-Data-Visualization/10-visualization-distributions/README.md) | [जेन](https://twitter.com/jenlooper) |
| ११ | अनुपातहरू भिजुअलाइज गर्दै | [डेटा भिजुअलाइजेशन](3-Data-Visualization/README.md) | छुट्टाछुट्टै र समूहबद्ध प्रतिशतहरू भिजुअलाइज गर्दै। | [पाठ](3-Data-Visualization/11-visualization-proportions/README.md) | [जेन](https://twitter.com/jenlooper) |
| १२ | सम्बन्धहरू भिजुअलाइज गर्दै | [डेटा भिजुअलाइजेशन](3-Data-Visualization/README.md) | डेटाहरू र उनीहरूको भेरिएबलहरूको बीचको सम्बन्ध र कोरिलेसन भिजुअलाइज गर्दै। | [पाठ](3-Data-Visualization/12-visualization-relationships/README.md) | [जेन](https://twitter.com/jenlooper) |
| १३ | अर्थपूर्ण भिजुअलाइजेशनहरू | [डेटा भिजुअलाइजेशन](3-Data-Visualization/README.md) | प्रभावकारी समस्यासम्बाधि र अन्तर्दृष्टिका लागि तपाईंका भिजुअलाइजेशनहरूलाई मूल्यवान बनाउने प्रविधिहरू र मार्गदर्शन। | [पाठ](3-Data-Visualization/13-meaningful-visualizations/README.md) | [जेन](https://twitter.com/jenlooper) |
| १४ | डाटा विज्ञान जीवनचक्र परिचय | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डाटा विज्ञान जीवनचक्र र डाटा प्राप्त गर्ने र निकाल्ने पहिलो चरण परिचय। | [पाठ](4-Data-Science-Lifecycle/14-Introduction/README.md) | [जास्मिन](https://twitter.com/paladique) |
| १५ | विश्लेषण | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डाटा विज्ञान जीवनचक्रको यो चरणले डाटाको विश्लेषण गर्ने प्रविधिहरूमा केन्द्रित छ। | [पाठ](4-Data-Science-Lifecycle/15-analyzing/README.md) | [जास्मिन](https://twitter.com/paladique) | | |
| १६ | सञ्चार | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डाटाबाट प्राप्त अन्तर्दृष्टिहरूलाई निर्णय लिनेहरूका लागि बुझ्न सजिलो बनाउने तरिकाले प्रस्तुत गर्ने चरण। | [पाठ](4-Data-Science-Lifecycle/16-communication/README.md) | [जलन](https://twitter.com/JalenMcG) | | |
| १७ | क्लाउडमा डाटा विज्ञान | [क्लाउड डाटा](5-Data-Science-In-Cloud/README.md) | क्लाउडमा डाटा विज्ञान परिचय र यसको फाइदाहरू। | [पाठ](5-Data-Science-In-Cloud/17-Introduction/README.md) | [टिफनी](https://twitter.com/TiffanySouterre) र [माउड](https://twitter.com/maudstweets) |
| १८ | क्लाउडमा डाटा विज्ञान | [क्लाउड डाटा](5-Data-Science-In-Cloud/README.md) | लो कोड उपकरणहरू प्रयोग गरेर मोडेलहरू प्रशिक्षण। |[पाठ](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [टिफनी](https://twitter.com/TiffanySouterre) र [माउड](https://twitter.com/maudstweets) |
| १९ | क्लाउडमा डाटा विज्ञान | [क्लाउड डाटा](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio प्रयोग गरेर मोडेलहरू तैनाथ गर्ने। | [पाठ](5-Data-Science-In-Cloud/19-Azure/README.md)| [टिफनी](https://twitter.com/TiffanySouterre) र [माउड](https://twitter.com/maudstweets) |
| २० | जङ्गलमा डाटा विज्ञान | [जङ्गलमा](6-Data-Science-In-Wild/README.md) | वास्तविक संसारमा डाटा विज्ञानले चलाएका परियोजनाहरू। | [पाठ](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [नित्य](https://twitter.com/nitya) |
| 01 | डाटा साइन्स परिभाषा | [परिचय](1-Introduction/README.md) | डाटा विज्ञानका आधारभूत अवधारणाहरू सिक्नुहोस् र यसले कृत्रिम बुद्धिमत्ता, मेसिन लर्निङ, र ठूलो डाटासँग कसरी सम्बन्ध राख्छ। | [पाठ](1-Introduction/01-defining-data-science/README.md) [विडियो](https://youtu.be/beZ7Mb_oz9I) | [दिमित्री](http://soshnikov.com) |
| 03 | डाटा परिभाषा | [परिचय](1-Introduction/README.md) | डाटालाई कसरी वर्गीकृत गरिन्छ र यसको सामान्य स्रोतहरू। | [पाठ](1-Introduction/03-defining-data/README.md) | [जास्मिन](https://www.twitter.com/paladique) |
| 05 | सम्बन्धित डाटासँग काम | [डाटासँग काम गर्दै](2-Working-With-Data/README.md) | सम्बन्ध डेटा परिचय र संरचित सोधपुछ भाषा (SQL) को साथ सम्बन्धित डेटा अन्वेषण र विश्लेषणका आधार। | [पाठ](2-Working-With-Data/05-relational-databases/README.md) | [क्रिस्टोफर](https://www.twitter.com/geektrainer) | | |
| 06 | नोSQL डाटासँग काम | [डाटासँग काम गर्दै](2-Working-With-Data/README.md) | गैर-साम्बन्धित डेटा परिचय, यसको विभिन्न प्रकारहरू र कागजात डाटाबेस अन्वेषण र विश्लेषणका आधार। | [पाठ](2-Working-With-Data/06-non-relational/README.md) | [जास्मिन](https://twitter.com/paladique)|
| 07 | पायथनसँग काम | [डाटासँग काम गर्दै](2-Working-With-Data/README.md) | पांडा जस्ता पुस्तकालयहरूसँग डाटा अन्वेषणको लागि पायथन प्रयोगका आधार। पायथन प्रोग्रामिङ्को आधारभूत बुझाइ सिफारिस गरिएको छ। | [पाठ](2-Working-With-Data/07-python/README.md) [विडियो](https://youtu.be/dZjWOGbsN4Y) | [दिमित्री](http://soshnikov.com) |
| 08 | डाटा तयारी | [डाटासँग काम गर्दै](2-Working-With-Data/README.md) | हराएको, inaccurate, वा अपूरो डाटा व्यवस्थापनका लागि सफा गर्ने र रूपान्तरण गर्ने प्राविधिहरू। | [पाठ](2-Working-With-Data/08-data-preparation/README.md) | [जास्मिन](https://www.twitter.com/paladique) |
यस नमूनालाई Codespace मा खोल्न यी चरणहरू पालना गर्नुहोस्:
१. कोड ड्रप-डाउन मेनुमा क्लिक गर्नुहोस् र Open with Codespaces विकल्प चयन गर्नुहोस्।
२. प्यानको तल + New codespace चयन गर्नुहोस्।
थप जानकारीको लागि [GitHub डकुमेन्टेसन](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) हेर्नुहोस्।
1. Code ड्रप-डाउन मेनुमा क्लिक गर्नुहोस् र Open with Codespaces विकल्प छान्नुहोस्।
2. प्यानको तल + New codespace छान्नुहोस्।
थप जानकारीका लागि, [GitHub कागजात](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) हेर्नुहोस्।
## VSCode Remote - Containers
तपाईंको स्थानीय कम्प्युटर र VSCode प्रयोग गरेर यो रिपोजिटरी कन्टेनरमा खोल्न यी चरणहरू पालना गर्नुहोस्, VS Code Remote - Containers एक्सटेन्सन प्रयोग गरी:
आफ्नो स्थानीय मेसिन र VSCode मार्फत यो रिपोजिटरी कन्टेनरमा खोल्न VS Code Remote - Containers एक्सटेन्सन प्रयोग गर्ने यी चरणहरू पालना गर्नुहोस्:
१. यदि यो तपाईंले विकास कन्टेनर प्रयोग गर्ने पहिलो पटक हो भने, तपाईंको प्रणालीमा Docker जडान भएको छ भनी सुनिश्चित गर्नुहोस् [सुरु गर्ने दुल्केसुचना](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) हेरेर।
1. यदि तपाईं पहिलोपटक विकास कन्टेनर प्रयोग गर्दै हुनुहुन्छ भने, कृपया तपाईंको प्रणालीले प्रि-रेक्विजिटहरू पूरा गरेको छ कि छैन जाँच गर्नुहोस् (जस्तै डोकर स्थापना गरिएको हुनु) [सुरु गर्न कागजात](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) मा।
यो रिपोजिटरी प्रयोग गर्न, तपाईंले रिपोजिटरीलाई अलग Docker भोल्युममा खोल्न सक्नुहुन्छ:
यस रिपोजिटरी प्रयोग गर्न, तपाईं या त रिपोजिटरी अलग डोकर भोल्युममा खोल्न सक्नुहुन्छ:
**सूचना**: तल, Remote-Containers: **Clone Repository in Container Volume...** कमाण्ड प्रयोग गरी स्रोत कोडलाई स्थानीय फाइल सिस्टमको सट्टा Docker भोल्युममा क्लोन गर्नेछ। कन्टेनर डेटा बचाउन भोल्युमहरू [Volumes](https://docs.docker.com/storage/volumes/) लाई प्राथमिकता दिइन्छ।
**नोट**: योअन्तर्गत, Remote-Containers: **Clone Repository in Container Volume...** आदेश चलाएर स्रोत कोड स्थानीय फाइल सिस्टमको सट्टा डोकर भोल्युममा क्लोन गर्नेछ। [भोल्युमहरू](https://docs.docker.com/storage/volumes/) कन्टेनर डाटा संरक्षणको लागि प्राथमिक विधि हुन्।
वा स्थानीय रूपमा क्लोन वा डाउनलोड गरिएको रिपोजिटरी खोल्नुहोस्:
वा स्थानीय रूपमा क्लोन गरिएको वा डाउनलोड गरिएको रिपोजिटरी खोल्नुहोस्:
- यो रिपोजिटरीलाई तपाईंको स्थानीय फाइल सिस्टममा क्लोन गर्नुहोस्।
- F1 थिचेर **Remote-Containers: Open Folder in Container...** कमाण्ड चयन गर्नुहोस्।
- यो फोल्डरको क्लोन गरिएको प्रति चयन गर्नुहोस्, कन्टेनर सुरु हुन पर्खनुहोस्, र परीक्षण गर्नुहोस्।
- यो रिपोजिटरी आफ्नो स्थानीय फाइल सिस्टममा क्लोन गर्नुहोस्।
- F1 थिच्नुहोस् र **Remote-Containers: Open Folder in Container...** आदेश छान्नुहोस्।
- यो फोल्डरको क्लोन गरिएको प्रतिलिपि छान्नुहोस्, कन्टेनर सुरु हुन कुर्नुहोस्, र प्रयोग गर्नुहोस्।
## अफलाइन पहुँच
तपाईंले [Docsify](https://docsify.js.org/#/) प्रयोग गरेर यो डकुमेन्टेसन अफलाइन चलाउन सक्नुहुन्छ। यो रिपो फोर्क गर्नुहोस्, [Docsify स्थापना गर्नुहोस्](https://docsify.js.org/#/quickstart), त्यसपछि यस रिपोको रुट फोल्डरमा `docsify serve` टाइप गर्नुहोस्। वेबसाइट तपाईंको स्थानीय होस्टमा पोर्ट ३००० मा उपलब्ध हुन्छ: `localhost:3000`।
तपाईं [Docsify](https://docsify.js.org/#/) प्रयोग गरी यस कागजातलाई अफलाइनमा सञ्चालन गर्न सक्नुहुन्छ। यो रिपो फोर्क गर्नुहोस्, आफ्नो स्थानीय मेसिनमा [Docsify स्थापना गर्नुहोस्](https://docsify.js.org/#/quickstart), त्यसपछि यस रिपोको मूल फोल्डरमा `docsify serve` टाइप गर्नुहोस्। वेबसाइट तपाईंको लोकलहोस्ट 3000 पोर्टमा सेवा हुनेछ: `localhost:3000`।
> नोट, नोटबुकहरू Docsify मार्फत रेंडर हुँदैनन्, त्यसैले जब नोटबुक चलाउनु पर्छ भने, त्यसलाई अलगगरी VS Code मा Python कर्नेल चलाएर गर्नुहोस्।
> नोट, नोटबुकहरू Docsify बाट प्रत्यक्ष देखाइँदैनन्, त्यसैले जब तपाईं नोटबुक चलाउन आवश्यक हुन्छ, त्यो फरक रूपमा VS Code मा पाइथन कर्नेल चलाएर गर्नुहोस्।
## अन्य पाठ्यक्रमहरू
हाम्रो टोलीले अन्य पाठ्यक्रमहरू पनि उत्पादन गर्छ! हेर्नुहोस्:
हाम्रो टोलीले अन्य पाठ्यक्रमहरू उत्पादन गर्छ! जाँच गर्नुहोस्:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
@ -200,7 +210,7 @@
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Agents
### Azure / Edge / MCP / एजेन्टहरू
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
@ -208,7 +218,7 @@
---
### Generative AI Series
### जेनेरेटिभ AI शृंखला
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
@ -216,7 +226,7 @@
---
### Core Learning
### कोर शिक्षा
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
@ -227,27 +237,27 @@
---
### Copilot Series
### कपालट शृंखला
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**समस्याहरू आइरहेका छन्?** सामान्य समस्याहरूको समाधानको लागि हाम्रो [समस्या समाधान मार्गदर्शन](TROUBLESHOOTING.md) जाँच गर्नुहोस्।
**समस्या आइरहेको छ?** सामान्य समस्याहरूको समाधानका लागि हाम्रो [समस्या समाधान गाइड](TROUBLESHOOTING.md) हेर्नुहोस्।
यदि तपाईं अड्किनुभएको छ वा AI एपहरू बनाउनका सम्बन्धमा कुनै प्रश्नहरू छन् भने। MCP सम्बन्धी छलफलहरूमा साथी सिक्नेलाई र अनुभवी विकासकर्तालाई सामेल हुनुहोस्। यो एक सहयोगी समुदाय हो जहाँ प्रश्नहरू स्वागतयोग्य छन् र ज्ञान स्वतन्त्र रूपमा साझा गरिन्छ।
यदि तपाईं अल्झिनु भयो वा AI एपहरू निर्माण गर्दा कुनै प्रश्न छ भने, MCP सम्बन्धी छलफलमा सहभागी हुनुहोस्। यहाँ सहयोगी समुदाय छ जहाँ प्रश्न सोध्न सकिन्छ र ज्ञान स्वतन्त्र रूपमा साझा गरिन्छ।
यस कागजातलाई एआई अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरी अनुवाद गरिएको हो। हामी शुद्धताका लागि प्रयासरत छौँ भने पनि, कृपया बुझ्नुहोस कि स्वचालित अनुवादहरूले त्रुटि वा अशुद्धता समावेश गर्न सक्छ। मौलिक कागजात यसको मूल भाषामा नै अधिकारिक स्रोत मान्नुपर्छ। महत्वपूर्ण जानकारीका लागि पेशेवर मानवीय अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार छैनौं।
**अस्वीकरण**:
यो दस्तावेज AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरी अनुवाद गरिएको हो। हामी शुद्धताको प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धता हुन सक्छ। मूल दस्तावेज यसको मूल भाषामा प्रामाणिक स्रोत मानिनु पर्छ। महत्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार छैनौं।