update-translations
parent
ca1d8b1501
commit
9adfc00e7b
@ -1,123 +1,127 @@
|
||||
# মেশিন লার্নিং এর কৌশলসমূহ
|
||||
# মেশিন লার্নিংয়ের প্রযুক্তি
|
||||
|
||||
মেশিন লার্নিং মডেল তৈরি, ব্যবহার এবং রক্ষণাবেক্ষণের প্রক্রিয়া এবং এই মডেলগুলোর জন্য ব্যবহৃত ডেটা অন্যান্য ডেভেলপমেন্ট ওয়ার্কফ্লো থেকে অনেকটাই আলাদা। এই পাঠে, আমরা এই প্রক্রিয়াকে সহজবোধ্য করব এবং প্রধান কৌশলগুলো তুলে ধরব যা আপনাকে জানতে হবে। আপনি:
|
||||
মেশিন লার্নিং মডেল তৈরির, ব্যবহারের এবং রক্ষণাবেক্ষণের প্রক্রিয়া এবং তারা যে ডেটা ব্যবহার করে তা অনেক অন্যান্য ডেভেলপমেন্ট ওয়ার্কফ্লো থেকে অনেক ভিন্ন প্রক্রিয়া। এই পাঠে, আমরা এই প্রক্রিয়াটি স্পষ্ট করব এবং আপনার জানা প্রয়োজন এমন প্রধান প্রযুক্তিগুলি তুলে ধরব। আপনি করতে পারবেন:
|
||||
|
||||
- উচ্চ পর্যায়ে মেশিন লার্নিং এর প্রক্রিয়াগুলো বুঝতে পারবেন।
|
||||
- 'মডেল', 'প্রেডিকশন', এবং 'ট্রেনিং ডেটা' এর মতো মৌলিক ধারণাগুলো অন্বেষণ করবেন।
|
||||
- উচ্চ স্তরে মেশিন লার্নিংয়ের ভিত্তি প্রক্রিয়াগুলি বুঝতে।
|
||||
- 'মডেল', 'পূর্বাভাস', এবং 'প্রশিক্ষণ ডেটা' এর মতো মূল ধারণাগুলি অন্বেষণ করতে।
|
||||
|
||||
## [পূর্ব-পাঠ কুইজ](https://ff-quizzes.netlify.app/en/ml/)
|
||||
## [পাঠের পূর্বে কুইজ](https://ff-quizzes.netlify.app/en/ml/)
|
||||
|
||||
[](https://youtu.be/4NGM0U2ZSHU "শুরু থেকে মেশিন লার্নিং - মেশিন লার্নিং এর কৌশল")
|
||||
[](https://youtu.be/4NGM0U2ZSHU "শিখনশীলদের জন্য মেশিন লার্নিং - প্রযুক্তি")
|
||||
|
||||
> 🎥 উপরের ছবিতে ক্লিক করুন এই পাঠের একটি সংক্ষিপ্ত ভিডিও দেখার জন্য।
|
||||
> 🎥 এই পাঠের একটি সংক্ষিপ্ত ভিডিও দেখতে উপরের ছবিতে ক্লিক করুন।
|
||||
|
||||
## ভূমিকা
|
||||
## পরিচিতি
|
||||
|
||||
উচ্চ পর্যায়ে, মেশিন লার্নিং (ML) প্রক্রিয়া তৈরি করার কাজটি কয়েকটি ধাপে বিভক্ত:
|
||||
উচ্চ স্তরে, মেশিন লার্নিং (এমএল) প্রক্রিয়া তৈরির কলা অনেক ধাপে বিভক্ত:
|
||||
|
||||
1. **প্রশ্ন নির্ধারণ করুন**। বেশিরভাগ ML প্রক্রিয়া এমন একটি প্রশ্ন দিয়ে শুরু হয় যা একটি সাধারণ শর্তযুক্ত প্রোগ্রাম বা নিয়ম-ভিত্তিক ইঞ্জিন দ্বারা উত্তর দেওয়া সম্ভব নয়। এই প্রশ্নগুলো সাধারণত ডেটার উপর ভিত্তি করে ভবিষ্যদ্বাণী করার দিকে মনোনিবেশ করে।
|
||||
2. **ডেটা সংগ্রহ এবং প্রস্তুত করুন**। আপনার প্রশ্নের উত্তর দিতে, আপনাকে ডেটা প্রয়োজন। আপনার ডেটার গুণমান এবং কখনও কখনও পরিমাণ নির্ধারণ করবে আপনি কতটা ভালোভাবে আপনার প্রশ্নের উত্তর দিতে পারবেন। ডেটা ভিজ্যুয়ালাইজ করা এই ধাপের একটি গুরুত্বপূর্ণ অংশ। এই ধাপে ডেটাকে ট্রেনিং এবং টেস্টিং গ্রুপে ভাগ করাও অন্তর্ভুক্ত।
|
||||
3. **ট্রেনিং পদ্ধতি নির্বাচন করুন**। আপনার প্রশ্ন এবং ডেটার প্রকৃতির উপর নির্ভর করে, আপনাকে একটি মডেল ট্রেন করার পদ্ধতি নির্বাচন করতে হবে যা আপনার ডেটাকে সঠিকভাবে প্রতিফলিত করে এবং এর বিরুদ্ধে সঠিক ভবিষ্যদ্বাণী করতে পারে। এই অংশটি নির্দিষ্ট দক্ষতা এবং প্রায়শই উল্লেখযোগ্য পরিমাণ পরীক্ষার প্রয়োজন।
|
||||
4. **মডেল ট্রেন করুন**। আপনার ট্রেনিং ডেটা ব্যবহার করে, আপনি বিভিন্ন অ্যালগরিদম ব্যবহার করে একটি মডেল ট্রেন করবেন যা ডেটার প্যাটার্নগুলো চিনতে পারে। মডেলটি অভ্যন্তরীণ ওজন ব্যবহার করতে পারে যা ডেটার নির্দিষ্ট অংশগুলোকে প্রাধান্য দিতে সামঞ্জস্য করা যায়।
|
||||
5. **মডেল মূল্যায়ন করুন**। আপনার সংগ্রহ করা সেট থেকে আগে কখনও দেখা না হওয়া ডেটা (আপনার টেস্টিং ডেটা) ব্যবহার করে আপনি মডেলটি কেমন পারফর্ম করছে তা দেখতে পারেন।
|
||||
6. **প্যারামিটার টিউনিং**। আপনার মডেলের পারফরম্যান্সের উপর ভিত্তি করে, আপনি বিভিন্ন প্যারামিটার বা ভেরিয়েবল ব্যবহার করে প্রক্রিয়াটি পুনরায় করতে পারেন যা মডেল ট্রেন করার জন্য ব্যবহৃত অ্যালগরিদমের আচরণ নিয়ন্ত্রণ করে।
|
||||
7. **প্রেডিকশন করুন**। নতুন ইনপুট ব্যবহার করে আপনার মডেলের সঠিকতা পরীক্ষা করুন।
|
||||
1. **প্রশ্ন নির্ধারণ করুন**। বেশিরভাগ এমএল প্রক্রিয়া একটি প্রশ্ন নিয়ে শুরু হয় যা সাধারণ শর্তসাপেক্ষ প্রোগ্রাম বা নিয়ম ভিত্তিক ইঞ্জিন দ্বারা উত্তর দেওয়া যায় না। এই প্রশ্নগুলি প্রায়শই ডেটার সংগ্রহের উপর ভিত্তি করে পূর্বাভাস নিয়ে আবর্তিত হয়।
|
||||
2. **ডেটা সংগ্রহ ও প্রস্তুতি**। আপনার প্রশ্নের উত্তর দিতে হলে আপনাকে ডেটা দরকার। আপনার ডেটার গুণগতমান এবং কখনও কখনও পরিমাণ নির্ধারণ করবে আপনি কত ভাল আপনার প্রাথমিক প্রশ্নের উত্তর দিতে পারবেন। ডেটা ভিজ্যুয়ালাইজ করা এই ধাপের একটি গুরুত্বপূর্ণ অংশ। এই ধাপে ডেটাকে প্রশিক্ষণ এবং পরীক্ষার গ্রুপে ভাগ করার কাজও অন্তর্ভুক্ত রয়েছে মডেল তৈরি করতে।
|
||||
3. **প্রশিক্ষণ পদ্ধতি নির্বাচন করুন**। আপনার প্রশ্ন ও ডেটার প্রকৃতির উপর নির্ভর করে, আপনাকে একটি মডেল ট্রেন করতে হবে যা আপনার ডেটাকে সেরা প্রতিফলিত করবে এবং তার বিরুদ্ধে সঠিক পূর্বাভাস দেবে। এটি আপনার এমএল প্রক্রিয়ার অংশ যা নির্দিষ্ট দক্ষতা এবং প্রায়ই প্রচুর পরীক্ষা নিরীক্ষা প্রয়োজন।
|
||||
4. **মডেল প্রশিক্ষণ দিন**। আপনার প্রশিক্ষণ ডেটা ব্যবহার করে, আপনি বিভিন্ন অ্যালগরিদম ব্যবহার করে একটি মডেল ট্রেন করবেন যা ডেটায় প্যাটার্ন চিনতে পারে। মডেলটি অন্তর্নিহিত ওজন ব্যবহার করতে পারে যা ডেটার নির্দিষ্ট অংশকে অন্য অংশের থেকে বেশি গুরুত্ব দিতে সমন্বয়যোগ্য যাতে একটি ভাল মডেল তৈরি হয়।
|
||||
5. **মডেল মূল্যায়ন করুন**। আপনি আগে কখনও দেখা না হওয়া ডেটা (আপনার পরীক্ষার ডেটা) ব্যবহার করে দেখতে পারেন মডেল কতটা কার্যকর।
|
||||
6. **প্যারামিটার সমন্বয়**। মডেলের কার্যক্ষমতার উপর ভিত্তি করে, আপনি বিভিন্ন প্যারামিটার বা ভেরিয়েবল ব্যবহার করে প্রক্রিয়াটি পুনরায় করতে পারেন যা মডেল ট্রেন করতে ব্যবহৃত অ্যালগরিদমগুলোর আচরণ নিয়ন্ত্রণ করে।
|
||||
7. **পূর্বাভাস দিন**। নতুন ইনপুট ব্যবহার করে মডেলের সঠিকতা পরীক্ষা করুন।
|
||||
|
||||
## কোন প্রশ্ন করবেন
|
||||
|
||||
কম্পিউটার ডেটার মধ্যে লুকানো প্যাটার্ন আবিষ্কার করতে বিশেষভাবে দক্ষ। এই দক্ষতা গবেষকদের জন্য খুবই সহায়ক যারা একটি নির্দিষ্ট বিষয়ে এমন প্রশ্ন করেন যা শর্তযুক্ত নিয়ম ইঞ্জিন তৈরি করে সহজে উত্তর দেওয়া সম্ভব নয়। উদাহরণস্বরূপ, একটি অ্যাকচুয়ারিয়াল কাজের ক্ষেত্রে, একজন ডেটা বিজ্ঞানী ধূমপায়ী বনাম অ-ধূমপায়ীদের মৃত্যুহারের চারপাশে হাতে তৈরি নিয়ম তৈরি করতে পারেন।
|
||||
কম্পিউটার ডেটায় লুকানো প্যাটার্ন আবিষ্কারে বিশেষ দক্ষ। গবেষকদের জন্য যারা একটি নির্দিষ্ট ক্ষেত্রে প্রশ্ন রাখেন এবং যেগুলোর উত্তর সহজে শর্তসাপেক্ষ নিয়ম ইঞ্জিন তৈরির মাধ্যমে পাওয়া যায় না, এটি খুব সাহায্যকারী।
|
||||
|
||||
যখন অনেক অন্যান্য ভেরিয়েবল সমীকরণে যুক্ত হয়, তখন একটি ML মডেল অতীত স্বাস্থ্য ইতিহাসের উপর ভিত্তি করে ভবিষ্যতের মৃত্যুহার পূর্বাভাস দিতে আরও দক্ষ হতে পারে। একটি আরও আনন্দদায়ক উদাহরণ হতে পারে এপ্রিল মাসে একটি নির্দিষ্ট স্থানের জন্য আবহাওয়ার পূর্বাভাস তৈরি করা, যেখানে ডেটা অন্তর্ভুক্ত করে অক্ষাংশ, দ্রাঘিমাংশ, জলবায়ু পরিবর্তন, সমুদ্রের নিকটবর্তীতা, জেট স্ট্রিমের প্যাটার্ন এবং আরও অনেক কিছু।
|
||||
উদাহরণস্বরূপ, একটি অ্যাকচুয়ারিয়াল কাজ দেওয়া হলে, একজন ডেটা সায়েন্টিস্ট ধূমপায়ী ও অ-ধূমপায়ীদের মৃত্যু হার নিয়ন্ত্রণ করে তৈরি কাস্টম নিয়ম তৈরি করতে পারেন।
|
||||
|
||||
✅ এই [স্লাইড ডেক](https://www2.cisl.ucar.edu/sites/default/files/2021-10/0900%20June%2024%20Haupt_0.pdf) আবহাওয়া বিশ্লেষণে ML ব্যবহারের জন্য একটি ঐতিহাসিক দৃষ্টিভঙ্গি প্রদান করে।
|
||||
কিন্তু যখন আরও অনেক ভেরিয়েবল যুক্ত হয়, তখন এমএল মডেল অতীত স্বাস্থ্যের ইতিহাসের ভিত্তিতে ভবিষ্যত মৃত্যুহার পূর্বাভাস দেওয়া আরও কার্যকর প্রমাণিত হতে পারে। একটি আনন্দদায়ক উদাহরণ হতে পারে এপ্রিল মাসে একটি নির্দিষ্ট স্থানে আবহাওয়ার পূর্বাভাস দেওয়া, যেখানে ডেটাতে অন্তর্ভুক্ত রয়েছে অক্ষাংশ, দ্রাঘিমাংশ, জলবায়ু পরিবর্তন, মহাসাগরের নিকটতা, জেট স্ট্রিমের প্যাটার্ন প্রভৃতি।
|
||||
|
||||
## মডেল তৈরির পূর্ববর্তী কাজ
|
||||
✅ এই [স্লাইড ডেক](https://www2.cisl.ucar.edu/sites/default/files/2021-10/0900%20June%2024%20Haupt_0.pdf) আবহাওয়ার মডেল নিয়ে একটি ঐতিহাসিক দৃষ্টিভঙ্গি দেয় যা আবহাওয়া বিশ্লেষণে এমএল ব্যবহারের বিষয়ে।
|
||||
|
||||
আপনার মডেল তৈরি শুরু করার আগে, কয়েকটি কাজ সম্পন্ন করতে হবে। আপনার প্রশ্ন পরীক্ষা করতে এবং একটি মডেলের পূর্বাভাসের উপর ভিত্তি করে একটি হাইপোথিসিস তৈরি করতে, আপনাকে কয়েকটি উপাদান চিহ্নিত এবং কনফিগার করতে হবে।
|
||||
## মডেল তৈরির পূর্বের কাজ
|
||||
|
||||
মডেল তৈরি শুরু করার আগে আপনাকে কিছু কাজ শেষ করতে হবে। আপনার প্রশ্ন পরীক্ষা করার এবং মডেলের পূর্বাভাসের ভিত্তিতে একটি অনুমান গড়ে তোলার জন্য আপনাকে কয়েকটি উপাদান চিহ্নিত এবং কনফিগার করতে হবে।
|
||||
|
||||
### ডেটা
|
||||
|
||||
আপনার প্রশ্নের উত্তর নিশ্চিতভাবে দিতে, সঠিক ধরনের পর্যাপ্ত ডেটা প্রয়োজন। এই পর্যায়ে আপনাকে দুটি কাজ করতে হবে:
|
||||
আপনার প্রশ্নের নিশ্চিত উত্তর দেওয়ার জন্য সঠিক ধরনের প্রচুর ডেটা প্রয়োজন। এ সময় আপনাকে দুটি জিনিস করতে হবে:
|
||||
|
||||
- **ডেটা সংগ্রহ করুন**। ডেটা বিশ্লেষণে ন্যায্যতার উপর পূর্ববর্তী পাঠটি মনে রেখে, আপনার ডেটা যত্ন সহকারে সংগ্রহ করুন। এই ডেটার উৎস, এর অন্তর্নিহিত পক্ষপাত এবং এর উৎপত্তি নথিভুক্ত করুন।
|
||||
- **ডেটা প্রস্তুত করুন**। ডেটা প্রস্তুতির প্রক্রিয়ায় কয়েকটি ধাপ রয়েছে। আপনি যদি বিভিন্ন উৎস থেকে ডেটা সংগ্রহ করেন, তাহলে এটি একত্রিত এবং স্বাভাবিকীকরণ করতে হতে পারে। ডেটার গুণমান এবং পরিমাণ উন্নত করতে বিভিন্ন পদ্ধতি ব্যবহার করতে পারেন, যেমন স্ট্রিংকে সংখ্যায় রূপান্তর করা (যেমন আমরা [ক্লাস্টারিং](../../5-Clustering/1-Visualize/README.md) এ করি)। আপনি মূল ডেটার উপর ভিত্তি করে নতুন ডেটা তৈরি করতে পারেন (যেমন আমরা [ক্লাসিফিকেশন](../../4-Classification/1-Introduction/README.md) এ করি)। আপনি ডেটা পরিষ্কার এবং সম্পাদনা করতে পারেন (যেমন আমরা [ওয়েব অ্যাপ](../../3-Web-App/README.md) পাঠের আগে করি)। অবশেষে, আপনার ট্রেনিং কৌশলের উপর নির্ভর করে, আপনি এটি র্যান্ডমাইজ এবং শাফল করতে পারেন।
|
||||
- **ডেটা সংগ্রহ করুন**। পূর্বের পাঠের ফেয়ারনেস বা ন্যায়পরায়ণতা বিষয়টি মাথায় রেখে, সাবধানে ডেটা সংগ্রহ করুন। এই ডেটা উৎস সম্পর্কে সচেতন থাকুন, কোনও অন্তর্নিহিত পক্ষপাত থাকলে জানুন এবং তার উত্স ডকুমেন্ট করুন।
|
||||
- **ডেটা প্রস্তুত করুন**। ডেটা প্রস্তুতির কয়েকটি ধাপ রয়েছে। আপনি যদি ডেটা বিভিন্ন উৎস থেকে সংগ্রহ করেন তবে সেটি একত্রিত ও স্বাভাবিককরণ করতে হবে। আপনি ডেটার মান ও পরিমাণ উন্নত করতে পারবেন বিভিন্ন পদ্ধতি ব্যবহার করে যেমন স্ট্রিং থেকে সংখ্যা রূপান্তর (যেমন আমরা [ক্লাস্টারিং](../../5-Clustering/1-Visualize/README.md) এ করি)। আপনি নতুন ডেটাও তৈরি করতে পারেন মূল ডেটার ওপর ভিত্তি করে (যেমন আমরা [ক্লাসিফিকেশন](../../4-Classification/1-Introduction/README.md) এ করি)। আপনি ডেটা পরিষ্কার ও সম্পাদনা করতে পারেন (যেমন আমরা [ওয়েব অ্যাপ](../../3-Web-App/README.md) পাঠের আগে করব)। শেষ পর্যন্ত, আপনি যদি প্রয়োজন হয় তবে ডেটা র্যান্ডমাইজ ও শাফলও করতে পারেন প্রশিক্ষণ প্রযুক্তির ওপর নির্ভর করে।
|
||||
|
||||
✅ ডেটা সংগ্রহ এবং প্রক্রিয়াকরণের পরে, একটি মুহূর্ত নিন এবং দেখুন এর আকৃতি আপনার উদ্দেশ্যপ্রাপ্ত প্রশ্নের উত্তর দিতে সক্ষম কিনা। হতে পারে যে ডেটা আপনার নির্দিষ্ট কাজের জন্য ভালো পারফর্ম করবে না, যেমন আমরা আমাদের [ক্লাস্টারিং](../../5-Clustering/1-Visualize/README.md) পাঠে আবিষ্কার করি!
|
||||
✅ ডেটা সংগ্রহ ও প্রক্রিয়াকরণের পরে, কয়েক মুহুর্ত নিন দেখে নিতে ডেটার আকৃতি আপনার প্রশ্নের উত্তর দেওয়ার জন্য যথেষ্ট কিনা। হয়তো ডেটা আপনার কাজের জন্য ভাল কার্যকর নাও হতে পারে, যেমন আমরা আমাদের [ক্লাস্টারিং](../../5-Clustering/1-Visualize/README.md) পাঠে আবিষ্কার করি!
|
||||
|
||||
### ফিচার এবং টার্গেট
|
||||
### ফিচার ও টার্গেট
|
||||
|
||||
একটি [ফিচার](https://www.datasciencecentral.com/profiles/blogs/an-introduction-to-variable-and-feature-selection) হলো আপনার ডেটার একটি পরিমাপযোগ্য বৈশিষ্ট্য। অনেক ডেটাসেটে এটি একটি কলামের শিরোনাম হিসেবে প্রকাশিত হয়, যেমন 'তারিখ', 'আকার' বা 'রঙ'। আপনার ফিচার ভেরিয়েবল, সাধারণত কোডে `X` দ্বারা প্রতিনিধিত্ব করা হয়, ইনপুট ভেরিয়েবলকে উপস্থাপন করে যা মডেল ট্রেন করতে ব্যবহৃত হবে।
|
||||
একটি [ফিচার](https://www.datasciencecentral.com/profiles/blogs/an-introduction-to-variable-and-feature-selection) হল আপনার ডেটার একটি পরিমাপযোগ্য বৈশিষ্ট্য। অনেক ডেটাসেটে এটি একটি কলামের শিরোনামের মতো প্রকাশ পায় যেমন 'তারিখ', 'আকার' বা 'রঙ'। আপনার ফিচার ভেরিয়েবল, যা সাধারণত কোডে `X` দ্বারা প্রকাশিত হয়, হল ইনপুট ভেরিয়েবল যেটা মডেল ট্রেন করতে ব্যবহৃত হয়।
|
||||
|
||||
টার্গেট হলো সেই জিনিস যা আপনি পূর্বাভাস দিতে চেষ্টা করছেন। টার্গেট সাধারণত কোডে `y` দ্বারা প্রতিনিধিত্ব করা হয় এবং এটি সেই প্রশ্নের উত্তর উপস্থাপন করে যা আপনি আপনার ডেটার কাছে করতে চান: ডিসেম্বর মাসে কোন **রঙের** কুমড়া সবচেয়ে সস্তা হবে? সান ফ্রান্সিসকোতে কোন এলাকায় রিয়েল এস্টেটের **মূল্য** সবচেয়ে ভালো হবে? কখনও কখনও টার্গেটকে লেবেল অ্যাট্রিবিউটও বলা হয়।
|
||||
একটি টার্গেট হল আপনি যা পূর্বাভাস দিতে চান। টার্গেট, সাধারণত কোডে `y` দ্বারা প্রকাশিত, আপনার প্রশ্নের উত্তর যা আপনি আপনার ডেটাতে করতে চান: ডিসেম্বর মাসে কোন **রঙের** কুমড়ো সবচেয়ে সস্তা হবে? সান ফ্রান্সিস্কোতে কোন পাড়াগুলো সবচেয়ে ভাল রিয়েল এস্টেট **মূল্য** থাকবে? টার্গেটকে কখনও কখনও লেবেল অ্যাট্রিবিউটও বলা হয়।
|
||||
|
||||
### আপনার ফিচার ভেরিয়েবল নির্বাচন করুন
|
||||
### আপনার ফিচার ভেরিয়েবল নির্বাচন
|
||||
|
||||
🎓 **ফিচার সিলেকশন এবং ফিচার এক্সট্রাকশন** মডেল তৈরি করার সময় কোন ভেরিয়েবল নির্বাচন করবেন তা কীভাবে জানবেন? আপনি সম্ভবত ফিচার সিলেকশন বা ফিচার এক্সট্রাকশনের একটি প্রক্রিয়ার মধ্য দিয়ে যাবেন সেরা পারফর্মিং মডেলের জন্য সঠিক ভেরিয়েবলগুলো নির্বাচন করতে। তবে, এগুলো একই জিনিস নয়: "ফিচার এক্সট্রাকশন মূল ফিচারগুলোর ফাংশন থেকে নতুন ফিচার তৈরি করে, যেখানে ফিচার সিলেকশন ফিচারগুলোর একটি সাবসেট প্রদান করে।" ([উৎস](https://wikipedia.org/wiki/Feature_selection))
|
||||
🎓 **ফিচার সিলেকশন ও ফিচার এক্সট্র্যাকশন** একটি মডেল তৈরি করার সময় কোন ভেরিয়েবল বেছে নিবেন কিভাবে বুঝবেন? আপনি সম্ভবত সেরা কর্মক্ষম মডেলের জন্য সঠিক ভেরিয়েবল বাছাই করতে ফিচার সিলেকশন বা এক্সট্র্যাকশন প্রক্রিয়ার মধ্য দিয়ে যাবেন। তবে এরা একই নয়: "ফিচার এক্সট্র্যাকশন মূল ফিচার থেকে নতুন ফিচার তৈরি করে, আর ফিচার সিলেকশন ফিচারের একটি উপসেট প্রদান করে।" ([সূত্র](https://wikipedia.org/wiki/Feature_selection))
|
||||
|
||||
### আপনার ডেটা ভিজ্যুয়ালাইজ করুন
|
||||
|
||||
একজন ডেটা বিজ্ঞানীর টুলকিটের একটি গুরুত্বপূর্ণ দিক হলো ডেটাকে ভিজ্যুয়ালাইজ করার ক্ষমতা, যা Seaborn বা MatPlotLib এর মতো চমৎকার লাইব্রেরি ব্যবহার করে করা যায়। আপনার ডেটাকে ভিজ্যুয়ালি উপস্থাপন করা আপনাকে লুকানো সম্পর্কগুলো আবিষ্কার করতে সাহায্য করতে পারে যা আপনি কাজে লাগাতে পারেন। আপনার ভিজ্যুয়ালাইজেশনগুলো আপনাকে পক্ষপাত বা ভারসাম্যহীন ডেটা আবিষ্কার করতেও সাহায্য করতে পারে (যেমন আমরা [ক্লাসিফিকেশন](../../4-Classification/2-Classifiers-1/README.md) এ আবিষ্কার করি)।
|
||||
ডেটা সায়েন্টিস্টের টুলকিটের একটি গুরুত্বপূর্ণ অংশ হলো পাওয়ারফুল ভিজ্যুয়াল লাইব্রেরি ব্যবহার করে ডেটাকে ভিজ্যুয়ালাইজ করার ক্ষমতা যেমন Seaborn বা MatPlotLib। আপনার ডেটাকে ভিজ্যুয়ালভাবে প্রতিনিধিত্ব করা হয়তো আপনাকে লুকানো সম্পর্ক আবিষ্কার করতে সাহায্য করবে যা আপনি কাজে লাগাতে পারেন। আপনার ভিজ্যুয়ালাইজেশন হয়তো পক্ষপাত বা অসমতল ডেটাও উন্মোচন করতে সাহায্য করবে (যেমন আমরা [ক্লাসিফিকেশন](../../4-Classification/2-Classifiers-1/README.md) এ আবিষ্কার করি)।
|
||||
|
||||
### আপনার ডেটাসেট ভাগ করুন
|
||||
|
||||
ট্রেনিংয়ের আগে, আপনাকে আপনার ডেটাসেটকে অসম আকারের দুই বা ততোধিক অংশে ভাগ করতে হবে যা এখনও ডেটাকে ভালোভাবে উপস্থাপন করে।
|
||||
প্রশিক্ষণের আগে, আপনাকে আপনার ডেটাসেটকে দুই বা ততোধিক অসম আকারের অংশে ভাগ করতে হবে যা ডেটার ভাল প্রতিনিধিত্ব করবে।
|
||||
|
||||
- **ট্রেনিং**। ডেটাসেটের এই অংশটি আপনার মডেলে ফিট করা হয় এটি ট্রেন করার জন্য। এটি মূল ডেটাসেটের বেশিরভাগ অংশ নিয়ে গঠিত।
|
||||
- **টেস্টিং**। একটি টেস্ট ডেটাসেট হলো একটি স্বাধীন ডেটার গ্রুপ, যা প্রায়শই মূল ডেটা থেকে সংগ্রহ করা হয়, যা আপনি তৈরি করা মডেলের পারফরম্যান্স নিশ্চিত করতে ব্যবহার করেন।
|
||||
- **ভ্যালিডেটিং**। একটি ভ্যালিডেশন সেট হলো একটি ছোট স্বাধীন উদাহরণের গ্রুপ যা আপনি মডেলের হাইপারপ্যারামিটার বা আর্কিটেকচার টিউন করতে ব্যবহার করেন, মডেলটি উন্নত করতে। আপনার ডেটার আকার এবং আপনি যে প্রশ্ন করছেন তার উপর নির্ভর করে, আপনি এই তৃতীয় সেট তৈরি করতে নাও পারেন (যেমন আমরা [টাইম সিরিজ ফোরকাস্টিং](../../7-TimeSeries/1-Introduction/README.md) এ উল্লেখ করি)।
|
||||
- **প্রশিক্ষণ**। ডেটাসেটের এই অংশটি আপনার মডেল ট্রেন করতে ব্যবহার হয়। এটি মূল ডেটাসেটের সর্বাধিক অংশ।
|
||||
- **পরীক্ষা**। একটি পরীক্ষার ডেটাসেট একটি স্বাধীন ডেটা গ্রুপ যা সাধারণত মূল ডেটা থেকে সংগৃহীত হয়, যেটি আপনি তৈরি মডেলের কার্যক্ষমতা যাচাই করার জন্য ব্যবহার করবেন।
|
||||
- **ভ্যালিডেশন**। একটি ভ্যালিডেশন সেট হল ছোট একটি স্বাধীন উদাহরণসমূহের দল যা আপনি মডেলের হাইপারপ্যারামিটার বা আর্কিটেকচার উন্নত করার জন্য ব্যবহার করবেন। আপনার ডেটার আকার এবং প্রশ্নের ওপর নির্ভর করে, হয়তো আপনাকে এই তৃতীয় সেট তৈরি করতে হবে না (যেমন আমরা [টাইম সিরিজ ফরকাস্টিং](../../7-TimeSeries/1-Introduction/README.md) এ উল্লেখ করেছি)।
|
||||
|
||||
## মডেল তৈরি করা
|
||||
## মডেল তৈরি
|
||||
|
||||
আপনার ট্রেনিং ডেটা ব্যবহার করে, আপনার লক্ষ্য হলো একটি মডেল তৈরি করা, বা আপনার ডেটার একটি পরিসংখ্যানগত উপস্থাপনা, যা বিভিন্ন অ্যালগরিদম ব্যবহার করে **ট্রেন** করা হয়। মডেল ট্রেনিং ডেটার সাথে এক্সপোজার পায় এবং এটি আবিষ্কৃত প্যাটার্নগুলো সম্পর্কে অনুমান করতে পারে, যাচাই করতে পারে এবং গ্রহণ বা প্রত্যাখ্যান করতে পারে।
|
||||
আপনার প্রশিক্ষণ ডেটা ব্যবহার করে, আপনার লক্ষ্য হলো একটি মডেল বা আপনার ডেটার একটি পরিসংখ্যানগত প্রতিনিধিত্ব তৈরি করা বিভিন্ন অ্যালগরিদম ব্যবহার করে **ট্রেন** করার জন্য। মডেল প্রশিক্ষণ মানে মডেলকে ডেটার নিদর্শন চিনতে শেখানো, অনুমান করা এবং যাচাই করার সুযোগ দেয়, এবং তারপরে তা গ্রহণ বা প্রত্যাখ্যান করে।
|
||||
|
||||
### ট্রেনিং পদ্ধতি নির্ধারণ করুন
|
||||
### একটি প্রশিক্ষণ পদ্ধতি নির্ধারণ করুন
|
||||
|
||||
আপনার প্রশ্ন এবং ডেটার প্রকৃতির উপর নির্ভর করে, আপনি এটি ট্রেন করার একটি পদ্ধতি নির্বাচন করবেন। [Scikit-learn এর ডকুমেন্টেশন](https://scikit-learn.org/stable/user_guide.html) এর মধ্য দিয়ে হাঁটলে - যা আমরা এই কোর্সে ব্যবহার করি - আপনি মডেল ট্রেন করার অনেক উপায় অন্বেষণ করতে পারেন। আপনার অভিজ্ঞতার উপর নির্ভর করে, আপনি সেরা মডেল তৈরি করতে একাধিক পদ্ধতি চেষ্টা করতে হতে পারে। আপনি সম্ভবত একটি প্রক্রিয়ার মধ্য দিয়ে যাবেন যেখানে ডেটা বিজ্ঞানীরা একটি মডেলের পারফরম্যান্স মূল্যায়ন করেন, এটি অদেখা ডেটা দিয়ে পরীক্ষা করেন, সঠিকতা, পক্ষপাত এবং অন্যান্য গুণমান-হ্রাসকারী সমস্যাগুলো পরীক্ষা করেন এবং নির্দিষ্ট কাজের জন্য সবচেয়ে উপযুক্ত ট্রেনিং পদ্ধতি নির্বাচন করেন।
|
||||
আপনার প্রশ্ন ও ডেটার প্রকৃতির উপর নির্ভর করে আপনি একটি পদ্ধতি নির্বাচন করবেন মডেল ট্রেন করার জন্য। [Scikit-learn এর ডকুমেন্টেশন](https://scikit-learn.org/stable/user_guide.html) - যেটা আমরা এই কোর্সে ব্যবহার করি - অনুসরণ করলে আপনি অনেক পদ্ধতিতে মডেল ট্রেন করা অন্বেষণ করতে পারবেন। আপনার অভিজ্ঞতার ওপর ভিত্তি করে, সম্ভবত আপনাকে সেরা মডেল তৈরির জন্য বিভিন্ন পদ্ধতি চেষ্টা করতে হবে। সাধারণত ডেটা সায়েন্টিস্টরা একটি মডেলের কার্যকারিতা মূল্যায়ন করেন অদেখা ডেটা খাওয়িয়ে, সঠিকতা, পক্ষপাত এবং অন্যান্য গুণগত সমস্যা যাচাই করে, এবং কাজের জন্য সবচেয়ে উপযুক্ত প্রশিক্ষণ পদ্ধতি বেছে নেন।
|
||||
|
||||
### একটি মডেল ট্রেন করুন
|
||||
### মডেল প্রশিক্ষণ দিন
|
||||
|
||||
আপনার ট্রেনিং ডেটা নিয়ে, আপনি এটি 'ফিট' করতে প্রস্তুত একটি মডেল তৈরি করতে। আপনি লক্ষ্য করবেন যে অনেক ML লাইব্রেরিতে আপনি 'model.fit' কোডটি পাবেন - এটি সেই সময় যখন আপনি আপনার ফিচার ভেরিয়েবলকে একটি মানের অ্যারে (সাধারণত 'X') এবং একটি টার্গেট ভেরিয়েবল (সাধারণত 'y') পাঠান।
|
||||
আপনার প্রশিক্ষণ ডেটা নিয়ে আপনি প্রস্তুত 'ফিট' করার জন্য একটি মডেল তৈরি করতে। অনেক এমএল লাইব্রেরিতে আপনি কোডে 'model.fit' দেখবেন - এই সময় আপনি আপনার ফিচার ভেরিয়েবলকে মানের এরে (সাধারণত 'X') এবং টার্গেট ভেরিয়েবল (সাধারণত 'y') হিসাবে পাঠান।
|
||||
|
||||
### মডেল মূল্যায়ন করুন
|
||||
|
||||
ট্রেনিং প্রক্রিয়া সম্পন্ন হওয়ার পরে (একটি বড় মডেল ট্রেন করতে অনেক পুনরাবৃত্তি বা 'epochs' লাগতে পারে), আপনি টেস্ট ডেটা ব্যবহার করে মডেলের গুণমান মূল্যায়ন করতে পারবেন। এই ডেটা মূল ডেটার একটি সাবসেট যা মডেল আগে বিশ্লেষণ করেনি। আপনি মডেলের গুণমান সম্পর্কে একটি মেট্রিক টেবিল প্রিন্ট করতে পারেন।
|
||||
প্রশিক্ষণ প্রক্রিয়া শেষ হলে (একটি বড় মডেল ট্রেন করতে অনেক পুনরাবৃত্তি বা 'ইপোক' লাগতে পারে), আপনি মডেলের গুণমান মূল্যায়ন করতে পারবেন। এর জন্য আপনি পরীক্ষার ডেটা ব্যবহার করবেন যা মডেল আগেই বিশ্লেষণ করে নি। আপনি মডেলের গুণমান সম্পর্কে মেট্রিক্সের একটি টেবিল প্রিন্ট করতে পারবেন।
|
||||
|
||||
🎓 **মডেল ফিটিং**
|
||||
|
||||
মেশিন লার্নিং এর প্রসঙ্গে, মডেল ফিটিং একটি মডেলের অন্তর্নিহিত ফাংশনের সঠিকতা নির্দেশ করে, যেটি এমন ডেটা বিশ্লেষণ করার চেষ্টা করে যা এটি আগে থেকে জানে না।
|
||||
মেশিন লার্নিং প্রসঙ্গে, মডেল ফিটিং মানে হলো মডেলের অন্তর্নিহিত ফাংশনের সঠিকতা, যখন এটি অপরিচিত ডেটা বিশ্লেষণ করার চেষ্টা করে।
|
||||
|
||||
🎓 **আন্ডারফিটিং** এবং **ওভারফিটিং** সাধারণ সমস্যা যা মডেলের গুণমানকে হ্রাস করে, কারণ মডেলটি যথাযথভাবে ফিট হয় না বা খুব বেশি ফিট হয়। এটি মডেলকে এমন পূর্বাভাস দিতে বাধ্য করে যা তার ট্রেনিং ডেটার সাথে খুব বেশি বা খুব কম সংযুক্ত থাকে। একটি ওভারফিট মডেল ট্রেনিং ডেটাকে খুব ভালোভাবে পূর্বাভাস দেয় কারণ এটি ডেটার বিস্তারিত এবং শব্দ খুব ভালোভাবে শিখেছে। একটি আন্ডারফিট মডেল সঠিক নয় কারণ এটি তার ট্রেনিং ডেটা বা এটি যে ডেটা এখনও 'দেখেনি' তা সঠিকভাবে বিশ্লেষণ করতে পারে না।
|
||||
🎓 **আন্ডারফিটিং** এবং **ওভারফিটিং** হল সাধারণ সমস্যা যা মডেলের গুণমান কমিয়ে দেয়, কারণ মডেল বা খারাপভাবে ফিট হয় বা অত্যধিক ভালভাবে ফিট হয়। এর ফলে মডেল পূর্বাভাস দেয় প্রশিক্ষণ ডেটার সাথে খুব ঘনিষ্ঠভাবে মেলানো বা খুব দূরত্বপূর্ণ। ওভারফিট মডেল প্রশিক্ষণ ডেটার বিস্তারিত এবং শব্দ খুব ভালোভাবে শিখে ফেলায় খুব ভালো পূর্বাভাস দেয়। আন্ডারফিট মডেল যথাযথ বিশ্লেষণ করতে পারে না না প্রশিক্ষণ ডেটা, না অপরিচিত ডেটা।
|
||||
|
||||

|
||||
> ইনফোগ্রাফিক: [Jen Looper](https://twitter.com/jenlooper)
|
||||

|
||||
> ইনফোগ্রাফিক [জেন লুপার](https://twitter.com/jenlooper) দ্বারা
|
||||
|
||||
## প্যারামিটার টিউনিং
|
||||
|
||||
আপনার প্রাথমিক ট্রেনিং সম্পন্ন হওয়ার পরে, মডেলের গুণমান পর্যবেক্ষণ করুন এবং এর 'হাইপারপ্যারামিটার' সমন্বয় করে এটি উন্নত করার কথা বিবেচনা করুন। এই প্রক্রিয়া সম্পর্কে আরও পড়ুন [ডকুমেন্টেশনে](https://docs.microsoft.com/en-us/azure/machine-learning/how-to-tune-hyperparameters?WT.mc_id=academic-77952-leestott)।
|
||||
আপনার প্রাথমিক প্রশিক্ষণ সম্পন্ন হলে, মডেলের গুণমান দেখুন এবং এর 'হাইপারপ্যারামিটারগুলিকে' টিক্ব করার মাধ্যমে উন্নতি করার কথা বিবেচনা করুন। আরও পড়ুন [ডকুমেন্টেশন](https://docs.microsoft.com/en-us/azure/machine-learning/how-to-tune-hyperparameters?WT.mc_id=academic-77952-leestott) দেখুন।
|
||||
|
||||
## প্রেডিকশন
|
||||
## পূর্বাভাস
|
||||
|
||||
এটি সেই মুহূর্ত যখন আপনি সম্পূর্ণ নতুন ডেটা ব্যবহার করে আপনার মডেলের সঠিকতা পরীক্ষা করতে পারেন। একটি 'প্রয়োগকৃত' ML সেটিংয়ে, যেখানে আপনি প্রোডাকশনে মডেল ব্যবহার করার জন্য ওয়েব অ্যাসেট তৈরি করছেন, এই প্রক্রিয়াটি ব্যবহারকারীর ইনপুট সংগ্রহ করার (যেমন একটি বোতাম চাপা) মাধ্যমে একটি ভেরিয়েবল সেট করা এবং মডেলে ইনফারেন্স বা মূল্যায়নের জন্য পাঠানোর অন্তর্ভুক্ত হতে পারে।
|
||||
এখন আপনি সম্পূর্ণ নতুন ডেটা ব্যবহার করে মডেলের সঠিকতা পরীক্ষা করতে পারেন। একটি 'প্রয়োগকৃত' এমএল পরিবেশে, যেখানে আপনি মডেলকে উৎপাদনে ব্যবহার করতে ওয়েব অ্যাসেট তৈরি করছেন, এই প্রক্রিয়াটি ব্যবহারকারীর ইনপুট (যেমন বোতাম চাপ) সংগ্রহ করা এবং সেটি একটি ভেরিয়েবল হিসাবে সেট করে, মডেলে ইনফারেন্স বা মূল্যায়নের জন্য পাঠানো অন্তর্ভুক্ত থাকতে পারে।
|
||||
|
||||
এই পাঠগুলোতে, আপনি কীভাবে প্রস্তুতি, তৈরি, পরীক্ষা, মূল্যায়ন এবং পূর্বাভাস দিতে হয় তা আবিষ্কার করবেন - একজন ডেটা বিজ্ঞানীর সমস্ত কার্যকলাপ এবং আরও অনেক কিছু, যেহেতু আপনি 'ফুল স্ট্যাক' ML ইঞ্জিনিয়ার হওয়ার যাত্রায় অগ্রসর হচ্ছেন।
|
||||
এই পাঠে, আপনি শিখবেন কীভাবে এই ধাপগুলোকে প্রস্তুত, তৈরি, পরীক্ষা, মূল্যায়ন, এবং পূর্বাভাসে ব্যবহার করবেন - ডেটা সায়েন্টিস্টের সকল কাজ এবং আরো কিছু, যেভাবে আপনি 'ফুল স্ট্যাক' এমএল ইঞ্জিনিয়ার হওয়ার পথে অগ্রসর হবেন।
|
||||
|
||||
---
|
||||
|
||||
## 🚀চ্যালেঞ্জ
|
||||
|
||||
একটি ফ্লো চার্ট আঁকুন যা একটি ML প্র্যাকটিশনারের ধাপগুলো প্রতিফলিত করে। আপনি বর্তমানে প্রক্রিয়ার কোন ধাপে আছেন বলে মনে করেন? আপনি কোথায় অসুবিধা অনুভব করবেন বলে মনে করেন? আপনার কাছে কী সহজ মনে হয়?
|
||||
একটি ফ্লো চার্ট আঁকুন যা একটি এমএল প্র্যাকটিশনারের ধাপগুলো প্রদর্শন করে। বর্তমানে আপনি প্রক্রিয়ার কোন অংশে আছেন বলে মনে করেন? কোথায় আপনি কষ্টের সম্মুখীন হবেন বলে অনুমান করেন? কোন কাজটি আপনার কাছে সহজ মনে হয়?
|
||||
|
||||
## [পাঠ-পরবর্তী কুইজ](https://ff-quizzes.netlify.app/en/ml/)
|
||||
## [পাঠের পরে কুইজ](https://ff-quizzes.netlify.app/en/ml/)
|
||||
|
||||
## পর্যালোচনা এবং স্ব-অধ্যয়ন
|
||||
## রিভিউ ও স্ব-অধ্যয়ন
|
||||
|
||||
অনলাইনে ডেটা বিজ্ঞানীদের সাক্ষাৎকার অনুসন্ধান করুন যারা তাদের দৈনন্দিন কাজ নিয়ে আলোচনা করেন। এখানে একটি [সাক্ষাৎকার](https://www.youtube.com/watch?v=Z3IjgbbCEfs) রয়েছে।
|
||||
অনলাইনে সন্ধান করুন ডেটা সায়েন্টিস্টদের সাক্ষাৎকার যারা তাদের দৈনন্দিন কাজ নিয়ে কথা বলেন। এখানে একটি [সাক্ষাৎকার](https://www.youtube.com/watch?v=Z3IjgbbCEfs) দেওয়া হলো।
|
||||
|
||||
## অ্যাসাইনমেন্ট
|
||||
|
||||
[একজন ডেটা বিজ্ঞানীর সাক্ষাৎকার নিন](assignment.md)
|
||||
[একজন ডেটা সায়েন্টিস্টের সাক্ষাৎকার নিন](assignment.md)
|
||||
|
||||
---
|
||||
|
||||
**অস্বীকৃতি**:
|
||||
এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিকতার জন্য চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা দায়বদ্ধ থাকব না।
|
||||
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
|
||||
**অস্বীকৃতি**:
|
||||
এই ডকুমেন্টটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা সঠিকতার জন্য চেষ্টা করি, তবে অনুগত হোন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ডকুমেন্টটির তার নিজস্ব ভাষায় থাকা সংস্করণই কর্তৃত্বপূর্ণ উত্স হিসাবে বিবেচিত হওয়া উচিত। গুরুতর তথ্যের জন্য পেশাদার মানুষের অনুবাদের পরামর্শ দেওয়া হয়। এই অনুবাদ ব্যবহারের ফলে কোনও ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়বদ্ধ নই।
|
||||
<!-- CO-OP TRANSLATOR DISCLAIMER END -->
|
||||
@ -1,123 +1,125 @@
|
||||
# मेसिन लर्निङका प्रविधिहरू
|
||||
|
||||
मेसिन लर्निङ मोडेलहरू निर्माण, प्रयोग, र मर्मत गर्ने प्रक्रिया तथा तिनीहरूले प्रयोग गर्ने डाटा अन्य विकास कार्यप्रवाहहरू भन्दा धेरै फरक छ। यस पाठमा, हामी यस प्रक्रियालाई स्पष्ट पार्नेछौं र तपाईंलाई जान्न आवश्यक मुख्य प्रविधिहरूको रूपरेखा प्रस्तुत गर्नेछौं। तपाईं:
|
||||
मेसिन लर्निङ मोडेलहरू निर्माण गर्ने, प्रयोग गर्ने, र मर्मत गर्ने प्रक्रिया तथा ती मोडेलहरूले प्रयोग गर्ने डाटा धेरै अन्य विकास कार्यप्रवाहहरूभन्दा धेरै फरक प्रक्रिया हो। यस पाठमा, हामी यस प्रक्रियालाई प्रष्ट पार्नेछौं, र तपाईंले जान्नु पर्ने मुख्य प्रविधिहरूको रूपरेखा बनाउनेछौं। तपाईंले:
|
||||
|
||||
- मेसिन लर्निङको आधारभूत प्रक्रियाहरू उच्च स्तरमा बुझ्नुहुनेछ।
|
||||
- 'मोडेल', 'पूर्वानुमान', र 'प्रशिक्षण डाटा' जस्ता आधारभूत अवधारणाहरू अन्वेषण गर्नुहुनेछ।
|
||||
- उच्च स्तरमा मेसिन लर्निङको आधारभूत प्रक्रियाहरू बुझ्ने।
|
||||
- 'मोडेलहरू', 'पूर्वानुमानहरू', र 'प्रशिक्षण डाटा' जस्ता आधारभूत अवधारणा अन्वेषण गर्ने।
|
||||
|
||||
## [पाठ अघि क्विज](https://ff-quizzes.netlify.app/en/ml/)
|
||||
## [पूर्व-पाठ क्विज](https://ff-quizzes.netlify.app/en/ml/)
|
||||
|
||||
[](https://youtu.be/4NGM0U2ZSHU "मेसिन लर्निङका प्रविधिहरू - सुरुवात")
|
||||
[](https://youtu.be/4NGM0U2ZSHU "ML for beginners - Techniques of Machine Learning")
|
||||
|
||||
> 🎥 माथिको तस्बिरमा क्लिक गरेर यस पाठको छोटो भिडियो हेर्नुहोस्।
|
||||
> 🎥 माथिको छवि क्लिक गरी यस पाठमा छोटो भिडियो हेर्नुहोस्।
|
||||
|
||||
## परिचय
|
||||
|
||||
उच्च स्तरमा, मेसिन लर्निङ (ML) प्रक्रिया निर्माण गर्ने कला विभिन्न चरणहरूमा विभाजित छ:
|
||||
उच्च स्तरमा मेसिन लर्निङ (एमएल) प्रक्रिया निर्माण गर्ने कला केही चरणहरूमा बनेको हुन्छ:
|
||||
|
||||
1. **प्रश्न तय गर्नुहोस्**। अधिकांश ML प्रक्रियाहरू यस्तो प्रश्न सोधेर सुरु हुन्छन् जसलाई साधारण सर्तहरूमा आधारित प्रोग्राम वा नियम-आधारित इन्जिनले उत्तर दिन सक्दैन। यी प्रश्नहरू प्रायः डाटाको संग्रहमा आधारित पूर्वानुमानहरू वरिपरि घुम्छन्।
|
||||
2. **डाटा सङ्कलन र तयारी गर्नुहोस्**। तपाईंको प्रश्नको उत्तर दिनको लागि, तपाईंलाई डाटा चाहिन्छ। तपाईंको डाटाको गुणस्तर र कहिलेकाहीं मात्रा तपाईंको प्रारम्भिक प्रश्नको उत्तर दिन कत्तिको सक्षम छ भन्ने निर्धारण गर्दछ। डाटालाई दृश्यात्मक बनाउनु यो चरणको महत्त्वपूर्ण पक्ष हो। यस चरणमा डाटालाई प्रशिक्षण र परीक्षण समूहमा विभाजन गरेर मोडेल निर्माण गर्ने कार्य पनि समावेश छ।
|
||||
3. **प्रशिक्षण विधि चयन गर्नुहोस्**। तपाईंको प्रश्न र डाटाको प्रकृतिको आधारमा, तपाईंले मोडेललाई कसरी प्रशिक्षण दिने भन्ने निर्णय गर्नुपर्छ ताकि डाटालाई राम्रोसँग प्रतिबिम्बित गर्न र त्यसको विरुद्ध सही पूर्वानुमान गर्न सकियोस्। यो ML प्रक्रियाको भाग हो जसमा विशिष्ट विशेषज्ञता र प्रायः धेरै प्रयोग आवश्यक हुन्छ।
|
||||
4. **मोडेललाई प्रशिक्षण दिनुहोस्**। तपाईंको प्रशिक्षण डाटाको प्रयोग गरेर, तपाईं विभिन्न एल्गोरिदमहरूको प्रयोग गरेर मोडेललाई डाटामा ढाँचाहरू चिन्न प्रशिक्षण दिनुहुन्छ। मोडेलले आन्तरिक तौलहरू प्रयोग गर्न सक्छ जसलाई समायोजन गरेर डाटाको केही भागलाई अन्य भागहरू भन्दा प्राथमिकता दिन सकिन्छ ताकि राम्रो मोडेल निर्माण गर्न सकियोस्।
|
||||
5. **मोडेलको मूल्याङ्कन गर्नुहोस्**। तपाईंले सङ्कलित सेटबाट पहिले कहिल्यै नदेखिएको डाटा (तपाईंको परीक्षण डाटा) प्रयोग गरेर मोडेल कत्तिको राम्रो प्रदर्शन गरिरहेको छ हेर्नुहुन्छ।
|
||||
6. **प्यारामिटर ट्युनिङ**। तपाईंको मोडेलको प्रदर्शनको आधारमा, तपाईं विभिन्न प्यारामिटरहरू वा चरहरू प्रयोग गरेर प्रक्रिया पुनः गर्न सक्नुहुन्छ जसले मोडेललाई प्रशिक्षण दिन प्रयोग गरिएका एल्गोरिदमहरूको व्यवहारलाई नियन्त्रण गर्दछ।
|
||||
7. **पूर्वानुमान गर्नुहोस्**। नयाँ इनपुटहरू प्रयोग गरेर तपाईंको मोडेलको सटीकता परीक्षण गर्नुहोस्।
|
||||
1. **प्रश्न तय गर्नुहोस्।** धेरै एमएल प्रक्रियाहरू एक यस्तो प्रश्न सोधेर सुरु हुन्छन् जुन सरल सशर्त प्रोग्राम वा नियम-आधारित इन्जिनले उत्तर दिन सक्दैन। यी प्रश्नहरू प्रायः डाटा सङ्ग्रहमा आधारित पूर्वानुमानहरू वरिपरि घूम्छन्।
|
||||
2. **डाटा सङ्कलन र तयारी गर्नुहोस्।** आफ्नो प्रश्नको उत्तर दिन सक्षम हुन, तपाईंलाई डाटा आवश्यक हुन्छ। डाटाको गुणस्तर र कहिलेकाहीं मात्राले तपाईंको आरम्भिक प्रश्न कति राम्रोसंग उत्तर दिन सकिन्छ भन्ने निर्धारण गर्दछ। डाटा दृश्यात्मकरण यस चरणको महत्त्वपूर्ण पक्ष हो। यस चरणमा मोडेल निर्माणका लागि डाटालाई प्रशिक्षण र परीक्षण समूहमा पनि विभाजन गरिन्छ।
|
||||
3. **प्रशिक्षण विधि चयन गर्नुहोस्।** आफ्नो प्रश्न र डाटाको प्रकृतिमा आधारित भएर, तपाईंले आफ्नो डाटालाई सबैभन्दा राम्रो ढङ्गले प्रतिबिम्बित गर्ने र सही पूर्वानुमान गर्न सक्ने मोडेल प्रशिक्षण गर्न कस्तो विधि प्रयोग गर्ने निर्णय गर्नुपर्छ। यो एमएल प्रक्रियाको त्यो भाग हो जसमा विशिष्ट विशेषज्ञता र प्रायः धेरै प्रयोग आवश्यक पर्छ।
|
||||
4. **मोडेल प्रशिक्षण गर्नुहोस्।** आफ्नो प्रशिक्षण डाटाको प्रयोग गरी विभिन्न एल्गोरिदमहरू प्रयोग गरेर मोडेललाई डाटामा रहेका ढाँचाहरू चिन्ने गरी प्रशिक्षण गर्नुहुन्छ। मोडेलले आन्तरिक तौलहरू प्रयोग गर्न सक्छ जुन समायोजन गरेर डाटाका केही भागहरूलाई बढी प्राथमिकता दिन सक्छ र राम्रो मोडेल निर्माण गर्न सक्छ।
|
||||
5. **मोडेल मूल्याङ्कन गर्नुहोस्।** तपाईंले कहिल्यै नदेखेको डाटा (तपाईंको परीक्षण डाटा) प्रयोग गरेर मोडेल कति राम्रो छ हेर्नुहुन्छ।
|
||||
6. **प्यारामिटर ट्यूनिंग।** मोडेलको प्रदर्शनका आधारमा, तपाईंले प्रशिक्षणमा प्रयोग गरिएका एल्गोरिदमहरूको व्यवहार नियन्त्रण गर्ने विभिन्न प्यारामिटरहरू वा चरहरूलाई परिवर्तन गरी प्रक्रिया पुन: गर्न सक्नुहुन्छ।
|
||||
7. **पूर्वानुमान गर्नुहोस्।** नयाँ इनपुटहरूसँग मोडेलको सटीकताका लागि परीक्षण गर्नुहोस्।
|
||||
|
||||
## कुन प्रश्न सोध्ने
|
||||
## कस्तो प्रश्न सोध्ने
|
||||
|
||||
कम्प्युटरहरू डाटामा लुकेका ढाँचाहरू पत्ता लगाउन विशेष रूपमा कुशल छन्। यो उपयोगिता अनुसन्धानकर्ताहरूको लागि धेरै उपयोगी छ जसले कुनै निश्चित क्षेत्रको बारेमा प्रश्न सोध्छन् जसलाई सर्तहरूमा आधारित नियम इन्जिन बनाएर सजिलै उत्तर दिन सकिँदैन। उदाहरणका लागि, बीमाको काममा, डाटा वैज्ञानिकले धूम्रपान गर्ने र नगर्ने व्यक्तिको मृत्यु दरको बारेमा नियमहरू निर्माण गर्न सक्छ।
|
||||
कम्प्युटरहरू डाटामा लुकेका ढाँचाहरू पत्ता लगाउन विशेष दक्ष हुन्छन्। यो उपयोगिता अनुसन्धानकर्ताहरूका लागि धेरै उपयोगी हुन्छ जसले सशर्त नियम-इन्जिन सिर्जना गरेर सजिलै उत्तर नदिइने प्रश्नहरू सोधेका हुन्छन्। उदाहरणका लागि, एक बीमाकर्मी कार्यका लागि, डाटा वैज्ञानिकले बुकेको नियमहरू तयार पार्न सक्छन् जुन धूम्रपान गर्ने र नगर्नेहरूका मृत्यु दरको लागि हुन्छ।
|
||||
|
||||
तर जब धेरै अन्य चरहरू समीकरणमा ल्याइन्छन्, ML मोडेलले विगतको स्वास्थ्य इतिहासको आधारमा भविष्यको मृत्यु दरको पूर्वानुमान गर्न अधिक प्रभावकारी हुन सक्छ। एक खुशीको उदाहरण भनेको कुनै स्थानको अप्रिल महिनाको मौसमको पूर्वानुमान बनाउनु हो, जसमा अक्षांश, देशान्तर, जलवायु परिवर्तन, समुद्रको नजिकको दूरी, जेट स्ट्रिमको ढाँचाहरू, र अन्य धेरै डाटाहरू समावेश छन्।
|
||||
तर जब धेरै अन्य चरहरूलाई पनि समावेश गरिन्छ, एमएल मोडेलले विगतको स्वास्थ्य इतिहासमा आधारित भविष्यको मृत्यु दरहरू पूर्वानुमान गर्न अधिक प्रभावकारी साबित हुन सक्छ। एउटा रमाइलो उदाहरण हुन सक्छ, दिइएको स्थानमा अप्रिल महिनाको मौसम पूर्वानुमान बनाउने, जसमा अक्षांश, देशांश, जलवायु परिवर्तन, समुद्रको नजिकाई, जेट स्ट्रीमका ढाँचाहरू लगायत धेरै डाटाहरू समावेश छन्।
|
||||
|
||||
✅ यो [स्लाइड डेक](https://www2.cisl.ucar.edu/sites/default/files/2021-10/0900%20June%2024%20Haupt_0.pdf) मा मौसम मोडेलहरूको ऐतिहासिक दृष्टिकोण प्रस्तुत गरिएको छ जसले मौसम विश्लेषणमा ML प्रयोगको बारेमा जानकारी दिन्छ।
|
||||
✅ यस [स्लाइड डेक](https://www2.cisl.ucar.edu/sites/default/files/2021-10/0900%20June%2024%20Haupt_0.pdf) मा मौसम मोडेलहरू सम्बद्ध इतिहासात्मक दृष्टिकोणबाट एमएलको प्रयोगसम्बन्धी जानकारी छ।
|
||||
|
||||
## निर्माण अघि कार्यहरू
|
||||
## मोडेल निर्माण अघि गर्नु पर्ने कामहरू
|
||||
|
||||
तपाईंको मोडेल निर्माण गर्न सुरु गर्नु अघि, तपाईंले पूरा गर्नुपर्ने केही कार्यहरू छन्। तपाईंको प्रश्न परीक्षण गर्न र मोडेलको पूर्वानुमानको आधारमा परिकल्पना बनाउन, तपाईंले केही तत्वहरू पहिचान र कन्फिगर गर्न आवश्यक छ।
|
||||
मोडेल निर्माण सुरु गर्नु अघि, तपाईंले केही कामहरू पूरा गर्न आवश्यक हुन्छ। तपाईंको प्रश्न परीक्षण गर्न र मोडेलको पूर्वानुमानमा आधारित एउटा परिकल्पना बनाउन, तपाईंले केहि अङ्गहरू पहिचान गर्न र कन्फिगर गर्न आवश्यक हुन्छ।
|
||||
|
||||
### डाटा
|
||||
|
||||
तपाईंको प्रश्नको उत्तर कुनै निश्चितताका साथ दिनको लागि, तपाईंलाई सही प्रकारको पर्याप्त डाटा चाहिन्छ। यस बिन्दुमा तपाईंले दुई काम गर्नुपर्छ:
|
||||
तपाईंको प्रश्नलाई प्रमाणिकतासँग उत्तर दिन सक्षम हुन, तपाईंलाई सही प्रकारको पर्याप्त डाटा चाहिन्छ। यस बिन्दुमा गर्नु पर्ने दुई कुरा छन्:
|
||||
|
||||
- **डाटा सङ्कलन गर्नुहोस्**। डाटा विश्लेषणमा निष्पक्षताको बारेमा अघिल्लो पाठलाई ध्यानमा राख्दै, तपाईंले आफ्नो डाटा सावधानीपूर्वक सङ्कलन गर्नुपर्छ। यस डाटाको स्रोतहरू, यसमा हुन सक्ने कुनै पनि अन्तर्निहित पूर्वाग्रहहरू, र यसको उत्पत्तिको दस्तावेजीकरणको बारेमा सचेत रहनुहोस्।
|
||||
- **डाटा तयार गर्नुहोस्**। डाटा तयारी प्रक्रियामा धेरै चरणहरू समावेश छन्। यदि डाटा विभिन्न स्रोतहरूबाट आएको छ भने तपाईंले डाटालाई एकत्रित गर्न र सामान्यीकरण गर्न आवश्यक हुन सक्छ। तपाईंले स्ट्रिङलाई सङ्ख्यामा रूपान्तरण गर्ने (जस्तै [क्लस्टरिङ](../../5-Clustering/1-Visualize/README.md) मा गरिन्छ) जस्ता विभिन्न विधिहरू प्रयोग गरेर डाटाको गुणस्तर र मात्रा सुधार गर्न सक्नुहुन्छ। तपाईंले मूल डाटाको आधारमा नयाँ डाटा उत्पन्न गर्न सक्नुहुन्छ (जस्तै [वर्गीकरण](../../4-Classification/1-Introduction/README.md) मा गरिन्छ)। तपाईंले डाटालाई सफा र सम्पादन गर्न सक्नुहुन्छ (जस्तै हामी [वेब एप](../../3-Web-App/README.md) पाठ अघि गर्नेछौं)। अन्ततः, तपाईंले प्रशिक्षण प्रविधिहरूको आधारमा डाटालाई अनियमित र फेरबदल गर्न आवश्यक हुन सक्छ।
|
||||
- **डाटा सङ्कलन।** डाटा विश्लेषणमा निष्पक्षताको बारेमा अघिल्लो पाठ सम्झँदै, सावधानीपूर्वक डाटा सङ्कलन गर्नुहोस्। यस डाटाका स्रोतहरू, यसमा रहेको कुनै पनि पूर्वाग्रहहरू, र यसको उत्पत्तिलाई सचेत रहनुहोस् र दस्तावेज गर्नुहोस्।
|
||||
- **डाटा तयारी।** डाटा तयारी प्रक्रियामा धेरै चरणहरू छन्। तपाईंलाई विभिन्न स्रोतबाट आएको डाटालाई एकसाथ जोड्न र सामान्य बनाउनु पर्न सक्छ। तपाईं स्ट्रिङलाई सङ्ख्यामा परिवर्तन गरेर डाटाको गुणस्तर र मात्रामा सुधार गर्न सक्नुहुन्छ (जस्तै हामीले [क्लस्टरिङ](../../5-Clustering/1-Visualize/README.md) मा गरेजस्तै)। तपाईं मूल डाटाबाट नयाँ डाटा पनि उत्पादन गर्न सक्नुहुन्छ (जस्तै [श्रेणीकरण](../../4-Classification/1-Introduction/README.md) मा गर्छौं)। तपाईं डाटालाई सफा र सम्पादन गर्न सक्नुहुन्छ (जस्तो हामी [वेब एप](../../3-Web-App/README.md) पाठ अघि गर्नेछौं)। अन्ततः, तपाईंले यसलाई यादृच्छिक पार्न र मिक्स गर्न पनि आवश्यक पर्न सक्छ, तपाईंको प्रशिक्षण प्रविधिहरूमा भर पर्छ।
|
||||
|
||||
✅ डाटा सङ्कलन र प्रशोधन गरेपछि, तपाईंको प्रश्नलाई सम्बोधन गर्न यसको आकारले अनुमति दिनेछ कि छैन हेर्न एक क्षण लिनुहोस्। यो सम्भव छ कि डाटाले तपाईंको दिइएको कार्यमा राम्रो प्रदर्शन नगर्नेछ, जस्तै हामी [क्लस्टरिङ](../../5-Clustering/1-Visualize/README.md) पाठहरूमा पत्ता लगाउँछौं!
|
||||
✅ डाटा सङ्कलन र प्रक्रिया गरेपछि, यसको आकारले तपाईंको प्रश्न समाधान गर्न सक्नेछ कि सक्दैन जाँच गर्न केही समय लिनुहोस्। हामीले [क्लस्टरिङ](../../5-Clustering/1-Visualize/README.md) पाठहरूमा पनि देख्यौं कि कहिलेकाहीं डाटाले दिइएको कार्यमा राम्रो प्रदर्शन नगर्न सक्छ!
|
||||
|
||||
### विशेषताहरू र लक्ष्य
|
||||
|
||||
[विशेषता](https://www.datasciencecentral.com/profiles/blogs/an-introduction-to-variable-and-feature-selection) भनेको तपाईंको डाटाको मापनयोग्य सम्पत्ति हो। धेरै डाटासेटहरूमा यो 'मिति', 'आकार', वा 'रङ' जस्ता स्तम्भ शीर्षकको रूपमा व्यक्त गरिन्छ। तपाईंको विशेषता चर, प्रायः कोडमा `X` द्वारा प्रतिनिधित्व गरिन्छ, इनपुट चर हो जसले मोडेललाई प्रशिक्षण दिन प्रयोग गरिन्छ।
|
||||
[विशेषता](https://www.datasciencecentral.com/profiles/blogs/an-introduction-to-variable-and-feature-selection) भनेको तपाईंको डाटाको मापन योग्य गुण हो। धेरै डेटासेटहरूमा यो 'मिति', 'आकार', वा 'रंग' जस्ता स्तम्भ शीर्षकको रूपमा व्यक्त हुन्छ। तपाईंको विशेषता चर, प्रायः कोडमा `X` को रूपमा प्रतिनिधित्व गरिन्छ, इनपुट चर हो जुन मोडेल प्रशिक्षणका लागि प्रयोग गरिनेछ।
|
||||
|
||||
लक्ष्य भनेको तपाईंले भविष्यवाणी गर्न खोजिरहेको कुरा हो। लक्ष्य, प्रायः कोडमा `y` द्वारा प्रतिनिधित्व गरिन्छ, तपाईंको डाटाबाट सोध्न खोजिएको प्रश्नको उत्तर हो: डिसेम्बरमा कुन **रङ**का कद्दूहरू सस्तो हुनेछन्? सान फ्रान्सिस्कोमा कुन छिमेकमा सबैभन्दा राम्रो सम्पत्ति **मूल्य** हुनेछ? कहिलेकाहीं लक्ष्यलाई लेबल विशेषता पनि भनिन्छ।
|
||||
लक्ष्य भनेको त्यो वस्तु हो जुन तपाईं पूर्वानुमान गर्न खोज्दै हुनुहुन्छ। लक्ष्य, प्रायः कोडमा `y` को रूपमा प्रतिनिधित्व गरिन्छ, तपाईंले आफ्नो डाटाबाट सोध्ने प्रश्नको उत्तर जनाउँछ: डिसेम्बरमा, कुन **रंग**को सिँघडा सबैभन्दा सस्तो हुन्छ? स्यान फ्रान्सिस्कोमा, कुन छिमेकहरूमा सबैभन्दा राम्रो घरमूल्य **मूल्य** हुनेछ? कहिलेकाहीं लक्ष्यलाई लेबल विशेषता पनि भनिन्छ।
|
||||
|
||||
### तपाईंको विशेषता चर चयन गर्नुहोस्
|
||||
### आफ्नो विशेषता चर चयन
|
||||
|
||||
🎓 **विशेषता चयन र विशेषता निकासी** मोडेल निर्माण गर्दा कुन चर चयन गर्ने थाहा कसरी पाउने? तपाईंले सम्भवतः विशेषता चयन वा विशेषता निकासीको प्रक्रियाबाट जानुपर्नेछ ताकि सबैभन्दा राम्रो प्रदर्शन गर्ने मोडेलका लागि सही चरहरू चयन गर्न सकियोस्। तर यी समान कुरा होइनन्: "विशेषता निकासीले मूल विशेषताहरूको कार्यहरूबाट नयाँ विशेषताहरू सिर्जना गर्दछ, जबकि विशेषता चयनले विशेषताहरूको उपसमुच्ची फिर्ता गर्दछ।" ([स्रोत](https://wikipedia.org/wiki/Feature_selection))
|
||||
🎓 **विशेषता चयन र विशेषता निकासी** मोडेल बनाउँदा कुन चर छनोट गर्ने जान्न कसरी? तपाईंले सम्भवत: सबैभन्दा प्रभावकारी मोडेलका लागि सही चरहरू चयन गर्न विशेषता चयन वा विशेषता निकासी प्रक्रियामा जानुहुनेछ। यी एउटै होइनन्: "विशेषता निकासीले मूल विशेषताहरूको कार्यहरूबाट नयाँ विशेषताहरू सिर्जना गर्छ, जबकि विशेषता चयनले विशेषताहरूको उपसमूह फर्काउँछ।" ([स्रोत](https://wikipedia.org/wiki/Feature_selection))
|
||||
|
||||
### तपाईंको डाटालाई दृश्यात्मक बनाउनुहोस्
|
||||
### आफ्नो डाटा दृश्यात्मकरण गर्नुहोस्
|
||||
|
||||
डाटा वैज्ञानिकको उपकरणको महत्त्वपूर्ण पक्ष भनेको Seaborn वा MatPlotLib जस्ता उत्कृष्ट पुस्तकालयहरूको प्रयोग गरेर डाटालाई दृश्यात्मक बनाउने शक्ति हो। तपाईंको डाटालाई दृश्यात्मक रूपमा प्रस्तुत गर्दा तपाईंले उपयोग गर्न सकिने लुकेका सम्बन्धहरू पत्ता लगाउन सक्नुहुन्छ। तपाईंको दृश्यात्मकताले पूर्वाग्रह वा असन्तुलित डाटा पत्ता लगाउन पनि मद्दत गर्न सक्छ (जस्तै हामी [वर्गीकरण](../../4-Classification/2-Classifiers-1/README.md) मा पत्ता लगाउँछौं)।
|
||||
डाटा वैज्ञानिकको उपकरण बजारको एक महत्वपूर्ण पक्ष हो डाटालाई दृश्यात्मक बनाउन Seaborn वा MatPlotLib जस्ता धेरै उत्कृष्ट पुस्तकालयहरू प्रयोग गर्ने क्षमता। तपाईंको डाटालाई दृश्यमा प्रस्तुत गर्दा तपाईंले लुकेका सम्बन्धहरू पत्ता लगाउन सक्नुहुन्छ जसलाई तपाईं उपयोग गर्न सक्नुहुन्छ। तपाईंका दृश्यले पूर्वाग्रह वा असन्तुलित डाटा पत्ता लगाउन पनि मद्दत गर्न सक्छ (जस्तै हामीले [श्रेणीकरण](../../4-Classification/2-Classifiers-1/README.md) मा पत्ता लगायौं)।
|
||||
|
||||
### तपाईंको डाटासेटलाई विभाजन गर्नुहोस्
|
||||
### आफ्नो डेटासेट विभाजन गर्नुहोस्
|
||||
|
||||
प्रशिक्षण अघि, तपाईंले आफ्नो डाटासेटलाई असमान आकारका दुई वा बढी भागमा विभाजन गर्न आवश्यक छ जसले अझै डाटालाई राम्रोसँग प्रतिनिधित्व गर्दछ।
|
||||
प्रशिक्षण अघि, तपाईंको डेटासेटलाई दुई वा बढी असमान आकारका भागहरूमा विभाजन गर्न आवश्यक हुन्छ जुन अझै डाटालाई राम्रो प्रतिनिधित्व गर्दछन्।
|
||||
|
||||
- **प्रशिक्षण**। डाटासेटको यो भाग मोडेललाई प्रशिक्षण दिन फिट गरिन्छ। यो सेट मूल डाटासेटको अधिकांश भाग हो।
|
||||
- **परीक्षण**। परीक्षण डाटासेट मूल डाटाबाट सङ्कलित स्वतन्त्र डाटाको समूह हो जसले निर्माण गरिएको मोडेलको प्रदर्शन पुष्टि गर्न प्रयोग गरिन्छ।
|
||||
- **मान्यकरण**। मान्यकरण सेट स्वतन्त्र उदाहरणहरूको सानो समूह हो जसले मोडेलको हाइपरप्यारामिटरहरू वा संरचनालाई ट्युन गर्न प्रयोग गरिन्छ ताकि मोडेल सुधार गर्न सकियोस्। तपाईंको डाटाको आकार र तपाईंले सोधिरहेको प्रश्नको आधारमा, तपाईंले यो तेस्रो सेट निर्माण गर्न आवश्यक नपर्न सक्छ (जस्तै हामी [समय श्रृंखला पूर्वानुमान](../../7-TimeSeries/1-Introduction/README.md) मा नोट गर्छौं)।
|
||||
- **प्रशिक्षण।** डेटासेटको यो भाग तपाईंको मोडेलमा फिट गरी प्रशिक्षणका लागि प्रयोग हुन्छ। यो सेट मूल डेटासेटको बहुसंख्यक हिस्सा हो।
|
||||
- **परीक्षण।** परीक्षण डेटासेट एउटा स्वतन्त्र डाटा समूह हो, प्रायः मूल डाटाबाट सङ्कलित, जुन तपाईंले निर्माण गरिएको मोडेलको प्रदर्शन पुष्टि गर्न प्रयोग गर्नुहुन्छ।
|
||||
- **मान्यकरण।** मान्यकरण सेट सानो स्वतन्त्र उदाहरणहरूको समूह हो जुन तपाईंले मोडेलका हाइपरप्यारामिटरहरू, वा संरचना, समायोजन गर्न प्रयोग गर्नुहुन्छ। तपाईंको डाटाको आकार र प्रश्नमा निर्भर भएर, तपाईंलाई यो तेस्रो सेट आवश्यक नपर्न सक्छ (जस्तै हामीले [समय श्रृंखला पूर्वानुमान](../../7-TimeSeries/1-Introduction/README.md) मा उल्लेख गरेका छौं)।
|
||||
|
||||
## मोडेल निर्माण
|
||||
|
||||
तपाईंको प्रशिक्षण डाटाको प्रयोग गरेर, तपाईंको लक्ष्य विभिन्न एल्गोरिदमहरूको प्रयोग गरेर **प्रशिक्षण** गरेर मोडेल, वा तपाईंको डाटाको सांख्यिकीय प्रतिनिधित्व निर्माण गर्नु हो। मोडेललाई प्रशिक्षण दिनु भनेको यसलाई डाटामा उजागर गर्नु हो जसले यसलाई पत्ता लगाएको ढाँचाहरूको बारेमा धारणाहरू बनाउन, प्रमाणित गर्न, र स्वीकार वा अस्वीकार गर्न अनुमति दिन्छ।
|
||||
तपाईंको प्रशिक्षण डाटाको प्रयोग गरी, तपाईंको लक्ष्य मोडेल, वा तपाईंको डाटाको सांख्यिकीय प्रतिनिधित्व, विभिन्न एल्गोरिदमहरू प्रयोग गरेर **प्रशिक्षण** गर्नु हो। मोडेललाई प्रशिक्षण गर्दा यो डाटासँग चिनजान गर्ने अवसर पाउँछ र यो पत्ता लगाएको, प्रमाणित गरेको, र स्वीकार वा अस्वीकृत गरेको घुमावदार ढाँचाहरूमा अनुमान गर्न सक्षम हुन्छ।
|
||||
|
||||
### प्रशिक्षण विधि चयन गर्नुहोस्
|
||||
### प्रशिक्षण विधि छनोट गर्नुहोस्
|
||||
|
||||
तपाईंको प्रश्न र तपाईंको डाटाको प्रकृतिको आधारमा, तपाईंले यसलाई प्रशिक्षण दिन विधि चयन गर्नुहुनेछ। [Scikit-learn को दस्तावेज](https://scikit-learn.org/stable/user_guide.html) मा चरणबद्ध रूपमा जानुहोस् - जुन हामी यस पाठ्यक्रममा प्रयोग गर्छौं - तपाईं मोडेललाई प्रशिक्षण दिन धेरै तरिकाहरू अन्वेषण गर्न सक्नुहुन्छ। तपाईंको अनुभवको आधारमा, तपाईंले सबैभन्दा राम्रो मोडेल निर्माण गर्न धेरै फरक विधिहरू प्रयास गर्नुपर्नेछ। तपाईं सम्भवतः एक प्रक्रियाबाट जानुहुनेछ जहाँ डाटा वैज्ञानिकहरूले मोडेलको प्रदर्शन मूल्याङ्कन गर्छन्, यसलाई नदेखिएको डाटा खुवाउँछन्, सटीकता, पूर्वाग्रह, र अन्य गुणस्तर-घटाउने समस्याहरू जाँच गर्छन्, र दिइएको कार्यका लागि सबैभन्दा उपयुक्त प्रशिक्षण विधि चयन गर्छन्।
|
||||
तपाईंको प्रश्न र डाटाको प्रकृतिमा आधारित, तपाईं यसलाई प्रशिक्षण दिन विधि छनोट गर्नुहुनेछ। [Scikit-learn को दस्तावेज](https://scikit-learn.org/stable/user_guide.html) मार्फत जानुहोस् — जुन यो कोर्समा प्रयोग गरिन्छ — र मोडेल प्रशिक्षण गर्ने धेरै तरिकाहरू अन्वेषण गर्नुहोस्। तपाईंको अनुभवमा भर परे, तपाईंले सबैभन्दा राम्रो मोडेल बनाउन विभिन्न विधि प्रयास गर्नुपर्ने हुन सक्छ। प्रायः डेटा वैज्ञानिकहरूले त्यस्तो प्रक्रियाबाट गुज्रिन्छन् जहाँ उनीहरूले मोडेलको प्रदर्शन अवलोकन गर्छन्: नदेखिएको डाटा मोडेललाई दिन्छन्, सत्यता, पूर्वाग्रह, र अन्य गुणस्तर ह्रास गर्ने समस्याको जाँच गर्छन्, र सम्बन्धित प्रशिक्षण विधि छनोट गर्छन्।
|
||||
|
||||
### मोडेललाई प्रशिक्षण दिनुहोस्
|
||||
### मोडेल प्रशिक्षित गर्नुहोस्
|
||||
|
||||
तपाईंको प्रशिक्षण डाटासँग सुसज्जित, तपाईं 'फिट' गरेर मोडेल निर्माण गर्न तयार हुनुहुन्छ। तपाईंले धेरै ML पुस्तकालयहरूमा 'model.fit' को कोड देख्नुहुनेछ - यो समयमा तपाईंले आफ्नो विशेषता चरलाई मानहरूको एरेको रूपमा (प्रायः 'X') र लक्ष्य चरलाई (प्रायः 'y') पठाउनुहुन्छ।
|
||||
प्रशिक्षण डाटा लिएर, तपाईं तयार हुनुहुन्छ मोडेल बनाउनको लागि 'fit' गर्न। धेरै एमएल पुस्तकालयहरूमा तपाईंले कोड 'model.fit' पाउनु हुनेछ — यो समयमा तपाईले तपाईको विशेषता चरको एरे (प्रायः 'X') र लक्ष्य चर (प्रायः 'y') मोडेलमा पठाउनुहुन्छ।
|
||||
|
||||
### मोडेलको मूल्याङ्कन गर्नुहोस्
|
||||
### मोडेल मूल्याङ्कन गर्नुहोस्
|
||||
|
||||
एकपटक प्रशिक्षण प्रक्रिया पूरा भएपछि (ठूलो मोडेललाई प्रशिक्षण दिन धेरै पुनरावृत्ति, वा 'epochs', लाग्न सक्छ), तपाईंले परीक्षण डाटाको प्रयोग गरेर मोडेलको गुणस्तर मूल्याङ्कन गर्न सक्नुहुन्छ। यो डाटा मूल डाटाको उपसमुच्ची हो जसलाई मोडेलले पहिले विश्लेषण गरेको छैन। तपाईंले आफ्नो मोडेलको गुणस्तरको बारेमा मेट्रिक्सको तालिका प्रिन्ट गर्न सक्नुहुन्छ।
|
||||
प्रशिक्षण प्रक्रिया पूरा भएपछि (ठूलो मोडेललाई प्रशिक्षण दिन धेरै प्रक्रिया वा 'एपोक' लाग्न सकिन्छ), तपाईं परीक्षण डाटा प्रयोग गरी मोडेलको गुणस्तर मूल्याङ्कन गर्न सक्नुहुन्छ। यो डाटा मूल डाटाको एक उपसर्ग हो जसलाई मोडेलले पहिले कहिल्यै विश्लेषण गरेको थिएन। तपाईं मोडेलको गुणस्तरको मेट्रिक्सहरूको तालिका प्रिन्ट गर्न सक्नुहुन्छ।
|
||||
|
||||
🎓 **मोडेल फिटिङ**
|
||||
|
||||
मेसिन लर्निङको सन्दर्भमा, मोडेल फिटिङले मोडेलको अन्तर्निहित कार्यको सटीकतालाई जनाउँछ जब यसले डाटालाई विश्लेषण गर्न प्रयास गर्छ जससँग यो परिचित छैन।
|
||||
मेसिन लर्निङको सन्दर्भमा, मोडेल फिटिङले मोडेलको आधारभूत कार्यक्षमताको सटीकतामा जनाउँछ जुन यसले परिचित नभएको डाटामा विश्लेषण गर्ने प्रयास गर्दछ।
|
||||
|
||||
🎓 **अन्डरफिटिङ** र **ओभरफिटिङ** सामान्य समस्याहरू हुन् जसले मोडेलको गुणस्तरलाई घटाउँछन्, किनकि मोडेलले प्रशिक्षण डाटासँग न त पर्याप्त राम्रोसँग फिट गर्छ न त धेरै राम्रोसँग। यसले मोडेललाई प्रशिक्षण डाटासँग धेरै नजिक वा धेरै टाढा मिल्दो पूर्वानुमान गर्न बनाउँछ। ओभरफिट मोडेलले प्रशिक्षण डाटालाई धेरै राम्रोसँग पूर्वानुमान गर्छ किनभने यसले डाटाको विवरण र आवाजलाई धेरै राम्रोसँग सिकेको छ। अन्डरफिट मोडेल सटीक छैन किनभने यसले न त यसको प्रशिक्षण डाटालाई सही रूपमा विश्लेषण गर्न सक्छ न त यसले पहिले 'देखेको छैन' डाटालाई।
|
||||
🎓 **अन्डरफिटिङ** र **ओभरफिटिङ** सामान्य समस्याहरू हुन् जसले मोडेलको गुणस्तर घटाउँछ, किनभने मोडेल ठीकसँग नभएर धेरै राम्रोसँग फिट हुन्छ। यसले मोडेललाई प्रशिक्षण डाटासँग धेरै नजिक वा धेरै टाढा पूर्वानुमान गर्न बाध्य पार्दछ। एक ओभरफिट मोडेलले प्रशिक्षण डाटा धेरै राम्रोसँग पूर्वानुमान गर्छ किनकि यसले डाटाको विवरण र आवाजलाई पनि धेरै राम्ररी सिकिसकेको हुन्छ। एक अन्डरफिट मोडेल सही छैन किनभने यो न त आफ्नो प्रशिक्षण डाटा सहीसँग विश्लेषण गर्न सक्छ न त नदेखिएको डाटा।
|
||||
|
||||

|
||||
> [Jen Looper](https://twitter.com/jenlooper) द्वारा इन्फोग्राफिक
|
||||

|
||||
> [जेन लुपर](https://twitter.com/jenlooper) द्वारा infographic
|
||||
|
||||
## प्यारामिटर ट्युनिङ
|
||||
## प्यारामिटर ट्यूनिंग
|
||||
|
||||
तपाईंको प्रारम्भिक प्रशिक्षण पूरा भएपछि, मोडेलको गुणस्तरलाई अवलोकन गर्नुहोस् र यसको 'हाइपरप्यारामिटरहरू' समायोजन गरेर सुधार गर्ने विचार गर्नुहोस्। यस प्रक्रियाको बारेमा [दस्तावेजमा](https://docs.microsoft.com/en-us/azure/machine-learning/how-to-tune-hyperparameters?WT.mc_id=academic-77952-leestott) थप पढ्नुहोस्।
|
||||
तपाईंको प्रारम्भिक प्रशिक्षण पूरा भएपछि, मोडेलको गुणस्तर निरीक्षण गर्नुहोस् र यसको 'हाइपरप्यारामिटरहरू' ट्यून गरेर सुधार गर्ने विचार गर्नुहोस्। यस प्रक्रियाबारे थप पढ्न यहाँ हेर्नुहोस् [दस्तावेजमा](https://docs.microsoft.com/en-us/azure/machine-learning/how-to-tune-hyperparameters?WT.mc_id=academic-77952-leestott)।
|
||||
|
||||
## पूर्वानुमान
|
||||
|
||||
यो क्षण हो जहाँ तपाईंले आफ्नो मोडेलको सटीकता परीक्षण गर्न पूर्ण रूपमा नयाँ डाटा प्रयोग गर्न सक्नुहुन्छ। 'लागू गरिएको' ML सेटिङमा, जहाँ तपाईं उत्पादनमा मोडेल प्रयोग गर्न वेब सम्पत्ति निर्माण गर्दै हुनुहुन्छ, यो प्रक्रियाले प्रयोगकर्ता इनपुट सङ्कलन गर्न (उदाहरणका लागि बटन थिच्ने) चर सेट गर्न र मोडेललाई अनुमान वा मूल्याङ्कनको लागि पठाउन समावेश गर्न सक्छ।
|
||||
यो त्यो क्षण हो जहाँ तपाईं पूरै नयाँ डाटा प्रयोग गरेर आफ्नो मोडेलको शुद्धता परीक्षण गर्न सक्नुहुन्छ। 'प्रयोगात्मक' एमएल सेटिङमा, जहाँ तपाईं मोडेललाई उत्पादनमा प्रयोग गर्न वेब सम्पत्ति निर्माण गर्दै हुनुहुन्छ, यस प्रक्रियामा प्रयोगकर्ता इनपुट सङ्कलन (जस्तै बटन थिच्नु) र त्यसलाई मोडेलमा पठाएर अनुमान लगाउने, वा मूल्याङ्कन गर्ने समावेश हुन सक्छ।
|
||||
|
||||
यी पाठहरूमा, तपाईंले यी चरणहरू कसरी प्रयोग गर्ने, निर्माण गर्ने, परीक्षण गर्ने, मूल्याङ्कन गर्ने, र पूर्वानुमान गर्ने - डाटा वैज्ञानिकको सबै इशाराहरू र थप, 'फुल स्ट्याक' ML इन्जिनियर बन्ने यात्रामा प्रगति गर्दै।
|
||||
यी पाठहरूमा, तपाईं यी चरणहरूमा कसरी डाटा तयारी गर्ने, मोडेल निर्माण गर्ने, परीक्षण गर्ने, मूल्याङ्कन गर्ने, र पूर्वानुमान गर्ने सिक्नुहुनेछ — डाटा वैज्ञानिकका सबै कामहरू र थप — तपाईं 'फुल स्ट्याक' एमएल इञ्जिनियर बन्ने यात्रामा अगाडि बढ्दै गर्दा।
|
||||
|
||||
---
|
||||
|
||||
## 🚀 चुनौती
|
||||
## 🚀चुनौती
|
||||
|
||||
ML अभ्यासकर्ताको चरणहरूको प्रवाह चार्ट बनाउनुहोस्। तपाईं अहिले प्रक्रियाको कुन भागमा हुनुहुन्छ? तपाईं कहाँ कठिनाइ पाउने भविष्यवाणी गर्नुहुन्छ? तपाईंलाई के सजिलो लाग्छ?
|
||||
एमएल अभ्यास गर्ने व्यक्तिको कदमहरूको फ्लो चार्ट बनाउनुहोस्। तपाईं अहिले प्रक्रियामा कहाँ हुनुहुन्छ? तपाईंलाई कहाँ कठिनाइ देखिन्छ? के तपाईंलाई सजिलो लाग्छ?
|
||||
|
||||
## [पाठ पछि क्विज](https://ff-quizzes.netlify.app/en/ml/)
|
||||
## [पश्चात्-पाठ क्विज](https://ff-quizzes.netlify.app/en/ml/)
|
||||
|
||||
## समीक्षा र आत्म अध्ययन
|
||||
## समीक्षा र आत्म-अध्ययन
|
||||
|
||||
डाटा वैज्ञानिकहरूको दैनिक कामको बारेमा छलफल गर्ने अन्तर्वार्ताहरू अनलाइन खोज्नुहोस्। यहाँ [एक](https://www.youtube.com/watch?v=Z3IjgbbCEfs) छ।
|
||||
डेटा वैज्ञानिकहरूसँगको अन्तर्वार्ता अनलाइन खोज्नुहोस् जसले आफ्ना दैनिक कामका बारेमा कुरा गर्छन्। यहाँ एउटा छ [one](https://www.youtube.com/watch?v=Z3IjgbbCEfs)।
|
||||
|
||||
## असाइनमेन्ट
|
||||
|
||||
[डाटा वैज्ञानिकसँग अन्तर्वार्ता गर्नुहोस्](assignment.md)
|
||||
[डेटा वैज्ञानिकसँग अन्तरवार्ता लिनुहोस्](assignment.md)
|
||||
|
||||
---
|
||||
|
||||
**अस्वीकरण**:
|
||||
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सटीकता सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषामा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्त्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याका लागि हामी जिम्मेवार हुने छैनौं।
|
||||
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
|
||||
**अस्वीकरण**:
|
||||
यो कागजात AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) को प्रयोग गरेर अनुवाद गरिएको हो। हामी सहीतालाई सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया जान्नुहोस् कि स्वचालित अनुवादमा गल्ती वा अशुद्धता हुन सक्दछ। मूल कागजात यसको मूल भाषामा आधिकारिक स्रोत मानिनु पर्छ। महत्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न भएका कुनै पनि गलत बुझाइ वा गलत व्याख्याको लागि हामी जिम्मेवार हौंन।
|
||||
<!-- CO-OP TRANSLATOR DISCLAIMER END -->
|
||||
Loading…
Reference in new issue