|
|
4 months ago | |
|---|---|---|
| .. | ||
| solution | 4 months ago | |
| README.md | 8 months ago | |
| assignment.md | 8 months ago | |
| notebook.ipynb | 8 months ago | |
README.md
স্কিকিট-লার্ন ব্যবহার করে রিগ্রেশন মডেল তৈরি করুন: চারটি পদ্ধতিতে রিগ্রেশন
ইনফোগ্রাফিক: দাসানি মাদিপল্লি
পূর্ব-লেকচার কুইজ
এই পাঠটি R-এও উপলব্ধ!
ভূমিকা
এখন পর্যন্ত আপনি রিগ্রেশন কী তা কুমড়ার দাম সম্পর্কিত নমুনা ডেটার মাধ্যমে অন্বেষণ করেছেন, যা আমরা এই পাঠে ব্যবহার করব। আপনি এটি ম্যাটপ্লটলিব ব্যবহার করে ভিজ্যুয়ালাইজও করেছেন।
এখন আপনি মেশিন লার্নিংয়ের জন্য রিগ্রেশন আরও গভীরভাবে বুঝতে প্রস্তুত। ভিজ্যুয়ালাইজেশন ডেটা বোঝার জন্য সহায়ক হলেও, মেশিন লার্নিংয়ের আসল শক্তি মডেল প্রশিক্ষণ থেকে আসে। মডেলগুলো ঐতিহাসিক ডেটার উপর প্রশিক্ষিত হয় যাতে ডেটার নির্ভরশীলতা স্বয়ংক্রিয়ভাবে ধরা যায় এবং নতুন ডেটার জন্য ফলাফল পূর্বাভাস দেওয়া যায়, যা মডেল আগে দেখেনি।
এই পাঠে, আপনি দুটি ধরণের রিগ্রেশন সম্পর্কে আরও জানবেন: বেসিক লিনিয়ার রিগ্রেশন এবং পলিনোমিয়াল রিগ্রেশন, এবং এই পদ্ধতিগুলোর কিছু গাণিতিক ভিত্তি। এই মডেলগুলো আমাদের বিভিন্ন ইনপুট ডেটার উপর ভিত্তি করে কুমড়ার দাম পূর্বাভাস দিতে সাহায্য করবে।
🎥 উপরের ছবিতে ক্লিক করুন লিনিয়ার রিগ্রেশন সম্পর্কে সংক্ষিপ্ত ভিডিও দেখার জন্য।
এই পাঠক্রমে, আমরা গণিতের ন্যূনতম জ্ঞান ধরে নিয়েছি এবং এটি অন্যান্য ক্ষেত্র থেকে আসা শিক্ষার্থীদের জন্য সহজলভ্য করার চেষ্টা করেছি। তাই নোট, 🧮 কলআউট, ডায়াগ্রাম এবং অন্যান্য শিক্ষণ সরঞ্জামগুলোর দিকে নজর রাখুন।
পূর্বশর্ত
আপনার এখন পর্যন্ত কুমড়ার ডেটার গঠন সম্পর্কে পরিচিত হওয়া উচিত, যা আমরা পরীক্ষা করছি। এই পাঠের notebook.ipynb ফাইলে এটি প্রি-লোড এবং প্রি-ক্লিন করা অবস্থায় পাওয়া যাবে। ফাইলে, কুমড়ার দাম প্রতি বাসেল হিসেবে একটি নতুন ডেটা ফ্রেমে প্রদর্শিত হয়েছে। নিশ্চিত করুন যে আপনি এই নোটবুকগুলো ভিজ্যুয়াল স্টুডিও কোডের কার্নেলে চালাতে পারেন।
প্রস্তুতি
স্মরণ করিয়ে দেওয়া হচ্ছে, আপনি এই ডেটা লোড করছেন যাতে এর উপর প্রশ্ন করতে পারেন।
- কুমড়া কেনার সেরা সময় কখন?
- ক্ষুদ্রাকৃতির কুমড়ার একটি কেসের দাম কত হতে পারে?
- আমি কি এগুলো অর্ধ-বাসেল ঝুড়িতে কিনব নাকি ১ ১/৯ বাসেল বাক্সে কিনব? চলুন এই ডেটা আরও গভীরভাবে বিশ্লেষণ করি।
পূর্ববর্তী পাঠে, আপনি একটি প্যান্ডাস ডেটা ফ্রেম তৈরি করেছেন এবং মূল ডেটাসেটের অংশ দিয়ে এটি পূরণ করেছেন, দামকে বাসেল অনুযায়ী মানক করে। তবে, এর ফলে আপনি শুধুমাত্র প্রায় ৪০০ ডেটাপয়েন্ট এবং শুধুমাত্র শরৎ মাসের জন্য ডেটা সংগ্রহ করতে পেরেছেন।
এই পাঠের সাথে থাকা নোটবুকে প্রি-লোড করা ডেটা দেখুন। ডেটা প্রি-লোড করা হয়েছে এবং একটি প্রাথমিক স্ক্যাটারপ্লট চার্ট করা হয়েছে মাসের ডেটা দেখানোর জন্য। হয়তো আমরা ডেটার প্রকৃতি সম্পর্কে আরও বিস্তারিত জানতে পারি যদি এটি আরও পরিষ্কার করি।
একটি লিনিয়ার রিগ্রেশন লাইন
পাঠ ১-এ আপনি শিখেছেন যে একটি লিনিয়ার রিগ্রেশন অনুশীলনের লক্ষ্য হলো একটি লাইন প্লট করা যাতে:
- ভেরিয়েবল সম্পর্ক দেখানো যায়। ভেরিয়েবলগুলোর মধ্যে সম্পর্ক দেখানো যায়।
- পূর্বাভাস দেওয়া যায়। নতুন ডেটাপয়েন্টটি সেই লাইনের সাথে সম্পর্কিত কোথায় পড়বে তা সঠিকভাবে পূর্বাভাস দেওয়া যায়।
লিস্ট-স্কয়ার রিগ্রেশন সাধারণত এই ধরণের লাইন আঁকতে ব্যবহৃত হয়। 'লিস্ট-স্কয়ার' শব্দটি বোঝায় যে রিগ্রেশন লাইনের চারপাশের সব ডেটাপয়েন্ট স্কয়ার করা হয় এবং তারপর যোগ করা হয়। আদর্শভাবে, সেই চূড়ান্ত যোগফল যতটা সম্ভব ছোট হওয়া উচিত, কারণ আমরা কম সংখ্যক ত্রুটি বা লিস্ট-স্কয়ার চাই।
আমরা এটি করি কারণ আমরা এমন একটি লাইন মডেল করতে চাই যার সব ডেটাপয়েন্ট থেকে সামগ্রিক দূরত্ব কম। আমরা টার্মগুলো যোগ করার আগে স্কয়ার করি কারণ আমরা এর মাত্রা নিয়ে চিন্তিত, দিক নিয়ে নয়।
🧮 আমাকে গণিত দেখান
এই লাইন, যা সেরা ফিটের লাইন নামে পরিচিত, একটি সমীকরণ দ্বারা প্রকাশ করা যেতে পারে:
Y = a + bX
Xহলো 'ব্যাখ্যামূলক ভেরিয়েবল'।Yহলো 'নির্ভরশীল ভেরিয়েবল'। লাইনের ঢাল হলোbএবংaহলো y-ইন্টারসেপ্ট, যাX = 0হলেYএর মানকে বোঝায়।প্রথমে, ঢাল
bগণনা করুন। ইনফোগ্রাফিক: জেন লুপারঅন্য কথায়, এবং আমাদের কুমড়ার ডেটার মূল প্রশ্নের দিকে ইঙ্গিত করে: "মাস অনুযায়ী প্রতি বাসেলে কুমড়ার দাম পূর্বাভাস দিন",
Xদামকে বোঝাবে এবংYবিক্রয়ের মাসকে বোঝাবে।
Yএর মান গণনা করুন। যদি আপনি প্রায় $4 দিচ্ছেন, তবে এটি অবশ্যই এপ্রিল! ইনফোগ্রাফিক: জেন লুপারলাইনের ঢাল গণনা করার জন্য যে গণিত প্রয়োজন তা ইন্টারসেপ্টের উপরও নির্ভরশীল, বা যেখানে
X = 0হলেYঅবস্থিত।এই মানগুলোর গণনার পদ্ধতি Math is Fun ওয়েবসাইটে পর্যবেক্ষণ করুন। এছাড়াও এই লিস্ট-স্কয়ার ক্যালকুলেটর দেখুন যাতে সংখ্যার মানগুলো লাইনে কীভাবে প্রভাব ফেলে তা দেখতে পারেন।
সম্পর্ক
আরেকটি গুরুত্বপূর্ণ শব্দ হলো করেলেশন কোইফিসিয়েন্ট যা প্রদত্ত X এবং Y ভেরিয়েবলের মধ্যে সম্পর্ক বোঝায়। একটি স্ক্যাটারপ্লট ব্যবহার করে আপনি দ্রুত এই কোইফিসিয়েন্ট ভিজ্যুয়ালাইজ করতে পারেন। একটি প্লটে ডেটাপয়েন্টগুলো যদি একটি সুশৃঙ্খল লাইনে থাকে তবে উচ্চ করেলেশন থাকে, কিন্তু যদি ডেটাপয়েন্টগুলো X এবং Y এর মধ্যে এলোমেলোভাবে ছড়িয়ে থাকে তবে নিম্ন করেলেশন থাকে।
একটি ভালো লিনিয়ার রিগ্রেশন মডেল হবে এমন একটি যার লিস্ট-স্কয়ার রিগ্রেশন পদ্ধতি ব্যবহার করে রিগ্রেশন লাইনের সাথে উচ্চ (১ এর কাছাকাছি, ০ এর চেয়ে বেশি) করেলেশন কোইফিসিয়েন্ট থাকে।
✅ এই পাঠের সাথে থাকা নোটবুক চালান এবং মাস থেকে দাম সম্পর্কিত স্ক্যাটারপ্লট দেখুন। কুমড়া বিক্রির মাস থেকে দাম সম্পর্কিত ডেটা আপনার ভিজ্যুয়াল ব্যাখ্যা অনুযায়ী উচ্চ বা নিম্ন করেলেশন আছে বলে মনে হয়? যদি আপনি Month এর পরিবর্তে আরও সূক্ষ্ম পরিমাপ ব্যবহার করেন, যেমন বছরের দিন (অর্থাৎ বছরের শুরু থেকে দিন সংখ্যা), তাহলে কি এটি পরিবর্তিত হয়?
নিচের কোডে, আমরা ধরে নিচ্ছি যে আমরা ডেটা পরিষ্কার করেছি এবং একটি ডেটা ফ্রেম পেয়েছি যার নাম new_pumpkins, যা নিম্নরূপ:
| ID | Month | DayOfYear | Variety | City | Package | Low Price | High Price | Price |
|---|---|---|---|---|---|---|---|---|
| 70 | 9 | 267 | PIE TYPE | BALTIMORE | 1 1/9 bushel cartons | 15.0 | 15.0 | 13.636364 |
| 71 | 9 | 267 | PIE TYPE | BALTIMORE | 1 1/9 bushel cartons | 18.0 | 18.0 | 16.363636 |
| 72 | 10 | 274 | PIE TYPE | BALTIMORE | 1 1/9 bushel cartons | 18.0 | 18.0 | 16.363636 |
| 73 | 10 | 274 | PIE TYPE | BALTIMORE | 1 1/9 bushel cartons | 17.0 | 17.0 | 15.454545 |
| 74 | 10 | 281 | PIE TYPE | BALTIMORE | 1 1/9 bushel cartons | 15.0 | 15.0 | 13.636364 |
ডেটা পরিষ্কার করার কোড
notebook.ipynbএ উপলব্ধ। আমরা পূর্ববর্তী পাঠের মতো একই পরিষ্কার করার ধাপ সম্পন্ন করেছি এবং নিম্নলিখিত এক্সপ্রেশন ব্যবহার করেDayOfYearকলাম গণনা করেছি:
day_of_year = pd.to_datetime(pumpkins['Date']).apply(lambda dt: (dt-datetime(dt.year,1,1)).days)
এখন আপনি লিনিয়ার রিগ্রেশনের পেছনের গণিত সম্পর্কে ধারণা পেয়েছেন, চলুন একটি রিগ্রেশন মডেল তৈরি করি যাতে আমরা পূর্বাভাস দিতে পারি কোন কুমড়ার প্যাকেজের দাম সবচেয়ে ভালো হবে। কেউ যদি ছুটির দিনে কুমড়ার প্যাচের জন্য কুমড়া কিনতে চান, তাহলে এই তথ্য তাদের কুমড়ার প্যাকেজ কেনার ক্ষেত্রে অপ্টিমাইজ করতে সাহায্য করবে।
করেলেশন খুঁজে বের করা
🎥 উপরের ছবিতে ক্লিক করুন করেলেশন সম্পর্কে সংক্ষিপ্ত ভিডিও দেখার জন্য।
পূর্ববর্তী পাঠ থেকে আপনি সম্ভবত দেখেছেন যে বিভিন্ন মাসের গড় দাম নিম্নরূপ দেখায়:
এটি ইঙ্গিত করে যে কিছু করেলেশন থাকতে পারে, এবং আমরা Month এবং Price এর মধ্যে সম্পর্ক বা DayOfYear এবং Price এর মধ্যে সম্পর্ক পূর্বাভাস দিতে লিনিয়ার রিগ্রেশন মডেল প্রশিক্ষণ দিতে চেষ্টা করতে পারি। এখানে একটি স্ক্যাটারপ্লট দেখানো হয়েছে যা পরবর্তী সম্পর্কটি দেখায়:
চলুন corr ফাংশন ব্যবহার করে করেলেশন আছে কিনা দেখি:
print(new_pumpkins['Month'].corr(new_pumpkins['Price']))
print(new_pumpkins['DayOfYear'].corr(new_pumpkins['Price']))
দেখা যাচ্ছে করেলেশন বেশ ছোট, Month অনুযায়ী -0.15 এবং DayOfMonth অনুযায়ী -0.17, তবে অন্য একটি গুরুত্বপূর্ণ সম্পর্ক থাকতে পারে। মনে হচ্ছে বিভিন্ন কুমড়ার প্রজাতির সাথে বিভিন্ন দাম ক্লাস্টার রয়েছে। এই অনুমান নিশ্চিত করতে, চলুন প্রতিটি কুমড়ার ক্যাটাগরি আলাদা রঙে প্লট করি। scatter প্লটিং ফাংশনে ax প্যারামিটার পাস করে আমরা সব পয়েন্ট একই গ্রাফে প্লট করতে পারি:
ax=None
colors = ['red','blue','green','yellow']
for i,var in enumerate(new_pumpkins['Variety'].unique()):
df = new_pumpkins[new_pumpkins['Variety']==var]
ax = df.plot.scatter('DayOfYear','Price',ax=ax,c=colors[i],label=var)
আমাদের তদন্ত ইঙ্গিত করে যে প্রজাতি বিক্রয়ের তারিখের চেয়ে সামগ্রিক দামের উপর বেশি প্রভাব ফেলে। আমরা এটি একটি বার গ্রাফের মাধ্যমে দেখতে পারি:
new_pumpkins.groupby('Variety')['Price'].mean().plot(kind='bar')
চলুন আপাতত শুধুমাত্র একটি কুমড়ার প্রজাতি, 'পাই টাইপ', এর উপর মনোযোগ দিই এবং দেখি তারিখের দাম উপর কী প্রভাব ফেলে:
pie_pumpkins = new_pumpkins[new_pumpkins['Variety']=='PIE TYPE']
pie_pumpkins.plot.scatter('DayOfYear','Price')
যদি আমরা এখন corr ফাংশন ব্যবহার করে Price এবং DayOfYear এর মধ্যে করেলেশন গণনা করি, আমরা কিছুটা -0.27 পাব - যা নির্দেশ করে যে একটি পূর্বাভাস মডেল প্রশিক্ষণ দেওয়া যুক্তিযুক্ত।
একটি লিনিয়ার রিগ্রেশন মডেল প্রশিক্ষণ দেওয়ার আগে, আমাদের ডেটা পরিষ্কার করা নিশ্চিত করা গুরুত্বপূর্ণ। লিনিয়ার রিগ্রেশন মিসিং ভ্যালু নিয়ে ভালো কাজ করে না, তাই সব খালি সেলগুলো সরিয়ে ফেলা যুক্তিযুক্ত:
pie_pumpkins.dropna(inplace=True)
pie_pumpkins.info()
অন্য একটি পদ্ধতি হলো খালি ভ্যালুগুলো সংশ্লিষ্ট কলামের গড় মান দিয়ে পূরণ করা।
সাধারণ লিনিয়ার রিগ্রেশন
🎥 উপরের ছবিতে ক্লিক করুন লিনিয়ার এবং পলিনোমিয়াল রিগ্রেশন সম্পর্কে সংক্ষিপ্ত ভিডিও দেখার জন্য।
আমাদের লিনিয়ার রিগ্রেশন মডেল প্রশিক্ষণ দিতে আমরা স্কিকিট-লার্ন লাইব্রেরি ব্যবহার করব।
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
আমরা ইনপুট মান (ফিচার) এবং প্রত্যাশিত আউটপুট (লেবেল) আলাদা নাম্পাই অ্যারেতে ভাগ করে শুরু করি:
X = pie_pumpkins['DayOfYear'].to_numpy().reshape(-1,1)
y = pie_pumpkins['Price']
লক্ষ্য করুন যে আমরা ইনপুট ডেটার উপর
reshapeকরতে বাধ্য হয়েছি যাতে লিনিয়ার রিগ্রেশন প্যাকেজ এটি সঠিকভাবে বুঝতে পারে। লিনিয়ার রিগ্রেশন একটি 2D-অ্যারে ইনপুট হিসেবে আশা করে, যেখানে অ্যারেটির প্রতিটি সারি ইনপুট ফিচারের একটি ভেক্টরের সাথে সম্পর্কিত। আমাদের ক্ষেত্রে, যেহেতু আমাদের শুধুমাত্র একটি ইনপুট আছে - আমাদের একটি N×1 আকারের অ্যারে প্রয়োজন, যেখানে N হলো ডেটাসেটের আকার।
তারপর, আমরা ডেটাকে ট্রেন এবং টেস্ট ডেটাসেটে ভাগ করি, যাতে প্রশিক্ষণের পরে আমাদের মডেল যাচাই করতে পারি:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
অবশেষে, আসল লিনিয়ার রিগ্রেশন মডেল প্রশিক্ষণ দিতে মাত্র দুটি লাইন কোড লাগে। আমরা LinearRegression অবজেক্ট সংজ্ঞায়িত করি এবং fit পদ্ধতি ব্যবহার করে আমাদের ডেটার সাথে এটি ফিট করি:
lin_reg = LinearRegression()
lin_reg.fit(X_train,y_train)
LinearRegression অবজেক্টটি fit করার পরে রিগ্রেশনের সব কোইফিসিয়েন্ট ধারণ করে, যা .coef_ প্রপার্টি ব্যবহার করে অ্যাক্সেস করা যায়। আমাদের ক্ষেত্রে, এখানে শুধুমাত্র একটি কোইফিসিয়েন্ট আছে, যা -0.017 এর কাছাকাছি হওয়া উচিত। এটি নির্দেশ করে যে সময়ের সাথে দাম কিছুটা কমে, তবে খুব বেশি নয়, প্রতিদিন প্রায় ২ সেন্ট। আমরা রিগ্রেশনের Y-অক্ষের সাথে ইন্টারসেকশন পয়েন্টও অ্যাক্সেস করতে পারি lin_reg.intercept_ ব্যবহার করে - এটি আমাদের ক্ষেত্রে প্রায় 21 হবে, যা বছরের শুরুতে দাম নির্দেশ করে।
আমাদের মডেল কতটা সঠিক তা দেখতে, আমরা টেস্ট ডেটাসেটে দাম পূর্বাভাস দিতে পারি এবং তারপর আমাদের পূর্বাভাস প্রত্যাশিত মানের সাথে কতটা কাছাকাছি তা পরিমাপ করতে পারি। এটি মীন স্কয়ার এরর (MSE) মেট্রিক্স ব্যবহার করে করা যায়, যা প্রত্যাশিত এবং পূর্বাভাসিত মানের মধ্যে সব স্কয়ার পার্থক্যের গড়।
pred = lin_reg.predict(X_test)
mse = np.sqrt(mean_squared_error(y_test,pred))
print(f'Mean error: {mse:3.3} ({mse/np.mean(pred)*100:3.3}%)')
আমাদের ত্রুটি প্রায় ২টি পয়েন্টের আশেপাশে, যা প্রায় ১৭%। খুব একটা ভালো নয়। মডেলের গুণমানের আরেকটি সূচক হলো coefficient of determination, যা এইভাবে পাওয়া যায়:
score = lin_reg.score(X_train,y_train)
print('Model determination: ', score)
যদি মান ০ হয়, তাহলে এর অর্থ হলো মডেল ইনপুট ডেটাকে বিবেচনায় নেয় না এবং এটি সবচেয়ে খারাপ লিনিয়ার প্রেডিক্টর হিসেবে কাজ করে, যা কেবলমাত্র ফলাফলের গড় মান। মান ১ হলে বোঝায় যে আমরা প্রত্যাশিত সমস্ত আউটপুট নিখুঁতভাবে পূর্বানুমান করতে পারি। আমাদের ক্ষেত্রে, coefficient প্রায় ০.০৬, যা বেশ কম।
আমরা টেস্ট ডেটা এবং রিগ্রেশন লাইনের সাথে একটি গ্রাফ আঁকতে পারি, যাতে আমাদের ক্ষেত্রে রিগ্রেশন কীভাবে কাজ করছে তা আরও ভালোভাবে বোঝা যায়:
plt.scatter(X_test,y_test)
plt.plot(X_test,pred)
পলিনোমিয়াল রিগ্রেশন
লিনিয়ার রিগ্রেশনের আরেকটি ধরন হলো পলিনোমিয়াল রিগ্রেশন। কখনও কখনও ভেরিয়েবলগুলোর মধ্যে একটি সরল সম্পর্ক থাকে - যেমন, কুমড়ার আয়তন যত বড়, দাম তত বেশি - কিন্তু কখনও কখনও এই সম্পর্কগুলোকে একটি সমতল বা সরল রেখা হিসেবে চিত্রিত করা যায় না।
✅ এখানে কিছু উদাহরণ দেওয়া হলো, যেখানে পলিনোমিয়াল রিগ্রেশন ব্যবহার করা যেতে পারে।
তারিখ এবং দামের মধ্যে সম্পর্কটি আবার দেখুন। এই স্ক্যাটারপ্লটটি কি সরল রেখা দিয়ে বিশ্লেষণ করা উচিত বলে মনে হয়? দামের ওঠানামা কি সম্ভব নয়? এই ক্ষেত্রে, আপনি পলিনোমিয়াল রিগ্রেশন চেষ্টা করতে পারেন।
✅ পলিনোমিয়াল হলো গাণিতিক প্রকাশ, যা এক বা একাধিক ভেরিয়েবল এবং কোইফিসিয়েন্ট নিয়ে গঠিত হতে পারে।
পলিনোমিয়াল রিগ্রেশন একটি বাঁকানো রেখা তৈরি করে, যা অ-রৈখিক ডেটার সাথে আরও ভালোভাবে মানানসই হয়। আমাদের ক্ষেত্রে, যদি ইনপুট ডেটায় একটি বর্গ DayOfYear ভেরিয়েবল যোগ করি, তাহলে আমরা একটি প্যারাবোলিক কার্ভ দিয়ে আমাদের ডেটাকে মানানসই করতে পারব, যার একটি নির্দিষ্ট বিন্দুতে সর্বনিম্ন মান থাকবে।
Scikit-learn একটি সহায়ক pipeline API অন্তর্ভুক্ত করে, যা ডেটা প্রসেসিংয়ের বিভিন্ন ধাপ একত্রিত করতে সাহায্য করে। একটি pipeline হলো estimators-এর একটি চেইন। আমাদের ক্ষেত্রে, আমরা একটি pipeline তৈরি করব, যা প্রথমে মডেলে পলিনোমিয়াল ফিচার যোগ করবে এবং তারপর রিগ্রেশন প্রশিক্ষণ দেবে:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
pipeline = make_pipeline(PolynomialFeatures(2), LinearRegression())
pipeline.fit(X_train,y_train)
PolynomialFeatures(2) ব্যবহার করার অর্থ হলো আমরা ইনপুট ডেটা থেকে সমস্ত দ্বিতীয়-ডিগ্রির পলিনোমিয়াল অন্তর্ভুক্ত করব। আমাদের ক্ষেত্রে এটি কেবল DayOfYear2 বোঝাবে, তবে দুটি ইনপুট ভেরিয়েবল X এবং Y থাকলে এটি X2, XY এবং Y2 যোগ করবে। আমরা চাইলে আরও উচ্চ ডিগ্রির পলিনোমিয়াল ব্যবহার করতে পারি।
পাইপলাইনগুলোকে মূল LinearRegression অবজেক্টের মতোই ব্যবহার করা যায়, অর্থাৎ আমরা পাইপলাইনটিকে fit করতে পারি এবং তারপর predict ব্যবহার করে পূর্বানুমানের ফলাফল পেতে পারি। এখানে টেস্ট ডেটা এবং আনুমানিক কার্ভ দেখানো হলো:
পলিনোমিয়াল রিগ্রেশন ব্যবহার করে আমরা সামান্য কম MSE এবং সামান্য বেশি determination পেতে পারি, তবে তা উল্লেখযোগ্য নয়। আমাদের আরও ফিচার বিবেচনায় নিতে হবে!
আপনি দেখতে পাবেন যে হ্যালোউইনের আশেপাশে কুমড়ার সর্বনিম্ন দাম দেখা যায়। আপনি এটি কীভাবে ব্যাখ্যা করবেন?
🎃 অভিনন্দন, আপনি একটি মডেল তৈরি করেছেন যা পাই কুমড়ার দাম পূর্বানুমান করতে সাহায্য করতে পারে। আপনি সম্ভবত একই পদ্ধতি সমস্ত কুমড়ার প্রকারের জন্য পুনরাবৃত্তি করতে পারেন, তবে এটি বেশ ক্লান্তিকর হবে। এখন চলুন শিখি কীভাবে মডেলে কুমড়ার বৈচিত্র্যকে বিবেচনায় নেওয়া যায়!
শ্রেণীবদ্ধ ফিচার
আদর্শ জগতে, আমরা একই মডেল ব্যবহার করে বিভিন্ন কুমড়ার প্রকারের দাম পূর্বানুমান করতে চাই। তবে, Variety কলামটি Month-এর মতো কলাম থেকে কিছুটা আলাদা, কারণ এতে অ-সংখ্যাসূচক মান রয়েছে। এই ধরনের কলামগুলোকে শ্রেণীবদ্ধ (categorical) বলা হয়।
🎥 উপরের ছবিতে ক্লিক করে শ্রেণীবদ্ধ ফিচার ব্যবহারের একটি সংক্ষিপ্ত ভিডিও দেখুন।
এখানে আপনি দেখতে পাচ্ছেন কীভাবে গড় দাম বৈচিত্র্যের উপর নির্ভর করে:
বৈচিত্র্যকে বিবেচনায় নিতে, প্রথমে আমাদের এটিকে সংখ্যাসূচক রূপে রূপান্তর করতে হবে, বা এনকোড করতে হবে। এটি করার কয়েকটি উপায় রয়েছে:
- সহজ সংখ্যাসূচক এনকোডিং একটি টেবিল তৈরি করবে, যেখানে বিভিন্ন বৈচিত্র্য থাকবে, এবং তারপর বৈচিত্র্যের নামকে সেই টেবিলের একটি সূচক দিয়ে প্রতিস্থাপন করবে। এটি লিনিয়ার রিগ্রেশনের জন্য সেরা পদ্ধতি নয়, কারণ লিনিয়ার রিগ্রেশন সূচকের প্রকৃত সংখ্যাসূচক মান গ্রহণ করে এবং এটি ফলাফলে যোগ করে, একটি গুণফল দ্বারা গুণিত করে। আমাদের ক্ষেত্রে, সূচক সংখ্যার সাথে দামের সম্পর্ক স্পষ্টতই অ-রৈখিক, এমনকি যদি আমরা নিশ্চিত করি যে সূচকগুলো নির্দিষ্টভাবে সাজানো হয়েছে।
- ওয়ান-হট এনকোডিং
Varietyকলামটিকে ৪টি ভিন্ন কলামে প্রতিস্থাপন করবে, প্রতিটি বৈচিত্র্যের জন্য একটি করে। প্রতিটি কলামে1থাকবে যদি সংশ্লিষ্ট সারিটি একটি নির্দিষ্ট বৈচিত্র্যের হয়, অন্যথায়0থাকবে। এর মানে হলো লিনিয়ার রিগ্রেশনে ৪টি ভিন্ন কোইফিসিয়েন্ট থাকবে, প্রতিটি কুমড়ার বৈচিত্র্যের জন্য একটি করে, যা সেই নির্দিষ্ট বৈচিত্র্যের জন্য "প্রাথমিক দাম" (বা বরং "অতিরিক্ত দাম") নির্ধারণ করবে।
নিচের কোডটি দেখায় কীভাবে আমরা একটি বৈচিত্র্যকে ওয়ান-হট এনকোড করতে পারি:
pd.get_dummies(new_pumpkins['Variety'])
| ID | FAIRYTALE | MINIATURE | MIXED HEIRLOOM VARIETIES | PIE TYPE |
|---|---|---|---|---|
| 70 | 0 | 0 | 0 | 1 |
| 71 | 0 | 0 | 0 | 1 |
| ... | ... | ... | ... | ... |
| 1738 | 0 | 1 | 0 | 0 |
| 1739 | 0 | 1 | 0 | 0 |
| 1740 | 0 | 1 | 0 | 0 |
| 1741 | 0 | 1 | 0 | 0 |
| 1742 | 0 | 1 | 0 | 0 |
ওয়ান-হট এনকোড করা বৈচিত্র্যকে ইনপুট হিসেবে ব্যবহার করে লিনিয়ার রিগ্রেশন প্রশিক্ষণ দিতে, আমাদের কেবল X এবং y ডেটা সঠিকভাবে ইনিশিয়ালাইজ করতে হবে:
X = pd.get_dummies(new_pumpkins['Variety'])
y = new_pumpkins['Price']
বাকি কোডটি উপরের লিনিয়ার রিগ্রেশন প্রশিক্ষণের মতোই। যদি আপনি এটি চেষ্টা করেন, আপনি দেখতে পাবেন যে গড় বর্গ ত্রুটি (MSE) প্রায় একই থাকে, তবে আমরা অনেক বেশি determination coefficient (~77%) পাই। আরও সঠিক পূর্বানুমান পেতে, আমরা আরও শ্রেণীবদ্ধ ফিচার এবং সংখ্যাসূচক ফিচার যেমন Month বা DayOfYear বিবেচনায় নিতে পারি। একটি বড় ফিচার অ্যারে পেতে, আমরা join ব্যবহার করতে পারি:
X = pd.get_dummies(new_pumpkins['Variety']) \
.join(new_pumpkins['Month']) \
.join(pd.get_dummies(new_pumpkins['City'])) \
.join(pd.get_dummies(new_pumpkins['Package']))
y = new_pumpkins['Price']
এখানে আমরা City এবং Package টাইপকেও বিবেচনায় নিয়েছি, যা আমাদের MSE 2.84 (10%) এবং determination 0.94 দেয়!
সবকিছু একত্রিত করা
সেরা মডেল তৈরি করতে, আমরা উপরের উদাহরণ থেকে সম্মিলিত (ওয়ান-হট এনকোড করা শ্রেণীবদ্ধ + সংখ্যাসূচক) ডেটা এবং পলিনোমিয়াল রিগ্রেশন ব্যবহার করতে পারি। আপনার সুবিধার জন্য এখানে সম্পূর্ণ কোড দেওয়া হলো:
# set up training data
X = pd.get_dummies(new_pumpkins['Variety']) \
.join(new_pumpkins['Month']) \
.join(pd.get_dummies(new_pumpkins['City'])) \
.join(pd.get_dummies(new_pumpkins['Package']))
y = new_pumpkins['Price']
# make train-test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
# setup and train the pipeline
pipeline = make_pipeline(PolynomialFeatures(2), LinearRegression())
pipeline.fit(X_train,y_train)
# predict results for test data
pred = pipeline.predict(X_test)
# calculate MSE and determination
mse = np.sqrt(mean_squared_error(y_test,pred))
print(f'Mean error: {mse:3.3} ({mse/np.mean(pred)*100:3.3}%)')
score = pipeline.score(X_train,y_train)
print('Model determination: ', score)
এটি আমাদের প্রায় ৯৭% determination coefficient এবং MSE=2.23 (~8% পূর্বানুমান ত্রুটি) দেবে।
| মডেল | MSE | Determination |
|---|---|---|
DayOfYear লিনিয়ার |
2.77 (17.2%) | 0.07 |
DayOfYear পলিনোমিয়াল |
2.73 (17.0%) | 0.08 |
Variety লিনিয়ার |
5.24 (19.7%) | 0.77 |
| সব ফিচার লিনিয়ার | 2.84 (10.5%) | 0.94 |
| সব ফিচার পলিনোমিয়াল | 2.23 (8.25%) | 0.97 |
🏆 দারুণ কাজ! আপনি এক পাঠে চারটি রিগ্রেশন মডেল তৈরি করেছেন এবং মডেলের গুণমান ৯৭% পর্যন্ত উন্নত করেছেন। রিগ্রেশনের চূড়ান্ত অংশে, আপনি ক্যাটাগরি নির্ধারণের জন্য লজিস্টিক রিগ্রেশন সম্পর্কে শিখবেন।
🚀চ্যালেঞ্জ
এই নোটবুকে বিভিন্ন ভেরিয়েবল পরীক্ষা করুন এবং দেখুন কীভাবে সম্পর্ক মডেলের নির্ভুলতার সাথে সামঞ্জস্যপূর্ণ।
পোস্ট-লেকচার কুইজ
পুনরালোচনা ও স্ব-অধ্যয়ন
এই পাঠে আমরা লিনিয়ার রিগ্রেশন সম্পর্কে শিখেছি। রিগ্রেশনের অন্যান্য গুরুত্বপূর্ণ ধরন রয়েছে। Stepwise, Ridge, Lasso এবং Elasticnet কৌশল সম্পর্কে পড়ুন। আরও শেখার জন্য একটি ভালো কোর্স হলো স্ট্যানফোর্ড স্ট্যাটিস্টিক্যাল লার্নিং কোর্স।
অ্যাসাইনমেন্ট
অস্বীকৃতি:
এই নথিটি AI অনুবাদ পরিষেবা Co-op Translator ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। নথিটির মূল ভাষায় রচিত সংস্করণটিকেই প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে সৃষ্ট কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়ী নই।






