|
2 weeks ago | |
---|---|---|
.. | ||
solution | 3 weeks ago | |
README.md | 2 weeks ago | |
assignment.md | 3 weeks ago | |
notebook.ipynb | 3 weeks ago |
README.md
वर्गहरू भविष्यवाणी गर्नका लागि Logistic Regression
Pre-lecture quiz
यो पाठ R मा उपलब्ध छ!
परिचय
Regression को अन्तिम पाठमा, जुन classic ML प्रविधिहरू मध्ये एक हो, हामी Logistic Regression को अध्ययन गर्नेछौं। यो प्रविधि प्रयोग गरेर तपाईंले binary वर्गहरू भविष्यवाणी गर्नका लागि ढाँचाहरू पत्ता लगाउन सक्नुहुन्छ। यो क्यान्डी चकलेट हो कि होइन? यो रोग संक्रामक हो कि होइन? यो ग्राहकले यो उत्पादन रोज्नेछ कि छैन?
यस पाठमा, तपाईंले सिक्नुहुनेछ:
- डेटा visualization को लागि नयाँ पुस्तकालय
- Logistic Regression को प्रविधिहरू
✅ यस प्रकारको regression मा काम गर्ने आफ्नो समझलाई गहिरो बनाउनुहोस् Learn module मा।
पूर्व-आवश्यकता
Pumpkin डेटा संग काम गरेपछि, हामी यसमा पर्याप्त परिचित छौं कि हामीले महसुस गर्न सक्छौं कि त्यहाँ एउटा binary वर्ग छ जसमा हामी काम गर्न सक्छौं: Color
।
आउनुहोस्, केही variables दिइएको अवस्थामा कुन रंगको pumpkin सम्भावित छ भनेर भविष्यवाणी गर्नका लागि Logistic Regression मोडेल बनाउँ।
किन हामी regression को पाठ समूहमा binary classification को कुरा गर्दैछौं? केवल भाषिक सुविधाको लागि, किनकि Logistic Regression वास्तवमा एक classification विधि हो, यद्यपि यो linear आधारित हो। डेटा वर्गीकरणका अन्य तरिकाहरूको बारेमा अर्को पाठ समूहमा जान्नुहोस्।
प्रश्न परिभाषित गर्नुहोस्
हाम्रो उद्देश्यका लागि, हामी यसलाई binary रूपमा व्यक्त गर्नेछौं: 'White' वा 'Not White'। हाम्रो dataset मा 'striped' नामक अर्को वर्ग पनि छ तर यसको उदाहरणहरू कम छन्, त्यसैले हामी यसलाई प्रयोग गर्नेछैनौं। यो dataset बाट null मानहरू हटाएपछि हराउँछ।
🎃 रमाइलो तथ्य, हामी कहिलेकाहीं सेतो pumpkins लाई 'ghost' pumpkins भन्छौं। तिनीहरू carving गर्न धेरै सजिलो छैनन्, त्यसैले तिनीहरू orange pumpkins जत्तिकै लोकप्रिय छैनन् तर तिनीहरू आकर्षक देखिन्छन्! त्यसैले हामी हाम्रो प्रश्नलाई यसरी पनि पुनःव्यक्त गर्न सक्छौं: 'Ghost' वा 'Not Ghost'। 👻
Logistic Regression को बारेमा
Logistic Regression linear regression भन्दा केही महत्त्वपूर्ण तरिकामा फरक छ, जुन तपाईंले पहिले सिक्नुभएको थियो।
🎥 माथिको छवि क्लिक गरेर Logistic Regression को छोटो भिडियो अवलोकन हेर्नुहोस्।
Binary Classification
Logistic Regression ले linear regression जस्तै सुविधाहरू प्रदान गर्दैन। पूर्वले binary वर्ग ("white or not white") को बारेमा भविष्यवाणी प्रदान गर्दछ भने उत्तरार्द्धले निरन्तर मानहरू भविष्यवाणी गर्न सक्षम छ, उदाहरणका लागि pumpkin को उत्पत्ति र harvesting को समय दिइएको अवस्थामा, यसको मूल्य कति बढ्नेछ।
Infographic by Dasani Madipalli
अन्य वर्गीकरणहरू
Logistic Regression का अन्य प्रकारहरू पनि छन्, जस्तै multinomial र ordinal:
- Multinomial, जसमा एकभन्दा बढी वर्गहरू हुन्छन् - "Orange, White, and Striped"।
- Ordinal, जसमा ordered वर्गहरू हुन्छन्, उपयोगी यदि हामीले हाम्रो परिणामहरूलाई तार्किक रूपमा क्रमबद्ध गर्न चाह्यौं, जस्तै हाम्रो pumpkins जसलाई सीमित आकारहरू (mini, sm, med, lg, xl, xxl) द्वारा क्रमबद्ध गरिएको छ।
Variables को सम्बन्ध आवश्यक छैन
Linear regression ले बढी सम्बन्धित variables संग राम्रो काम गरेको सम्झनुहुन्छ? Logistic Regression ठीक विपरीत हो - variables लाई align गर्न आवश्यक छैन। यो डेटा संग काम गर्न उपयुक्त छ जसको सम्बन्धहरू कमजोर छन्।
तपाईंलाई धेरै सफा डेटा चाहिन्छ
Logistic Regression ले बढी डेटा प्रयोग गर्दा बढी सटीक परिणाम दिन्छ; हाम्रो सानो dataset यो कार्यका लागि उपयुक्त छैन, त्यसैले यो ध्यानमा राख्नुहोस्।
🎥 माथिको छवि क्लिक गरेर linear regression को लागि डेटा तयार गर्ने छोटो भिडियो अवलोकन हेर्नुहोस्।
✅ सोच्नुहोस् कि Logistic Regression को लागि उपयुक्त डेटा प्रकारहरू के हुन्।
अभ्यास - डेटा सफा गर्नुहोस्
पहिले, डेटा अलिकति सफा गर्नुहोस्, null मानहरू हटाएर र केही स्तम्भहरू चयन गरेर:
-
निम्न कोड थप्नुहोस्:
columns_to_select = ['City Name','Package','Variety', 'Origin','Item Size', 'Color'] pumpkins = full_pumpkins.loc[:, columns_to_select] pumpkins.dropna(inplace=True)
तपाईं आफ्नो नयाँ dataframe हेर्न सक्नुहुन्छ:
pumpkins.info
Visualization - categorical plot
अबसम्म तपाईंले starter notebook मा pumpkin डेटा लोड गर्नुभएको छ र यसलाई सफा गर्नुभएको छ ताकि केही variables सहितको dataset सुरक्षित रहोस्, जस्तै Color
। आउनुहोस्, notebook मा नयाँ पुस्तकालय Seaborn प्रयोग गरेर dataframe लाई visualize गरौं, जुन पहिले प्रयोग गरिएको Matplotlib मा आधारित छ।
Seaborn ले तपाईंको डेटा visualize गर्न केही आकर्षक तरिकाहरू प्रदान गर्दछ। उदाहरणका लागि, तपाईं Variety
र Color
को डेटा वितरण तुलना गर्न सक्नुहुन्छ।
-
catplot
function प्रयोग गरेर यस्तो plot बनाउनुहोस्, हाम्रो pumpkin डेटाpumpkins
प्रयोग गर्दै, र प्रत्येक pumpkin वर्ग (orange वा white) को लागि रंग mapping निर्दिष्ट गर्दै:import seaborn as sns palette = { 'ORANGE': 'orange', 'WHITE': 'wheat', } sns.catplot( data=pumpkins, y="Variety", hue="Color", kind="count", palette=palette, )
डेटा अवलोकन गरेर, तपाईं देख्न सक्नुहुन्छ कि Color डेटा Variety संग कसरी सम्बन्धित छ।
✅ यस categorical plot लाई हेरेर, के के रोचक अन्वेषणहरू तपाईं कल्पना गर्न सक्नुहुन्छ?
डेटा पूर्व-प्रसंस्करण: feature र label encoding
हाम्रो pumpkins dataset मा सबै स्तम्भहरूको लागि string मानहरू छन्। मानवीय दृष्टिकोणबाट categorical डेटा संग काम गर्न सहज छ तर मेसिनका लागि होइन। Machine learning algorithms ले संख्याहरू संग राम्रो काम गर्छ। त्यसैले encoding डेटा पूर्व-प्रसंस्करण चरणमा एक महत्त्वपूर्ण कदम हो, किनकि यसले categorical डेटा लाई संख्यात्मक डेटा मा बदल्न सक्षम बनाउँछ, कुनै पनि जानकारी गुमाउनु बिना। राम्रो encoding ले राम्रो मोडेल निर्माण गर्न मद्दत गर्दछ।
Feature encoding को लागि दुई मुख्य प्रकारका encoders छन्:
-
Ordinal encoder: यो ordinal variables का लागि उपयुक्त छ, जुन categorical variables हुन् जहाँ तिनीहरूको डेटा तार्किक क्रम अनुसरण गर्दछ, जस्तै हाम्रो dataset मा
Item Size
स्तम्भ। यो mapping सिर्जना गर्दछ जसले प्रत्येक वर्गलाई एक संख्याले प्रतिनिधित्व गर्दछ, जुन स्तम्भमा वर्गको क्रम हो।from sklearn.preprocessing import OrdinalEncoder item_size_categories = [['sml', 'med', 'med-lge', 'lge', 'xlge', 'jbo', 'exjbo']] ordinal_features = ['Item Size'] ordinal_encoder = OrdinalEncoder(categories=item_size_categories)
-
Categorical encoder: यो nominal variables का लागि उपयुक्त छ, जुन categorical variables हुन् जहाँ तिनीहरूको डेटा तार्किक क्रम अनुसरण गर्दैन, जस्तै
Item Size
बाहेकका सबै features। यो एक one-hot encoding हो, जसको मतलब प्रत्येक वर्गलाई एक binary स्तम्भले प्रतिनिधित्व गर्दछ: encoded variable बराबर 1 हुन्छ यदि pumpkin त्यो Variety मा पर्छ भने र अन्यथा 0।from sklearn.preprocessing import OneHotEncoder categorical_features = ['City Name', 'Package', 'Variety', 'Origin'] categorical_encoder = OneHotEncoder(sparse_output=False)
त्यसपछि, ColumnTransformer
प्रयोग गरेर धेरै encoders लाई एकल चरणमा संयोजन गरिन्छ र तिनीहरूलाई उपयुक्त स्तम्भहरूमा लागू गरिन्छ।
from sklearn.compose import ColumnTransformer
ct = ColumnTransformer(transformers=[
('ord', ordinal_encoder, ordinal_features),
('cat', categorical_encoder, categorical_features)
])
ct.set_output(transform='pandas')
encoded_features = ct.fit_transform(pumpkins)
अर्कोतर्फ, label लाई encode गर्न, हामी scikit-learn को LabelEncoder
class प्रयोग गर्छौं, जुन labels लाई normalize गर्न मद्दत गर्ने utility class हो ताकि तिनीहरूले केवल 0 देखि n_classes-1 (यहाँ, 0 र 1) सम्मका मानहरू समावेश गर्छन्।
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
encoded_label = label_encoder.fit_transform(pumpkins['Color'])
Features र label लाई encode गरेपछि, हामी तिनीहरूलाई नयाँ dataframe encoded_pumpkins
मा merge गर्न सक्छौं।
encoded_pumpkins = encoded_features.assign(Color=encoded_label)
✅ Item Size
स्तम्भको लागि ordinal encoder प्रयोग गर्दा के फाइदाहरू छन्?
Variables बीचको सम्बन्ध विश्लेषण गर्नुहोस्
अब हामीले हाम्रो डेटा पूर्व-प्रसंस्करण गरिसकेपछि, हामी features र label बीचको सम्बन्ध विश्लेषण गर्न सक्छौं ताकि मोडेलले features दिइएको अवस्थामा label कत्तिको राम्रोसँग भविष्यवाणी गर्न सक्दछ भन्ने बारेमा विचार प्राप्त गर्न सकौं।
यस प्रकारको विश्लेषण गर्नको लागि डेटा plot गर्नु सबैभन्दा राम्रो तरिका हो। हामी फेरि Seaborn को catplot
function प्रयोग गर्नेछौं, Item Size
, Variety
र Color
बीचको सम्बन्धलाई categorical plot मा visualize गर्न। डेटा राम्रोसँग plot गर्न encoded Item Size
स्तम्भ र unencoded Variety
स्तम्भ प्रयोग गरिनेछ।
palette = {
'ORANGE': 'orange',
'WHITE': 'wheat',
}
pumpkins['Item Size'] = encoded_pumpkins['ord__Item Size']
g = sns.catplot(
data=pumpkins,
x="Item Size", y="Color", row='Variety',
kind="box", orient="h",
sharex=False, margin_titles=True,
height=1.8, aspect=4, palette=palette,
)
g.set(xlabel="Item Size", ylabel="").set(xlim=(0,6))
g.set_titles(row_template="{row_name}")
Swarm plot प्रयोग गर्नुहोस्
किनकि Color एक binary वर्ग हो (White वा Not), यसलाई visualization को लागि 'एक विशेष विधि' चाहिन्छ। यस वर्गको अन्य variables संगको सम्बन्ध visualize गर्न अन्य तरिकाहरू छन्।
तपाईं Seaborn plots प्रयोग गरेर variables लाई सँगसँगै visualize गर्न सक्नुहुन्छ।
-
'Swarm' plot प्रयोग गरेर मानहरूको वितरण देखाउनुहोस्:
palette = { 0: 'orange', 1: 'wheat' } sns.swarmplot(x="Color", y="ord__Item Size", data=encoded_pumpkins, palette=palette)
ध्यान दिनुहोस्: माथिको कोडले warning उत्पन्न गर्न सक्छ, किनकि seaborn ले यति धेरै datapoints लाई swarm plot मा प्रतिनिधित्व गर्न असफल हुन्छ। सम्भावित समाधान भनेको marker को आकार घटाउनु हो, 'size' parameter प्रयोग गरेर। तर, ध्यान दिनुहोस् कि यसले plot को readability मा असर गर्छ।
🧮 गणित देखाउनुहोस्
Logistic Regression 'maximum likelihood' को अवधारणामा आधारित छ sigmoid functions प्रयोग गरेर। 'Sigmoid Function' को plot 'S' आकारको देखिन्छ। यसले मानलाई 0 र 1 बीचमा map गर्छ। यसको curve लाई 'logistic curve' पनि भनिन्छ। यसको formula यस्तो देखिन्छ:
जहाँ sigmoid को midpoint x को 0 बिन्दुमा हुन्छ, L curve को अधिकतम मान हो, र k curve को steepness हो। यदि function को परिणाम 0.5 भन्दा बढी छ भने, सो label लाई binary choice को '1' वर्ग दिइनेछ। यदि होइन भने, यसलाई '0' वर्गमा वर्गीकृत गरिनेछ।
आफ्नो मोडेल निर्माण गर्नुहोस्
Binary classification पत्ता लगाउन मोडेल निर्माण गर्नु Scikit-learn मा आश्चर्यजनक रूपमा सरल छ।
🎥 माथिको छवि क्लिक गरेर linear regression मोडेल निर्माणको छोटो भिडियो अवलोकन हेर्नुहोस्।
-
तपाईं आफ्नो classification मोडेलमा प्रयोग गर्न चाहनुभएको variables चयन गर्नुहोस् र
train_test_split()
कल गरेर training र test sets विभाजन गर्नुहोस्:from sklearn.model_selection import train_test_split X = encoded_pumpkins[encoded_pumpkins.columns.difference(['Color'])] y = encoded_pumpkins['Color'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
-
अब तपाईं आफ्नो मोडेललाई training डेटा संग
fit()
कल गरेर train गर्न सक्नुहुन्छ, र यसको परिणाम print गर्न सक्नुहुन्छ:from sklearn.metrics import f1_score, classification_report from sklearn.linear_model import LogisticRegression model = LogisticRegression() model.fit(X_train, y_train) predictions = model.predict(X_test) print(classification_report(y_test, predictions)) print('Predicted labels: ', predictions) print('F1-score: ', f1_score(y_test, predictions))
आफ्नो मोडेलको स्कोरबोर्ड हेर्नुहोस्। यो खराब छैन, तपाईंको dataset मा केवल लगभग 1000 पङ्क्तिहरू छन् भनेर विचार गर्दा:
precision recall f1-score support 0 0.94 0.98 0.96 166 1 0.85 0.67 0.75 33 accuracy 0.92 199 macro avg 0.89 0.82 0.85 199 weighted avg 0.92 0.92 0.92 199 Predicted labels: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 1 0 0 0 0 0 1 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 1 1] F1-score: 0.7457627118644068
Confusion Matrix मार्फत राम्रो समझ
जब तपाईं माथिका वस्तुहरू print गरेर स्कोरबोर्ड रिपोर्ट terms प्राप्त गर्न सक्नुहुन्छ, तपाईं आफ्नो मोडेललाई confusion matrix प्रयोग गरेर अझ राम्रोसँग बुझ्न सक्नुहुन्छ।
🎓 'Confusion matrix' (वा 'error matrix') एउटा तालिका हो जसले तपाईंको मोडेलको true vs. false positives र negatives लाई व्यक्त गर्दछ, यसरी predictions को accuracy मापन गर्दछ।
-
Confusion matrix प्रयोग गर्न
confusion_matrix()
कल गर्नुहोस्:from sklearn.metrics import confusion_matrix confusion_matrix(y_test, predictions)
आफ्नो मोडेलको confusion matrix हेर्नुहोस्:
array([[162, 4], [ 11, 22]])
Scikit-learn मा confusion matrices मा Rows (axis 0) actual labels हुन् र columns (axis 1) predicted labels हुन्।
0 | 1 | |
---|---|---|
0 | TN | FP |
1 | FN | TP |
यहाँ के भइरहेको छ? मानौं हाम्रो मोडेललाई pumpkins लाई दुई binary वर्गहरूमा वर्गीकृत गर्न भनिएको छ, वर्ग 'white' र वर्ग 'not-white'।
- यदि तपाईंको मोडेलले pumpkin लाई not white भनेर भविष्यवाणी गर्छ र यो वास्तवमा 'not-white' वर्गमा पर्छ भने हामी यसलाई true negative भन्छौं, जुन माथिको बायाँ नम्बरले देखाउँछ।
- यदि तपाईंको मोडेलले pumpkin लाई white भनेर भविष्यवाणी गर्छ र यो वास्तवमा 'not-white' वर्गमा पर्छ भने हामी यसलाई false negative भन्छौं, जुन तलको बायाँ नम्बरले देखाउँछ।
- यदि तपाईंको मोडेलले pumpkin लाई not white भनेर भविष्यवाणी गर्छ र यो वास्तवमा 'white' वर्गमा पर्छ भने हामी यसलाई false positive भन्छौं, जुन माथिको दायाँ नम्बरले देखाउँछ।
- यदि तपाईंको मोडेलले pumpkin लाई white भनेर भविष्यवाणी गर्छ र यो वास्तवमा 'white' वर्गमा पर्छ भने हामी यसलाई true positive भन्छौं, जुन तलको दायाँ नम्बरले देखाउँछ।
जस्तो तपाईंले अनुमान गर्नुभएको छ, true positives र true negatives को संख्या बढी हुनु र false positives र false negatives को संख्या कम हुनु राम्रो हो, जसले मोडेल राम्रो प्रदर्शन गरेको संकेत गर्दछ। कन्फ्युजन म्याट्रिक्स कसरी प्रिसिजन र रिकलसँग सम्बन्धित छ? याद गर्नुहोस्, माथि प्रिन्ट गरिएको क्लासिफिकेसन रिपोर्टले प्रिसिजन (0.85) र रिकल (0.67) देखाएको थियो।
प्रिसिजन = tp / (tp + fp) = 22 / (22 + 4) = 0.8461538461538461
रिकल = tp / (tp + fn) = 22 / (22 + 11) = 0.6666666666666666
✅ प्रश्न: कन्फ्युजन म्याट्रिक्स अनुसार, मोडेलले कस्तो प्रदर्शन गर्यो? उत्तर: नराम्रो छैन; धेरै ट्रु नेगेटिभ्स छन् तर केही फाल्स नेगेटिभ्स पनि छन्।
अब हामीले पहिले देखेका टर्महरूलाई कन्फ्युजन म्याट्रिक्सको TP/TN र FP/FN म्यापिङको सहयोगले पुनः हेर्नेछौं:
🎓 प्रिसिजन: TP/(TP + FP) फेला पारिएका उदाहरणहरूमा सान्दर्भिक उदाहरणहरूको अंश (जस्तै कुन लेबलहरू राम्रोसँग लेबल गरिएका थिए)
🎓 रिकल: TP/(TP + FN) सान्दर्भिक उदाहरणहरूको अंश जुन फेला पारिएको छ, चाहे राम्रोसँग लेबल गरिएको हो वा होइन
🎓 f1-score: (2 * प्रिसिजन * रिकल)/(प्रिसिजन + रिकल) प्रिसिजन र रिकलको भारित औसत, जसको उत्कृष्ट स्कोर 1 र खराब स्कोर 0 हुन्छ
🎓 सपोर्ट: फेला पारिएका प्रत्येक लेबलको घटनाहरूको संख्या
🎓 एक्युरेसी: (TP + TN)/(TP + TN + FP + FN) नमुनाको लागि सही रूपमा भविष्यवाणी गरिएका लेबलहरूको प्रतिशत।
🎓 म्याक्रो औसत: प्रत्येक लेबलको लागि असन्तुलनलाई ध्यानमा नलिई गणना गरिएको औसत मेट्रिक्स।
🎓 वेटेड औसत: प्रत्येक लेबलको लागि गणना गरिएको औसत मेट्रिक्स, सपोर्ट (प्रत्येक लेबलको लागि साँचो घटनाहरूको संख्या) द्वारा तौल दिँदै लेबल असन्तुलनलाई ध्यानमा राख्दै।
✅ तपाईंको मोडेलले फाल्स नेगेटिभ्सको संख्या घटाउन चाहनुहुन्छ भने कुन मेट्रिक हेर्नुपर्छ भनेर सोच्न सक्नुहुन्छ?
यस मोडेलको ROC कर्भलाई भिजुअलाइज गर्नुहोस्
🎥 माथिको तस्बिरमा क्लिक गरेर ROC कर्भहरूको छोटो भिडियो अवलोकन हेर्नुहोस्
अब हामी 'ROC' कर्भ हेर्नको लागि अर्को भिजुअलाइजेसन गर्नेछौं:
from sklearn.metrics import roc_curve, roc_auc_score
import matplotlib
import matplotlib.pyplot as plt
%matplotlib inline
y_scores = model.predict_proba(X_test)
fpr, tpr, thresholds = roc_curve(y_test, y_scores[:,1])
fig = plt.figure(figsize=(6, 6))
plt.plot([0, 1], [0, 1], 'k--')
plt.plot(fpr, tpr)
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
plt.show()
Matplotlib प्रयोग गरेर मोडेलको Receiving Operating Characteristic वा ROC प्लट गर्नुहोस्। ROC कर्भहरू प्रायः क्लासिफायरको आउटपुटलाई यसको ट्रु बनाम फाल्स पोजिटिभ्सको सन्दर्भमा हेर्न प्रयोग गरिन्छ। "ROC कर्भहरू सामान्यतया Y अक्षमा ट्रु पोजिटिभ रेट र X अक्षमा फाल्स पोजिटिभ रेट देखाउँछन्।" त्यसैले कर्भको तीव्रता र मध्यरेखा र कर्भको बीचको स्थान महत्त्वपूर्ण हुन्छ: तपाईं चाहनुहुन्छ कि कर्भ छिट्टै माथि र रेखा पार गरियोस्। हाम्रो केसमा, सुरुमा केही फाल्स पोजिटिभ्स छन्, र त्यसपछि रेखा ठीकसँग माथि र पारतिर जान्छ:
अन्ततः, Scikit-learn को roc_auc_score
API प्रयोग गरेर वास्तविक 'Area Under the Curve' (AUC) गणना गर्नुहोस्:
auc = roc_auc_score(y_test,y_scores[:,1])
print(auc)
नतिजा 0.9749908725812341
हो। AUC 0 देखि 1 सम्मको दायरामा हुन्छ, तपाईं ठूलो स्कोर चाहनुहुन्छ, किनकि 100% सही भविष्यवाणी गर्ने मोडेलको AUC 1 हुनेछ; यस केसमा, मोडेल धेरै राम्रो छ।
भविष्यका क्लासिफिकेसन पाठहरूमा, तपाईं आफ्नो मोडेलको स्कोर सुधार गर्न कसरी पुनरावृत्ति गर्ने भनेर सिक्नुहुनेछ। तर अहिलेका लागि, बधाई छ! तपाईंले यी रिग्रेसन पाठहरू पूरा गर्नुभएको छ!
🚀चुनौती
लजिस्टिक रिग्रेसनको बारेमा अझ धेरै कुरा बुझ्न बाँकी छ! तर सिक्ने सबैभन्दा राम्रो तरिका भनेको प्रयोग गर्नु हो। यस्तो प्रकारको विश्लेषणका लागि उपयुक्त डेटासेट खोज्नुहोस् र त्यसमा आधारित मोडेल बनाउनुहोस्। तपाईंले के सिक्नुहुन्छ? सुझाव: Kaggle मा रोचक डेटासेटहरू खोज्नुहोस्।
पाठ-पछिको क्विज
समीक्षा र आत्म-अध्ययन
स्ट्यानफोर्डको यो पेपर को पहिलो केही पृष्ठहरू पढ्नुहोस् जसले लजिस्टिक रिग्रेसनको व्यावहारिक प्रयोगहरू देखाउँछ। हामीले अहिलेसम्म अध्ययन गरेका रिग्रेसन कार्यहरूको प्रकारको बारेमा सोच्नुहोस्। कुन कार्यहरू एक प्रकारको रिग्रेसनको लागि उपयुक्त छन् र कुन कार्यहरू अर्को प्रकारको लागि उपयुक्त छन्? के राम्रो काम गर्नेछ?
असाइनमेन्ट
यो रिग्रेसन पुनः प्रयास गर्नुहोस्
अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सटीकता सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषामा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्त्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।