# वर्गीकरणाची ओळख या चार धड्यांमध्ये, तुम्ही क्लासिक मशीन लर्निंगच्या मूलभूत फोकसपैकी एक - _वर्गीकरण_ - याचा अभ्यास कराल. आम्ही आशिया आणि भारतातील सर्व अप्रतिम खाद्यसंस्कृतींबद्दलच्या डेटासेटसह विविध वर्गीकरण अल्गोरिदम वापरण्याची प्रक्रिया पाहू. आशा आहे की तुम्ही भुकेले असाल! ![फक्त एक चिमूटभर!](../../../../4-Classification/1-Introduction/images/pinch.png) > या धड्यांमध्ये पॅन-आशियाई खाद्यसंस्कृतींचा आनंद साजरा करा! प्रतिमा [Jen Looper](https://twitter.com/jenlooper) यांची आहे. वर्गीकरण हा [सुपरवाइज्ड लर्निंग](https://wikipedia.org/wiki/Supervised_learning) चा एक प्रकार आहे, जो रिग्रेशन तंत्रांशी खूप साम्य ठेवतो. जर मशीन लर्निंग म्हणजे डेटासेट्सचा वापर करून मूल्ये किंवा गोष्टींची नावे अंदाज लावणे असेल, तर वर्गीकरण प्रामुख्याने दोन गटांमध्ये विभागले जाते: _बायनरी वर्गीकरण_ आणि _मल्टिक्लास वर्गीकरण_. [![वर्गीकरणाची ओळख](https://img.youtube.com/vi/eg8DJYwdMyg/0.jpg)](https://youtu.be/eg8DJYwdMyg "वर्गीकरणाची ओळख") > 🎥 वरील प्रतिमेवर क्लिक करा: MIT चे John Guttag वर्गीकरणाची ओळख करून देतात. लक्षात ठेवा: - **रेखीय रिग्रेशन** तुम्हाला व्हेरिएबल्समधील नातेसंबंधांचा अंदाज लावण्यास आणि नवीन डेटा पॉइंट त्या रेषेच्या संदर्भात कुठे असेल याचा अचूक अंदाज लावण्यास मदत करते. उदाहरणार्थ, तुम्ही अंदाज लावू शकता की _सप्टेंबरच्या तुलनेत डिसेंबरमध्ये भोपळ्याची किंमत किती असेल_. - **लॉजिस्टिक रिग्रेशन** तुम्हाला "बायनरी श्रेणी" शोधण्यात मदत करते: या किंमत बिंदूवर, _हा भोपळा नारिंगी आहे का नाही_? वर्गीकरण विविध अल्गोरिदम वापरून डेटा पॉइंटचा लेबल किंवा वर्ग ठरवण्याचे इतर मार्ग शोधते. चला, या खाद्यसंस्कृती डेटासह काम करूया आणि पाहूया की घटकांचा गट पाहून आपण त्याच्या मूळ खाद्यसंस्कृतीचा अंदाज लावू शकतो का. ## [पूर्व-व्याख्यान प्रश्नमंजुषा](https://ff-quizzes.netlify.app/en/ml/) > ### [हा धडा R मध्ये उपलब्ध आहे!](../../../../4-Classification/1-Introduction/solution/R/lesson_10.html) ### ओळख वर्गीकरण हे मशीन लर्निंग संशोधक आणि डेटा वैज्ञानिकाचे मूलभूत कार्य आहे. साध्या बायनरी मूल्य वर्गीकरणापासून ("हा ईमेल स्पॅम आहे का नाही?") ते संगणकीय दृष्टिकोन वापरून जटिल प्रतिमा वर्गीकरण आणि विभागणीपर्यंत, डेटा वर्गांमध्ये वर्गीकृत करणे आणि त्यावर प्रश्न विचारणे नेहमीच उपयुक्त ठरते. वैज्ञानिक दृष्टिकोनातून सांगायचे झाले तर, तुमची वर्गीकरण पद्धत एक प्रेडिक्टिव्ह मॉडेल तयार करते, जे तुम्हाला इनपुट व्हेरिएबल्स आणि आउटपुट व्हेरिएबल्स यांच्यातील नातेसंबंध मॅप करण्यास सक्षम करते. ![बायनरी वि. मल्टिक्लास वर्गीकरण](../../../../4-Classification/1-Introduction/images/binary-multiclass.png) > वर्गीकरण अल्गोरिदम हाताळण्यासाठी बायनरी वि. मल्टिक्लास समस्या. [Jen Looper](https://twitter.com/jenlooper) यांचे इन्फोग्राफिक. आपला डेटा साफ करण्याची, त्याचे व्हिज्युअलायझेशन करण्याची आणि आपल्या ML कार्यांसाठी तयार करण्याची प्रक्रिया सुरू करण्यापूर्वी, मशीन लर्निंगचा डेटा वर्गीकृत करण्यासाठी कसा उपयोग होतो याबद्दल थोडेसे जाणून घेऊया. [सांख्यिकी](https://wikipedia.org/wiki/Statistical_classification) मधून व्युत्पन्न, क्लासिक मशीन लर्निंग वापरून वर्गीकरण `smoker`, `weight`, आणि `age` यांसारख्या वैशिष्ट्यांचा वापर करून _X आजार होण्याची शक्यता_ ठरवते. सुपरवाइज्ड लर्निंग तंत्र म्हणून, जे तुम्ही यापूर्वी केलेल्या रिग्रेशन सरावासारखे आहे, तुमचा डेटा लेबल केलेला असतो आणि ML अल्गोरिदम त्या लेबल्सचा वापर करून डेटासेटच्या वर्गांचे (किंवा 'वैशिष्ट्यांचे') वर्गीकरण आणि अंदाज लावतात आणि त्यांना गट किंवा परिणामाशी जोडतात. ✅ एका खाद्यसंस्कृतीबद्दलच्या डेटासेटची कल्पना करा. मल्टिक्लास मॉडेल कोणते प्रश्न उत्तर देऊ शकेल? बायनरी मॉडेल कोणते प्रश्न उत्तर देऊ शकेल? जर तुम्हाला ठरवायचे असेल की एखाद्या खाद्यसंस्कृतीत मेथीचा वापर होण्याची शक्यता आहे का? किंवा जर तुम्हाला पाहायचे असेल की, स्टार अॅनिस, आर्टिचोक्स, फ्लॉवर आणि हॉर्सरॅडिशने भरलेल्या किराणा पिशवीतून तुम्ही एक पारंपरिक भारतीय पदार्थ तयार करू शकता का? [![विचित्र मिस्ट्री बास्केट्स](https://img.youtube.com/vi/GuTeDbaNoEU/0.jpg)](https://youtu.be/GuTeDbaNoEU "विचित्र मिस्ट्री बास्केट्स") > 🎥 वरील प्रतिमेवर क्लिक करा: 'Chopped' या शोचा संपूर्ण आधार 'मिस्ट्री बास्केट' आहे, जिथे शेफ्सना निवडक घटकांपासून काहीतरी बनवावे लागते. नक्कीच, ML मॉडेलने मदत केली असती! ## हॅलो 'क्लासिफायर' आपण या खाद्यसंस्कृती डेटासेटबद्दल विचारू इच्छित असलेला प्रश्न हा **मल्टिक्लास प्रश्न** आहे, कारण आपल्याकडे काम करण्यासाठी अनेक संभाव्य राष्ट्रीय खाद्यसंस्कृती आहेत. घटकांचा एक गट दिल्यास, या अनेक वर्गांपैकी डेटा कोणत्या वर्गात बसेल? Scikit-learn विविध प्रकारच्या समस्यांचे निराकरण करण्यासाठी डेटा वर्गीकृत करण्यासाठी अनेक अल्गोरिदम ऑफर करते. पुढील दोन धड्यांमध्ये, तुम्ही या अल्गोरिदमपैकी काहींबद्दल शिकाल. ## व्यायाम - तुमचा डेटा साफ करा आणि संतुलित करा या प्रकल्पाला सुरुवात करण्यापूर्वीची पहिली गोष्ट म्हणजे तुमचा डेटा साफ करणे आणि **संतुलित करणे**, जेणेकरून तुम्हाला चांगले परिणाम मिळतील. या फोल्डरच्या मूळमध्ये असलेल्या रिकाम्या _notebook.ipynb_ फाइलपासून सुरुवात करा. पहिली गोष्ट म्हणजे [imblearn](https://imbalanced-learn.org/stable/) इन्स्टॉल करणे. हा Scikit-learn पॅकेज आहे, जो तुम्हाला डेटा अधिक चांगल्या प्रकारे संतुलित करण्यास अनुमती देतो (तुम्ही या कार्याबद्दल थोड्याच वेळात अधिक शिकाल). 1. `imblearn` इन्स्टॉल करण्यासाठी, `pip install` चालवा, असे: ```python pip install imblearn ``` 1. तुमचा डेटा इम्पोर्ट करण्यासाठी आणि व्हिज्युअलायझेशनसाठी आवश्यक पॅकेजेस इम्पोर्ट करा, तसेच `imblearn` मधून `SMOTE` इम्पोर्ट करा. ```python import pandas as pd import matplotlib.pyplot as plt import matplotlib as mpl import numpy as np from imblearn.over_sampling import SMOTE ``` आता तुम्ही पुढील डेटा इम्पोर्ट करण्यासाठी तयार आहात. 1. पुढील कार्य म्हणजे डेटा इम्पोर्ट करणे: ```python df = pd.read_csv('../data/cuisines.csv') ``` `read_csv()` वापरून _cusines.csv_ फाइलमधील सामग्री वाचली जाईल आणि ती `df` व्हेरिएबलमध्ये ठेवली जाईल. 1. डेटाच्या आकाराची तपासणी करा: ```python df.head() ``` पहिल्या पाच ओळी अशा दिसतात: ```output | | Unnamed: 0 | cuisine | almond | angelica | anise | anise_seed | apple | apple_brandy | apricot | armagnac | ... | whiskey | white_bread | white_wine | whole_grain_wheat_flour | wine | wood | yam | yeast | yogurt | zucchini | | --- | ---------- | ------- | ------ | -------- | ----- | ---------- | ----- | ------------ | ------- | -------- | --- | ------- | ----------- | ---------- | ----------------------- | ---- | ---- | --- | ----- | ------ | -------- | | 0 | 65 | indian | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | | 1 | 66 | indian | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | | 2 | 67 | indian | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | | 3 | 68 | indian | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | | 4 | 69 | indian | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | ``` 1. `info()` कॉल करून या डेटाबद्दल माहिती मिळवा: ```python df.info() ``` तुमचे आउटपुट असे दिसते: ```output RangeIndex: 2448 entries, 0 to 2447 Columns: 385 entries, Unnamed: 0 to zucchini dtypes: int64(384), object(1) memory usage: 7.2+ MB ``` ## व्यायाम - खाद्यसंस्कृतींबद्दल शिकणे आता काम अधिक मनोरंजक होऊ लागते. चला, प्रत्येक खाद्यसंस्कृतीनुसार डेटाचे वितरण शोधूया. 1. `barh()` कॉल करून डेटा बारच्या स्वरूपात प्लॉट करा: ```python df.cuisine.value_counts().plot.barh() ``` ![खाद्यसंस्कृती डेटा वितरण](../../../../4-Classification/1-Introduction/images/cuisine-dist.png) खाद्यसंस्कृतींची संख्या मर्यादित आहे, परंतु डेटाचे वितरण असमान आहे. तुम्ही ते सुधारू शकता! तसे करण्यापूर्वी, आणखी थोडे एक्सप्लोर करा. 1. प्रत्येक खाद्यसंस्कृतीसाठी किती डेटा उपलब्ध आहे ते शोधा आणि प्रिंट करा: ```python thai_df = df[(df.cuisine == "thai")] japanese_df = df[(df.cuisine == "japanese")] chinese_df = df[(df.cuisine == "chinese")] indian_df = df[(df.cuisine == "indian")] korean_df = df[(df.cuisine == "korean")] print(f'thai df: {thai_df.shape}') print(f'japanese df: {japanese_df.shape}') print(f'chinese df: {chinese_df.shape}') print(f'indian df: {indian_df.shape}') print(f'korean df: {korean_df.shape}') ``` आउटपुट असे दिसते: ```output thai df: (289, 385) japanese df: (320, 385) chinese df: (442, 385) indian df: (598, 385) korean df: (799, 385) ``` ## घटक शोधणे आता तुम्ही डेटामध्ये अधिक खोलवर जाऊ शकता आणि प्रत्येक खाद्यसंस्कृतीसाठी विशिष्ट घटक कोणते आहेत ते शोधू शकता. वेगवेगळ्या खाद्यसंस्कृतींमध्ये गोंधळ निर्माण करणारा पुनरावृत्ती डेटा साफ करा, चला या समस्येबद्दल जाणून घेऊया. 1. घटकांचा डेटा फ्रेम तयार करण्यासाठी Python मध्ये `create_ingredient()` नावाची फंक्शन तयार करा. ही फंक्शन एक उपयुक्त नसलेला कॉलम काढून टाकून घटकांची संख्या मोजून त्यांचे वर्गीकरण करेल: ```python def create_ingredient_df(df): ingredient_df = df.T.drop(['cuisine','Unnamed: 0']).sum(axis=1).to_frame('value') ingredient_df = ingredient_df[(ingredient_df.T != 0).any()] ingredient_df = ingredient_df.sort_values(by='value', ascending=False, inplace=False) return ingredient_df ``` आता तुम्ही या फंक्शनचा वापर करून प्रत्येक खाद्यसंस्कृतीसाठी टॉप दहा घटकांची कल्पना करू शकता. 1. `create_ingredient()` कॉल करा आणि `barh()` कॉल करून प्लॉट करा: ```python thai_ingredient_df = create_ingredient_df(thai_df) thai_ingredient_df.head(10).plot.barh() ``` ![थाई](../../../../4-Classification/1-Introduction/images/thai.png) 1. जपानी डेटासाठीही तेच करा: ```python japanese_ingredient_df = create_ingredient_df(japanese_df) japanese_ingredient_df.head(10).plot.barh() ``` ![जपानी](../../../../4-Classification/1-Introduction/images/japanese.png) 1. आता चिनी घटकांसाठी: ```python chinese_ingredient_df = create_ingredient_df(chinese_df) chinese_ingredient_df.head(10).plot.barh() ``` ![चिनी](../../../../4-Classification/1-Introduction/images/chinese.png) 1. भारतीय घटक प्लॉट करा: ```python indian_ingredient_df = create_ingredient_df(indian_df) indian_ingredient_df.head(10).plot.barh() ``` ![भारतीय](../../../../4-Classification/1-Introduction/images/indian.png) 1. शेवटी, कोरियन घटक प्लॉट करा: ```python korean_ingredient_df = create_ingredient_df(korean_df) korean_ingredient_df.head(10).plot.barh() ``` ![कोरियन](../../../../4-Classification/1-Introduction/images/korean.png) 1. आता, वेगवेगळ्या खाद्यसंस्कृतींमध्ये गोंधळ निर्माण करणारे सर्वसामान्य घटक `drop()` कॉल करून काढून टाका: प्रत्येकाला तांदूळ, लसूण आणि आलं आवडतं! ```python feature_df= df.drop(['cuisine','Unnamed: 0','rice','garlic','ginger'], axis=1) labels_df = df.cuisine #.unique() feature_df.head() ``` ## डेटासेट संतुलित करा आता तुमचा डेटा साफ झाला आहे, [SMOTE](https://imbalanced-learn.org/dev/references/generated/imblearn.over_sampling.SMOTE.html) - "सिंथेटिक मायनॉरिटी ओव्हर-सॅम्पलिंग टेक्निक" - वापरून तो संतुलित करा. 1. `fit_resample()` कॉल करा, ही रणनीती इंटरपोलेशनद्वारे नवीन नमुने तयार करते. ```python oversample = SMOTE() transformed_feature_df, transformed_label_df = oversample.fit_resample(feature_df, labels_df) ``` तुमचा डेटा संतुलित केल्याने, तुम्हाला वर्गीकृत करताना चांगले परिणाम मिळतील. बायनरी वर्गीकरणाचा विचार करा. जर तुमच्या डेटाचा जास्त भाग एका वर्गाचा असेल, तर ML मॉडेल त्या वर्गाचा अंदाज जास्त वेळा लावेल, कारण त्यासाठी अधिक डेटा उपलब्ध आहे. डेटा संतुलित केल्याने कोणताही असमतोल डेटा काढून टाकला जातो. 1. आता तुम्ही प्रत्येक घटकासाठी लेबल्सची संख्या तपासू शकता: ```python print(f'new label count: {transformed_label_df.value_counts()}') print(f'old label count: {df.cuisine.value_counts()}') ``` तुमचे आउटपुट असे दिसते: ```output new label count: korean 799 chinese 799 indian 799 japanese 799 thai 799 Name: cuisine, dtype: int64 old label count: korean 799 indian 598 chinese 442 japanese 320 thai 289 Name: cuisine, dtype: int64 ``` डेटा स्वच्छ, संतुलित आणि खूपच स्वादिष्ट आहे! 1. शेवटचा टप्पा म्हणजे तुमचा संतुलित डेटा, ज्यामध्ये लेबल्स आणि वैशिष्ट्ये समाविष्ट आहेत, एका नवीन डेटा फ्रेममध्ये सेव्ह करणे, ज्याला फाइलमध्ये निर्यात करता येईल: ```python transformed_df = pd.concat([transformed_label_df,transformed_feature_df],axis=1, join='outer') ``` 1. `transformed_df.head()` आणि `transformed_df.info()` वापरून डेटावर एकदा नजर टाका. भविष्यातील धड्यांसाठी या डेटाची एक प्रत सेव्ह करा: ```python transformed_df.head() transformed_df.info() transformed_df.to_csv("../data/cleaned_cuisines.csv") ``` हा ताजा CSV आता मूळ डेटा फोल्डरमध्ये सापडतो. --- ## 🚀चॅलेंज या अभ्यासक्रमात अनेक मनोरंजक डेटासेट्स आहेत. `data` फोल्डरमधून शोधा आणि बायनरी किंवा मल्टिक्लास वर्गीकरणासाठी योग्य असलेले कोणतेही डेटासेट आहेत का ते पहा? तुम्ही या डेटासेटबद्दल कोणते प्रश्न विचाराल? ## [व्याख्यानानंतरची प्रश्नमंजुषा](https://ff-quizzes.netlify.app/en/ml/) ## पुनरावलोकन आणि स्व-अभ्यास SMOTE च्या API चा अभ्यास करा. ते कोणत्या उपयोगांसाठी सर्वोत्तम वापरले जाते? ते कोणत्या समस्यांचे निराकरण करते? ## असाइनमेंट [वर्गीकरण पद्धतींचा अभ्यास करा](assignment.md) --- **अस्वीकरण**: हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) चा वापर करून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात घ्या की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील मूळ दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर केल्यामुळे उद्भवणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.