You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/mr/1-Introduction/4-techniques-of-ML/README.md

28 KiB

मशीन लर्निंगच्या तंत्रज्ञानाचे तंत्र

मशीन लर्निंग मॉडेल तयार करणे, वापरणे आणि त्यांचे व्यवस्थापन करणे हा इतर विकास प्रक्रियांपेक्षा खूप वेगळा प्रवास आहे. या धड्यात, आपण या प्रक्रियेचे गूढ उकलू आणि तुम्हाला आवश्यक असलेल्या मुख्य तंत्रांची रूपरेषा मांडू. तुम्ही:

  • मशीन लर्निंग प्रक्रियेच्या उच्च-स्तरीय प्रक्रियेचे आकलन कराल.
  • 'मॉडेल्स', 'भाकिते', आणि 'ट्रेनिंग डेटा' यांसारख्या मूलभूत संकल्पना शोधाल.

पूर्व-व्याख्यान प्रश्नमंजुषा

मशीन लर्निंगसाठी नवशिक्यांसाठी - मशीन लर्निंगच्या तंत्रज्ञानाचे तंत्र

🎥 वरील प्रतिमेवर क्लिक करा आणि या धड्याचा लघु व्हिडिओ पाहा.

परिचय

उच्च-स्तरावर, मशीन लर्निंग (ML) प्रक्रियेची निर्मिती ही काही टप्प्यांमध्ये विभागलेली असते:

  1. प्रश्न ठरवा. बहुतेक ML प्रक्रिया अशा प्रश्नाने सुरू होतात ज्याचे उत्तर साध्या अटींवर आधारित प्रोग्राम किंवा नियम-आधारित इंजिनद्वारे देता येत नाही. हे प्रश्न सहसा डेटाच्या संग्रहावर आधारित भाकितांभोवती फिरतात.
  2. डेटा गोळा करा आणि तयार करा. तुमच्या प्रश्नाचे उत्तर देण्यासाठी तुम्हाला डेटा आवश्यक आहे. तुमच्या डेटाची गुणवत्ता आणि कधी कधी प्रमाण हे ठरवते की तुम्ही तुमच्या मूळ प्रश्नाचे उत्तर किती चांगल्या प्रकारे देऊ शकता. डेटाचे व्हिज्युअलायझेशन हा या टप्प्याचा महत्त्वाचा भाग आहे. या टप्प्यात डेटाला ट्रेनिंग आणि टेस्टिंग गटांमध्ये विभागणे देखील समाविष्ट आहे.
  3. ट्रेनिंग पद्धत निवडा. तुमच्या प्रश्नावर आणि डेटाच्या स्वरूपावर अवलंबून, तुम्हाला तुमच्या डेटाचे सर्वोत्तम प्रतिबिंबित करण्यासाठी आणि त्यावर अचूक भाकिते करण्यासाठी मॉडेल कसे ट्रेन करायचे ते निवडावे लागेल. ही तुमच्या ML प्रक्रियेची ती पायरी आहे ज्यासाठी विशिष्ट कौशल्य आणि बऱ्याच वेळा मोठ्या प्रमाणात प्रयोग आवश्यक असतो.
  4. मॉडेल ट्रेन करा. तुमच्या ट्रेनिंग डेटाचा वापर करून, तुम्ही विविध अल्गोरिदम वापरून मॉडेलला डेटामधील पॅटर्न ओळखण्यासाठी ट्रेन कराल. मॉडेल अंतर्गत वजनांचा लाभ घेऊ शकते, जे डेटाच्या विशिष्ट भागांना इतरांपेक्षा अधिक महत्त्व देण्यासाठी समायोजित केले जाऊ शकते, ज्यामुळे चांगले मॉडेल तयार होईल.
  5. मॉडेलचे मूल्यमापन करा. तुमच्या गोळा केलेल्या सेटमधील कधीही न पाहिलेल्या डेटाचा (तुमचा टेस्टिंग डेटा) वापर करून तुम्ही मॉडेल कसे कार्य करत आहे ते पाहता.
  6. पॅरामीटर ट्यूनिंग. तुमच्या मॉडेलच्या कार्यक्षमतेच्या आधारे, तुम्ही वेगवेगळ्या पॅरामीटर्स किंवा व्हेरिएबल्स वापरून प्रक्रिया पुन्हा करू शकता, जे मॉडेल ट्रेन करण्यासाठी वापरल्या जाणाऱ्या अल्गोरिदमच्या वर्तनावर नियंत्रण ठेवतात.
  7. भाकित करा. तुमच्या मॉडेलची अचूकता तपासण्यासाठी नवीन इनपुट्स वापरा.

कोणता प्रश्न विचारायचा?

संगणक डेटामधील लपलेले पॅटर्न शोधण्यात विशेषतः कुशल असतात. ही उपयुक्तता संशोधकांसाठी खूप उपयुक्त ठरते, ज्यांना एखाद्या विशिष्ट क्षेत्राबद्दल असे प्रश्न असतात ज्यांचे उत्तर सशर्त नियम-आधारित इंजिन तयार करून सहज देता येत नाही. उदाहरणार्थ, एखाद्या विमा गणितीय कार्यासाठी, डेटा सायंटिस्ट स्मोकर्स आणि नॉन-स्मोकर्सच्या मृत्युदरावर आधारित नियम तयार करू शकतो.

परंतु जेव्हा अनेक इतर व्हेरिएबल्स समीकरणात आणले जातात, तेव्हा ML मॉडेल भूतकाळातील आरोग्य इतिहासावर आधारित भविष्यातील मृत्युदर भाकित करण्यासाठी अधिक कार्यक्षम ठरू शकते. एक आनंददायक उदाहरण म्हणजे एप्रिल महिन्यासाठी हवामान भाकित करणे, ज्यामध्ये अक्षांश, रेखांश, हवामान बदल, समुद्राजवळील अंतर, जेट स्ट्रीमचे पॅटर्न आणि बरेच काही यांचा समावेश आहे.

हवामान विश्लेषणात ML चा वापर करण्यासाठी ऐतिहासिक दृष्टिकोन देणारी ही स्लाइड डेक पहा.

मॉडेल तयार करण्यापूर्वीची कामे

तुमचे मॉडेल तयार करण्यास सुरुवात करण्यापूर्वी, तुम्हाला काही कामे पूर्ण करावी लागतील. तुमच्या प्रश्नाची चाचणी घेण्यासाठी आणि मॉडेलच्या भाकितांवर आधारित गृहीतक तयार करण्यासाठी, तुम्हाला काही घटक ओळखणे आणि कॉन्फिगर करणे आवश्यक आहे.

डेटा

तुमच्या प्रश्नाचे कोणत्याही प्रकारे निश्चित उत्तर देण्यासाठी, तुम्हाला योग्य प्रकारचा पुरेसा डेटा आवश्यक आहे. या टप्प्यावर तुम्हाला दोन गोष्टी कराव्या लागतील:

  • डेटा गोळा करा. डेटा विश्लेषणातील निष्पक्षतेवरील मागील धडा लक्षात ठेवून, तुमचा डेटा काळजीपूर्वक गोळा करा. या डेटाच्या स्रोतांची, त्यामध्ये असलेल्या कोणत्याही अंतर्निहित पूर्वग्रहांची जाणीव ठेवा आणि त्याचा उगम दस्तऐवजीकरण करा.
  • डेटा तयार करा. डेटा तयार करण्याच्या प्रक्रियेत अनेक पायऱ्या असतात. जर डेटा विविध स्रोतांमधून आला असेल, तर तुम्हाला डेटा एकत्रित करणे आणि सामान्य करणे आवश्यक असू शकते. तुम्ही मूळ डेटावर आधारित नवीन डेटा तयार करू शकता (जसे आपण वर्गीकरण मध्ये करतो). तुम्ही डेटा स्वच्छ करू शकता आणि संपादित करू शकता (जसे आपण वेब अॅप धड्याच्या आधी करतो). शेवटी, तुमच्या ट्रेनिंग तंत्रांवर अवलंबून, तुम्हाला डेटा यादृच्छिक करणे आणि शफल करणे देखील आवश्यक असू शकते.

डेटा गोळा केल्यानंतर आणि प्रक्रिया केल्यानंतर, त्याचा आकार तुमच्या इच्छित प्रश्नाला उत्तर देण्यासाठी योग्य आहे का ते तपासा. कदाचित डेटा तुमच्या दिलेल्या कार्यात चांगले कार्य करणार नाही, जसे आपण क्लस्टरिंग धड्यांमध्ये शोधतो!

वैशिष्ट्ये आणि लक्ष्य

वैशिष्ट्य म्हणजे तुमच्या डेटाचे मोजमाप करण्यायोग्य गुणधर्म. अनेक डेटासेट्समध्ये ते 'तारीख', 'आकार' किंवा 'रंग' यासारख्या स्तंभ शीर्षकांद्वारे व्यक्त केले जाते. तुमचा वैशिष्ट्य व्हेरिएबल, सहसा कोडमध्ये X ने दर्शविला जातो, तो इनपुट व्हेरिएबल दर्शवतो जो मॉडेल ट्रेन करण्यासाठी वापरला जाईल.

लक्ष्य म्हणजे तुम्ही भाकित करण्याचा प्रयत्न करत असलेली गोष्ट. लक्ष्य, सहसा कोडमध्ये y ने दर्शविले जाते, ते तुमच्या डेटाला विचारत असलेल्या प्रश्नाचे उत्तर दर्शवते: डिसेंबरमध्ये कोणत्या रंगाचे भोपळे स्वस्त असतील? सॅन फ्रान्सिस्कोमध्ये कोणत्या परिसरात रिअल इस्टेटचे किंमत सर्वोत्तम असेल? कधी कधी लक्ष्याला लेबल अॅट्रिब्युट असेही म्हणतात.

तुमचे वैशिष्ट्य व्हेरिएबल निवडणे

🎓 वैशिष्ट्य निवड आणि वैशिष्ट्य निष्कर्षण तुम्हाला मॉडेल तयार करताना कोणता व्हेरिएबल निवडायचा हे कसे कळेल? तुम्ही कदाचित योग्य व्हेरिएबल्स निवडण्यासाठी वैशिष्ट्य निवड किंवा वैशिष्ट्य निष्कर्षण प्रक्रियेतून जाल. तथापि, ते समान नाहीत: "वैशिष्ट्य निष्कर्षण मूळ वैशिष्ट्यांच्या फंक्शन्समधून नवीन वैशिष्ट्ये तयार करते, तर वैशिष्ट्य निवड वैशिष्ट्यांचा उपसंच परत करते." (स्रोत)

तुमचा डेटा व्हिज्युअलाइझ करा

डेटा सायंटिस्टच्या टूलकिटचा एक महत्त्वाचा भाग म्हणजे डेटा व्हिज्युअलाइझ करण्याची क्षमता. Seaborn किंवा MatPlotLib यांसारख्या उत्कृष्ट लायब्ररींचा वापर करून डेटा व्हिज्युअलाइझ करणे तुम्हाला लपलेले संबंध शोधण्यास मदत करू शकते. तुमच्या व्हिज्युअलायझेशन्समुळे तुम्हाला पूर्वग्रह किंवा असंतुलित डेटा देखील सापडू शकतो (जसे आपण वर्गीकरण मध्ये शोधतो).

तुमचा डेटासेट विभाजित करा

ट्रेनिंगपूर्वी, तुम्हाला तुमचा डेटासेट दोन किंवा अधिक असमान आकाराच्या भागांमध्ये विभाजित करणे आवश्यक आहे, जे डेटा चांगल्या प्रकारे दर्शवतात.

  • ट्रेनिंग. डेटासेटचा हा भाग तुमच्या मॉडेलला ट्रेन करण्यासाठी फिट केला जातो. हा सेट मूळ डेटासेटचा बहुतेक भाग असतो.
  • टेस्टिंग. टेस्ट डेटासेट हा स्वतंत्र डेटाचा गट असतो, जो अनेकदा मूळ डेटामधून गोळा केला जातो, ज्याचा वापर तयार केलेल्या मॉडेलच्या कार्यक्षमतेची पुष्टी करण्यासाठी केला जातो.
  • व्हॅलिडेटिंग. व्हॅलिडेशन सेट हा उदाहरणांचा एक लहान स्वतंत्र गट असतो, ज्याचा वापर मॉडेलच्या हायपरपॅरामीटर्स किंवा आर्किटेक्चर ट्यून करण्यासाठी केला जातो, ज्यामुळे मॉडेल सुधारते. तुमच्या डेटाच्या आकारावर आणि तुम्ही विचारत असलेल्या प्रश्नावर अवलंबून, तुम्हाला हा तिसरा सेट तयार करण्याची गरज भासणार नाही (जसे आपण टाइम सिरीज फोरकास्टिंग मध्ये नोंदवतो).

मॉडेल तयार करणे

तुमच्या ट्रेनिंग डेटाचा वापर करून, तुमचे उद्दिष्ट म्हणजे विविध अल्गोरिदम वापरून तुमच्या डेटाचे सांख्यिकीय प्रतिनिधित्व तयार करणे. ट्रेनिंग प्रक्रियेदरम्यान, मॉडेलला डेटा सादर केला जातो, जेणेकरून ते शोधलेले पॅटर्न मान्य, पडताळणी आणि स्वीकारू किंवा नाकारू शकेल.

ट्रेनिंग पद्धत ठरवा

तुमच्या प्रश्नावर आणि डेटाच्या स्वरूपावर अवलंबून, तुम्ही ते ट्रेन करण्यासाठी पद्धत निवडाल. Scikit-learn च्या दस्तऐवजांमधून - जे आपण या अभ्यासक्रमात वापरतो - तुम्ही मॉडेल ट्रेन करण्याचे अनेक मार्ग शोधू शकता. तुमच्या अनुभवावर अवलंबून, तुम्हाला सर्वोत्तम मॉडेल तयार करण्यासाठी अनेक पद्धतींचा प्रयत्न करावा लागू शकतो. डेटा सायंटिस्ट्स कदाचित मॉडेलच्या कार्यक्षमतेचे मूल्यांकन करण्यासाठी प्रक्रिया करतात, ज्यामध्ये न पाहिलेल्या डेटाचा वापर करून अचूकता, पूर्वग्रह आणि इतर गुणवत्ता-घटवणाऱ्या समस्यांची तपासणी केली जाते आणि दिलेल्या कार्यासाठी सर्वात योग्य ट्रेनिंग पद्धत निवडली जाते.

मॉडेल ट्रेन करा

तुमच्या ट्रेनिंग डेटासह, तुम्ही 'फिट' करण्यासाठी तयार आहात, म्हणजेच मॉडेल तयार करणे. तुम्हाला असे लक्षात येईल की अनेक ML लायब्ररींमध्ये 'model.fit' कोड आढळतो - याच वेळी तुम्ही तुमचा वैशिष्ट्य व्हेरिएबल (सामान्यतः 'X') आणि लक्ष्य व्हेरिएबल (सामान्यतः 'y') पाठवता.

मॉडेलचे मूल्यमापन करा

ट्रेनिंग प्रक्रिया पूर्ण झाल्यानंतर (मोठ्या मॉडेलला ट्रेन करण्यासाठी अनेक पुनरावृत्ती किंवा 'epochs' लागू शकतात), तुम्ही टेस्ट डेटाचा वापर करून मॉडेलच्या गुणवत्तेचे मूल्यमापन करू शकता. ही डेटा मूळ डेटाचा एक उपसंच आहे, जो मॉडेलने यापूर्वी कधीही विश्लेषण केलेला नाही. तुम्ही तुमच्या मॉडेलच्या गुणवत्तेबद्दल मेट्रिक्सची टेबल प्रिंट करू शकता.

🎓 मॉडेल फिटिंग

मशीन लर्निंगच्या संदर्भात, मॉडेल फिटिंग म्हणजे मॉडेलच्या अंतर्गत फंक्शनची अचूकता, जे डेटा विश्लेषण करण्याचा प्रयत्न करते ज्यासह ते परिचित नाही.

🎓 अंडरफिटिंग आणि ओव्हरफिटिंग ही सामान्य समस्या आहेत ज्या मॉडेलची गुणवत्ता कमी करतात, कारण मॉडेल ट्रेनिंग डेटाशी किंवा खूप घट्ट किंवा खूप सैलपणे जुळते. ओव्हरफिट मॉडेल ट्रेनिंग डेटाचे खूप चांगले भाकित करते कारण त्याने डेटाचे तपशील आणि आवाज खूप चांगल्या प्रकारे शिकले आहे. अंडरफिट मॉडेल अचूक नाही कारण ते त्याच्या ट्रेनिंग डेटाचे किंवा त्याने अद्याप 'पाहिलेले' डेटाचे अचूक विश्लेषण करू शकत नाही.

ओव्हरफिटिंग मॉडेल

जेन लूपर यांचे इन्फोग्राफिक

पॅरामीटर ट्यूनिंग

तुमचे प्रारंभिक ट्रेनिंग पूर्ण झाल्यानंतर, मॉडेलची गुणवत्ता निरीक्षण करा आणि त्याचे 'हायपरपॅरामीटर्स' समायोजित करून ते सुधारण्याचा विचार करा. या प्रक्रियेबद्दल अधिक वाचा दस्तऐवजांमध्ये.

भाकित

ही ती वेळ आहे जिथे तुम्ही पूर्णपणे नवीन डेटाचा वापर करून तुमच्या मॉडेलची अचूकता तपासू शकता. 'अर्जित' ML सेटिंगमध्ये, जिथे तुम्ही उत्पादनामध्ये मॉडेल वापरण्यासाठी वेब अॅसेट तयार करत आहात, ही प्रक्रिया युजर इनपुट (उदाहरणार्थ, बटण दाबणे) गोळा करणे, व्हेरिएबल सेट करणे आणि मॉडेलकडे इनफरन्स किंवा मूल्यांकनासाठी पाठवणे यांचा समावेश असू शकतो.

या धड्यांमध्ये, तुम्ही डेटा तयार करणे, मॉडेल तयार करणे, चाचणी करणे, मूल्यांकन करणे आणि भाकित करणे - डेटा सायंटिस्टच्या सर्व पायऱ्या आणि त्याहून अधिक गोष्टी शिकाल, कारण तुम्ही 'फुल स्टॅक' ML अभियंता होण्यासाठी तुमच्या प्रवासात प्रगती करत आहात.


🚀आव्हान

ML व्यावसायिकाच्या टप्प्यांचे प्रतिबिंबित करणारे फ्लो चार्ट तयार करा. तुम्ही सध्या या प्रक्रियेच्या कोणत्या टप्प्यावर आहात? तुम्हाला कुठे अडचण येईल असे वाटते? तुम्हाला काय सोपे वाटते?

व्याख्यानानंतरची प्रश्नमंजुषा

पुनरावलोकन आणि स्व-अभ्यास

डेटा सायंटिस्ट्सच्या दैनंदिन कामाबद्दल चर्चा करणाऱ्या मुलाखती ऑनलाइन शोधा. येथे एक आहे.

असाइनमेंट

डेटा सायंटिस्टची मुलाखत घ्या


अस्वीकरण:
हा दस्तऐवज AI भाषांतर सेवा Co-op Translator चा वापर करून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी कृपया लक्षात ठेवा की स्वयंचलित भाषांतरे त्रुटी किंवा अचूकतेच्या अभावाने युक्त असू शकतात. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून निर्माण होणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.