30 KiB

Raw Blame History

मशीन लर्निंग की तकनीकें

मशीन लर्निंग मॉडल और उनके उपयोग और रखरखाव की प्रक्रिया अन्य विकास वर्कफ़्लो से काफी अलग होती है। इस पाठ में, हम इस प्रक्रिया को सरल बनाएंगे और उन मुख्य तकनीकों को समझाएंगे जिन्हें आपको जानना चाहिए। आप:

मशीन लर्निंग की प्रक्रियाओं को उच्च स्तर पर समझेंगे।
'मॉडल', 'प्रेडिक्शन', और 'ट्रेनिंग डेटा' जैसे मूलभूत अवधारणाओं का अन्वेषण करेंगे।

प्री-लेक्चर क्विज़

🎥 ऊपर दी गई छवि पर क्लिक करें इस पाठ को समझाने वाले एक छोटे वीडियो के लिए।

परिचय

उच्च स्तर पर, मशीन लर्निंग (ML) प्रक्रियाओं को बनाने की कला में कई चरण शामिल होते हैं:

प्रश्न तय करें। अधिकांश ML प्रक्रियाएं एक ऐसे प्रश्न से शुरू होती हैं जिसे एक साधारण कंडीशनल प्रोग्राम या नियम-आधारित इंजन द्वारा उत्तर नहीं दिया जा सकता। ये प्रश्न अक्सर डेटा के संग्रह के आधार पर भविष्यवाणियों के इर्द-गिर्द घूमते हैं।
डेटा एकत्रित और तैयार करें। अपने प्रश्न का उत्तर देने के लिए, आपको डेटा की आवश्यकता होती है। आपके डेटा की गुणवत्ता और कभी-कभी मात्रा यह निर्धारित करती है कि आप अपने प्रारंभिक प्रश्न का उत्तर कितनी अच्छी तरह दे सकते हैं। इस चरण में डेटा को विज़ुअलाइज़ करना एक महत्वपूर्ण पहलू है। इस चरण में डेटा को ट्रेनिंग और टेस्टिंग समूह में विभाजित करना भी शामिल है ताकि मॉडल बनाया जा सके।
ट्रेनिंग विधि चुनें। आपके प्रश्न और डेटा की प्रकृति के आधार पर, आपको यह तय करना होगा कि आप मॉडल को कैसे ट्रेन करना चाहते हैं ताकि यह आपके डेटा को सबसे अच्छी तरह से प्रतिबिंबित करे और इसके खिलाफ सटीक भविष्यवाणियां करे। यह आपके ML प्रक्रिया का वह हिस्सा है जो विशेष विशेषज्ञता और अक्सर काफी मात्रा में प्रयोग की आवश्यकता होती है।
मॉडल को ट्रेन करें। अपने ट्रेनिंग डेटा का उपयोग करके, आप विभिन्न एल्गोरिदम का उपयोग करके मॉडल को डेटा में पैटर्न पहचानने के लिए ट्रेन करेंगे। मॉडल आंतरिक वेट्स का उपयोग कर सकता है जिन्हें डेटा के कुछ हिस्सों को दूसरों पर प्राथमिकता देने के लिए समायोजित किया जा सकता है ताकि बेहतर मॉडल बनाया जा सके।
मॉडल का मूल्यांकन करें। आप अपने संग्रहित सेट से पहले कभी न देखे गए डेटा (अपने टेस्टिंग डेटा) का उपयोग करके देख सकते हैं कि मॉडल कैसा प्रदर्शन कर रहा है।
पैरामीटर ट्यूनिंग। आपके मॉडल के प्रदर्शन के आधार पर, आप प्रक्रिया को अलग-अलग पैरामीटर या वेरिएबल का उपयोग करके फिर से कर सकते हैं जो मॉडल को ट्रेन करने के लिए उपयोग किए गए एल्गोरिदम के व्यवहार को नियंत्रित करते हैं।
भविष्यवाणी करें। नए इनपुट का उपयोग करके अपने मॉडल की सटीकता का परीक्षण करें।

कौन सा प्रश्न पूछना है

कंप्यूटर डेटा में छिपे पैटर्न खोजने में विशेष रूप से कुशल होते हैं। यह उपयोगिता उन शोधकर्ताओं के लिए बहुत मददगार है जिनके पास किसी दिए गए डोमेन के बारे में ऐसे प्रश्न होते हैं जिन्हें आसानी से कंडीशनली-आधारित नियम इंजन बनाकर उत्तर नहीं दिया जा सकता। उदाहरण के लिए, एक एक्चुरियल कार्य को देखते हुए, एक डेटा वैज्ञानिक धूम्रपान करने वालों बनाम गैर-धूम्रपान करने वालों की मृत्यु दर के आसपास हस्तनिर्मित नियम बना सकता है।

हालांकि, जब कई अन्य वेरिएबल समीकरण में लाए जाते हैं, तो एक ML मॉडल पिछले स्वास्थ्य इतिहास के आधार पर भविष्य की मृत्यु दर की भविष्यवाणी करने में अधिक कुशल साबित हो सकता है। एक अधिक सुखद उदाहरण अप्रैल के महीने में किसी दिए गए स्थान के लिए मौसम की भविष्यवाणी करना हो सकता है, जिसमें अक्षांश, देशांतर, जलवायु परिवर्तन, महासागर के निकटता, जेट स्ट्रीम के पैटर्न और अधिक जैसे डेटा शामिल हैं।

✅ यह स्लाइड डेक मौसम मॉडल पर ML का उपयोग करने के लिए एक ऐतिहासिक दृष्टिकोण प्रदान करता है।

मॉडल बनाने से पहले के कार्य

मॉडल बनाना शुरू करने से पहले, आपको कई कार्य पूरे करने की आवश्यकता होती है। अपने प्रश्न का परीक्षण करने और मॉडल की भविष्यवाणियों के आधार पर एक परिकल्पना बनाने के लिए, आपको कई तत्वों की पहचान और कॉन्फ़िगर करना होगा।

डेटा

अपने प्रश्न का उत्तर किसी भी प्रकार की निश्चितता के साथ देने के लिए, आपको सही प्रकार का पर्याप्त डेटा चाहिए। इस बिंदु पर आपको दो चीजें करनी होंगी:

डेटा एकत्रित करें। डेटा विश्लेषण में निष्पक्षता पर पिछले पाठ को ध्यान में रखते हुए, अपने डेटा को सावधानीपूर्वक एकत्रित करें। इस डेटा के स्रोतों, इसमें मौजूद किसी भी अंतर्निहित पूर्वाग्रहों के बारे में जागरूक रहें और इसकी उत्पत्ति का दस्तावेज़ बनाएं।
डेटा तैयार करें। डेटा तैयारी प्रक्रिया में कई चरण होते हैं। यदि डेटा विभिन्न स्रोतों से आता है, तो आपको इसे एकत्रित और सामान्यीकृत करने की आवश्यकता हो सकती है। आप डेटा की गुणवत्ता और मात्रा को विभिन्न तरीकों से सुधार सकते हैं, जैसे स्ट्रिंग्स को नंबर में बदलना (जैसा कि हम क्लस्टरिंग में करते हैं)। आप मूल डेटा के आधार पर नया डेटा भी उत्पन्न कर सकते हैं (जैसा कि हम क्लासिफिकेशन में करते हैं)। आप डेटा को साफ और संपादित कर सकते हैं (जैसा कि हम वेब ऐप पाठ से पहले करेंगे)। अंत में, आप इसे यादृच्छिक और शफल भी कर सकते हैं, यह आपके ट्रेनिंग तकनीकों पर निर्भर करता है।

✅ डेटा एकत्रित और प्रोसेस करने के बाद, एक पल लें और देखें कि क्या इसका आकार आपके इच्छित प्रश्न को संबोधित करने की अनुमति देगा। ऐसा हो सकता है कि डेटा आपके दिए गए कार्य में अच्छा प्रदर्शन न करे, जैसा कि हम अपने क्लस्टरिंग पाठ में खोजते हैं!

फीचर्स और टारगेट

एक फीचर आपके डेटा की एक मापने योग्य संपत्ति है। कई डेटासेट में इसे 'तारीख', 'आकार' या 'रंग' जैसे कॉलम हेडिंग के रूप में व्यक्त किया जाता है। आपका फीचर वेरिएबल, जिसे आमतौर पर कोड में X के रूप में दर्शाया जाता है, वह इनपुट वेरिएबल है जिसका उपयोग मॉडल को ट्रेन करने के लिए किया जाएगा।

एक टारगेट वह चीज़ है जिसे आप भविष्यवाणी करने की कोशिश कर रहे हैं। टारगेट, जिसे आमतौर पर कोड में y के रूप में दर्शाया जाता है, आपके डेटा से पूछे जा रहे प्रश्न का उत्तर दर्शाता है: दिसंबर में कौन से रंग के कद्दू सबसे सस्ते होंगे? सैन फ्रांसिस्को में कौन से पड़ोस में सबसे अच्छी रियल एस्टेट कीमत होगी? कभी-कभी टारगेट को लेबल एट्रिब्यूट भी कहा जाता है।

अपने फीचर वेरिएबल का चयन करना

🎓 फीचर चयन और फीचर एक्सट्रैक्शन जब आप मॉडल बनाते समय वेरिएबल चुनते हैं तो आप कैसे जानते हैं कि कौन सा वेरिएबल चुनना है? आप शायद फीचर चयन या फीचर एक्सट्रैक्शन की प्रक्रिया से गुजरेंगे ताकि सबसे अच्छा प्रदर्शन करने वाले मॉडल के लिए सही वेरिएबल चुने जा सकें। हालांकि, वे समान नहीं हैं: "फीचर एक्सट्रैक्शन मूल फीचर्स के फंक्शन्स से नए फीचर्स बनाता है, जबकि फीचर चयन फीचर्स का एक सबसेट लौटाता है।" (स्रोत)

अपने डेटा को विज़ुअलाइज़ करें

डेटा वैज्ञानिक के टूलकिट का एक महत्वपूर्ण पहलू डेटा को विज़ुअलाइज़ करने की शक्ति है, जिसमें Seaborn या MatPlotLib जैसी कई उत्कृष्ट लाइब्रेरी शामिल हैं। अपने डेटा को विज़ुअल रूप से प्रस्तुत करना आपको छिपे हुए संबंधों को उजागर करने की अनुमति दे सकता है जिन्हें आप लाभ उठा सकते हैं। आपके विज़ुअलाइज़ेशन आपको पूर्वाग्रह या असंतुलित डेटा को उजागर करने में भी मदद कर सकते हैं (जैसा कि हम क्लासिफिकेशन में खोजते हैं)।

अपने डेटासेट को विभाजित करें

ट्रेनिंग से पहले, आपको अपने डेटासेट को दो या अधिक असमान आकार के हिस्सों में विभाजित करना होगा जो अभी भी डेटा का अच्छा प्रतिनिधित्व करते हैं।

ट्रेनिंग। डेटासेट का यह हिस्सा आपके मॉडल को ट्रेन करने के लिए फिट किया जाता है। यह सेट मूल डेटासेट का अधिकांश हिस्सा बनाता है।
टेस्टिंग। एक टेस्ट डेटासेट एक स्वतंत्र डेटा समूह है, जिसे अक्सर मूल डेटा से एकत्रित किया जाता है, जिसका उपयोग आप बनाए गए मॉडल के प्रदर्शन की पुष्टि करने के लिए करते हैं।
वैलिडेशन। एक वैलिडेशन सेट एक छोटा स्वतंत्र उदाहरणों का समूह है जिसका उपयोग आप मॉडल के हाइपरपैरामीटर या आर्किटेक्चर को ट्यून करने के लिए करते हैं ताकि मॉडल को बेहतर बनाया जा सके। आपके डेटा के आकार और आपके द्वारा पूछे गए प्रश्न के आधार पर, आपको इस तीसरे सेट को बनाने की आवश्यकता नहीं हो सकती (जैसा कि हम टाइम सीरीज फोरकास्टिंग में नोट करते हैं)।

मॉडल बनाना

अपने ट्रेनिंग डेटा का उपयोग करते हुए, आपका लक्ष्य विभिन्न एल्गोरिदम का उपयोग करके एक मॉडल, या आपके डेटा का सांख्यिकीय प्रतिनिधित्व बनाना है ताकि इसे ट्रेन किया जा सके। मॉडल को ट्रेन करना इसे डेटा के संपर्क में लाता है और इसे खोजे गए पैटर्न के बारे में धारणाएं बनाने, मान्य करने और स्वीकार या अस्वीकार करने की अनुमति देता है।

ट्रेनिंग विधि तय करें

आपके प्रश्न और आपके डेटा की प्रकृति के आधार पर, आप इसे ट्रेन करने के लिए एक विधि चुनेंगे। Scikit-learn के दस्तावेज़ के माध्यम से कदम उठाते हुए - जिसे हम इस पाठ्यक्रम में उपयोग करते हैं - आप मॉडल को ट्रेन करने के कई तरीके खोज सकते हैं। आपके अनुभव के आधार पर, आपको सबसे अच्छा मॉडल बनाने के लिए कई अलग-अलग तरीकों को आजमाना पड़ सकता है। आप एक प्रक्रिया से गुजरने की संभावना रखते हैं जिसमें डेटा वैज्ञानिक मॉडल के प्रदर्शन का मूल्यांकन करते हैं, इसे अनदेखे डेटा खिलाते हैं, सटीकता, पूर्वाग्रह और अन्य गुणवत्ता-घटाने वाले मुद्दों की जांच करते हैं, और दिए गए कार्य के लिए सबसे उपयुक्त ट्रेनिंग विधि का चयन करते हैं।

मॉडल को ट्रेन करें

अपने ट्रेनिंग डेटा से लैस, आप इसे 'फिट' करने के लिए तैयार हैं ताकि एक मॉडल बनाया जा सके। आप देखेंगे कि कई ML लाइब्रेरी में आपको 'model.fit' कोड मिलेगा - यह वह समय है जब आप अपने फीचर वेरिएबल को मानों के एक एरे के रूप में भेजते हैं (आमतौर पर 'X') और एक टारगेट वेरिएबल (आमतौर पर 'y')।

मॉडल का मूल्यांकन करें

एक बार ट्रेनिंग प्रक्रिया पूरी हो जाने के बाद (एक बड़े मॉडल को ट्रेन करने में कई पुनरावृत्तियां, या 'epochs', लग सकते हैं), आप टेस्ट डेटा का उपयोग करके मॉडल की गुणवत्ता का मूल्यांकन करने में सक्षम होंगे ताकि इसके प्रदर्शन का आकलन किया जा सके। यह डेटा मूल डेटा का एक उपसमुच्चय है जिसे मॉडल ने पहले कभी विश्लेषण नहीं किया है। आप अपने मॉडल की गुणवत्ता के बारे में मेट्रिक्स की एक तालिका प्रिंट कर सकते हैं।

🎓 मॉडल फिटिंग

मशीन लर्निंग के संदर्भ में, मॉडल फिटिंग उस मॉडल की अंतर्निहित फ़ंक्शन की सटीकता को संदर्भित करता है क्योंकि यह उस डेटा का विश्लेषण करने का प्रयास करता है जिससे यह परिचित नहीं है।

🎓 अंडरफिटिंग और ओवरफिटिंग आम समस्याएं हैं जो मॉडल की गुणवत्ता को खराब करती हैं, क्योंकि मॉडल या तो पर्याप्त रूप से फिट नहीं होता है या बहुत अधिक फिट होता है। इससे मॉडल या तो अपने ट्रेनिंग डेटा के साथ बहुत अधिक संरेखित भविष्यवाणियां करता है या बहुत कम संरेखित करता है। एक ओवरफिट मॉडल ट्रेनिंग डेटा को बहुत अच्छी तरह से भविष्यवाणी करता है क्योंकि उसने डेटा के विवरण और शोर को बहुत अच्छी तरह से सीखा है। एक अंडरफिट मॉडल सटीक नहीं है क्योंकि यह न तो अपने ट्रेनिंग डेटा का सही तरीके से विश्लेषण कर सकता है और न ही उस डेटा का जिसे उसने अभी तक 'देखा' नहीं है।

Jen Looper द्वारा इन्फोग्राफिक

पैरामीटर ट्यूनिंग

एक बार आपकी प्रारंभिक ट्रेनिंग पूरी हो जाने के बाद, मॉडल की गुणवत्ता का अवलोकन करें और इसे 'हाइपरपैरामीटर' को समायोजित करके सुधारने पर विचार करें। इस प्रक्रिया के बारे में अधिक पढ़ें दस्तावेज़ में।

भविष्यवाणी

यह वह क्षण है जब आप पूरी तरह से नए डेटा का उपयोग करके अपने मॉडल की सटीकता का परीक्षण कर सकते हैं। एक 'एप्लाइड' ML सेटिंग में, जहां आप मॉडल को प्रोडक्शन में उपयोग करने के लिए वेब एसेट्स बना रहे हैं, यह प्रक्रिया उपयोगकर्ता इनपुट (जैसे बटन दबाना) को एक वेरिएबल सेट करने और मॉडल को इनफरेंस या मूल्यांकन के लिए भेजने में शामिल कर सकती है।

इन पाठों में, आप इन चरणों का उपयोग करके तैयार करने, बनाने, परीक्षण करने, मूल्यांकन करने और भविष्यवाणी करने के तरीके खोजेंगे - डेटा वैज्ञानिक के सभी इशारों और अधिक, जैसे-जैसे आप 'फुल स्टैक' ML इंजीनियर बनने की अपनी यात्रा में आगे बढ़ते हैं।

🚀चुनौती

एक फ्लो चार्ट बनाएं जो एक ML प्रैक्टिशनर के चरणों को दर्शाता है। आप इस प्रक्रिया में अभी खुद को कहां देखते हैं? आपको कहां कठिनाई का सामना करना पड़ सकता है? आपको क्या आसान लगता है?

पोस्ट-लेक्चर क्विज़

समीक्षा और स्व-अध्ययन

ऑनलाइन खोजें कि डेटा वैज्ञानिक अपने दैनिक कार्य के बारे में चर्चा करते हुए साक्षात्कार में क्या कहते हैं। यहाँ एक है।

असाइनमेंट

एक डेटा वैज्ञानिक का साक्षात्कार लें

अस्वीकरण:
यह दस्तावेज़ AI अनुवाद सेवा Co-op Translator का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयासरत हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।

30 KiB Raw Blame History