[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
इस चुनौती में, हम डेटा साइंस के क्षेत्र से संबंधित अवधारणाओं को खोजने की कोशिश करेंगे, और इसके लिए हम टेक्स्ट का विश्लेषण करेंगे। हम डेटा साइंस पर एक विकिपीडिया लेख लेंगे, टेक्स्ट को डाउनलोड और प्रोसेस करेंगे, और फिर एक वर्ड क्लाउड बनाएंगे, जो इस तरह दिखेगा:


कोड को पढ़ने के लिए [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') पर जाएं। आप कोड को चला सकते हैं और देख सकते हैं कि यह वास्तविक समय में सभी डेटा ट्रांसफॉर्मेशन कैसे करता है।
"# चुनौती: डेटा साइंस के बारे में टेक्स्ट का विश्लेषण\n",
"# चुनौती: डेटा विज्ञान से संबंधित टेक्स्ट का विश्लेषण\n",
"\n",
"इस उदाहरण में, आइए एक साधारण अभ्यास करें जो पारंपरिक डेटा साइंस प्रक्रिया के सभी चरणों को कवर करता है। आपको कोई कोड लिखने की आवश्यकता नहीं है, आप केवल नीचे दिए गए सेल्स पर क्लिक करके उन्हें निष्पादित कर सकते हैं और परिणाम देख सकते हैं। एक चुनौती के रूप में, आप इस कोड को अलग-अलग डेटा के साथ आज़माने के लिए प्रोत्साहित किए जाते हैं।\n",
"इस उदाहरण में, आइए एक सरल अभ्यास करें जो पारंपरिक डेटा विज्ञान प्रक्रिया के सभी चरणों को कवर करता है। आपको कोई कोड लिखने की आवश्यकता नहीं है, आप केवल नीचे दिए गए सेल्स पर क्लिक करके उन्हें निष्पादित कर सकते हैं और परिणाम देख सकते हैं। एक चुनौती के रूप में, आपको इस कोड को विभिन्न डेटा के साथ आज़माने के लिए प्रोत्साहित किया जाता है।\n",
"\n",
"## लक्ष्य\n",
"\n",
"इस पाठ में, हमने डेटा साइंस से संबंधित विभिन्न अवधारणाओं पर चर्चा की है। आइए कुछ **टेक्स्ट माइनिंग** करके अधिक संबंधित अवधारणाओं की खोज करने की कोशिश करें। हम डेटा साइंस के बारे में एक टेक्स्ट से शुरुआत करेंगे, उसमें से कीवर्ड निकालेंगे, और फिर परिणाम को विज़ुअलाइज़ करने की कोशिश करेंगे।\n",
"इस पाठ में, हमने डेटा विज्ञान से संबंधित विभिन्न अवधारणाओं पर चर्चा की है। आइए कुछ **टेक्स्ट माइनिंग** करके अधिक संबंधित अवधारणाओं की खोज करने का प्रयास करें। हम डेटा विज्ञान के बारे में एक टेक्स्ट से शुरू करेंगे, उससे कीवर्ड निकालेंगे, और फिर परिणाम को दृश्य रूप में प्रदर्शित करने का प्रयास करेंगे।\n",
"\n",
"टेक्स्ट के रूप में, मैं विकिपीडिया पर डेटा साइंस के पेज का उपयोग करूंगा:\n"
"एक टेक्स्ट के रूप में, मैं विकिपीडिया के डेटा विज्ञान पृष्ठ का उपयोग करूंगा:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## चरण 1: डेटा प्राप्त करना\n",
"## Step 1: डेटा प्राप्त करना\n",
"\n",
"हर डेटा साइंस प्रक्रिया का पहला चरण डेटा प्राप्त करना होता है। हम इसे करने के लिए `requests` लाइब्रेरी का उपयोग करेंगे:\n"
"हर डेटा विज्ञान प्रक्रिया में पहला कदम डेटा प्राप्त करना होता है। हम इसे करने के लिए `requests` लाइब्रेरी का उपयोग करेंगे:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## चरण 2: डेटा को रूपांतरित करना\n",
"## Step 2: डेटा को परिवर्तित करना\n",
"\n",
"अगला कदम डेटा को उस रूप में बदलना है जो प्रोसेसिंग के लिए उपयुक्त हो। हमारे मामले में, हमने पेज से HTML स्रोत कोड डाउनलोड किया है, और हमें इसे साधारण टेक्स्ट में बदलने की आवश्यकता है।\n",
"अगला कदम डेटा को उस रूप में परिवर्तित करना है जो संसाधित करने के लिए उपयुक्त हो। हमारे मामले में, हमने पेज से HTML स्रोत कोड डाउनलोड किया है, और हमें इसे सामान्य पाठ में परिवर्तित करना है।\n",
"\n",
"यह कई तरीकों से किया जा सकता है। हम Python के बिल्ट-इन [HTMLParser](https://docs.python.org/3/library/html.parser.html) ऑब्जेक्ट का सबसे सरल उपयोग करेंगे। हमें `HTMLParser` क्लास को सबक्लास करना होगा और ऐसा कोड परिभाषित करना होगा जो HTML टैग्स के अंदर का सारा टेक्स्ट इकट्ठा करेगा, लेकिन `<script>` और `<style>` टैग्स को छोड़कर।\n"
"इसे करने के कई तरीके हैं। हम [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), एक लोकप्रिय पायथन पुस्तकालय जो HTML पार्सिंग के लिए है, का उपयोग करेंगे। BeautifulSoup हमें विशिष्ट HTML तत्वों को लक्षित करने की अनुमति देता है, ताकि हम विकिपीडिया के मुख्य लेख की सामग्री पर ध्यान केंद्रित कर सकें और कुछ नेविगेशन मेनू, साइडबार, फुटर, और अन्य अप्रासंगिक सामग्री को कम कर सकें (हालांकि कुछ बोइलरप्लेट पाठ अभी भी रह सकता है)।\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"सबसे पहले, हमें HTML पार्सिंग के लिए BeautifulSoup लाइब्रेरी को इंस्टॉल करना होगा:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## चरण 3: जानकारी प्राप्त करना\n",
"## Step 3: इनसाइट्स प्राप्त करना\n",
"\n",
"सबसे महत्वपूर्ण कदम यह है कि हमारे डेटा को ऐसी रूपरेखा में बदलें जिससे हम जानकारी प्राप्त कर सकें। हमारे मामले में, हम टेक्स्ट से कीवर्ड निकालना चाहते हैं और देखना चाहते हैं कि कौन से कीवर्ड अधिक महत्वपूर्ण हैं।\n",
"सबसे महत्वपूर्ण कदम हमारे डेटा को ऐसी किसी रूप में परिवर्तित करना है जिससे हम इनसाइट्स निकाल सकें। हमारे मामले में, हम टेक्स्ट से कीवर्ड निकालना चाहते हैं, और देखना चाहते हैं कि कौन से कीवर्ड अधिक महत्वपूर्ण हैं।\n",
"\n",
"हम कीवर्ड निकालने के लिए [RAKE](https://github.com/aneesha/RAKE) नामक Python लाइब्रेरी का उपयोग करेंगे। सबसे पहले, यदि यह लाइब्रेरी पहले से मौजूद नहीं है, तो इसे इंस्टॉल करें:\n"
"हम कीवर्ड एक्स्ट्रैक्शन के लिए Python लाइब्रेरी [RAKE](https://github.com/aneesha/RAKE) का उपयोग करेंगे। सबसे पहले, अगर यह लाइब्रेरी मौजूद नहीं है तो इसे इंस्टॉल करते हैं: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"मुख्य कार्यक्षमता `Rake` ऑब्जेक्ट से उपलब्ध है, जिसे हम कुछ पैरामीटर का उपयोग करके अनुकूलित कर सकते हैं। हमारे मामले में, हम एक कीवर्ड की न्यूनतम लंबाई 5 अक्षरों तक, दस्तावेज़ में एक कीवर्ड की न्यूनतम आवृत्ति 3 तक, और एक कीवर्ड में अधिकतम शब्दों की संख्या 2 तक सेट करेंगे। अन्य मानों के साथ प्रयोग करने और परिणाम देखने के लिए स्वतंत्र महसूस करें।\n"
"मुख्य कार्यक्षमता `Rake` वस्तु से उपलब्ध है, जिसे हम कुछ पैरामीटर का उपयोग करके अनुकूलित कर सकते हैं। हमारे मामले में, हम एक कुंजीशब्द की न्यूनतम लंबाई 5 अक्षरों, दस्तावेज़ में एक कुंजीशब्द की न्यूनतम आवृत्ति 3 और एक कुंजीशब्द में शब्दों की अधिकतम संख्या को 2 सेट करेंगे। अन्य मानों के साथ खेलने के लिए स्वतंत्र महसूस करें और परिणाम देखें।\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"हमें महत्व के स्तर के साथ एक सूची प्राप्त हुई है। जैसा कि आप देख सकते हैं, सबसे प्रासंगिक विषय, जैसे मशीन लर्निंग और बिग डेटा, सूची में शीर्ष स्थानों पर मौजूद हैं।\n",
"हमने एक शब्दों की सूची प्राप्त की है जिसमें संबंधित महत्व का डिग्री भी शामिल है। जैसा कि आप देख सकते हैं, सबसे प्रासंगिक विषय, जैसे मशीन लर्निंग और बिग डेटा, सूची में शीर्ष स्थानों पर मौजूद हैं।\n",
"\n",
"## चरण 4: परिणाम को विज़ुअलाइज़ करना\n",
"## चरण 4: परिणाम का दृश्याकरण\n",
"\n",
"लोग डेटा को सबसे अच्छे तरीके से विज़ुअल फॉर्म में समझ सकते हैं। इसलिए, अक्सर डेटा को विज़ुअलाइज़ करना समझदारी होती है ताकि कुछ अंतर्दृष्टि प्राप्त की जा सके। हम Python में `matplotlib` लाइब्रेरी का उपयोग करके कीवर्ड्स के महत्व के साथ उनकी सरल वितरण को प्लॉट कर सकते हैं:\n"
"लोग डेटा को सबसे बेहतर दृश्य रूप में समझ पाते हैं। इसलिए अक्सर कुछ अंतर्दृष्टि प्राप्त करने के लिए डेटा को दृश्य रूप में प्रस्तुत करना समझदारी होती है। हम Python में `matplotlib` लाइब्रेरी का उपयोग करके कीवर्ड्स के प्रासंगिकता के साथ सरल वितरण को प्लॉट कर सकते हैं:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"हालांकि, शब्द आवृत्तियों को देखने का एक और बेहतर तरीका है - **वर्ड क्लाउड** का उपयोग करना। हमें अपनी कीवर्ड सूची से वर्ड क्लाउड बनाने के लिए एक और लाइब्रेरी इंस्टॉल करनी होगी।\n"
"हालांकि, शब्द आवृत्तियों का दृश्यांकन करने का एक और भी बेहतर तरीका है - **Word Cloud** का उपयोग करना। हमें अपनी कीवर्ड सूची से वर्ड क्लाउड प्लॉट करने के लिए एक और लाइब्रेरी स्थापित करनी होगी।\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` ऑब्जेक्ट मूल पाठ या पहले से गणना की गई शब्दों की सूची उनके आवृत्तियों के साथ लेता है, और एक छवि लौटाता है, जिसे फिर `matplotlib` का उपयोग करके प्रदर्शित किया जा सकता है:\n"
"`WordCloud` ऑब्जेक्ट मूल टेक्स्ट या पहले से गणना किए गए शब्दों की आवृत्तियों वाली सूची को इनपुट के रूप में लेता है, और एक छवि लौटाता है, जिसे फिर `matplotlib` का उपयोग करके प्रदर्शित किया जा सकता है:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"हम मूल पाठ को `WordCloud` में भी पास कर सकते हैं - आइए देखें कि क्या हम समान परिणाम प्राप्त कर सकते हैं:\n"
"हम `WordCloud` में मूल पाठ भी पास कर सकते हैं - चलिए देखते हैं कि क्या हम समान परिणाम प्राप्त कर पाते हैं:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"आप देख सकते हैं कि अब वर्ड क्लाउड अधिक प्रभावशाली दिखता है, लेकिन इसमें बहुत सारा शोर भी है (जैसे कि `Retrieved on` जैसे असंबंधित शब्द)। साथ ही, हमें दो शब्दों वाले कीवर्ड कम मिलते हैं, जैसे *data scientist* या *computer science*। इसका कारण यह है कि RAKE एल्गोरिदम टेक्स्ट से अच्छे कीवर्ड चुनने में बेहतर काम करता है। यह उदाहरण डेटा प्री-प्रोसेसिंग और क्लीनिंग के महत्व को दर्शाता है, क्योंकि अंत में स्पष्ट तस्वीर हमें बेहतर निर्णय लेने में मदद करेगी।\n",
"आप देख सकते हैं कि वर्ड क्लाउड अब अधिक प्रभावशाली दिखता है, लेकिन इसमें बहुत सारा शोर भी होता है (जैसे कि अप्रासंगिक शब्द जैसे `Retrieved on`)। साथ ही, हमें दो शब्दों वाले कम कीवर्ड मिलते हैं, जैसे *data scientist*, या *computer science*। ऐसा इसलिए है क्योंकि RAKE एल्गोरिद्म टेक्स्ट से अच्छे कीवर्ड चुनने में बेहतर काम करता है। यह उदाहरण डेटा प्री-प्रोसेसिंग और सफाई के महत्व को दर्शाता है, क्योंकि अंत में स्पष्ट तस्वीर हमें बेहतर निर्णय लेने में सक्षम बनाएगी।\n",
"\n",
"इस अभ्यास में हमने Wikipedia टेक्स्ट से कुछ अर्थ निकालने की एक सरल प्रक्रिया को देखा, कीवर्ड और वर्ड क्लाउड के रूप में। यह उदाहरण काफी सरल है, लेकिन यह उन सभी सामान्य चरणों को अच्छी तरह से प्रदर्शित करता है, जिन्हें एक डेटा वैज्ञानिक डेटा के साथ काम करते समय अपनाता है, डेटा अधिग्रहण से लेकर विज़ुअलाइज़ेशन तक।\n",
"इस अभ्यास में हमने विकिपीडिया टेक्स्ट से कीवर्ड और वर्ड क्लाउड के रूप में कुछ अर्थ निकालने की एक सरल प्रक्रिया देखी। यह उदाहरण बहुत सरल है, लेकिन यह उन सभी सामान्य कदमों को अच्छी तरह से दिखाता है जो एक डेटा साइंटिस्ट डेटा के साथ काम करते समय उठाता है, डेटा अधिग्रहण से लेकर विज़ुअलाइज़ेशन तक।\n",
"\n",
"हमारे कोर्स में हम इन सभी चरणों पर विस्तार से चर्चा करेंगे।\n"
"हमारे कोर्स में हम इन सभी कदमों को विस्तार से चर्चा करेंगे।\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**अस्वीकरण**: \nयह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**अस्वीकरण**: \nयह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयासरत हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियाँ या गलतियाँ हो सकती हैं। मूल दस्तावेज़ अपनी मातृभाषा में ही अधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानवीय अनुवाद की सलाह दी जाती है। हम इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए उत्तरदायी नहीं हैं।\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"# चुनौती: डेटा साइंस के बारे में टेक्स्ट का विश्लेषण करना\n",
"# चुनौती: डेटा साइंस के बारे में टेक्स्ट का विश्लेषण\n",
"\n",
"> *इस नोटबुक में, हम मशीन लर्निंग पर विकिपीडिया लेख का उपयोग करके विभिन्न URL के साथ प्रयोग करते हैं। आप देख सकते हैं कि, डेटा साइंस के विपरीत, इस लेख में कई तकनीकी शब्द हैं, जिससे विश्लेषण अधिक चुनौतीपूर्ण हो जाता है। हमें कीवर्ड एक्सट्रैक्शन के बाद डेटा को साफ करने का एक और तरीका ढूंढना होगा, ताकि कुछ सामान्य लेकिन अर्थहीन शब्द संयोजनों को हटाया जा सके।*\n",
"> *इस नोटबुक में, हम विभिन्न URL - मशीन लर्निंग पर विकिपीडिया लेख का उपयोग करने का प्रयोग करते हैं। आप देख सकते हैं कि, डेटा साइंस के विपरीत, इस लेख में कई शब्दावली हैं, जिससे विश्लेषण और भी जटिल हो जाता है। हमें कीवर्ड एक्सट्रैक्शन करने के बाद डेटा को साफ करने के लिए एक और तरीका निकालना होगा, ताकि कुछ सामान्य लेकिन अर्थहीन शब्द संयोजनों से छुटकारा पाया जा सके।*\n",
"\n",
"इस उदाहरण में, चलिए एक साधारण अभ्यास करते हैं जो पारंपरिक डेटा साइंस प्रक्रिया के सभी चरणों को कवर करता है। आपको कोई कोड लिखने की आवश्यकता नहीं है, आप बस नीचे दिए गए सेल्स पर क्लिक करके उन्हें निष्पादित कर सकते हैं और परिणाम देख सकते हैं। एक चुनौती के रूप में, आप इस कोड को अलग-अलग डेटा के साथ आजमाने के लिए प्रोत्साहित किए जाते हैं।\n",
"इस उदाहरण में, चलो एक साधारण अभ्यास करते हैं जो पारंपरिक डेटा साइंस प्रक्रिया के सभी चरणों को कवर करता है। आपको कोई कोड लिखने की आवश्यकता नहीं है, आप नीचे कोष्ठकों पर क्लिक करके उन्हें निष्पादित कर सकते हैं और परिणाम देख सकते हैं। एक चुनौती के रूप में, आप प्रोत्साहित किए जाते हैं कि आप इस कोड को विभिन्न डेटा के साथ आजमाएं।\n",
"\n",
"## उद्देश्य\n",
"## लक्ष्य\n",
"\n",
"इस पाठ में, हमने डेटा साइंस से संबंधित विभिन्न अवधारणाओं पर चर्चा की है। चलिए **टेक्स्ट माइनिंग** करके और अधिक संबंधित अवधारणाओं की खोज करने की कोशिश करते हैं। हम डेटा साइंस के बारे में एक टेक्स्ट से शुरुआत करेंगे, उससे कीवर्ड निकालेंगे, और फिर परिणाम को विज़ुअलाइज़ करने की कोशिश करेंगे।\n",
"इस पाठ में, हमने डेटा साइंस से संबंधित विभिन्न अवधारणाओं पर चर्चा की है। चलो कुछ **टेक्स्ट माइनिंग** करके और संबंधित अवधारणाओं की खोज करने की कोशिश करते हैं। हम डेटा साइंस पर एक टेक्स्ट से शुरू करेंगे, उसमें से कीवर्ड निकालेंगे, और फिर परिणाम को विज़ुअलाइज़ करने की कोशिश करेंगे।\n",
"\n",
"टेक्स्ट के रूप में, मैं विकिपीडिया पर डेटा साइंस के पेज का उपयोग करूंगा:\n"
"एक टेक्स्ट के रूप में, मैं विकिपीडिया से डेटा साइंस का पृष्ठ उपयोग करूंगा:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## चरण 1: डेटा प्राप्त करना\n",
"## Step 1: डेटा प्राप्त करना\n",
"\n",
"हर डेटा साइंस प्रक्रिया का पहला चरण डेटा प्राप्त करना होता है। इसके लिए हम `requests` लाइब्रेरी का उपयोग करेंगे:\n"
"हर डेटा साइंस प्रक्रिया का पहला चरण डेटा प्राप्त करना होता है। हम इसके लिए `requests` लाइब्रेरी का उपयोग करेंगे:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## चरण 2: डेटा को रूपांतरित करना\n",
"## Step 2: डेटा को रूपांतरित करना\n",
"\n",
"अगला चरण डेटा को उस रूप में बदलना है जो प्रोसेसिंग के लिए उपयुक्त हो। हमारे मामले में, हमने पेज से HTML स्रोत कोड डाउनलोड किया है, और हमें इसे सादे टेक्स्ट में बदलने की आवश्यकता है।\n",
"अगला कदम डेटा को उस रूप में बदलना है जो संसाधन के लिए उपयुक्त हो। हमारे मामले में, हमने पेज से HTML स्रोत कोड डाउनलोड किया है, और हमें इसे प्लेन टेक्स्ट में बदलना है।\n",
"\n",
"यह कई तरीकों से किया जा सकता है। हम Python के सबसे सरल बिल्ट-इन [HTMLParser](https://docs.python.org/3/library/html.parser.html) ऑब्जेक्ट का उपयोग करेंगे। हमें `HTMLParser` क्लास को सबक्लास करना होगा और ऐसा कोड परिभाषित करना होगा जो HTML टैग्स के अंदर के सभी टेक्स्ट को इकट्ठा करेगा, लेकिन `<script>` और `<style>` टैग्स को छोड़कर।\n"
"इसे करने के कई तरीके हैं। हम [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), HTML पार्सिंग के लिए एक लोकप्रिय पायथन लाइब्रेरी, का उपयोग करेंगे। BeautifulSoup हमें विशिष्ट HTML तत्वों को लक्षित करने की अनुमति देता है, ताकि हम विकिपीडिया के मुख्य लेख सामग्री पर ध्यान केंद्रित कर सकें और कुछ नेविगेशन मेनू, साइडबार, फुटर्स, और अन्य अप्रासंगिक सामग्री को कम कर सकें (हालांकि कुछ बॉयलरप्लेट टेक्स्ट अभी भी रह सकता है)।\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"पहले, हमें HTML पार्सिंग के लिए BeautifulSoup लाइब्रेरी स्थापित करनी होगी:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## चरण 3: जानकारी प्राप्त करना\n",
"## Step 3: इनसाइट्स प्राप्त करना\n",
"\n",
"सबसे महत्वपूर्ण चरण यह है कि हम अपने डेटा को ऐसी स्थिति में बदलें जिससे हम जानकारी प्राप्त कर सकें। हमारे मामले में, हम टेक्स्ट से कीवर्ड निकालना चाहते हैं और देखना चाहते हैं कि कौन से कीवर्ड अधिक महत्वपूर्ण हैं।\n",
"सबसे महत्वपूर्ण चरण यह है कि हमारे डेटा को उस रूप में बदलना जिससे हम इनसाइट्स निकाल सकें। हमारे मामले में, हम टेक्स्ट से कीवर्ड निकालना चाहते हैं, और देखना चाहते हैं कि कौन से कीवर्ड ज्यादा मायने रखते हैं।\n",
"\n",
"हम कीवर्ड निकालने के लिए [RAKE](https://github.com/aneesha/RAKE) नामक Python लाइब्रेरी का उपयोग करेंगे। सबसे पहले, यदि यह लाइब्रेरी पहले से मौजूद नहीं है, तो इसे इंस्टॉल करें:\n"
"हम कीवर्ड निकालने के लिए Python लाइब्रेरी [RAKE](https://github.com/aneesha/RAKE) का उपयोग करेंगे। सबसे पहले, यदि यह लाइब्रेरी मौजूद नहीं है तो इसे इंस्टॉल करें:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"मुख्य कार्यक्षमता `Rake` ऑब्जेक्ट से उपलब्ध है, जिसे हम कुछ पैरामीटर का उपयोग करके अनुकूलित कर सकते हैं। हमारे मामले में, हम एक कीवर्ड की न्यूनतम लंबाई 5 अक्षरों, दस्तावेज़ में एक कीवर्ड की न्यूनतम आवृत्ति 3, और एक कीवर्ड में अधिकतम शब्दों की संख्या - 2 पर सेट करेंगे। अन्य मानों के साथ प्रयोग करने और परिणाम देखने के लिए स्वतंत्र महसूस करें।\n"
"मुख्य कार्यक्षमता `Rake` ऑब्जेक्ट से प्राप्त होती है, जिसे हम कुछ पैरामीटर का उपयोग करके अनुकूलित कर सकते हैं। हमारे मामले में, हम कीवर्ड की न्यूनतम लंबाई 5 अक्षरों तक सेट करेंगे, दस्तावेज़ में कीवर्ड की न्यूनतम आवृत्ति 3 तक, और कीवर्ड में शब्दों की अधिकतम संख्या - 2 तक। अन्य मानों के साथ प्रयोग करने में संकोच न करें और परिणाम देखें।\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"हमें महत्व के स्तर के साथ एक सूची प्राप्त हुई है। जैसा कि आप देख सकते हैं, सबसे प्रासंगिक विषय, जैसे मशीन लर्निंग और बिग डेटा, सूची में शीर्ष स्थानों पर मौजूद हैं।\n",
"हमने महत्वपूर्णता की डिग्री के साथ शब्दों की एक सूची प्राप्त की। जैसा कि आप देख सकते हैं, सबसे प्रासंगिक विषय, जैसे मशीन लर्निंग और बिग डेटा, सूची में शीर्ष स्थानों पर मौजूद हैं।\n",
"\n",
"## चरण 4: परिणाम को विज़ुअलाइज़ करना\n",
"## चरण 4: परिणाम का दृश्यांकन\n",
"\n",
"लोग डेटा को सबसे अच्छे तरीके से विज़ुअल फॉर्म में समझ सकते हैं। इसलिए, अक्सर डेटा को विज़ुअलाइज़ करना समझदारी होती है ताकि कुछ अंतर्दृष्टि प्राप्त की जा सके। हम Python में `matplotlib` लाइब्रेरी का उपयोग करके कीवर्ड्स के महत्व के साथ उनकी सरल वितरण को प्लॉट कर सकते हैं:\n"
"लोग डेटा को सबसे अच्छा दृश्य रूप में समझ सकते हैं। इसलिए कुछ अंतर्दृष्टियाँ प्राप्त करने के लिए अक्सर डेटा का दृश्यांकन करना समझदारी होती है। हम Python में `matplotlib` लाइब्रेरी का उपयोग करके मुख्य शब्दों के प्रासंगिकता के साथ सरल वितरण को प्लॉट कर सकते हैं:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"हालाँकि, शब्द आवृत्तियों को देखने का एक और बेहतर तरीका है - **वर्ड क्लाउड** का उपयोग करना। हमें अपनी कीवर्ड सूची से वर्ड क्लाउड बनाने के लिए एक और लाइब्रेरी इंस्टॉल करनी होगी।\n"
"हालांकि, शब्द आवृत्तियों को देखने का एक और भी बेहतर तरीका है - **वर्ड क्लाउड** का उपयोग करना। हमारे कीवर्ड सूची से वर्ड क्लाउड को प्लॉट करने के लिए हमें एक और लाइब्रेरी इंस्टॉल करनी होगी।\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` ऑब्जेक्ट मूल पाठ या पूर्व-गणना किए गए शब्दों की सूची उनके आवृत्तियों के साथ लेता है, और एक छवि लौटाता है, जिसे फिर `matplotlib` का उपयोग करके प्रदर्शित किया जा सकता है:\n"
"`WordCloud` ऑब्जेक्ट मूल टेक्स्ट या पूर्व-गणना किए गए शब्दों की आवृत्तियों की सूची को स्वीकार करने के लिए जिम्मेदार होता है, और एक छवि लौटाता है, जिसे फिर `matplotlib` का उपयोग करके प्रदर्शित किया जा सकता है:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"हम मूल पाठ को `WordCloud` में भी पास कर सकते हैं - आइए देखें कि क्या हम समान परिणाम प्राप्त कर पाते हैं:\n"
"हम `WordCloud` में मूल पाठ भी पास कर सकते हैं - चलिए देखते हैं कि क्या हमें समान परिणाम मिल पाता है:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"आप देख सकते हैं कि अब वर्ड क्लाउड अधिक प्रभावशाली दिखता है, लेकिन इसमें बहुत सारा शोर भी है (जैसे कि `Retrieved on` जैसे असंबंधित शब्द)। साथ ही, हमें दो शब्दों वाले कीवर्ड कम मिलते हैं, जैसे *data scientist* या *computer science*। इसका कारण यह है कि RAKE एल्गोरिदम टेक्स्ट से अच्छे कीवर्ड चुनने में बेहतर काम करता है। यह उदाहरण डेटा प्री-प्रोसेसिंग और क्लीनिंग के महत्व को दर्शाता है, क्योंकि अंत में स्पष्ट तस्वीर हमें बेहतर निर्णय लेने में मदद करेगी।\n",
"आप देख सकते हैं कि अब वर्ड क्लाउड अधिक प्रभावशाली दिखता है, लेकिन इसमें बहुत अधिक शोर भी शामिल है (जैसे कि `Retrieved on` जैसे असंबंधित शब्द)। साथ ही, हमें कम कीवर्ड मिलते हैं जो दो शब्दों से बने होते हैं, जैसे *data scientist*, या *computer science*। इसका कारण यह है कि RAKE एल्गोरिद्म टेक्स्ट से अच्छे कीवर्ड चुनने में बेहतर काम करता है। यह उदाहरण डेटा प्री-प्रोसेसिंग और सफाई के महत्व को दर्शाता है, क्योंकि अंत में स्पष्ट छवि हमें बेहतर निर्णय लेने की अनुमति देगी।\n",
"\n",
"इस अभ्यास में हमने Wikipedia टेक्स्ट से कुछ अर्थ निकालने की एक सरल प्रक्रिया को देखा, कीवर्ड और वर्ड क्लाउड के रूप में। यह उदाहरण काफी सरल है, लेकिन यह उन सभी सामान्य चरणों को अच्छी तरह से प्रदर्शित करता है, जिन्हें एक डेटा वैज्ञानिक डेटा के साथ काम करते समय अपनाता है, डेटा अधिग्रहण से लेकर विज़ुअलाइज़ेशन तक।\n",
"इस अभ्यास में हमने विकिपीडिया टेक्स्ट से कुछ अर्थ निकालने की एक सरल प्रक्रिया से गुजरते हुए कीवर्ड और वर्ड क्लाउड के रूप में जानकारी प्राप्त की। यह उदाहरण काफी सरल है, लेकिन यह अच्छी तरह से सभी सामान्य चरणों को प्रदर्शित करता है जो एक डेटा वैज्ञानिक डेटा के साथ काम करते समय अपनाएगा, डेटा अधिग्रहण से लेकर विज़ुअलाइज़ेशन तक।\n",
"\n",
"हमारे कोर्स में हम इन सभी चरणों पर विस्तार से चर्चा करेंगे।\n"
"हमारे कोर्स में हम उन सभी चरणों पर विस्तार से चर्चा करेंगे।\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**अस्वीकरण**: \nयह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**अस्वीकरण**: \nयह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयासरत हैं, कृपया इस बात का ध्यान रखें कि स्वचालित अनुवाद में त्रुटियाँ या गलतियां हो सकती हैं। मूल दस्तावेज़ अपनी मूल भाषा में आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए पेशेवर मानव अनुवाद का सुझाव दिया जाता है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
सांख्यिकी और संभाव्यता सिद्धांत गणित के दो अत्यधिक संबंधित क्षेत्र हैं जो डेटा विज्ञान के लिए बहुत प्रासंगिक हैं। गणित का गहन ज्ञान न होने पर भी डेटा के साथ काम करना संभव है, लेकिन कुछ बुनियादी अवधारणाओं को जानना हमेशा बेहतर होता है। यहां हम एक छोटा सा परिचय प्रस्तुत करेंगे जो आपको शुरुआत करने में मदद करेगा।
हम केवल वेरिएबल के किसी दिए गए मानों के अंतराल में गिरने की संभावना के बारे में बात कर सकते हैं, जैसे P(t<sub>1</sub>≤X<t<sub>2</sub>)। इस मामले में, संभाव्यता वितरण को **संभाव्यता घनत्व फ़ंक्शन** p(x) द्वारा वर्णित किया जाता है, ताकि
यूनिफॉर्म वितरण का कंटीन्यस समकक्ष **कंटीन्यस यूनिफॉर्म** कहलाता है, जो एक सीमित अंतराल पर परिभाषित होता है। संभावना कि मान X लंबाई l के अंतराल में गिरता है, l के समानुपाती होती है और 1 तक बढ़ती है।
@ -73,11 +73,11 @@
यहां हमारे डेटा के लिए माध्य, माध्यिका और क्वारटाइल्स दिखाने वाला बॉक्स प्लॉट है:
चूंकि हमारे डेटा में विभिन्न खिलाड़ी **भूमिकाओं** की जानकारी है, हम भूमिका के अनुसार भी बॉक्स प्लॉट बना सकते हैं - यह हमें यह विचार करने की अनुमति देगा कि भूमिकाओं के बीच पैरामीटर मान कैसे भिन्न होते हैं। इस बार हम ऊंचाई पर विचार करेंगे:


यह आरेख सुझाव देता है कि, औसतन, पहले बेसमैन की ऊंचाई दूसरे बेसमैन की ऊंचाई से अधिक है। इस पाठ में बाद में हम सीखेंगे कि इस परिकल्पना को अधिक औपचारिक रूप से कैसे परीक्षण किया जा सकता है, और यह प्रदर्शित करने के लिए कि हमारे डेटा सांख्यिकीय रूप से महत्वपूर्ण है।
@ -85,7 +85,7 @@
हमारे डेटा का वितरण कैसा है, यह देखने के लिए हम **हिस्टोग्राम** नामक एक ग्राफ़ बना सकते हैं। X-अक्ष में विभिन्न वजन अंतराल (जिसे **बिन्स** कहा जाता है) की संख्या होगी, और वर्टिकल अक्ष दिखाएगा कि हमारा रैंडम वेरिएबल नमूना दिए गए अंतराल में कितनी बार था।


इस हिस्टोग्राम से आप देख सकते हैं कि सभी मान एक निश्चित माध्य वजन के आसपास केंद्रित हैं, और जैसे-जैसे हम उस वजन से दूर जाते हैं - उस मान के वजन कम बार मिलते हैं। यानी, यह बहुत ही असंभावित है कि बेसबॉल खिलाड़ी का वजन माध्य वजन से बहुत अलग होगा। वजन का विचरण दिखाता है कि वजन माध्य से कितना भिन्न होने की संभावना है।
यदि हम उत्पन्न नमूनों का हिस्टोग्राम बनाते हैं, तो हम ऊपर दिखाए गए चित्र के समान चित्र देखेंगे। और यदि हम नमूनों की संख्या और बिन्स की संख्या बढ़ाते हैं, तो हम नॉर्मल वितरण की एक अधिक आदर्श तस्वीर उत्पन्न कर सकते हैं:


*माध्य=0 और मानक विचलन=1 के साथ नॉर्मल वितरण*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
हमारे मामले में, मान 0.53 इंगित करता है कि किसी व्यक्ति के वज़न और ऊंचाई के बीच कुछ सहसंबंध है। हम एक मान को दूसरे के खिलाफ बिखराव प्लॉट भी बना सकते हैं ताकि संबंध को दृश्य रूप से देखा जा सके:


> सहसंबंध और सहभिन्नता के और उदाहरण [संबंधित नोटबुक](notebook.ipynb) में पाए जा सकते हैं।


> फोटो <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">स्टीफन डॉसन</a> द्वारा <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">अनस्प्लैश</a> पर
इन पाठों में, आप जानेंगे कि डेटा साइंस को कैसे परिभाषित किया जाता है और उन नैतिक विचारों के बारे में सीखेंगे जिन्हें एक डेटा वैज्ञानिक को ध्यान में रखना चाहिए। आप यह भी जानेंगे कि डेटा को कैसे परिभाषित किया जाता है और सांख्यिकी और संभावना के बारे में थोड़ा सीखेंगे, जो डेटा साइंस के मुख्य शैक्षणिक क्षेत्र हैं।
हालांकि डेटाबेस डेटा को स्टोर करने और उन्हें क्वेरी लैंग्वेज का उपयोग करके क्वेरी करने के लिए बहुत प्रभावी तरीके प्रदान करते हैं, डेटा प्रोसेसिंग का सबसे लचीला तरीका अपना प्रोग्राम लिखना है। कई मामलों में, डेटाबेस क्वेरी करना अधिक प्रभावी हो सकता है। लेकिन कुछ मामलों में जब अधिक जटिल डेटा प्रोसेसिंग की आवश्यकता होती है, तो इसे SQL का उपयोग करके आसानी से नहीं किया जा सकता।
डेटा प्रोसेसिंग किसी भी प्रोग्रामिंग भाषा में की जा सकती है, लेकिन कुछ भाषाएँ डेटा के साथ काम करने के लिए उच्च स्तर की होती हैं। डेटा वैज्ञानिक आमतौर पर निम्नलिखित भाषाओं में से एक को प्राथमिकता देते हैं:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
अब मान लें कि हर सप्ताह हम दोस्तों के लिए एक पार्टी आयोजित कर रहे हैं और पार्टी के लिए अतिरिक्त 10 पैक आइसक्रीम लेते हैं। हम इसे दिखाने के लिए सप्ताह द्वारा इंडेक्स की गई एक और सीरीज़ बना सकते हैं:
> **ध्यान दें** कि हम साधारण सिंटैक्स `total_items+additional_items` का उपयोग नहीं कर रहे हैं। यदि हमने ऐसा किया होता, तो हमें परिणामी सीरीज़ में कई `NaN` (*Not a Number*) मान प्राप्त होते। ऐसा इसलिए है क्योंकि `additional_items` सीरीज़ में कुछ इंडेक्स पॉइंट्स के लिए मान गायब हैं, और किसी भी चीज़ में `NaN` जोड़ने से `NaN` मिलता है। इसलिए हमें जोड़ने के दौरान `fill_value` पैरामीटर निर्दिष्ट करने की आवश्यकता होती है।
चूंकि हम दिखाना चाहते हैं कि डेटा के साथ कैसे काम किया जाए, हम आपको [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) खोलने और इसे ऊपर से नीचे तक पढ़ने के लिए आमंत्रित करते हैं। आप सेल्स को भी चला सकते हैं और अंत में छोड़े गए कुछ चैलेंज को हल कर सकते हैं।
> यदि आपको Jupyter Notebook में कोड चलाने का तरीका नहीं पता है, तो [इस लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) को देखें।
@ -232,7 +232,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb) खोलें और इसे ऊपर से नीचे तक पढ़ें। आप सेल्स को भी चला सकते हैं और अंत में छोड़े गए कुछ चैलेंज को हल कर सकते हैं।
> फोटो <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> द्वारा <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> पर
इन पाठों में, आप सीखेंगे कि डेटा को कैसे प्रबंधित, संशोधित और अनुप्रयोगों में उपयोग किया जा सकता है। आप रिलेशनल और नॉन-रिलेशनल डेटाबेस के बारे में जानेंगे और डेटा को उनमें कैसे संग्रहीत किया जा सकता है। आप डेटा प्रबंधन के लिए Python के साथ काम करने की मूल बातें सीखेंगे, और आप यह भी खोजेंगे कि Python का उपयोग करके डेटा को प्रबंधित और माइन करने के कई तरीके क्या हैं।
अब, वही डेटा शहद के रंग योजना के साथ दिखाएं ताकि यह दिखाया जा सके कि कीमत वर्षों के साथ कैसे विकसित होती है। आप इसे 'hue' पैरामीटर जोड़कर कर सकते हैं ताकि वर्ष दर वर्ष परिवर्तन दिखाया जा सके:
इस रंग योजना परिवर्तन के साथ, आप देख सकते हैं कि वर्षों के साथ शहद की प्रति पाउंड कीमत में स्पष्ट रूप से एक मजबूत प्रगति है। वास्तव में, यदि आप डेटा के एक नमूना सेट को सत्यापित करने के लिए देखें (उदाहरण के लिए, एक राज्य, एरिज़ोना चुनें) तो आप देख सकते हैं कि कुछ अपवादों के साथ, कीमत में वर्ष दर वर्ष वृद्धि का एक पैटर्न है:
क्या यह मांग और आपूर्ति का एक साधारण मामला है? जलवायु परिवर्तन और कॉलोनी कॉलैप्स जैसे कारकों के कारण, क्या वर्ष दर वर्ष खरीद के लिए कम शहद उपलब्ध है, और इसलिए कीमत बढ़ रही है?
✅ क्योंकि Seaborn डेटा को एक लाइन के चारों ओर समेकित कर रहा है, यह "प्रत्येक x मान पर कई मापों को औसत और औसत के चारों ओर 95% विश्वास अंतराल को प्लॉट करके प्रदर्शित करता है"। [स्रोत](https://seaborn.pydata.org/tutorial/relational.html)। इस समय लेने वाले व्यवहार को `ci=None` जोड़कर अक्षम किया जा सकता है।
उत्तर: वास्तव में नहीं। यदि आप कुल उत्पादन को देखें, तो ऐसा लगता है कि उस विशेष वर्ष में यह वास्तव में बढ़ गया है, हालांकि सामान्य रूप से शहद का उत्पादन इन वर्षों के दौरान गिरावट में है।
@ -130,7 +130,7 @@ sns.relplot(
```
इस चित्रण में, आप कॉलोनी की प्रति कॉलोनी उत्पादन और कॉलोनियों की संख्या को वर्ष दर वर्ष, राज्य दर राज्य, 3 कॉलम पर रैप सेट के साथ साइड बाय साइड तुलना कर सकते हैं:
इस डेटा सेट के लिए, कॉलोनियों की संख्या और उनके उत्पादन के संबंध में वर्ष दर वर्ष और राज्य दर राज्य कुछ खास नहीं दिखता। क्या इन दो चर के बीच संबंध खोजने के लिए इसे देखने का कोई अलग तरीका है?
हालांकि 2003 के आसपास कुछ भी आंखों को नहीं खटकता, यह हमें इस पाठ को थोड़ा खुशहाल नोट पर समाप्त करने की अनुमति देता है: जबकि कॉलोनियों की संख्या में समग्र रूप से गिरावट हो रही है, कॉलोनियों की संख्या स्थिर हो रही है, भले ही उनकी प्रति कॉलोनी उत्पादन घट रहा हो।
यहां, आप `ggplot2` पैकेज को इंस्टॉल करते हैं और फिर इसे `library("ggplot2")` कमांड का उपयोग करके वर्कस्पेस में इम्पोर्ट करते हैं। ggplot में किसी भी प्लॉट को प्लॉट करने के लिए `ggplot()` फ़ंक्शन का उपयोग किया जाता है और आप डेटासेट, x और y वेरिएबल्स को एट्रिब्यूट्स के रूप में निर्दिष्ट करते हैं। इस मामले में, हम एक लाइन प्लॉट को प्लॉट करने के लिए `geom_line()` फ़ंक्शन का उपयोग करते हैं।
आप तुरंत क्या नोटिस करते हैं? ऐसा लगता है कि कम से कम एक आउटलायर है - यह काफी बड़ा विंगस्पैन है! 2000+ सेंटीमीटर विंगस्पैन 20 मीटर से अधिक के बराबर है - क्या मिनेसोटा में पेटरोडैक्टाइल्स घूम रहे हैं? आइए जांच करें।
लेबल्स को 45 डिग्री पर घुमाने के बावजूद, उन्हें पढ़ने के लिए बहुत अधिक हैं। आइए एक अलग रणनीति आजमाएं: केवल उन आउटलायर्स को लेबल करें और लेबल्स को चार्ट के भीतर सेट करें। आप लेबलिंग के लिए अधिक जगह बनाने के लिए एक स्कैटर चार्ट का उपयोग कर सकते हैं:
हमने एक नया डेटा फ्रेम `birds_filtered` बनाया और फिर एक स्कैटर प्लॉट को प्लॉट किया। आउटलायर्स को फ़िल्टर करके, आपका डेटा अब अधिक सुसंगत और समझने योग्य है।
निम्नलिखित स्निपेट में, हम [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) और [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) पैकेज इंस्टॉल करते हैं ताकि डेटा को हेरफेर और समूहित किया जा सके और एक स्टैक्ड बार चार्ट को प्लॉट किया जा सके। पहले, आप पक्षी की `Category` द्वारा डेटा को समूहित करते हैं और फिर `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` कॉलम को सारांशित करते हैं। फिर, `ggplot2` पैकेज का उपयोग करके बार चार्ट को प्लॉट करें और विभिन्न श्रेणियों के लिए रंग और लेबल निर्दिष्ट करें।


हालांकि, यह बार चार्ट पढ़ने योग्य नहीं है क्योंकि इसमें बहुत अधिक गैर-समूहित डेटा है। आपको केवल उस डेटा का चयन करने की आवश्यकता है जिसे आप प्लॉट करना चाहते हैं, इसलिए आइए पक्षी की श्रेणी के आधार पर लंबाई देखें।
आप पहले `Category` कॉलम में अद्वितीय मानों की गणना करते हैं और फिर उन्हें एक नए डेटा फ्रेम `birds_count` में क्रमबद्ध करते हैं। इस क्रमबद्ध डेटा को फिर उसी स्तर पर फैक्टर किया जाता है ताकि इसे क्रमबद्ध तरीके से प्लॉट किया जा सके। फिर, `ggplot2` का उपयोग करके आप डेटा को एक बार चार्ट में प्लॉट करते हैं। `coord_flip()` क्षैतिज बार को प्लॉट करता है।
यह बार चार्ट प्रत्येक श्रेणी में पक्षियों की संख्या का अच्छा दृश्य दिखाता है। एक नज़र में, आप देख सकते हैं कि इस क्षेत्र में सबसे बड़ी संख्या में पक्षी Ducks/Geese/Waterfowl श्रेणी में हैं। मिनेसोटा '10,000 झीलों की भूमि' है, इसलिए यह आश्चर्यजनक नहीं है!
यहां कुछ भी आश्चर्यजनक नहीं है: Hummingbirds की MaxLength Pelicans या Geese की तुलना में सबसे कम है। यह अच्छा है जब डेटा तार्किक रूप से समझ में आता है!


यह पक्षी क्रम के अनुसार शरीर की लंबाई के सामान्य वितरण का एक अवलोकन देता है, लेकिन यह सच्चे वितरण को प्रदर्शित करने का सबसे अच्छा तरीका नहीं है। यह कार्य आमतौर पर एक हिस्टोग्राम बनाकर किया जाता है।


जैसा कि आप देख सकते हैं, इस डेटासेट के 400+ पक्षियों में से अधिकांश का Max Body Mass 2000 से कम की सीमा में आता है। `bins` पैरामीटर को 30 जैसे उच्च संख्या में बदलकर डेटा के बारे में अधिक जानकारी प्राप्त करें:


यह चार्ट वितरण को थोड़ा अधिक विस्तृत तरीके से दिखाता है। एक चार्ट जो बाईं ओर कम झुका हुआ हो, उसे केवल एक दी गई सीमा के भीतर डेटा का चयन करके बनाया जा सकता है:


✅ कुछ अन्य फ़िल्टर और डेटा पॉइंट आज़माएं। डेटा के पूर्ण वितरण को देखने के लिए, लेबल वाले वितरण दिखाने के लिए `['MaxBodyMass']` फ़िल्टर को हटा दें।


न्यूनतम पंख फैलाव और संरक्षण स्थिति के बीच कोई अच्छा संबंध प्रतीत नहीं होता। इस विधि का उपयोग करके डेटासेट के अन्य तत्वों का परीक्षण करें। आप विभिन्न फ़िल्टर भी आज़मा सकते हैं। क्या आपको कोई संबंध मिलता है?
आप देख सकते हैं कि यह प्लॉट न्यूनतम पंख फैलाव डेटा के लिए पिछले वाले को प्रतिध्वनित करता है; यह बस थोड़ा अधिक सुचारू है। यदि आप उस खुरदरे MaxBodyMass लाइन को फिर से देखना चाहते हैं जिसे आपने दूसरा चार्ट बनाते समय बनाया था, तो आप इसे इस विधि का उपयोग करके बहुत अच्छी तरह से सुचारू कर सकते हैं:
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```


देखिए, एक पाई चार्ट जो इस डेटा को मशरूम के इन दो वर्गों के अनुसार दिखाता है। लेबल के क्रम को सही रखना बहुत महत्वपूर्ण है, खासकर यहां, इसलिए सुनिश्चित करें कि लेबल एरे को बनाते समय क्रम की जांच करें!
वाफल चार्ट का उपयोग करके, आप मशरूम डेटा सेट के टोपी रंगों के अनुपात को स्पष्ट रूप से देख सकते हैं। दिलचस्प बात यह है कि कई हरे रंग की टोपी वाले मशरूम हैं!
इस पाठ में, आपने अनुपातों को विज़ुअलाइज़ करने के तीन तरीके सीखे। सबसे पहले, आपको अपने डेटा को श्रेणियों में समूहित करना होगा और फिर यह तय करना होगा कि डेटा को प्रदर्शित करने का सबसे अच्छा तरीका कौन सा है - पाई, डोनट, या वाफल। सभी स्वादिष्ट हैं और उपयोगकर्ता को डेटा सेट का त्वरित स्नैपशॉट प्रदान करते हैं।
अब, वही डेटा एक शहद रंग योजना के साथ दिखाएं ताकि यह दिखाया जा सके कि कीमत वर्षों में कैसे विकसित होती है। आप इसे 'scale_color_gradientn' पैरामीटर जोड़कर कर सकते हैं, जो साल दर साल परिवर्तन दिखाता है:
इस रंग योजना परिवर्तन के साथ, आप देख सकते हैं कि वर्षों में प्रति पाउंड शहद की कीमत में स्पष्ट रूप से एक मजबूत प्रगति है। वास्तव में, यदि आप डेटा के एक नमूना सेट को सत्यापित करने के लिए देखते हैं (उदाहरण के लिए, एरिज़ोना राज्य को चुनें), तो आप देख सकते हैं कि कुछ अपवादों को छोड़कर, कीमत में साल दर साल वृद्धि का एक पैटर्न है:
क्या यह आपूर्ति और मांग का एक साधारण मामला है? जलवायु परिवर्तन और कॉलोनी कोलैप्स जैसे कारकों के कारण, क्या हर साल खरीदने के लिए कम शहद उपलब्ध है, और इसीलिए कीमत बढ़ रही है?
उत्तर: वास्तव में नहीं। यदि आप कुल उत्पादन को देखें, तो ऐसा लगता है कि यह विशेष वर्ष में बढ़ा है, हालांकि सामान्य रूप से इन वर्षों के दौरान शहद का उत्पादन घट रहा है।
इस विज़ुअलाइज़ेशन में, आप कॉलोनी की प्रति कॉलोनी उपज और कॉलोनियों की संख्या को साल दर साल, राज्य दर राज्य, 3 कॉलम के रैप के साथ साइड बाय साइड तुलना कर सकते हैं:
इस डेटा सेट के लिए, कॉलोनियों की संख्या और उनकी उपज के संबंध में, साल दर साल और राज्य दर राज्य, कुछ भी विशेष रूप से अलग नहीं दिखता। क्या इन दो चर के बीच सहसंबंध खोजने का कोई और तरीका है?
हालांकि 2003 के आसपास कुछ भी आंखों को स्पष्ट रूप से नहीं दिखता, यह हमें इस पाठ को एक खुशहाल नोट पर समाप्त करने की अनुमति देता है: जबकि कॉलोनियों की संख्या में समग्र गिरावट हो रही है, कॉलोनियों की संख्या स्थिर हो रही है, भले ही उनकी प्रति कॉलोनी उपज घट रही हो।
भले ही एक डेटा वैज्ञानिक सही डेटा के लिए सही चार्ट चुनने में सावधान हो, फिर भी डेटा को इस तरह से प्रदर्शित करने के कई तरीके हैं जो किसी बिंदु को साबित करने के लिए उपयोग किए जा सकते हैं, अक्सर डेटा की सच्चाई को कमजोर करते हुए। भ्रामक चार्ट और इन्फोग्राफिक्स के कई उदाहरण हैं!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "हाउ चार्ट्स लाई")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "हाउ चार्ट्स लाई")
> 🎥 ऊपर दी गई छवि पर क्लिक करें भ्रामक चार्ट्स पर एक सम्मेलन वार्ता के लिए
यह चार्ट X अक्ष को उलट देता है ताकि तारीख के आधार पर सच्चाई के विपरीत दिखाया जा सके:
[यह चार्ट](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) और भी भ्रामक है, क्योंकि आंखें दाईं ओर खिंचती हैं और यह निष्कर्ष निकालती हैं कि समय के साथ विभिन्न काउंटियों में COVID मामलों में गिरावट आई है। वास्तव में, यदि आप तारीखों को ध्यान से देखें, तो आप पाएंगे कि उन्हें इस भ्रामक गिरावट को दिखाने के लिए पुनर्व्यवस्थित किया गया है।
यह कुख्यात उदाहरण रंग और एक उलटे Y अक्ष का उपयोग करके धोखा देता है: बंदूक-अनुकूल कानून पारित होने के बाद बंदूक से होने वाली मौतों में वृद्धि के बजाय, आंखें यह सोचने के लिए धोखा खा जाती हैं कि इसके विपरीत सच है:
अतुलनीय चीजों की तुलना करना एक और संदिग्ध चाल है। एक [शानदार वेबसाइट](https://tylervigen.com/spurious-correlations) है जो 'स्प्यूरियस कोरिलेशन्स' दिखाती है, जैसे कि मेन में तलाक की दर और मार्जरीन की खपत। एक Reddit समूह भी डेटा के [खराब उपयोग](https://www.reddit.com/r/dataisugly/top/?t=all) को एकत्र करता है।
@ -91,13 +91,13 @@
यदि आपका डेटा X अक्ष पर टेक्स्टुअल और वर्बोज़ है, तो बेहतर पठनीयता के लिए टेक्स्ट को एंगल करें। [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 3D प्लॉटिंग प्रदान करता है, यदि आपका डेटा इसे सपोर्ट करता है। इसका उपयोग करके परिष्कृत डेटा विज़ुअलाइज़ेशन बनाए जा सकते हैं।
आज के कुछ बेहतरीन डेटा विज़ुअलाइज़ेशन एनिमेटेड हैं। Shirley Wu ने D3 के साथ अद्भुत विज़ुअलाइज़ेशन बनाए हैं, जैसे '[फिल्म फ्लावर्स](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', जहां प्रत्येक फूल एक फिल्म का विज़ुअलाइज़ेशन है। Guardian के लिए एक और उदाहरण है 'बस्ट आउट', जो NYC के बेघर लोगों को शहर से बाहर भेजने की समस्या को दिखाने के लिए विज़ुअलाइज़ेशन, Greensock और D3 के साथ एक स्क्रॉलीटेलिंग आर्टिकल फॉर्मेट को जोड़ता है।
> "बस्ट आउट: अमेरिका अपने बेघर लोगों को कैसे स्थानांतरित करता है" [द गार्जियन](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) से। विज़ुअलाइज़ेशन Nadieh Bremer और Shirley Wu द्वारा।
@ -107,7 +107,7 @@
आप एक वेब ऐप पूरा करेंगे जो इस सोशल नेटवर्क का एनिमेटेड दृश्य प्रदर्शित करेगा। यह एक लाइब्रेरी का उपयोग करता है जिसे Vue.js और D3 का उपयोग करके [नेटवर्क का विज़ुअल](https://github.com/emiliorizzo/vue-d3-network) बनाने के लिए डिज़ाइन किया गया है। जब ऐप चल रहा हो, तो आप स्क्रीन पर नोड्स को खींच सकते हैं और डेटा को इधर-उधर कर सकते हैं।


> फोटो <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">जेना ली</a> द्वारा <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">अनस्प्लैश</a> पर
डेटा को विज़ुअलाइज़ करना एक डेटा वैज्ञानिक के सबसे महत्वपूर्ण कार्यों में से एक है। एक तस्वीर 1000 शब्दों के बराबर होती है, और एक विज़ुअलाइज़ेशन आपको आपके डेटा के विभिन्न रोचक पहलुओं जैसे स्पाइक्स, आउटलायर्स, समूह, प्रवृत्तियों और अन्य चीजों को पहचानने में मदद कर सकता है, जो आपके डेटा की कहानी को समझने में सहायता करता है।
यह पाठ जीवनचक्र के 3 भागों पर केंद्रित है: डेटा संग्रहण, प्रोसेसिंग और रखरखाव।


> फोटो [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/) द्वारा
## डेटा संग्रहण
@ -89,7 +89,7 @@
|टीम डेटा साइंस प्रक्रिया (TDSP)|क्रॉस-इंडस्ट्री स्टैंडर्ड प्रक्रिया फॉर डेटा माइनिंग (CRISP-DM)|
| छवि [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) द्वारा | छवि [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) द्वारा |
> फोटो <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> द्वारा <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> पर
इन पाठों में, आप डेटा साइंस जीवनचक्र के कुछ पहलुओं का पता लगाएंगे, जिसमें डेटा का विश्लेषण और उसके बारे में संवाद शामिल है।
> फोटो [Jelleke Vanooteghem](https://unsplash.com/@ilumire) द्वारा [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) से
जब बड़े डेटा के साथ डेटा साइंस करने की बात आती है, तो क्लाउड एक गेम चेंजर साबित हो सकता है। अगले तीन पाठों में, हम देखेंगे कि क्लाउड क्या है और यह क्यों बहुत सहायक हो सकता है। हम एक हार्ट फेलियर डेटासेट का भी विश्लेषण करेंगे और एक मॉडल बनाएंगे जो किसी व्यक्ति के हार्ट फेलियर होने की संभावना का आकलन करने में मदद करेगा। हम क्लाउड की शक्ति का उपयोग करके दो अलग-अलग तरीकों से एक मॉडल को ट्रेन, डिप्लॉय और उपयोग करेंगे। एक तरीका केवल यूजर इंटरफेस का उपयोग करते हुए "लो कोड/नो कोड" तरीके से होगा, और दूसरा तरीका Azure Machine Learning Software Developer Kit (Azure ML SDK) का उपयोग करते हुए होगा।
* [Data Science in Healthcare](https://data-flair.training/blogs/data-science-in-healthcare/) - चिकित्सा इमेजिंग (जैसे, MRI, X-Ray, CT-Scan), जीनोमिक्स (DNA अनुक्रमण), दवा विकास (जोखिम मूल्यांकन, सफलता की भविष्यवाणी), पूर्वानुमानात्मक विश्लेषण (रोगी देखभाल और आपूर्ति लॉजिस्टिक्स), रोग ट्रैकिंग और रोकथाम जैसे अनुप्रयोगों को उजागर करता है।
 छवि क्रेडिट: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 छवि क्रेडिट: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
चित्र अन्य डोमेन और डेटा विज्ञान तकनीकों को लागू करने के उदाहरण दिखाता है। क्या आप अन्य अनुप्रयोगों का पता लगाना चाहते हैं? नीचे दिए गए [Review & Self Study](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) अनुभाग को देखें।
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
Microsoft के Azure Cloud Advocates डेटा साइंस के बारे में दस सप्ताह, 20-लेसन वाला एक संपूर्ण पाठ्यक्रम प्रस्तुत करते हुए प्रसन्न हैं। प्रत्येक पाठ में पूर्व-पाठ और पश्च-पाठ क्विज़, पाठ को पूरा करने के लिए लिखित निर्देश, एक समाधान, और एक असाइनमेंट शामिल है। हमारी परियोजना-आधारित शिक्षण पद्धति आपको निर्माण करते हुए सीखने देती है, जो नई क्षमताओं को 'टिकाने' का सिद्ध तरीका है।
Microsoft में Azure Cloud Advocates डेटा साइंस के बारे में 10 सप्ताह, 20 पाठों का एक पाठ्यक्रम प्रस्तुत करने में प्रसन्न हैं। प्रत्येक पाठ में पूर्व-पाठ और बाद-पाठ क्विज़, पाठ पूरा करने के लिए लिखित निर्देश, समाधान, और एक असाइनमेंट शामिल है। हमारा परियोजना-आधारित शिक्षण आपको निर्माण करते हुए सीखने की अनुमति देता है, जो नए कौशल को 'टिकाऊ' बनाने का एक प्रमाणित तरीका है।
> **क्या आप स्थानीय रूप से क्लोन करना पसंद करेंगे?**
> इस रिपॉजिटरी में 50+ भाषा अनुवाद शामिल हैं जो डाउनलोड आकार को काफी बढ़ाते हैं। अनुवाद के बिना क्लोन करने के लिए sparse checkout का उपयोग करें:
> **स्थानीय रूप से क्लोन करना पसंद करते हैं?**
>
> यह रिपोज़िटरी 50+ भाषा अनुवाद शामिल करती है, जिससे डाउनलोड का आकार काफी बढ़ जाता है। अनुवाद के बिना क्लोन करने के लिए, sparse checkout का उपयोग करें:
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> यह आपको तेज़ डाउनलोड के साथ पाठ्यक्रम पूरा करने के लिए आवश्यक सब कुछ देता है।
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**यदि आप चाहते हैं कि अतिरिक्त अनुवाद भाषाओं का समर्थन किया जाए तो वे यहाँ सूचीबद्ध हैं [यहाँ](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**यदि आप चाहें कि अतिरिक्त अनुवाद भाषाएं समर्थित हों, वे [यहां](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md) सूचीबद्ध हैं।**
हमारे पास एक Discord Learn with AI श्रृंखला चल रही है, अधिक जानें और 18 - 30 सितंबर, 2025 को [Learn with AI Series](https://aka.ms/learnwithai/discord) में हमसे जुड़ें। आप पायेंगे GitHub Copilot को डेटा साइंस के लिए उपयोग करने के टिप्स और ट्रिक्स।
हमारी एक डिस्कॉर्ड 'AI के साथ सीखें' श्रृंखला चल रही है, और अधिक जानने और जुड़ने के लिए [Learn with AI Series](https://aka.ms/learnwithai/discord) पर जाएं, जो 18 - 30 सितम्बर, 2025 तक चलेगी। आपको डेटा साइंस के लिए GitHub Copilot के उपयोग के टिप्स और ट्रिक्स मिलेंगे।


# क्या आप छात्र हैं?
निम्नलिखित संसाधनों से शुरुआत करें:
निम्न संसाधनों के साथ शुरू करें:
- [Student Hub पेज](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) इस पेज में, आपको शुरुआती संसाधन, छात्र पैक और यहाँ तक कि मुफ्त प्रमाणपत्र वाउचर पाने के तरीके मिलेंगे। यह एक ऐसा पेज है जिसे आप बुकमार्क करना चाहेंगे और समय-समय पर देखना चाहेंगे क्योंकि हम कम से कम मासिक रूप से सामग्री बदलते रहते हैं।
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) एक वैश्विक छात्र एम्बेसडर समुदाय में शामिल हों, यह आपके लिए Microsoft में प्रवेश का रास्ता हो सकता है।
- [छात्र हब पृष्ठ](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) इस पृष्ठ पर, आपको शुरुआती संसाधन, छात्र पैक, और मुफ्त प्रमाणपत्र वाउचर प्राप्त करने के तरीके मिलेंगे। यह एक ऐसा पृष्ठ है जिसे आप बुकमार्क करना चाहेंगे और समय-समय पर देखना चाहेंगे क्योंकि हम कम से कम महीने में एक बार सामग्री अपडेट करते हैं।
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) एक वैश्विक छात्र राजदूत समुदाय से जुड़ें, यह Microsoft में आपका मार्ग हो सकता है।
# शुरुआत कैसे करें
# शुरू करें
## 📚 दस्तावेज़ीकरण
- **[इंस्टॉलेशन गाइड](INSTALLATION.md)** - शुरुआती लोगों के लिए चरण-दर-चरण सेटअप निर्देश
- **[उपयोग गाइड](USAGE.md)** - उदाहरण और सामान्य कार्यप्रवाह
- **[इंस्टालेशन गाइड](INSTALLATION.md)** - शुरुआती लोगों के लिए चरण-दर-चरण सेटअप निर्देश
- **[उपयोग गाइड](USAGE.md)** - उदाहरण और सामान्य वर्कफ़्लोज़
- **[समस्या निवारण](TROUBLESHOOTING.md)** - सामान्य समस्याओं के समाधान
- **[योगदान गाइड](CONTRIBUTING.md)** - इस प्रोजेक्ट में योगदान कैसे करें
- **[शिक्षकों के लिए](for-teachers.md)** - शिक्षण मार्गदर्शन और क्लासरूम संसाधन
- **[योगदान गाइड](CONTRIBUTING.md)** - इस परियोजना में योगदान कैसे करें
- **[शिक्षकों के लिए](for-teachers.md)** - शिक्षण मार्गदर्शन और कक्षा संसाधन
## 👨🎓 छात्रों के लिए
> **पूर्ण शुरुआत करने वाले**: डेटा साइंस में नए हैं? हमारे [शुरुआती अनुकूल उदाहरणों](examples/README.md) से शुरू करें! ये सरल, अच्छी तरह से टिप्पणी किए गए उदाहरण आपको पूरी पाठ्यक्रम में डूबने से पहले मूल बातें समझने में मदद करेंगे।
> **[छात्र](https://aka.ms/student-page)**: इस पाठ्यक्रम का उपयोग अपने लिए करने के लिए, पूरे रिपो को फोर्क करें और अपनी ओर से व्यायाम पूरा करें, एक पूर्व-लेक्चर क्विज़ से शुरू करें। फिर व्याख्यान पढ़ें और बाकी गतिविधियाँ पूरी करें। समाधान कोड की नकल करने के बजाय पाठ को समझकर प्रोजेक्ट बनाने का प्रयास करें; फिर भी वह कोड प्रत्येक परियोजना-उन्मुख पाठ में /solutions फोल्डर में उपलब्ध है। एक अन्य विचार यह होगा कि दोस्तों के साथ एक अध्ययन समूह बनाएं और सामग्री को साथ-साथ देखें। आगे अध्ययन के लिए, हम [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) की सिफारिश करते हैं।
> **पूर्ण शुरुआती**: डेटा साइंस में नए हैं? हमारे [शुरुआती-मित्रवत उदाहरणों](examples/README.md) के साथ शुरू करें! ये सरल, अच्छी तरह से टिप्पणी किए गए उदाहरण आपको पाठ्यक्रम में गहराई से जाने से पहले मूल बातें समझने में मदद करेंगे।
> **[छात्र](https://aka.ms/student-page)**: इस पाठ्यक्रम का उपयोग अपनी सुविधा अनुसार करें, पूरा रेपो फोर्क करें और स्वयं व्यायामों को पूरा करें, शुरूआत पूर्व-व्याख्यान क्विज़ से करें। फिर व्याख्यान पढ़ें और बाकी गतिविधियां पूरी करें। समाधान कोड को कॉपी करने के बजाय, पाठों को समझकर परियोजनाएं बनाने का प्रयास करें; हालांकि, वह कोड प्रत्येक परियोजना-प्रधान पाठ में /solutions फ़ोल्डर में उपलब्ध है। एक अन्य विचार है कि दोस्तों के साथ एक अध्ययन समूह बनाएं और साथ मिलकर सामग्री को पढ़ें। आगे की पढ़ाई के लिए, हम [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) की सलाह देते हैं।
**त्वरित शुरुआत:**
1. अपने पर्यावरण को सेट करने के लिए [इंस्टॉलेशन गाइड](INSTALLATION.md) देखें
2. पाठ्यक्रम के साथ काम करने के लिए [उपयोग गाइड](USAGE.md) की समीक्षा करें
3. पाठ 1 से शुरू करें और क्रम से आगे बढ़ें
**त्वरित प्रारंभ:**
1. अपने परिवेश को सेट करने के लिए [इंस्टालेशन गाइड](INSTALLATION.md) देखें
2. पाठ्यक्रम के साथ काम करना सीखने के लिए [उपयोग गाइड](USAGE.md) देखें
3. पाठ 1 से शुरू करें और अनुक्रमिक रूप से काम करें
4. सहायता के लिए हमारे [Discord समुदाय](https://aka.ms/ds4beginners/discord) में शामिल हों
## 👩🏫 शिक्षकों के लिए
> **शिक्षकगण**: हमने इस पाठ्यक्रम का उपयोग कैसे करें, इस पर [कुछ सुझाव शामिल किए हैं](for-teachers.md)। हम आपकी प्रतिक्रिया [हमारे चर्चा मंच](https://github.com/microsoft/Data-Science-For-Beginners/discussions) में जानना पसंद करेंगे!
> **शिक्षकगण**: हमने [कुछ सुझाव](for-teachers.md) शामिल किए हैं कि इस पाठ्यक्रम का उपयोग कैसे करें। हमें आपके प्रतिक्रिया का इंतजार रहेगा [हमारे चर्चा मंच](https://github.com/microsoft/Data-Science-For-Beginners/discussions) में!
> 🎥 परियोजना और उन्हें बनाने वालों के बारे में वीडियो के लिए उपरोक्त छवि पर क्लिक करें!
> 🎥 परियोजना और इसे बनाने वाले लोगों के बारे में वीडियो देखने के लिए ऊपर की छवि पर क्लिक करें!
## शिक्षाशास्त्र
## शिक्षण पद्धति
इस पाठ्यक्रम को बनाते समय हमने दो शैक्षिक सिद्धांत चुने हैं: यह सुनिश्चित करना कि यह परियोजना आधारित हो और इसमें बार-बार क्विज़ शामिल हों। इस श्रृंखला के अंत तक, छात्र डेटा विज्ञान के मूल सिद्धांतों को सीखेंगे, जिसमें नैतिक अवधारणाएं, डेटा तैयारी, डेटा के साथ काम करने के विभिन्न तरीके, डेटा विज़ुअलाइज़ेशन, डेटा विश्लेषण, डेटा विज्ञान के वास्तविक विश्व उपयोग के मामले, और भी बहुत कुछ शामिल है।
इस पाठ्यक्रम को बनाते समय हमने दो शिक्षण सिद्धांत चुने हैं: सुनिश्चित करना कि यह परियोजना-आधारित हो और इसमें बार-बार क्विज़ शामिल हों। इस श्रृंखला के अंत तक, छात्र डेटा साइंस के मूल सिद्धांतों को सीखेंगे, जिनमें नैतिक अवधारणाएँ, डेटा तैयारी, डेटा के साथ काम करने के विभिन्न तरीके, डेटा विज़ुअलाइज़ेशन, डेटा विश्लेषण, डेटा साइंस के वास्तविक दुनिया के उपयोग के मामले, और बहुत कुछ शामिल है।
इसके अलावा, क्लास से पहले एक कम दबाव वाला क्विज़ विद्यार्थी की किसी विषय को सीखने की इच्छा निर्धारित करता है, जबकि क्लास के बाद दूसरा क्विज़ अतिरिक्त समझ बनाए रखता है। यह पाठ्यक्रम लचीला और मजेदार बनाया गया है और इसे पूरी तरह अथवा भागों में लिया जा सकता है। परियोजनाएं छोटी शुरुआत करती हैं और 10 सप्ताह के चक्र के अंत तक धीरे-धीरे जटिल होती जाती हैं।
इसके अतिरिक्त, कक्षा से पहले एक कम दबाव वाला क्विज़ छात्र के सीखने की इच्छा को सेट करता है, जबकि कक्षा के बाद दूसरा क्विज़ और बेहतर अवधारण सुनिश्चित करता है। यह पाठ्यक्रम लचीला और मज़ेदार बनाने के लिए डिज़ाइन किया गया है और इसे पूरी तरह से या आंशिक रूप से लिया जा सकता है। परियोजनाएँ छोटी शुरू होती हैं और 10 सप्ताह के चक्र के अंत तक धीरे-धीरे जटिल हो जाती हैं।
> हमारे [कोड ऑफ कंडक्ट](CODE_OF_CONDUCT.md), [योगदान](CONTRIBUTING.md), [अनुवाद](TRANSLATIONS.md) दिशानिर्देश देखें। हम आपके रचनात्मक फीडबैक का स्वागत करते हैं!
> हमारे [व्यवहार संहिता](CODE_OF_CONDUCT.md), [योगदान देने के निर्देश](CONTRIBUTING.md), [अनुवाद](TRANSLATIONS.md) दिशानिर्देश देखें। हम आपकी रचनात्मक प्रतिक्रिया का स्वागत करते हैं!
## प्रत्येक पाठ में शामिल है:
## प्रत्येक पाठ में शामिल हैं:
- वैकल्पिक स्केचनोट
- वैकल्पिक पूरक वीडियो
- पूर्व-पाठ वार्मअप क्विज़
- पाठ से पहले वार्मअप क्विज़
- लिखित पाठ
- परियोजना-आधारित पाठों के लिए, परियोजना बनाने के चरण-दर-चरण निर्देश
- परियोजना-आधारित पाठों के लिए, परियोजना बनाने के चरण-दर-चरण मार्गदर्शिकाएँ
- ज्ञान जांच
- एक चुनौती
- एक挑战
- पूरक पठन सामग्री
- असाइनमेंट
- [पाठ के बाद क्विज़](https://ff-quizzes.netlify.app/en/)
> **क्विज़ के बारे में एक नोट**: सभी क्विज़ Quiz-App फ़ोल्डर में हैं, प्रत्येक में तीन सवालों के साथ कुल 40 क्विज़। ये पाठों के भीतर लिंक की गई हैं, लेकिन क्विज़ ऐप स्थानीय रूप से चलाया जा सकता है या Azure पर तैनात किया जा सकता है; निर्देशों के लिए `quiz-app` फ़ोल्डर देखें। इन्हें धीरे-धीरे स्थानीयकृत किया जा रहा है।
> **क्विज़ के बारे में एक नोट**: सभी क्विज़ Quiz-App फ़ोल्डर में हैं, जिसमें प्रत्येक में तीन प्रश्नों के कुल 40 क्विज़ हैं। ये पाठों से लिंक किए गए हैं, लेकिन क्विज़ ऐप लोकल भी चलाया जा सकता है या Azure पर डिप्लॉय किया जा सकता है; `quiz-app` फ़ोल्डर में निर्देशों का पालन करें। इन्हें धीरे-धीरे स्थानीयकृत किया जा रहा है।
## 🎓 शुरुआती के लिए दोस्ताना उदाहरण
**डेटा विज्ञान में नए हैं?** हमने एक विशेष [उदाहरण निर्देशिका](examples/README.md) बनाई है जिसमें सरल, अच्छी तरह से टिप्पणी की गई कोड है जो आपकी शुरुआत में मदद करेगी:
**डेटा साइंस में नए हैं?** हमने एक विशेष [उदाहरण निर्देशिका](examples/README.md) बनाई है जिसमें सरल, अच्छी तरह से टिप्पणी की गई कोड है जो आपको शुरू करने में मदद करेगी:
- 🌟 **हेलो वर्ल्ड** - आपका पहला डेटा विज्ञान प्रोग्राम
- 🌟 **हैलो वर्ल्ड** - आपका पहला डेटा साइंस प्रोग्राम
- 📂 **डेटा लोड करना** - डेटा सेट पढ़ना और एक्सप्लोर करना सीखें
- 📊 **सरल विश्लेषण** - सांख्यिकी की गणना करें और पैटर्न खोजें
- 📈 **मूल विज़ुअलाइज़ेशन** - चार्ट और ग्राफ़ बनाएं
- 🔬 **वास्तविक दुनिया परियोजना** - शुरू से लेकर अंत तक पूरा कार्यप्रवाह
| 01 | डेटा साइंस की परिभाषा | [परिचय](1-Introduction/README.md) | डेटा विज्ञान के मूल सिद्धांत सीखें और यह कैसे कृत्रिम बुद्धिमत्ता, मशीन लर्निंग, और बड़े डेटा से संबंधित है। | [पाठ](1-Introduction/01-defining-data-science/README.md) [वीडियो](https://youtu.be/beZ7Mb_oz9I) | [दמיט्री](http://soshnikov.com) |
| 01 | डेटा साइंस की परिभाषा | [परिचय](1-Introduction/README.md) | डेटा साइंस के मूल सिद्धांतों को सीखें और यह आर्टिफिशियल इंटेलिजेंस, मशीन लर्निंग, और बिग डेटा से कैसे संबंधित है। | [पाठ](1-Introduction/01-defining-data-science/README.md) [वीडियो](https://youtu.be/beZ7Mb_oz9I) | [दिमित्रि](http://soshnikov.com) |
| 03 | डेटा की परिभाषा | [परिचय](1-Introduction/README.md) | डेटा को कैसे वर्गीकृत किया जाता है और इसके सामान्य स्रोत। | [पाठ](1-Introduction/03-defining-data/README.md) | [जैस्मिन](https://www.twitter.com/paladique) |
| 04 | सांख्यिकी और संभावना का परिचय | [परिचय](1-Introduction/README.md) | डेटा समझने के लिए संभावना और सांख्यिकी की गणितीय तकनीकें। | [पाठ](1-Introduction/04-stats-and-probability/README.md) [वीडियो](https://youtu.be/Z5Zy85g4Yjw) | [दמיט्री](http://soshnikov.com) |
| 05 | रिलेशनल डेटा के साथ काम करना | [डेटा के साथ काम](2-Working-With-Data/README.md) | रिलेशनल डेटा का परिचय और उसके विश्लेषण के लिए संरचित क्वेरी भाषा (SQL) का उपयोग। | [पाठ](2-Working-With-Data/05-relational-databases/README.md) | [क्रिस्टोफर](https://www.twitter.com/geektrainer) | | |
| 06 | नोएसक्यूएल डेटा के साथ काम करना | [डेटा के साथ काम](2-Working-With-Data/README.md) | गैर-रिलेशनल डेटा का परिचय, इसके विभिन्न प्रकार और दस्तावेज़ डेटाबेस का विश्लेषण। | [पाठ](2-Working-With-Data/06-non-relational/README.md) | [जैस्मिन](https://twitter.com/paladique)|
| 07 | पायथन के साथ काम करना | [डेटा के साथ काम](2-Working-With-Data/README.md) | पांडास जैसी लाइब्रेरीज के साथ पायथन का उपयोग करते हुए डेटा एक्सप्लोरेशन की बुनियादी बातें। पायथन प्रोग्रामिंग की मूल समझ अनुशंसित है। | [पाठ](2-Working-With-Data/07-python/README.md) [वीडियो](https://youtu.be/dZjWOGbsN4Y) | [दמיט्री](http://soshnikov.com) |
| 08 | डेटा तैयारी | [डेटा के साथ काम](2-Working-With-Data/README.md) | गायब, गलत या अपूर्ण डेटा की चुनौतियों को संभालने के लिए डेटा साफ़ करने और बदलने की तकनीकें। | [पाठ](2-Working-With-Data/08-data-preparation/README.md) | [जैस्मिन](https://www.twitter.com/paladique) |
| 09 | मात्राओं का विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | माटप्लॉटलिब का उपयोग कर बर्ड डेटा 🦆 को विज़ुअलाइज़ करना सीखें | [पाठ](3-Data-Visualization/09-visualization-quantities/README.md) | [जेन](https://twitter.com/jenlooper) |
| 10 | डेटा वितरण का विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | अवलोकनों और प्रवृत्तियों को एक अंतराल के भीतर विज़ुअलाइज़ करना। | [पाठ](3-Data-Visualization/10-visualization-distributions/README.md) | [जेन](https://twitter.com/jenlooper) |
| 11 | अनुपात का विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | पृथक और समूहित प्रतिशत को विज़ुअलाइज़ करना। | [पाठ](3-Data-Visualization/11-visualization-proportions/README.md) | [जेन](https://twitter.com/jenlooper) |
| 12 | संबंधों का विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | डेटा सेट और उनके वेरिएबल्स के बीच कनेक्शन और सहसंबंधों का विज़ुअलाइज़ेशन। | [पाठ](3-Data-Visualization/12-visualization-relationships/README.md) | [जेन](https://twitter.com/jenlooper) |
| 13 | अर्थपूर्ण विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | प्रभावी समस्या समाधान और अंतर्दृष्टि के लिए अपने विज़ुअलाइज़ेशन को मूल्यवान बनाने की तकनीकें और मार्गदर्शन। | [पाठ](3-Data-Visualization/13-meaningful-visualizations/README.md) | [जेन](https://twitter.com/jenlooper) |
| 14 | डेटा विज्ञान जीवनचक्र का परिचय | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डेटा विज्ञान जीवनचक्र का परिचय और डेटा प्राप्त करने और निकालने का पहला चरण। | [पाठ](4-Data-Science-Lifecycle/14-Introduction/README.md) | [जैस्मिन](https://twitter.com/paladique) |
| 15 | विश्लेषण | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डेटा विज्ञान जीवनचक्र का यह चरण डेटा का विश्लेषण करने की तकनीकों पर केंद्रित है। | [पाठ](4-Data-Science-Lifecycle/15-analyzing/README.md) | [जैस्मिन](https://twitter.com/paladique) | | |
| 16 | संवाद | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डेटा विज्ञान जीवनचक्र का यह चरण डेटा से अंतर्दृष्टि प्रस्तुत करने पर केंद्रित है ताकि निर्णय लेने वालों के लिए इसे समझना आसान हो। | [पाठ](4-Data-Science-Lifecycle/16-communication/README.md) | [जेलन](https://twitter.com/JalenMcG) | | |
| 17 | क्लाउड में डेटा साइंस | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | क्लाउड में डेटा साइंस और इसके लाभों का परिचय। | [पाठ](5-Data-Science-In-Cloud/17-Introduction/README.md) | [टिफ़नी](https://twitter.com/TiffanySouterre) और [मॉड](https://twitter.com/maudstweets) |
| 18 | क्लाउड में डेटा साइंस | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | लो कोड टूल्स का उपयोग कर मॉडल प्रशिक्षण। |[पाठ](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [टिफ़नी](https://twitter.com/TiffanySouterre) और [मॉड](https://twitter.com/maudstweets) |
| 19 | क्लाउड में डेटा साइंस | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | Azure मशीन लर्निंग स्टूडियो के साथ मॉडल तैनात करना। | [पाठ](5-Data-Science-In-Cloud/19-Azure/README.md)| [टिफ़नी](https://twitter.com/TiffanySouterre) और [मॉड](https://twitter.com/maudstweets) |
| 20 | असली दुनिया में डेटा साइंस | [असली दुनिया में](6-Data-Science-In-Wild/README.md) | असली दुनिया में डेटा साइंस संचालित परियोजनाएं। | [पाठ](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [नित्य](https://twitter.com/nitya) |
| 04 | सांख्यिकी और संभाव्यता का परिचय | [परिचय](1-Introduction/README.md) | डेटा को समझने के लिए संभाव्यता और सांख्यिकी की गणितीय तकनीकें। | [पाठ](1-Introduction/04-stats-and-probability/README.md) [वीडियो](https://youtu.be/Z5Zy85g4Yjw) | [दिमित्रि](http://soshnikov.com) |
| 05 | संबंधपरक डेटा के साथ काम करना | [डेटा के साथ काम करना](2-Working-With-Data/README.md) | संबंधपरक डेटा का परिचय और संरचित क्वेरी भाषा (SQL) के साथ संबंधपरक डेटा का अन्वेषण और विश्लेषण के मूल बातें। | [पाठ](2-Working-With-Data/05-relational-databases/README.md) | [क्रिस्टोफर](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQL डेटा के साथ काम करना | [डेटा के साथ काम करना](2-Working-With-Data/README.md) | गैर-संबंधपरक डेटा का परिचय, इसके विभिन्न प्रकार और दस्तावेज़ डेटाबेस का अन्वेषण और विश्लेषण की मूल बातें। | [पाठ](2-Working-With-Data/06-non-relational/README.md) | [जैस्मिन](https://twitter.com/paladique)|
| 07 | पायथन के साथ काम करना | [डेटा के साथ काम करना](2-Working-With-Data/README.md) | पायथन का उपयोग डेटा अन्वेषण के लिए करना, जैसे कि पांडस लाइब्रेरी के साथ। पायथन प्रोग्रामिंग की मूल समझ अनुशंसित है। | [पाठ](2-Working-With-Data/07-python/README.md) [वीडियो](https://youtu.be/dZjWOGbsN4Y) | [दिमित्रि](http://soshnikov.com) |
| 08 | डेटा तैयारी | [डेटा के साथ काम करना](2-Working-With-Data/README.md) | डेटा साफ़ करने और रूपांतरित करने के तकनीकें ताकि मिसिंग, गलत या अपूर्ण डेटा की चुनौतियों को संभाला जा सके। | [पाठ](2-Working-With-Data/08-data-preparation/README.md) | [जैस्मिन](https://www.twitter.com/paladique) |
| 09 | मात्राओं का विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | बैट डेटा का विज़ुअलायज़ेशन करने के लिए Matplotlib का उपयोग करना सीखें 🦆 | [पाठ](3-Data-Visualization/09-visualization-quantities/README.md) | [जेन](https://twitter.com/jenlooper) |
| 10 | डेटा के वितरण का विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | अवलोकनों और प्रवृत्तियों को एक अंतराल के भीतर विज़ुअलाइज़ करना। | [पाठ](3-Data-Visualization/10-visualization-distributions/README.md) | [जेन](https://twitter.com/jenlooper) |
| 11 | अनुपातों का विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | विविक्त और समूहित प्रतिशत का विज़ुअलाइज़ेशन। | [पाठ](3-Data-Visualization/11-visualization-proportions/README.md) | [जेन](https://twitter.com/jenlooper) |
| 12 | संबंधों का विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | डेटा सेट और उनके चर के बीच कनेक्शन और सहसंबंध का विज़ुअलाइज़ेशन। | [पाठ](3-Data-Visualization/12-visualization-relationships/README.md) | [जेन](https://twitter.com/jenlooper) |
| 13 | अर्थपूर्ण विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | मूल्यवान और प्रभावी समस्या समाधान और अंतर्दृष्टि के लिए आपकी विज़ुअलाइज़ेशन बनाने की तकनीक और मार्गदर्शन। | [पाठ](3-Data-Visualization/13-meaningful-visualizations/README.md) | [जेन](https://twitter.com/jenlooper) |
| 14 | डेटा साइंस जीवनचक्र का परिचय | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डेटा साइंस जीवनचक्र का परिचय और उसके पहले चरण में डेटा प्राप्त करना और निकालना। | [पाठ](4-Data-Science-Lifecycle/14-Introduction/README.md) | [जैस्मिन](https://twitter.com/paladique) |
| 15 | विश्लेषण करना | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डेटा साइंस जीवनचक्र का यह चरण डेटा का विश्लेषण करने की तकनीकों पर केंद्रित है। | [पाठ](4-Data-Science-Lifecycle/15-analyzing/README.md) | [जैस्मिन](https://twitter.com/paladique) | | |
| 16 | संवाद करना | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डेटा साइंस जीवनचक्र का यह चरण डेटा से अंतर्दृष्टि प्रस्तुत करने पर केंद्रित है, ताकि निर्णय लेने वालों को समझना आसान हो सके। | [पाठ](4-Data-Science-Lifecycle/16-communication/README.md) | [जालेन](https://twitter.com/JalenMcG) | | |
| 17 | क्लाउड में डेटा साइंस | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | क्लाउड में डेटा साइंस और इसके लाभों का परिचय। | [पाठ](5-Data-Science-In-Cloud/17-Introduction/README.md) | [टिफ़नी](https://twitter.com/TiffanySouterre) और [मौड](https://twitter.com/maudstweets) |
| 18 | क्लाउड में डेटा साइंस | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | लो कोड टूल्स का उपयोग करके मॉडल प्रशिक्षण। |[पाठ](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [टिफ़नी](https://twitter.com/TiffanySouterre) और [मौड](https://twitter.com/maudstweets) |
| 19 | क्लाउड में डेटा साइंस | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | Azure मशीन लर्निंग स्टूडियो के साथ मॉडल तैनात करना। | [पाठ](5-Data-Science-In-Cloud/19-Azure/README.md)| [टिफ़नी](https://twitter.com/TiffanySouterre) और [मौड](https://twitter.com/maudstweets) |
| 20 | डेटा साइंस इन द वाइल्ड | [इन् द वाइल्ड](6-Data-Science-In-Wild/README.md) | वास्तविक दुनिया में डेटा साइंस संचालित परियोजनाएँ। | [पाठ](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [नित्य](https://twitter.com/nitya) |
## GitHub Codespaces
इस नमूने को Codespace में खोलने के लिए निम्नलिखित चरणों का पालन करें:
1. Code ड्रॉप-डाउन मेनू पर क्लिक करें और Open with Codespaces विकल्प चुनें।
2. पैनल के नीचे + New codespace चुनें।
और जानकारी के लिए, [GitHub दस्तावेज़](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) देखें।
इस नमूना को Codespace में खोलने के लिए ये कदम उठाएँ:
1. कोड ड्रॉप-डाउन मेनू पर क्लिक करें और Open with Codespaces विकल्प चुनें।
2. पैन के नीचे + New codespace चुनें।
अधिक जानकारी के लिए, [GitHub दस्तावेज़](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) देखें।
## VSCode Remote - Containers
अपने स्थानीय कंप्यूटर और VSCode का उपयोग करके इस रिपॉजिटरी को कंटेनर में खोलने के लिए VS Code Remote - Containers एक्सटेंशन का उपयोग करें:
## VSCode Remote - कंटेनर
अपने स्थानीय मशीन और VSCode के साथ इस रिपॉजिटरी को कंटेनर में खोलने के लिए VS Code Remote - Containers एक्सटेंशन का उपयोग करें:
1. यदि यह आपका पहला विकास कंटेनर उपयोग है, तो कृपया सुनिश्चित करें कि आपकी प्रणाली आवश्यकताएं पूरी करती हैं (जैसे Docker इंस्टॉल होना) [शुरुआत के दस्तावेज़](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) में।
1. यदि यह आपकी पहली बार डेवलपमेंट कंटेनर उपयोग कर रहे हैं, तो कृपया सुनिश्चित करें कि आपकी प्रणाली [शुरुआत के दस्तावेज़](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) में उल्लिखित आवश्यकताएँ पूरी करती है (जैसे Docker इंस्टॉल होना)।
इस रिपॉजिटरी का उपयोग करने के लिए, आप या तो रिपॉजिटरी को एक अलग Docker वॉल्यूम में खोल सकते हैं:
इस रिपॉजिटरी का उपयोग करने के लिए, आप या तो इसे एक अलग Docker वॉल्यूम में खोल सकते हैं:
**नोट**: अंतर्निहित रूप से, यह Remote-Containers: **Clone Repository in Container Volume...** कमांड का उपयोग करके स्रोत कोड को स्थानीय फ़ाइल सिस्टम के बजाय Docker वॉल्यूम में क्लोन करेगा। [वॉल्यूम](https://docs.docker.com/storage/volumes/) कंटेनर डेटा संग्रहीत करने के लिए प्राथमिक माध्यम हैं।
**नोट**: इसके तहत Remote-Containers: **Clone Repository in Container Volume...** कमांड का उपयोग कर सोर्स कोड को लोकल फाइलसिस्टम के बजाय Docker वॉल्यूम में क्लोन किया जाएगा। [वॉल्यूम](https://docs.docker.com/storage/volumes/) कंटेनर डेटा को स्थायी बनाने के लिए पसंदीदा तंत्र हैं।
या रिपॉजिटरी की स्थानीय रूप से क्लोन की गई या डाउनलोड की गई प्रति खोल सकते हैं:
या रिपॉजिटरी की लोकली क्लोन या डाउनलोड की गई कॉपी खोलें:
- इस रिपॉजिटरी को अपने स्थानीय फ़ाइल सिस्टम पर क्लोन करें।
- इसे अपनी लोकल फाइलसिस्टम में क्लोन करें।
- F1 दबाएं और **Remote-Containers: Open Folder in Container...** कमांड चुनें।
- इस फ़ोल्डर की क्लोन की गई प्रति चुनें, कंटेनर के शुरू होने का इंतजार करें, और प्रयोग करें।
- इस फ़ोल्डर की क्लोन की गई कॉपी चुनें, कंटेनर के शुरू होने का इंतजार करें, और फिर प्रयोग करें।
## ऑफ़लाइन एक्सेस
## ऑफ़लाइन पहुँच
[Docsify](https://docsify.js.org/#/) का उपयोग करके आप इस दस्तावेज़ को ऑफ़लाइन चला सकते हैं। इस रिपॉजिटरी को फोर्क करें, अपने स्थानीय कंप्यूटर पर [Docsify इंस्टॉल करें](https://docsify.js.org/#/quickstart), फिर इस रिपॉजिटरी के रूट फ़ोल्डर में टाइپ करें `docsify serve`। वेबसाइट आपके लोकलहोस्ट पर पोर्ट 3000 पर सेवा देगी: `localhost:3000`।
आप इस दस्तावेज़ को ऑफ़लाइन [Docsify](https://docsify.js.org/#/) का उपयोग करके चला सकते हैं। इस रिपॉजिटरी को फोर्क करें, अपने स्थानीय मशीन पर [Docsify इंस्टॉल करें](https://docsify.js.org/#/quickstart), फिर इस रिपॉजिटरी की रूट फ़ोल्डर में `docsify serve` टाइप करें। वेबसाइट आपके लोकलहोस्ट पर पोर्ट 3000 पर सर्व होगी: `localhost:3000`।
> नोट करें, नोटबुक Docsify के माध्यम से रेंडर नहीं होंगे, इसलिए जब आपको नोटबुक चलाना हो, तो वह अलग से VS Code में पायथन कर्नेल के साथ करें।
> ध्यान दें, नोटबुक्स Docsify के माध्यम से रेंडर नहीं होंगी, इसलिए जब आपको नोटबुक चलाना हो, तो वह अलग से VS Code में पायथन कर्नेल चलाकर करें।
## अन्य पाठ्यक्रम
हमारी टीम अन्य पाठ्यक्रम भी तैयार करती है! देखें:
हमारी टीम अन्य पाठ्यक्रम भी बनाती है! देखें:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
@ -208,7 +218,7 @@ Microsoft के Azure Cloud Advocates डेटा साइंस के ब
---
### जनरेटिव AI सीरीज
### जनरेटिव AI श्रृंखला
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
@ -227,7 +237,7 @@ Microsoft के Azure Cloud Advocates डेटा साइंस के ब
---
### कोपिलॉट सीरीज
### कोपिलॉट श्रृंखला
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
@ -237,11 +247,11 @@ Microsoft के Azure Cloud Advocates डेटा साइंस के ब
**समस्याओं का सामना कर रहे हैं?** सामान्य समस्याओं के समाधान के लिए हमारा [ट्रबलशूटिंग गाइड](TROUBLESHOOTING.md) देखें।
यदि आप फंस गए हैं या AI ऐप बनाने के बारे में कोई प्रश्न है। MCP के बारे में चर्चा में साथी शिक्षार्थियों और अनुभवी डेवलपर्स में शामिल हों। यह एक सहायक समुदाय है जहां प्रश्नों का स्वागत है और ज्ञान स्वतंत्र रूप से साझा किया जाता है।
यदि आप अटक जाते हैं या AI ऐप बनाने के बारे में कोई सवाल है। MCP के बारे में चर्चाओं में साथी शिक्षार्थियों और अनुभवी डेवलपर्स में शामिल हों। यह एक सहायक समुदाय है जहाँ प्रश्न स्वागत योग्य हैं और ज्ञान खुले तौर पर साझा किया जाता है।
@ -249,5 +259,5 @@ Microsoft के Azure Cloud Advocates डेटा साइंस के ब
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**अस्वीकरण**:
इस दस्तावेज़ का अनुवाद एआई अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके किया गया है। जबकि हम सटीकता के लिए प्रयासरत हैं, कृपया ध्यान रखें कि स्वचालित अनुवादों में त्रुटियाँ या अप्रमाणिकताएं हो सकती हैं। मूल दस्तावेज़ अपनी मूल भाषा में प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सलाह दी जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।
इस दस्तावेज़ का अनुवाद AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके किया गया है। हम सही अनुवाद के लिए प्रयासरत हैं, लेकिन कृपया ध्यान दें कि स्वचालित अनुवादों में त्रुटियाँ या असंगतियाँ हो सकती हैं। मूल दस्तावेज़ अपनी मूल भाषा में ही अधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।
यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
> 「Bussed Out: How America Moves its Homeless」 - [Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study)。ビジュアライゼーション:Nadieh Bremer & Shirley Wu
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
Discordで現在進行中の「Learn with AI」シリーズをぜひご覧ください。2025年9月18日〜30日に[Learn with AI Series](https://aka.ms/learnwithai/discord)で詳細を確認し、ご参加ください。GitHub Copilotを使ったデータサイエンスのヒントやコツを得られます。
DiscordにてAIシリーズの学習を継続中です。2025年9月18日~30日に [Learn with AI Series](https://aka.ms/learnwithai/discord) に参加して詳細を学び、GitHub Copilotをデータサイエンスで使うヒントやコツを取得しましょう。

**注意**:内部的にはRemote-Containersの「Clone Repository in Container Volume...」コマンドを使ってソースコードをローカルファイルシステムではなくDockerボリュームにクローンします。[ボリューム](https://docs.docker.com/storage/volumes/)はコンテナデータ保持に推奨される方法です。
**注記**: 内部的には、Remote-Containersの **Clone Repository in Container Volume...** コマンドを使い、ローカルファイルシステムの代わりにDockerボリュームにソースコードをクローンします。データ永続化には[ボリューム](https://docs.docker.com/storage/volumes/)が推奨されています。
またはローカルでクローンまたはダウンロードしたリポジトリを開く方法:
または、ローカルにクローンまたはダウンロードしたリポジトリを開く:
- このリポジトリをローカルにクローンする。
- F1キーを押し、「Remote-Containers: Open Folder in Container...」コマンドを選択。
- クローンしたフォルダーを選択し、コンテナ起動を待って操作を試みる。
- このリポジトリをローカルファイルシステムにクローンする。
- F1を押して **Remote-Containers: Open Folder in Container...**コマンドを選択。
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
@ -215,7 +223,7 @@ VS Code Remote - Containers拡張機能を使い、ローカルマシンでこ
---
### コアラーニング
### コア学習
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
@ -234,13 +242,13 @@ VS Code Remote - Containers拡張機能を使い、ローカルマシンでこ
[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
## [강의 전 퀴즈](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@
이번 도전 과제에서는 텍스트를 분석하여 데이터 과학 분야와 관련된 개념을 찾아보겠습니다. 데이터 과학에 대한 위키피디아 글을 가져와 텍스트를 처리한 후, 아래와 같은 워드 클라우드를 만들어 보겠습니다:


[`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore')를 방문하여 코드를 읽어보세요. 코드를 실행하여 모든 데이터 변환이 실시간으로 어떻게 수행되는지 확인할 수도 있습니다.
"이 예제에서는 전통적인 데이터 과학 프로세스의 모든 단계를 다루는 간단한 연습을 해보겠습니다. 코드를 작성할 필요는 없으며, 아래 셀을 클릭하여 실행하고 결과를 관찰하기만 하면 됩니다. 도전 과제로, 다른 데이터를 사용하여 이 코드를 시도해보는 것을 권장합니다.\n",
"이 예제에서는 전통적인 데이터 과학 프로세스의 모든 단계를 포함하는 간단한 연습을 해보겠습니다. 코드를 작성할 필요 없이 아래 셀을 클릭하여 실행하고 결과를 관찰하면 됩니다. 도전 과제로, 다양한 데이터를 사용하여 이 코드를 시도해보는 것을 권장합니다.\n",
"\n",
"## 목표\n",
"\n",
"이번 강의에서는 데이터 과학과 관련된 다양한 개념에 대해 논의했습니다. 이제 **텍스트 마이닝**을 통해 더 많은 관련 개념을 발견해 봅시다. 데이터 과학에 관한 텍스트를 시작으로 키워드를 추출하고, 결과를 시각화해 보겠습니다.\n",
"이 수업에서는 데이터 과학과 관련된 다양한 개념에 대해 논의했습니다. 텍스트 마이닝을 수행하여 더 많은 관련 개념을 발견해 봅시다. 데이터 과학에 관한 텍스트를 시작으로 키워드를 추출한 후 결과를 시각화해 보겠습니다.\n",
"\n",
"텍스트로는 Wikipedia의 데이터 과학 페이지를 사용하겠습니다:\n"
"텍스트로는 위키백과의 데이터 과학 페이지를 사용하겠습니다:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## 1단계: 데이터 가져오기\n",
"## Step 1: 데이터 가져오기\n",
"\n",
"데이터 과학 프로세스의 첫 번째 단계는 데이터를 가져오는 것입니다. 이를 위해 `requests` 라이브러리를 사용할 것입니다:\n"
"모든 데이터 과학 프로세스의 첫 번째 단계는 데이터를 가져오는 것입니다. 우리는 `requests` 라이브러리를 사용해서 이를 수행할 것입니다:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## 2단계: 데이터 변환\n",
"## Step 2: 데이터 변환하기\n",
"\n",
"다음 단계는 데이터를 처리하기 적합한 형태로 변환하는 것입니다. 우리의 경우, 페이지에서 HTML 소스 코드를 다운로드했으며 이를 일반 텍스트로 변환해야 합니다.\n",
"다음 단계는 데이터를 처리에 적합한 형태로 변환하는 것입니다. 우리의 경우, 페이지에서 HTML 소스 코드를 다운로드했고, 이를 일반 텍스트로 변환해야 합니다.\n",
"\n",
"이를 수행하는 방법은 여러 가지가 있습니다. 우리는 Python의 가장 간단한 내장 [HTMLParser](https://docs.python.org/3/library/html.parser.html) 객체를 사용할 것입니다. `HTMLParser` 클래스를 서브클래싱하고 `<script>` 및 `<style>` 태그를 제외한 HTML 태그 내부의 모든 텍스트를 수집하는 코드를 정의해야 합니다.\n"
"이를 수행하는 방법은 여러 가지가 있습니다. 여기서는 HTML 파싱을 위한 인기 있는 파이썬 라이브러리인 [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)를 사용할 것입니다. BeautifulSoup은 특정 HTML 요소를 대상으로 지정할 수 있어, 위키피디아의 주요 기사 내용에 집중하고 일부 탐색 메뉴, 사이드바, 푸터 및 기타 관련 없는 내용을 줄일 수 있습니다(일부 기본 텍스트는 여전히 남아 있을 수 있습니다).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"먼저, HTML 파싱을 위해 BeautifulSoup 라이브러리를 설치해야 합니다:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## 3단계: 인사이트 얻기\n",
"## Step 3: Getting Insights\n",
"\n",
"가장 중요한 단계는 데이터를 분석 가능한 형태로 변환하여 인사이트를 도출하는 것입니다. 우리의 경우, 텍스트에서 키워드를 추출하고 어떤 키워드가 더 의미 있는지 확인하고자 합니다.\n",
"가장 중요한 단계는 데이터를 우리가 인사이트를 얻을 수 있는 형태로 바꾸는 것입니다. 여기서는 텍스트에서 키워드를 추출하고, 어떤 키워드가 더 의미 있는지 확인하고자 합니다.\n",
"\n",
"키워드 추출을 위해 [RAKE](https://github.com/aneesha/RAKE)라는 Python 라이브러리를 사용할 것입니다. 먼저, 이 라이브러리가 설치되어 있지 않다면 설치해 보겠습니다:\n"
"키워드 추출을 위해 Python 라이브러리인 [RAKE](https://github.com/aneesha/RAKE)를 사용할 것입니다. 먼저, 이 라이브러리가 설치되어 있지 않다면 설치해 봅시다:\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"주요 기능은 `Rake` 객체에서 사용할 수 있으며, 일부 매개변수를 사용하여 사용자 정의할 수 있습니다. 우리의 경우, 키워드의 최소 길이를 5자로 설정하고, 문서에서 키워드의 최소 빈도를 3으로 설정하며, 키워드의 최대 단어 수를 2로 설정할 것입니다. 다른 값을 자유롭게 변경하여 결과를 관찰해 보세요.\n"
"주요 기능은 `Rake` 객체에서 제공되며, 몇 가지 매개변수를 사용하여 사용자 정의할 수 있습니다. 우리의 경우, 키워드의 최소 길이를 5자, 문서 내 키워드의 최소 빈도를 3회, 키워드 내 최대 단어 수를 2로 설정할 것입니다. 다른 값으로도 자유롭게 실험해보고 결과를 확인해 보세요.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"우리는 용어 목록과 그에 따른 중요도를 함께 얻었습니다. 보시다시피, 머신 러닝과 빅 데이터와 같은 가장 관련성 높은 분야들이 목록의 상위에 위치해 있습니다.\n",
"우리는 관련도와 함께 용어 리스트를 얻었습니다. 보시다시피, 머신 러닝과 빅 데이터처럼 가장 관련성 높은 학문들이 리스트 상위에 위치해 있습니다.\n",
"\n",
"## 4단계: 결과 시각화\n",
"## Step 4: 결과 시각화하기\n",
"\n",
"사람들은 데이터를 시각적인 형태로 가장 잘 해석할 수 있습니다. 따라서 통찰을 얻기 위해 데이터를 시각화하는 것이 종종 의미가 있습니다. 우리는 Python의 `matplotlib` 라이브러리를 사용하여 키워드와 그 관련성의 간단한 분포를 그래프로 나타낼 수 있습니다:\n"
"사람들은 시각적인 형태로 데이터를 가장 잘 해석할 수 있습니다. 따라서 인사이트를 도출하기 위해 데이터를 시각화하는 것이 종종 의미가 있습니다. 우리는 파이썬의 `matplotlib` 라이브러리를 사용하여 키워드와 관련성의 간단한 분포를 그릴 수 있습니다:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"단어 빈도를 시각화하는 더 나은 방법이 있습니다. 바로 **워드 클라우드**를 사용하는 것입니다. 키워드 목록에서 워드 클라우드를 그리기 위해 또 다른 라이브러리를 설치해야 합니다.\n"
"그러나 단어 빈도를 시각화하는 더 좋은 방법이 있습니다 - **워드 클라우드**를 사용하는 것입니다. 키워드 목록에서 워드 클라우드를 그리기 위해 다른 라이브러리를 설치해야 합니다.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` 객체는 원본 텍스트 또는 미리 계산된 단어와 빈도 목록을 입력으로 받아들이고, 이미지를 반환하며, 이는 `matplotlib`을 사용하여 표시할 수 있습니다:\n"
"`WordCloud` 객체는 원본 텍스트 또는 단어와 그 빈도수가 미리 계산된 목록을 입력받아 이미지를 반환하며, 이 이미지는 `matplotlib`을 사용하여 표시할 수 있습니다:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"우리는 원본 텍스트를 `WordCloud`에 전달할 수도 있습니다 - 비슷한 결과를 얻을 수 있는지 확인해 봅시다:\n"
"원본 텍스트를 `WordCloud`에 전달할 수도 있습니다 - 비슷한 결과를 얻을 수 있는지 확인해 봅시다:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"이제 워드 클라우드가 더 인상적으로 보이지만, 동시에 많은 잡음(예: `Retrieved on`과 같은 관련 없는 단어들)도 포함되어 있습니다. 또한, *data scientist*나 *computer science*와 같은 두 단어로 이루어진 키워드가 더 적게 추출됩니다. 이는 RAKE 알고리즘이 텍스트에서 좋은 키워드를 선택하는 데 훨씬 더 뛰어난 성능을 보이기 때문입니다. 이 예시는 데이터 전처리와 정리의 중요성을 보여줍니다. 최종적으로 명확한 결과를 얻으면 더 나은 결정을 내릴 수 있기 때문입니다.\n",
"이제 단어 구름이 더 인상적으로 보이지만, 많은 잡음(예: `Retrieved on`과 같은 관련 없는 단어)도 포함하고 있음을 알 수 있습니다. 또한 *data scientist*나 *computer science*와 같이 두 단어로 이루어진 키워드는 더 적게 나옵니다. 이는 RAKE 알고리즘이 텍스트에서 좋은 키워드를 선택하는 데 훨씬 더 능숙하기 때문입니다. 이 예시는 데이터 전처리와 정리의 중요성을 보여줍니다. 명확한 결과물이 있어야 더 나은 의사결정을 내릴 수 있기 때문입니다.\n",
"\n",
"이번 연습에서는 Wikipedia 텍스트에서 키워드와 워드 클라우드 형태로 의미를 추출하는 간단한 과정을 살펴보았습니다. 이 예시는 매우 단순하지만, 데이터 과학자가 데이터를 다룰 때 거치는 전형적인 모든 단계를 잘 보여줍니다. 데이터 수집에서부터 시각화에 이르기까지의 과정이 포함됩니다.\n",
"이번 연습에서는 키워드와 단어 구름 형태로 위키피디아 텍스트에서 의미를 추출하는 간단한 과정을 살펴보았습니다. 이 예시는 매우 단순하지만 데이터 과학자가 데이터를 다룰 때 수행하는 일반적인 모든 단계를 잘 보여줍니다. 데이터 수집에서 시각화에 이르기까지의 과정입니다.\n",
"\n",
"우리 강의에서는 이러한 모든 단계를 자세히 다룰 예정입니다.\n"
"우리 강의에서는 이러한 모든 단계를 자세히 다룰 것입니다.\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**면책 조항**: \n이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있으나, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서를 해당 언어로 작성된 상태에서 권위 있는 자료로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다. \n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**면책조항**: \n이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다했으나, 자동 번역은 오류나 부정확한 내용이 포함될 수 있음을 유의해 주시기 바랍니다. 원문 문서가 권위 있는 출처로 간주되어야 합니다. 중요한 정보의 경우 전문적인 인력에 의한 번역을 권장합니다. 본 번역을 사용함으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다.\n<!--CO-OPTRANSLATOR DISCLAIMER END -->\n"
"> *이 노트북에서는 다양한 URL을 사용하여 실험을 진행합니다 - 머신 러닝에 대한 위키피디아 기사입니다. 데이터 과학과는 달리, 이 기사에는 많은 용어가 포함되어 있어 분석이 더 어렵습니다. 키워드 추출을 수행한 후 데이터를 정리하는 또 다른 방법을 찾아서 자주 등장하지만 의미 없는 단어 조합을 제거해야 합니다.*\n",
"> *이 노트북에서는 다양한 URL - 머신러닝에 관한 위키피디아 문서를 사용하여 실험해 봅니다. 데이터 과학과 달리, 이 문서에는 많은 용어가 포함되어 있어 분석이 더 까다로워집니다. 키워드 추출 후 데이터를 정리하기 위한 또 다른 방법을 찾아야 하며, 잦지만 의미 없는 단어 조합들을 제거할 필요가 있습니다.*\n",
"\n",
"이 예제에서는 전통적인 데이터 과학 프로세스의 모든 단계를 다루는 간단한 연습을 해보겠습니다. 코드를 작성할 필요는 없으며, 아래 셀을 클릭하여 실행하고 결과를 관찰하기만 하면 됩니다. 도전 과제로, 다른 데이터를 사용하여 이 코드를 직접 시도해보는 것을 권장합니다.\n",
"이 예제에서는 전통적인 데이터 과학 프로세스의 모든 단계를 포함하는 간단한 연습을 해봅니다. 코드를 직접 작성할 필요는 없으며, 아래 셀을 클릭해 실행하고 결과를 관찰할 수 있습니다. 도전 과제로, 이 코드를 다른 데이터로 시도해 보는 것을 권장합니다.\n",
"\n",
"## 목표\n",
"\n",
"이번 수업에서는 데이터 과학과 관련된 다양한 개념을 논의했습니다. **텍스트 마이닝**을 통해 더 많은 관련 개념을 발견해 봅시다. 데이터 과학에 대한 텍스트를 시작으로 키워드를 추출하고, 결과를 시각화해 보겠습니다.\n",
"이번 수업에서는 데이터 과학과 관련된 다양한 개념을 논의했습니다. **텍스트 마이닝**을 통해 더 많은 관련 개념을 발견해 봅시다. 데이터 과학에 관한 텍스트를 사용해 키워드를 추출하고, 그 결과를 시각화하는 작업부터 시작하겠습니다.\n",
"\n",
"텍스트로는 위키피디아의 데이터 과학 페이지를 사용할 것입니다.\n"
"텍스트로는 위키피디아의 데이터 과학 페이지를 사용하겠습니다:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## 1단계: 데이터 가져오기\n",
"## Step 1: 데이터 가져오기\n",
"\n",
"데이터 과학 프로세스의 첫 번째 단계는 데이터를 가져오는 것입니다. 이를 위해 `requests` 라이브러리를 사용할 것입니다:\n"
"모든 데이터 과학 프로세스의 첫 번째 단계는 데이터를 가져오는 것입니다. 이를 위해 `requests` 라이브러리를 사용할 것입니다:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## 2단계: 데이터 변환\n",
"## Step 2: 데이터 변환\n",
"\n",
"다음 단계는 데이터를 처리하기 적합한 형태로 변환하는 것입니다. 우리의 경우, 페이지에서 HTML 소스 코드를 다운로드했으며 이를 일반 텍스트로 변환해야 합니다.\n",
"다음 단계는 데이터를 처리에 적합한 형태로 변환하는 것입니다. 우리의 경우, 페이지에서 HTML 소스 코드를 다운로드했으며, 이를 일반 텍스트로 변환해야 합니다.\n",
"\n",
"이를 수행하는 방법은 여러 가지가 있습니다. 우리는 Python의 가장 간단한 내장 [HTMLParser](https://docs.python.org/3/library/html.parser.html) 객체를 사용할 것입니다. `HTMLParser` 클래스를 서브클래싱하고 `<script>` 및 `<style>` 태그를 제외한 HTML 태그 내부의 모든 텍스트를 수집하는 코드를 정의해야 합니다.\n"
"이 작업을 수행하는 방법은 여러 가지가 있습니다. 우리는 HTML 파싱을 위해 널리 사용되는 파이썬 라이브러리인 [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)을 사용할 것입니다. BeautifulSoup은 특정 HTML 요소를 대상으로 할 수 있어, 위키피디아의 주요 기사 내용에 집중하고 일부 탐색 메뉴, 사이드바, 푸터 및 기타 관련 없는 콘텐츠를 줄일 수 있습니다(일부 기본 텍스트가 남을 수도 있지만).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"먼저, HTML 파싱을 위해 BeautifulSoup 라이브러리를 설치해야 합니다:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## 3단계: 인사이트 얻기\n",
"## Step 3: 통찰력 얻기\n",
"\n",
"가장 중요한 단계는 데이터를 분석 가능한 형태로 변환하여 인사이트를 도출하는 것입니다. 여기서는 텍스트에서 키워드를 추출하고, 어떤 키워드가 더 의미 있는지 확인하려고 합니다.\n",
"가장 중요한 단계는 데이터를 인사이트를 도출할 수 있는 형태로 변환하는 것입니다. 우리의 경우, 텍스트에서 키워드를 추출하고, 어떤 키워드가 더 의미 있는지 확인하려고 합니다.\n",
"\n",
"키워드 추출을 위해 [RAKE](https://github.com/aneesha/RAKE)라는 Python 라이브러리를 사용할 것입니다. 먼저, 이 라이브러리가 설치되어 있지 않다면 설치해 보겠습니다:\n"
"키워드 추출을 위해 [RAKE](https://github.com/aneesha/RAKE)라는 파이썬 라이브러리를 사용할 것입니다. 먼저, 이 라이브러리가 설치되어 있지 않다면 설치해 봅시다: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"주요 기능은 `Rake` 객체에서 사용할 수 있으며, 일부 매개변수를 사용하여 사용자 정의할 수 있습니다. 우리의 경우, 키워드의 최소 길이를 5자로 설정하고, 문서에서 키워드의 최소 빈도를 3으로 설정하며, 키워드의 최대 단어 수를 2로 설정할 것입니다. 다른 값을 시도해보고 결과를 관찰해 보세요.\n"
"주요 기능은 `Rake` 객체에서 제공되며, 몇 가지 매개변수를 사용하여 사용자화할 수 있습니다. 우리의 경우, 키워드의 최소 길이를 5자로, 문서 내 키워드의 최소 빈도를 3으로, 키워드 내 최대 단어 수를 2로 설정할 것입니다. 다른 값들로도 자유롭게 시도해보고 결과를 관찰해보세요.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"우리는 용어 목록과 그에 따른 중요도를 함께 얻었습니다. 보시다시피, 머신 러닝과 빅 데이터와 같은 가장 관련성 높은 분야들이 목록의 상위에 위치해 있습니다.\n",
"우리는 관련 중요도와 함께 용어 목록을 얻었습니다. 보시다시피, 머신 러닝 및 빅 데이터와 같은 가장 관련성 높은 분야가 목록 상단에 나타나 있습니다.\n",
"\n",
"## 4단계: 결과 시각화\n",
"## Step 4: 결과 시각화하기\n",
"\n",
"사람들은 데이터를 시각적인 형태로 가장 잘 해석할 수 있습니다. 따라서 데이터를 시각화하여 통찰을 얻는 것이 종종 합리적입니다. 우리는 Python의 `matplotlib` 라이브러리를 사용하여 키워드와 그 관련성의 간단한 분포를 그래프로 나타낼 수 있습니다:\n"
"사람들은 시각적 형태에서 데이터를 가장 잘 해석할 수 있습니다. 따라서 통찰을 얻기 위해 데이터를 시각화하는 것이 종종 의미가 있습니다. 우리는 파이썬의 `matplotlib` 라이브러리를 사용하여 키워드와 그 관련성의 간단한 분포를 그릴 수 있습니다:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"그러나 단어 빈도를 시각화하는 더 나은 방법이 있습니다 - 바로 **워드 클라우드**를 사용하는 것입니다. 키워드 목록에서 워드 클라우드를 그리기 위해 또 다른 라이브러리를 설치해야 합니다.\n"
"그러나 단어 빈도를 시각화하는 더 좋은 방법이 있습니다 - **워드 클라우드**를 사용하는 것입니다. 키워드 목록에서 워드 클라우드를 그리기 위해 또 다른 라이브러리를 설치해야 합니다.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` 객체는 원본 텍스트 또는 미리 계산된 단어와 빈도 목록을 입력으로 받아들이고, 이미지를 반환하며, 이는 `matplotlib`을 사용하여 표시할 수 있습니다:\n"
"`WordCloud` 객체는 원본 텍스트 또는 미리 계산된 단어와 빈도 목록을 입력받아 이미지를 반환하며, 이 이미지는 `matplotlib`을 사용하여 표시할 수 있습니다:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"우리는 원본 텍스트를 `WordCloud`에 전달할 수도 있습니다 - 비슷한 결과를 얻을 수 있는지 확인해 봅시다:\n"
"우리는 또한 원본 텍스트를 `WordCloud`에 전달할 수 있습니다 - 유사한 결과를 얻을 수 있는지 봅시다:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"이제 워드 클라우드가 더 인상적으로 보이지만, 동시에 많은 잡음(예: `Retrieved on`과 같은 관련 없는 단어들)도 포함되어 있습니다. 또한, *data scientist*나 *computer science*와 같은 두 단어로 이루어진 키워드가 더 적게 추출됩니다. 이는 RAKE 알고리즘이 텍스트에서 좋은 키워드를 선택하는 데 훨씬 더 뛰어난 성능을 보이기 때문입니다. 이 예시는 데이터 전처리와 정리의 중요성을 보여줍니다. 최종적으로 명확한 그림을 얻으면 더 나은 결정을 내릴 수 있기 때문입니다.\n",
"지금 단어 구름이 더 인상적으로 보이지만, 많은 노이즈(예: `Retrieved on` 같은 관련 없는 단어)도 포함되어 있습니다. 또한 *data scientist*나 *computer science*와 같이 두 단어로 구성된 키워드는 더 적게 나타납니다. 이는 RAKE 알고리즘이 텍스트에서 좋은 키워드를 선택하는 데 훨씬 더 뛰어난 성능을 보이기 때문입니다. 이 예제는 데이터 전처리와 정리의 중요성을 보여줍니다. 최종적으로 명확한 그림을 얻는 것이 더 나은 결정을 내릴 수 있게 해주기 때문입니다.\n",
"\n",
"이번 연습에서는 Wikipedia 텍스트에서 키워드와 워드 클라우드 형태로 의미를 추출하는 간단한 과정을 거쳤습니다. 이 예시는 매우 단순하지만, 데이터 과학자가 데이터를 다룰 때 거치는 전형적인 모든 단계를 잘 보여줍니다. 데이터 수집에서부터 시각화에 이르기까지 말이죠.\n",
"이번 연습에서는 키워드와 단어 구름 형태로 Wikipedia 텍스트에서 의미를 추출하는 간단한 과정을 살펴보았습니다. 이 예제는 매우 단순하지만, 데이터 과학자가 데이터를 다룰 때 취하는 일반적인 모든 단계를 잘 보여줍니다. 데이터 수집부터 시각화에 이르기까지 말입니다.\n",
"\n",
"우리 강의에서는 이러한 모든 단계를 자세히 다룰 예정입니다.\n"
"본 강의에서는 이러한 모든 단계를 자세히 다룰 것입니다.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**면책 조항**: \n이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있으나, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서의 원어 버전이 권위 있는 출처로 간주되어야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**면책 조항**: \n이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 노력하고 있지만, 자동 번역에는 오류나 부정확성이 포함될 수 있음을 유의해 주시기 바랍니다. 원문은 해당 언어로 작성된 원본 문서를 권위 있는 출처로 간주해야 합니다. 중요한 정보의 경우, 전문 인력의 인간 번역을 권장합니다. 본 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 어떠한 책임도 지지 않습니다.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
우리의 데이터는 서로 다른 선수 **포지션**에 대한 정보를 포함하고 있으므로, 포지션별로 박스 플롯을 작성할 수도 있습니다. 이를 통해 포지션별로 매개변수 값이 어떻게 다른지 알 수 있습니다. 이번에는 키를 고려해 봅시다:


이 다이어그램은 평균적으로 1루수의 키가 2루수의 키보다 더 높다는 것을 시사합니다. 이 강의 후반부에서는 이 가설을 더 공식적으로 검증하는 방법과 데이터가 통계적으로 유의미함을 보여주는 방법을 배울 것입니다.
@ -85,7 +85,7 @@
우리 데이터의 분포를 확인하려면 **히스토그램**이라는 그래프를 그릴 수 있습니다. X축에는 다양한 몸무게 구간(즉, **빈**)이 포함되고, Y축에는 해당 구간에 속한 샘플의 개수가 표시됩니다.


이 히스토그램에서 모든 값이 특정 평균 몸무게를 중심으로 집중되어 있으며, 평균에서 멀어질수록 해당 값의 몸무게가 나타날 확률이 낮아진다는 것을 알 수 있습니다. 즉, 야구 선수의 몸무게가 평균 몸무게와 크게 다를 확률은 매우 낮습니다. 몸무게의 분산은 평균에서 얼마나 벗어날 가능성이 있는지를 보여줍니다.
생성된 샘플의 히스토그램을 그리면 위에서 본 그림과 매우 유사한 모습을 볼 수 있습니다. 샘플 수와 빈 수를 늘리면 이상적인 정규 분포에 더 가까운 그림을 생성할 수 있습니다:


*평균=0, 표준 편차=1인 정규 분포*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
이 경우, 값 0.53은 사람의 체중과 키 간에 어느 정도 상관관계가 있음을 나타냅니다. 또한, 한 값을 다른 값에 대해 산점도로 나타내어 관계를 시각적으로 확인할 수 있습니다:


> 상관관계와 공분산에 대한 더 많은 예제는 [첨부된 노트북](notebook.ipynb)에서 확인할 수 있습니다.
데이터베이스는 데이터를 저장하고 쿼리 언어를 사용하여 데이터를 조회하는 데 매우 효율적인 방법을 제공하지만, 데이터 처리를 가장 유연하게 수행하는 방법은 직접 프로그램을 작성하여 데이터를 조작하는 것입니다. 많은 경우 데이터베이스 쿼리가 더 효과적인 방법일 수 있습니다. 하지만 더 복잡한 데이터 처리가 필요한 경우 SQL로 쉽게 처리할 수 없는 경우도 있습니다.
데이터 처리는 어떤 프로그래밍 언어로도 작성할 수 있지만, 데이터 작업에 있어 더 높은 수준의 언어들이 있습니다. 데이터 과학자들은 일반적으로 다음 언어들 중 하나를 선호합니다:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")


> **참고**: 단순한 문법 `total_items+additional_items`을 사용하지 않았습니다. 그렇게 하면 결과 시리즈에 많은 `NaN`(*Not a Number*) 값이 생깁니다. 이는 `additional_items` 시리즈의 일부 인덱스 포인트에 값이 없기 때문이며, `NaN`을 다른 값에 더하면 결과는 `NaN`이 됩니다. 따라서 덧셈 중에 `fill_value` 매개변수를 지정해야 합니다.
@ -84,7 +84,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```


### 데이터프레임 (DataFrame)
@ -210,7 +210,7 @@ df = pd.read_csv('file.csv')
데이터를 다루는 방법을 보여주기 위해 [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb)를 열어 처음부터 끝까지 읽어보시길 권장합니다. 셀을 실행하고, 마지막에 남겨둔 몇 가지 도전을 수행할 수도 있습니다.
> 사진 제공: <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> on <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
이 강의에서는 데이터를 관리, 조작, 그리고 애플리케이션에서 활용하는 다양한 방법을 배우게 됩니다. 관계형 및 비관계형 데이터베이스에 대해 배우고, 데이터가 어떻게 저장될 수 있는지 알아볼 것입니다. 또한, 데이터를 관리하기 위해 Python을 사용하는 기본 원리를 배우고, Python을 활용하여 데이터를 관리하고 분석하는 다양한 방법을 발견하게 될 것입니다.
✅ Seaborn은 데이터를 하나의 선으로 집계하며, "각 x 값에서 여러 측정을 평균과 평균 주변의 95% 신뢰 구간을 표시하여 플로팅합니다". [출처](https://seaborn.pydata.org/tutorial/relational.html). 이 시간 소모적인 동작은 `ci=None`을 추가하여 비활성화할 수 있습니다.
여기서는 `ggplot2` 패키지를 설치한 후 `library("ggplot2")` 명령을 사용하여 작업 공간에 가져옵니다. ggplot에서 플롯을 그리려면 `ggplot()` 함수를 사용하며 데이터셋, x 및 y 변수 등을 속성으로 지정합니다. 이 경우 선형 플롯을 그리기 위해 `geom_line()` 함수를 사용합니다.
다음 코드 스니펫에서는 데이터를 조작하고 그룹화하여 누적 막대 차트를 그리기 위해 [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8)과 [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) 패키지를 설치합니다. 먼저 새의 `Category`로 데이터를 그룹화한 후 `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` 열을 요약합니다. 그런 다음 `ggplot2` 패키지를 사용하여 막대 차트를 그리고 각 카테고리에 대한 색상과 레이블을 지정합니다.


하지만 이 막대 차트는 너무 많은 비그룹화된 데이터로 인해 읽기 어렵습니다. 플롯하려는 데이터만 선택해야 합니다. 새의 카테고리를 기준으로 길이를 살펴봅시다.
먼저 `Category` 열의 고유 값을 계산한 후 이를 새 데이터프레임 `birds_count`로 정렬합니다. 이 정렬된 데이터를 동일한 수준으로 팩터링하여 정렬된 방식으로 플롯됩니다. 그런 다음 `ggplot2`를 사용하여 데이터를 막대 차트로 플롯합니다. `coord_flip()`은 수평 막대를 플롯합니다.


보시다시피, 이 데이터셋에 포함된 400개 이상의 새들 중 대부분은 Max Body Mass가 2000 이하 범위에 속합니다. `bins` 매개변수를 30과 같은 더 높은 숫자로 변경하여 데이터를 더 자세히 살펴보세요:


최소 날개 길이와 보존 상태 간에 뚜렷한 상관관계는 없어 보입니다. 이 방법을 사용하여 데이터셋의 다른 요소를 테스트해 보세요. 다른 필터도 시도해 보세요. 상관관계를 발견할 수 있나요?
데이터 과학자가 올바른 데이터에 적합한 차트를 신중히 선택하더라도, 데이터를 특정 관점을 증명하기 위해 표시하는 과정에서 데이터 자체를 훼손하는 경우가 많습니다. 기만적인 차트와 인포그래픽의 예는 무수히 많습니다!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[이 차트](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg)는 더욱 기만적입니다. 눈은 오른쪽으로 향하며 시간이 지남에 따라 COVID 사례가 감소했다고 결론짓게 만듭니다. 하지만 날짜를 자세히 보면, 기만적인 하락 추세를 보여주기 위해 날짜가 재배열된 것을 알 수 있습니다.
비교할 수 없는 것을 비교하는 것도 또 다른 기만적인 방법입니다. [멋진 웹사이트](https://tylervigen.com/spurious-correlations)는 '허위 상관관계'를 보여주는 '사실'을 수집하며, 예를 들어 메인주의 이혼율과 마가린 소비를 상관시키는 데이터를 제공합니다. Reddit 그룹은 데이터의 [기만적인 사용](https://www.reddit.com/r/dataisugly/top/?t=all)을 수집합니다.
@ -91,13 +91,13 @@
X축에 텍스트 데이터가 길고 자세하다면, 텍스트를 각도로 조정하여 가독성을 높일 수 있습니다. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html)는 데이터가 지원하는 경우 3D 플로팅을 제공합니다. 이를 사용하여 정교한 데이터 시각화를 생성할 수 있습니다.
오늘날 최고의 데이터 시각화 중 일부는 애니메이션으로 제작됩니다. Shirley Wu는 D3를 사용하여 '[영화 꽃](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)'과 같은 놀라운 애니메이션을 만들었습니다. 각 꽃은 영화의 시각화를 나타냅니다. 또 다른 예로 Guardian의 'Bussed Out'은 NYC가 노숙자 문제를 해결하기 위해 사람들을 도시 밖으로 버스에 태워 보내는 방식을 보여주는 스크롤텔링 기사 형식과 Greensock 및 D3를 결합한 인터랙티브 경험입니다.
> "Bussed Out: How America Moves its Homeless" from [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualizations by Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ X축에 텍스트 데이터가 길고 자세하다면, 텍스트를 각도로
Vue.js와 D3를 사용하여 네트워크 시각화를 표시하는 라이브러리를 사용하여 애니메이션화된 소셜 네트워크를 보여주는 웹 앱을 완성하세요. 앱이 실행되면 화면에서 노드를 끌어 데이터를 재배열할 수 있습니다.


> 사진 제공: <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> on <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
데이터 시각화는 데이터 과학자에게 가장 중요한 작업 중 하나입니다. "이미지는 천 마디 말보다 강하다"는 말처럼, 시각화는 데이터의 스파이크, 이상치, 그룹화, 경향 등 흥미로운 부분을 식별하는 데 도움을 주며, 데이터가 전달하려는 이야기를 이해하는 데 큰 도움을 줍니다.
이번 강의에서는 생애 주기의 3가지 부분인 데이터 수집, 처리, 유지 관리에 초점을 맞춥니다.


> 사진 출처: [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## 데이터 수집
@ -88,7 +88,7 @@
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
| |  |
| |  |
| 이미지 출처: [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | 이미지 출처: [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [강의 후 퀴즈](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> 사진 제공: <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> on <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
이 강의에서는 데이터 과학 생명주기의 일부 측면, 특히 데이터 분석과 데이터에 대한 커뮤니케이션을 탐구합니다.
> 사진 제공: [Jelleke Vanooteghem](https://unsplash.com/@ilumire) / [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
빅데이터를 활용한 데이터 과학을 수행할 때, 클라우드는 게임 체인저가 될 수 있습니다. 다음 세 가지 강의에서 클라우드가 무엇인지, 그리고 왜 유용한지 알아보겠습니다. 또한 심부전 데이터셋을 탐구하고, 심부전 발생 가능성을 평가하는 데 도움을 줄 수 있는 모델을 구축할 것입니다. 클라우드의 강력한 기능을 활용하여 두 가지 방식으로 모델을 학습, 배포 및 활용할 것입니다. 첫 번째는 Low code/No code 방식으로 사용자 인터페이스만을 사용하는 방법이고, 두 번째는 Azure Machine Learning Software Developer Kit (Azure ML SDK)를 사용하는 방법입니다.
@ -32,7 +32,7 @@ AI의 민주화 덕분에 개발자들은 이제 AI 기반 의사결정과 데
* [헬스케어에서의 데이터 과학](https://data-flair.training/blogs/data-science-in-healthcare/) - 의료 영상 (예: MRI, X-Ray, CT-Scan), 유전체학 (DNA 시퀀싱), 약물 개발 (위험 평가, 성공 예측), 예측 분석 (환자 관리 및 공급 물류), 질병 추적 및 예방 등과 같은 응용 사례를 강조합니다.
 이미지 출처: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 이미지 출처: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
이 그림은 데이터 과학 기술을 적용할 수 있는 다른 도메인과 예제를 보여줍니다. 다른 응용 사례를 탐구하고 싶으신가요? 아래의 [리뷰 및 자기 학습](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) 섹션을 확인하세요.
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
마이크로소프트의 Azure Cloud Advocates는 데이터 과학에 관한 10주간 20개의 강의로 구성된 커리큘럼을 기쁘게 제공합니다. 각 강의에는 강의 전후 퀴즈, 강의를 완성하는 데 도움이 되는 서면 지침, 솔루션, 과제가 포함되어 있습니다. 프로젝트 기반 교수법을 통해 배우면서 직접 구축할 수 있어, 새로운 기술을 '정착'시키는 입증된 방법입니다.
Microsoft의 Azure Cloud Advocates는 데이터 과학에 관한 10주, 20개 레슨의 커리큘럼을 제공합니다. 각 레슨에는 사전 및 사후 퀴즈, 레슨을 완료하기 위한 서면 지침, 솔루션 및 과제가 포함되어 있습니다. 우리의 프로젝트 기반 교수법은 구축하며 배우는 방식을 제공하여 새로운 기술이 잘 습득되도록 합니다.
우리는 현재 Discord에서 AI와 함께 배우는 시리즈를 진행 중입니다. 자세히 알아보고 2025년 9월 18일부터 30일까지 [Learn with AI Series](https://aka.ms/learnwithai/discord)에서 함께하세요. GitHub Copilot을 데이터 과학에 활용하는 팁과 요령을 얻을 수 있습니다.
Discord에서 AI와 함께 배우는 시리즈가 진행 중입니다. 자세한 내용 및 참여는 [Learn with AI Series](https://aka.ms/learnwithai/discord)에서 확인하세요. 2025년 9월 18일부터 30일까지 GitHub Copilot을 활용한 데이터 과학 팁과 요령을 배울 수 있습니다.

# 학생이신가요?
다음 자료에서 시작하세요:
다음 자료들로 시작하세요:
- [학생 허브 페이지](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) 이 페이지에는 초보자를 위한 자료, 학생팩, 무료 인증 바우처 받는 방법까지 포함되어 있습니다. 매달 콘텐츠를 교체하니 즐겨찾기에 추가하고 주기적으로 확인하세요.
- [마이크로소프트 학습 학생 대사](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) 전 세계 학생 대사 커뮤니티에 참여하세요, 이것이 마이크로소프트에 들어갈 수 있는 길이 될 수 있습니다.
- [Student Hub 페이지](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) 이 페이지에서는 초보자 자료, 학생 팩, 무료 자격증 바우처를 얻는 방법 등을 확인할 수 있습니다. 매달 콘텐츠를 교체하므로 즐겨찾기에 추가하고 수시로 확인하는 것을 추천합니다.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) 전 세계 학생 대사 커뮤니티에 가입하세요. Microsoft에 진입하는 좋은 방법이 될 수 있습니다.
# 시작하기
## 📚 문서
- **[설치 가이드](INSTALLATION.md)** - 초보자를 위한 단계별 설정 안내
- **[사용 가이드](USAGE.md)** - 예제 및 자주 사용하는 워크플로우
- **[문제 해결](TROUBLESHOOTING.md)** - 일반적인 문제 해결책
- **[기여 안내](CONTRIBUTING.md)** - 이 프로젝트에 기여하는 방법
- **[교사를 위한 자료](for-teachers.md)** - 교육 지침 및 교실 자료
- **[설치 가이드](INSTALLATION.md)** - 초보자를 위한 단계별 설치 지침
- **[사용법 가이드](USAGE.md)** - 예제 및 일반 워크플로우
- **[문제 해결](TROUBLESHOOTING.md)** - 자주 발생하는 문제 해결책
- **[기여 가이드](CONTRIBUTING.md)** - 프로젝트 기여 방법
- **[교사용 자료](for-teachers.md)** - 교육 안내 및 교실 자료
## 👨🎓 학생들을 위해
> **완전 초보자**: 데이터 과학이 처음이신가요? [초보자 친화적 예제](examples/README.md)부터 시작하세요! 이 간단하고 잘 주석이 달린 예제로 기본기를 익힌 후 전체 커리큘럼에 도전할 수 있습니다.
> **[학생](https://aka.ms/student-page)** 여러분: 이 커리큘럼을 혼자 이용하려면, 저장소 전체를 포크한 뒤 강의 전 퀴즈부터 시작해 스스로 연습 문제를 완료하세요. 강의를 읽고 나머지 활동도 완료하세요. 솔루션 코드를 복사하기보다는 강의를 이해하여 직접 프로젝트를 만들어 보는 것이 좋습니다; 하지만 각 프로젝트 중심 강의의 /solutions 폴더에 솔루션 코드가 준비되어 있습니다. 또 다른 방법으로 친구들과 스터디 그룹을 만들어 함께 진행해도 좋습니다. 더 깊은 학습을 위해 [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum)을 추천합니다.
## 👨🎓 학생용
> **완전 초보자**: 데이터 과학이 처음인가요? [초보자 친화적 예제](examples/README.md)부터 시작하세요! 간단하고 주석이 잘 달린 예제들로 기본 개념을 이해한 후 전체 커리큘럼을 진행하는 데 도움이 됩니다.
> **[학생](https://aka.ms/student-page)**: 이 커리큘럼을 독학하려면 저장소를 포크(fork)한 후 사전 강의 퀴즈부터 시작해 연습문제를 완료하세요. 강의를 읽고 나머지 활동을 완료하세요. 솔루션 코드를 복사하기보다는 수업을 이해하며 프로젝트를 만들어보세요. 하지만 각 프로젝트 지향 레슨의 /solutions 폴더에서 코드가 제공됩니다. 친구들과 스터디 그룹을 만들어 함께 공부하는 것도 좋은 방법입니다. 추가 학습을 원한다면 [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum)을 추천합니다.
**빠른 시작:**
1. [설치 가이드](INSTALLATION.md)를 참고해 환경을 설정하세요
2. [사용 가이드](USAGE.md)를 검토하여 커리큘럼 활용법을 배우세요
3. 1강부터 순서대로 진행하세요
1. [설치 가이드](INSTALLATION.md)를 확인해 환경을 설정하세요
2. [사용법 가이드](USAGE.md)를 검토해 커리큘럼 활용법을 배우세요
3. 레슨 1부터 순차적으로 진행하세요
4. 지원이 필요하면 [Discord 커뮤니티](https://aka.ms/ds4beginners/discord)에 참여하세요
## 👩🏫 교사들을 위해
## 👩🏫 교사용
> **교사 여러분**: 저희는 이 교육 과정을 사용하는 방법에 대해 [몇 가지 제안](for-teachers.md)을 포함시켰습니다. [토론 포럼](https://github.com/microsoft/Data-Science-For-Beginners/discussions)에서 여러분의 피드백을 기다립니다!
> **교사분들**: 이 커리큘럼 활용법에 대한 [몇 가지 제안](for-teachers.md)을 포함했습니다. 의견이 있으시면 [토론 포럼](https://github.com/microsoft/Data-Science-For-Beginners/discussions)에서 알려주세요!
이 커리큘럼을 만들면서 두 가지 교육 원칙을 선택했습니다: 프로젝트 기반 교육과 빈번한 퀴즈 포함. 이 시리즈가 끝나면 학생들은 윤리 개념, 데이터 준비, 다양한 데이터 작업 방법, 데이터 시각화, 데이터 분석, 데이터 과학의 실제 사례 등 기본적인 데이터 과학 원리를 학습하게 됩니다.
이 커리큘럼을 구축하면서 두 가지 교육 원칙을 선택했습니다: 프로젝트 기반 학습과 빈번한 퀴즈 포함입니다. 이 시리즈가 끝나면 학생들은 윤리적 개념, 데이터 준비, 데이터 작업의 다양한 방법, 데이터 시각화, 데이터 분석, 데이터 과학의 실제 사례 등을 포함한 데이터 과학의 기본 원리를 배우게 됩니다.
또한, 수업 전의 낮은 부담 퀴즈는 학생이 학습 주제에 집중하도록 하며, 수업 후의 두 번째 퀴즈는 학습 내용을 더 잘 기억하도록 돕습니다. 이 커리큘럼은 유연하고 재미있게 설계되어 전체 또는 일부만 사용할 수 있습니다. 프로젝트는 작게 시작해 10주차에 점점 더 복잡해집니다.
또한 수업 전 낮은 부담의 퀴즈는 학생이 주제 학습에 집중하도록 동기를 부여하며, 수업 후 두 번째 퀴즈는 학습 내용의 추가 기억을 돕습니다. 이 커리큘럼은 유연하고 재미있게 설계되어 전체 또는 일부만 수강할 수 있습니다. 프로젝트는 처음에 작게 시작하여 10주 주기 종료 시점에 점점 복잡해집니다.
> **퀴즈에 관한 안내**: 모든 퀴즈는 Quiz-App 폴더에 있으며, 총 40개의 퀴즈가 각 3문제로 구성되어 있습니다. 수업 내에서 링크되어 있지만, 퀴즈 앱은 로컬에서 실행하거나 Azure에 배포할 수 있습니다. `quiz-app` 폴더 내 지침을 따르세요. 현재 점진적으로 현지화 작업이 진행 중입니다.
> **퀴즈에 관한 참고 사항**: 모든 퀴즈는 Quiz-App 폴더 내에 있으며, 총 40개 퀴즈로 각각 3문제씩 구성되어 있습니다. 강의 내에서 링크되어 있지만, 퀴즈 앱은 로컬에서 실행하거나 Azure에 배포할 수 있습니다; `quiz-app` 폴더의 지침을 따르세요. 점진적으로 현지화되고 있습니다.
## 🎓 초보자 친화적 예제
**데이터 과학이 처음인가요?** 시작하는 데 도움이 되도록 간단하고 잘 주석 처리된 코드가 담긴 특별한 [예제 디렉터리](examples/README.md)를 만들었습니다:
**데이터 과학이 처음인가요?** 간단하고 잘 주석 처리된 코드로 시작할 수 있도록 특별한 [예제 디렉터리](examples/README.md)를 만들었습니다:
- 🌟 **Hello World** - 당신의 첫 번째 데이터 과학 프로그램
- 📂 **데이터 로딩** - 데이터셋을 읽고 탐색하는 방법 배우기
- 📊 **간단한 분석** - 통계 계산과 패턴 찾기
- 📈 **기본 시각화** - 차트와 그래프 생성
- 🔬 **실제 프로젝트** - 시작부터 완료까지 전체 워크플로우
- 🌟 **Hello World** - 여러분의 첫 데이터 과학 프로그램
- 📂 **데이터 로딩** - 데이터셋 읽기 및 탐색 배우기
- 📊 **간단 분석** - 통계 계산 및 패턴 찾기
- 📈 **기초 시각화** - 차트 및 그래프 만들기
- 🔬 **실제 프로젝트** - 처음부터 끝까지 완성하는 워크플로우
각 예제에는 모든 단계를 설명하는 자세한 주석이 포함되어 있어 초보자에게 안성맞춤입니다!
각 예제에는 모든 단계를 자세히 설명하는 주석이 포함되어 있어 완전 초보자에게 안성맞춤입니다!
| 01 | 데이터 과학 정의 | [소개](1-Introduction/README.md) | 데이터 과학의 기본 개념과 인공지능, 머신러닝, 빅데이터와의 연관성을 학습한다. | [수업](1-Introduction/01-defining-data-science/README.md) [영상](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 01 | 데이터 과학 정의 | [소개](1-Introduction/README.md) | 데이터 과학의 기본 개념과 인공지능, 머신러닝, 빅데이터와의 관계를 배웁니다. | [수업](1-Introduction/01-defining-data-science/README.md) [영상](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | 데이터 과학 윤리 | [소개](1-Introduction/README.md) | 데이터 윤리 개념, 도전과제 및 프레임워크. | [수업](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | 데이터 정의 | [소개](1-Introduction/README.md) | 데이터가 어떻게 분류되고 일반적인 출처는 무엇인지. | [수업](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | 통계와 확률 소개 | [소개](1-Introduction/README.md) | 데이터 이해를 위한 확률과 통계의 수학적 기법. | [수업](1-Introduction/04-stats-and-probability/README.md) [영상](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | 관계형 데이터 작업 | [데이터 작업](2-Working-With-Data/README.md) | 관계형 데이터 소개 및 관계형 데이터 탐색·분석 기초, SQL 사용법 (발음: ‘씨퀄’). | [수업](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQL 데이터 작업 | [데이터 작업](2-Working-With-Data/README.md) | 비관계형 데이터 소개, 다양한 유형 및 문서형 데이터베이스 탐색·분석 기초. | [수업](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Python으로 작업하기 | [데이터 작업](2-Working-With-Data/README.md) | Pandas 같은 라이브러리를 사용한 데이터 탐색을 위한 Python 기초. Python 프로그래밍 기본 이해 권장. | [수업](2-Working-With-Data/07-python/README.md) [영상](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | 데이터 준비 | [데이터 작업](2-Working-With-Data/README.md) | 결측, 부정확하거나 불완전한 데이터를 처리하기 위한 클리닝 및 변환 기술. | [수업](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | 양 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | Matplotlib을 활용해 조류 데이터를 시각화하는 방법 🦆 | [수업](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | 데이터 분포 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | 구간 내 관측값과 추세 시각화. | [수업](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | 관계 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | 데이터 집합과 변수 간 연결과 상관관계 시각화. | [수업](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | 의미 있는 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | 문제 해결과 통찰에 효과적인 시각화를 위한 기법과 안내. | [수업](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | 데이터 과학 생애주기 소개 | [생애주기](4-Data-Science-Lifecycle/README.md) | 데이터 과학 생애주기 및 첫 단계인 데이터 수집과 추출 소개. | [수업](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | 분석 | [생애주기](4-Data-Science-Lifecycle/README.md) | 데이터 과학 생애주기 중 데이터 분석 기술에 초점. | [수업](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | 커뮤니케이션 | [생애주기](4-Data-Science-Lifecycle/README.md) | 의사결정자가 이해하기 쉽게 데이터로부터 얻은 통찰을 전달하는 단계. | [수업](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | 클라우드에서의 데이터 과학 | [클라우드 데이터](5-Data-Science-In-Cloud/README.md) | 클라우드에서의 데이터 과학과 그 이점 소개. | [수업](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) 및 [Maud](https://twitter.com/maudstweets) |
| 18 | 클라우드에서의 데이터 과학 | [클라우드 데이터](5-Data-Science-In-Cloud/README.md) | Low Code 도구를 사용한 모델 훈련. | [수업](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) 및 [Maud](https://twitter.com/maudstweets) |
| 19 | 클라우드에서의 데이터 과학 | [클라우드 데이터](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio를 사용한 모델 배포. | [수업](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) 및 [Maud](https://twitter.com/maudstweets) |
| 20 | 야생에서의 데이터 과학 | [야생](6-Data-Science-In-Wild/README.md) | 현실 세계에서의 데이터 과학 주도 프로젝트. | [수업](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | 데이터 정의 | [소개](1-Introduction/README.md) | 데이터 분류 방식과 주요 출처. | [수업](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | 통계 및 확률 소개 | [소개](1-Introduction/README.md) | 데이터를 이해하기 위한 확률 및 통계 수학 기법. | [수업](1-Introduction/04-stats-and-probability/README.md) [영상](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | 관계형 데이터 작업 | [데이터 작업](2-Working-With-Data/README.md) | 관계형 데이터 소개 및 SQL(“시퀄”)을 사용한 탐색과 분석 기초. | [수업](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQL 데이터 작업 | [데이터 작업](2-Working-With-Data/README.md) | 비관계형 데이터 소개, 다양한 유형과 문서 데이터베이스 탐색 및 분석 기초. | [수업](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | 파이썬으로 작업하기 | [데이터 작업](2-Working-With-Data/README.md) | Pandas 같은 라이브러리를 활용한 데이터 탐색용 Python 기초. Python 프로그래밍 기초 지식 권장. | [수업](2-Working-With-Data/07-python/README.md) [영상](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | 데이터 준비 | [데이터 작업](2-Working-With-Data/README.md) | 누락, 부정확하거나 불완전한 데이터를 처리하기 위한 데이터 정제 및 변환 기술. | [수업](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | 수량 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | Matplotlib을 사용하여 새 데이터를 시각화하는 방법 배우기 🦆 | [수업](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | 데이터 분포 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | 구간 내 관찰 및 추세 시각화. | [수업](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | 비율 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | 이산 데이터 및 그룹 비율 시각화. | [수업](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | 관계 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | 데이터 집합과 변수 간의 연관성과 상관 관계 시각화. | [수업](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | 의미 있는 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | 효과적인 문제 해결과 인사이트를 위한 유용한 시각화 기술과 지침. | [수업](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | 데이터 과학 수명 주기 소개 | [수명 주기](4-Data-Science-Lifecycle/README.md) | 데이터 과학 수명 주기 소개 및 데이터 획득 및 추출의 첫 단계. | [수업](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | 분석 | [수명 주기](4-Data-Science-Lifecycle/README.md) | 데이터 과학 수명 주기에서 데이터를 분석하는 기법에 중점. | [수업](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | 커뮤니케이션 | [수명 주기](4-Data-Science-Lifecycle/README.md) | 데이터 과학 수명 주기에서 데이터 인사이트를 의사결정자가 이해하기 쉽게 전달하는 단계. | [수업](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | 클라우드에서의 데이터 과학 | [클라우드 데이터](5-Data-Science-In-Cloud/README.md) | 클라우드에서의 데이터 과학과 그 이점을 소개하는 시리즈 강의. | [수업](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 18 | 클라우드에서의 데이터 과학 | [클라우드 데이터](5-Data-Science-In-Cloud/README.md) | 로우 코드 도구를 사용한 모델 훈련. |[수업](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 19 | 클라우드에서의 데이터 과학 | [클라우드 데이터](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio를 사용한 모델 배포. | [수업](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 20 | 현장에서의 데이터 과학 | [현장](6-Data-Science-In-Wild/README.md) | 현실 세계에서 진행되는 데이터 과학 기반 프로젝트. | [수업](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
다음 절차에 따라 이 샘플을 Codespace에서 열 수 있습니다:
이 샘플을 Codespace에서 열려면 다음 단계를 따르세요:
1. Code 드롭다운 메뉴를 클릭하고 Open with Codespaces 옵션을 선택합니다.
2. 패널 맨 아래에서 + New codespace를 선택합니다.
2. 창 하단에서 + New codespace를 선택합니다.
자세한 내용은 [GitHub 문서](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace)를 참조하세요.
## VSCode 원격 - 컨테이너
로컬 컴퓨터와 VSCode에서 VS Code Remote - Containers 확장 프로그램을 사용하여 이 저장소를 컨테이너에서 여는 방법은 다음과 같습니다:
## VSCode Remote - Containers
로컬 머신과 VSCode에서 VS Code Remote - Containers 확장을 사용해 이 저장소를 컨테이너로 열려면 다음 단계를 따르세요:
1. 개발 컨테이너를 처음 사용하는 경우, 시스템이 [시작 가이드 문서](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started)에 명시된 사전 요구사항(예: Docker 설치)을 충족하는지 확인하세요.
1. 처음 개발 컨테이너를 사용하는 경우, [시작하기 문서](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started)에 명시된 사전 요구사항(예: Docker 설치)을 충족하는지 확인하세요.
이 저장소를 사용하려면 격리된 Docker 볼륨에서 저장소를 열 수 있습니다:
**참고**: 내부적으로 Remote-Containers: **Clone Repository in Container Volume...** 명령을 사용하여 소스 코드를 로컬 파일 시스템 대신 Docker 볼륨에 복제합니다. [볼륨](https://docs.docker.com/storage/volumes/)은 컨테이너 데이터 영속성에 권장되는 방식입니다.
**참고**: 내부적으로 이 방법은 Remote-Containers: **Clone Repository in Container Volume...** 명령을 사용해 로컬 파일 시스템 대신 Docker 볼륨에 소스 코드를 복제합니다. [볼륨](https://docs.docker.com/storage/volumes/)은 컨테이너 데이터를 지속하는 권장 메커니즘입니다.
또는 로컬에서 클론하거나 다운로드한 저장소 버전을 열 수 있습니다:
또는 로컬에 복제하거나 다운로드한 저장소 버전을 열 수 있습니다:
- 이 저장소를 로컬 파일 시스템에 클론하세요.
- F1을 누르고 **Remote-Containers: Open Folder in Container...** 명령을 선택하세요.
- 클론한 폴더를 선택하고 컨테이너가 시작될 때까지 기다린 후 사용해보세요.
- 이 저장소를 로컬 파일 시스템에 복제합니다.
- F1 키를 누르고 **Remote-Containers: Open Folder in Container...** 명령을 선택합니다.
- 이 폴더의 복제본을 선택하고 컨테이너가 시작될 때까지 기다린 후 사용해보세요.
## 오프라인 접근
[Docsify](https://docsify.js.org/#/)를 사용하여 이 문서를 오프라인에서 실행할 수 있습니다. 이 저장소를 포크하고, 로컬에 [Docsify 설치](https://docsify.js.org/#/quickstart) 후, 루트 폴더에서 `docsify serve`를 입력하세요. 웹사이트가 localhost의 3000번 포트에서 실행됩니다: `localhost:3000`.
[Docsify](https://docsify.js.org/#/)를 사용해 이 문서를 오프라인에서 실행할 수 있습니다. 이 저장소를 포크하고, 로컬에서 [Docsify 설치](https://docsify.js.org/#/quickstart) 후, 이 저장소 루트 폴더에서 `docsify serve`를 입력하세요. 웹사이트는 로컬호스트 포트 3000에서 제공됩니다: `localhost:3000`.
> 참고로 노트북은 Docsify를 통해 렌더링되지 않으므로, 노트북 실행이 필요할 때는 VS Code에서 Python 커널을 실행하여 별도로 진행하세요.
> 참고: 노트북은 Docsify로 렌더링 되지 않으니, 노트북을 실행할 필요가 있을 때는 VS Code에서 Python 커널을 실행하여 별도 작업하세요.
## 기타 커리큘럼
우리 팀은 다른 커리큘럼도 제작합니다! 확인해 보세요:
저희 팀이 제작한 다른 커리큘럼도 확인해 보세요!
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Agents
### Azure / Edge / MCP / 에이전트
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
@ -235,19 +245,19 @@
## 도움 받기
**문제가 발생했나요?** 자주 발생하는 문제에 대한 해결책은 [문제 해결 가이드](TROUBLESHOOTING.md)를 확인하세요.
**문제를 겪고 계신가요?** 자주 발생하는 문제에 대한 해결책은 [문제 해결 가이드](TROUBLESHOOTING.md)에서 확인하세요.
AI 앱 개발 중 막히거나 질문이 생기면 MCP 관련 토론에 참여하세요. 질문이 환영받고 지식이 자유롭게 공유되는 지원 커뮤니티입니다.
AI 앱을 개발하시면서 막히거나 질문이 있다면, MCP에 대해 함께 학습하는 학습자 및 숙련된 개발자들과 토론에 참여하세요. 질문이 환영받고 지식이 자유롭게 공유되는 지원 커뮤니티입니다.
이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있으나, 자동 번역에는 오류나 부정확성이 있을 수 있음을 양지해 주시기 바랍니다. 원문의 원어 문서가 권위 있는 출처로 간주되어야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 본 번역의 사용으로 인해 발생하는 오해나 잘못된 해석에 대해서는 당사가 책임지지 않습니다.
**면책 조항**:
이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 당사는 정확성을 위해 최선을 다하고 있으나, 자동 번역은 오류나 부정확성을 포함할 수 있음을 유의하시기 바랍니다. 원문은 해당 언어의 원본 문서를 권위 있는 자료로 간주해야 합니다. 중요한 정보의 경우 전문적인 인간 번역을 권장합니다. 본 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다.
이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있지만, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서의 원어 버전을 권위 있는 출처로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 책임을 지지 않습니다.