chore(i18n): sync translations with latest source changes (chunk 1/1, 69 changes)

update-translations
localizeflow[bot] 2 days ago
parent 6df6c5c3a4
commit ce373b3975

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "hi"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-28T09:15:20+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "hi"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-24T21:32:36+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "hi"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-28T09:15:50+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "hi"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:15:02+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "hi"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-28T09:16:43+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "hi"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T14:55:08+00:00",
@ -360,8 +378,8 @@
"language_code": "hi"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T07:48:09+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-28T09:21:00+00:00",
"source_file": "README.md",
"language_code": "hi"
},

@ -6,7 +6,7 @@
---
[![डेटा साइंस की परिभाषा वीडियो](../../../../translated_images/hi/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![डेटा साइंस की परिभाषा वीडियो](../../../../translated_images/hi/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [प्री-लेक्चर क्विज़](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@
इस चुनौती में, हम डेटा साइंस के क्षेत्र से संबंधित अवधारणाओं को खोजने की कोशिश करेंगे, और इसके लिए हम टेक्स्ट का विश्लेषण करेंगे। हम डेटा साइंस पर एक विकिपीडिया लेख लेंगे, टेक्स्ट को डाउनलोड और प्रोसेस करेंगे, और फिर एक वर्ड क्लाउड बनाएंगे, जो इस तरह दिखेगा:
![डेटा साइंस के लिए वर्ड क्लाउड](../../../../translated_images/hi/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![डेटा साइंस के लिए वर्ड क्लाउड](../../../../translated_images/hi/ds_wordcloud.664a7c07dca57de0.webp)
कोड को पढ़ने के लिए [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') पर जाएं। आप कोड को चला सकते हैं और देख सकते हैं कि यह वास्तविक समय में सभी डेटा ट्रांसफॉर्मेशन कैसे करता है।

@ -3,15 +3,15 @@
{
"cell_type": "markdown",
"source": [
"# चुनौती: डेटा साइंस के बारे में टेक्स्ट का विश्लेषण\n",
"# चुनौती: डेटा विज्ञान से संबंधित टेक्स्ट का विश्लेषण\n",
"\n",
"इस उदाहरण में, आइए एक साधारण अभ्यास करें जो पारंपरिक डेटा साइंस प्रक्रिया के सभी चरणों को कवर करता है। आपको कोई कोड लिखने की आवश्यकता नहीं है, आप केवल नीचे दिए गए सेल्स पर क्लिक करके उन्हें निष्पादित कर सकते हैं और परिणाम देख सकते हैं। एक चुनौती के रूप में, आप इस कोड को अलग-अलग डेटा के साथ आज़माने के लिए प्रोत्साहित किए जाते हैं।\n",
"इस उदाहरण में, आइए एक सरल अभ्यास करें जो पारंपरिक डेटा विज्ञान प्रक्रिया के सभी चरणों को कवर करता है। आपको कोई कोड लिखने की आवश्यकता नहीं है, आप केवल नीचे दिए गए सेल्स पर क्लिक करके उन्हें निष्पादित कर सकते हैं और परिणाम देख सकते हैं। एक चुनौती के रूप में, आपको इस कोड को विभिन्न डेटा के साथ आज़माने के लिए प्रोत्साहित किया जाता है।\n",
"\n",
"## लक्ष्य\n",
"\n",
"इस पाठ में, हमने डेटा साइंस से संबंधित विभिन्न अवधारणाओं पर चर्चा की है। आइए कुछ **टेक्स्ट माइनिंग** करके अधिक संबंधित अवधारणाओं की खोज करने की कोशिश करें। हम डेटा साइंस के बारे में एक टेक्स्ट से शुरुआत करेंगे, उसमें से कीवर्ड निकालेंगे, और फिर परिणाम को विज़ुअलाइज़ करने की कोशिश करेंगे।\n",
"इस पाठ में, हमने डेटा विज्ञान से संबंधित विभिन्न अवधारणाओं पर चर्चा की है। आइए कुछ **टेक्स्ट माइनिंग** करके अधिक संबंधित अवधारणाओं की खोज करने का प्रयास करें। हम डेटा विज्ञान के बारे में एक टेक्स्ट से शुरू करेंगे, उससे कीवर्ड निकालेंगे, और फिर परिणाम को दृश्य रूप में प्रदर्शित करने का प्रयास करेंगे।\n",
"\n",
"टेक्स्ट के रूप में, मैं विकिपीडिया पर डेटा साइंस के पेज का उपयोग करूंगा:\n"
"एक टेक्स्ट के रूप में, मैं विकिपीडिया के डेटा विज्ञान पृष्ठ का उपयोग करूंगा:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## चरण 1: डेटा प्राप्त करना\n",
"## Step 1: डेटा प्राप्त करना\n",
"\n",
"हर डेटा साइंस प्रक्रिया का पहला चरण डेटा प्राप्त करना होता है। हम इसे करने के लिए `requests` लाइब्रेरी का उपयोग करेंगे:\n"
"हर डेटा विज्ञान प्रक्रिया में पहला कदम डेटा प्राप्त करना होता है। हम इसे करने के लिए `requests` लाइब्रेरी का उपयोग करेंगे:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## चरण 2: डेटा को रूपांतरित करना\n",
"## Step 2: डेटा को परिवर्तित करना\n",
"\n",
"अगला कदम डेटा को उस रूप में बदलना है जो प्रोसेसिंग के लिए उपयुक्त हो। हमारे मामले में, हमने पेज से HTML स्रोत कोड डाउनलोड किया है, और हमें इसे साधारण टेक्स्ट में बदलने की आवश्यकता है।\n",
"अगला कदम डेटा को उस रूप में परिवर्तित करना है जो संसाधित करने के लिए उपयुक्त हो। हमारे मामले में, हमने पेज से HTML स्रोत कोड डाउनलोड किया है, और हमें इसे सामान्य पाठ में परिवर्तित करना है।\n",
"\n",
"यह कई तरीकों से किया जा सकता है। हम Python के बिल्ट-इन [HTMLParser](https://docs.python.org/3/library/html.parser.html) ऑब्जेक्ट का सबसे सरल उपयोग करेंगे। हमें `HTMLParser` क्लास को सबक्लास करना होगा और ऐसा कोड परिभाषित करना होगा जो HTML टैग्स के अंदर का सारा टेक्स्ट इकट्ठा करेगा, लेकिन `<script>` और `<style>` टैग्स को छोड़कर।\n"
"इसे करने के कई तरीके हैं। हम [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), एक लोकप्रिय पायथन पुस्तकालय जो HTML पार्सिंग के लिए है, का उपयोग करेंगे। BeautifulSoup हमें विशिष्ट HTML तत्वों को लक्षित करने की अनुमति देता है, ताकि हम विकिपीडिया के मुख्य लेख की सामग्री पर ध्यान केंद्रित कर सकें और कुछ नेविगेशन मेनू, साइडबार, फुटर, और अन्य अप्रासंगिक सामग्री को कम कर सकें (हालांकि कुछ बोइलरप्लेट पाठ अभी भी रह सकता है)।\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"सबसे पहले, हमें HTML पार्सिंग के लिए BeautifulSoup लाइब्रेरी को इंस्टॉल करना होगा:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## चरण 3: जानकारी प्राप्त करना\n",
"## Step 3: इनसाइट्स प्राप्त करना\n",
"\n",
"सबसे महत्वपूर्ण कदम यह है कि हमारे डेटा को ऐसी रूपरेखा में बदलें जिससे हम जानकारी प्राप्त कर सकें। हमारे मामले में, हम टेक्स्ट से कीवर्ड निकालना चाहते हैं और देखना चाहते हैं कि कौन से कीवर्ड अधिक महत्वपूर्ण हैं।\n",
"सबसे महत्वपूर्ण कदम हमारे डेटा को ऐसी किसी रूप में परिवर्तित करना है जिससे हम इनसाइट्स निकाल सकें। हमारे मामले में, हम टेक्स्ट से कीवर्ड निकालना चाहते हैं, और देखना चाहते हैं कि कौन से कीवर्ड अधिक महत्वपूर्ण हैं।\n",
"\n",
"हम कीवर्ड निकालने के लिए [RAKE](https://github.com/aneesha/RAKE) नामक Python लाइब्रेरी का उपयोग करेंगे। सबसे पहले, यदि यह लाइब्रेरी पहले से मौजूद नहीं है, तो इसे इंस्टॉल करें:\n"
"हम कीवर्ड एक्स्ट्रैक्शन के लिए Python लाइब्रेरी [RAKE](https://github.com/aneesha/RAKE) का उपयोग करेंगे। सबसे पहले, अगर यह लाइब्रेरी मौजूद नहीं है तो इसे इंस्टॉल करते हैं: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"मुख्य कार्यक्षमता `Rake` ऑब्जेक्ट से उपलब्ध है, जिसे हम कुछ पैरामीटर का उपयोग करके अनुकूलित कर सकते हैं। हमारे मामले में, हम एक कीवर्ड की न्यूनतम लंबाई 5 अक्षरों तक, दस्तावेज़ में एक कीवर्ड की न्यूनतम आवृत्ति 3 तक, और एक कीवर्ड में अधिकतम शब्दों की संख्या 2 तक सेट करेंगे। अन्य मानों के साथ प्रयोग करने और परिणाम देखने के लिए स्वतंत्र महसूस करें।\n"
"मुख्य कार्यक्षमता `Rake` वस्तु से उपलब्ध है, जिसे हम कुछ पैरामीटर का उपयोग करके अनुकूलित कर सकते हैं। हमारे मामले में, हम एक कुंजीशब्द की न्यूनतम लंबाई 5 अक्षरों, दस्तावेज़ में एक कुंजीशब्द की न्यूनतम आवृत्ति 3 और एक कुंजीशब्द में शब्दों की अधिकतम संख्या को 2 सेट करेंगे। अन्य मानों के साथ खेलने के लिए स्वतंत्र महसूस करें और परिणाम देखें।\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"हमें महत्व के स्तर के साथ एक सूची प्राप्त हुई है। जैसा कि आप देख सकते हैं, सबसे प्रासंगिक विषय, जैसे मशीन लर्निंग और बिग डेटा, सूची में शीर्ष स्थानों पर मौजूद हैं।\n",
"हमने एक शब्दों की सूची प्राप्त की है जिसमें संबंधित महत्व का डिग्री भी शामिल है। जैसा कि आप देख सकते हैं, सबसे प्रासंगिक विषय, जैसे मशीन लर्निंग और बिग डेटा, सूची में शीर्ष स्थानों पर मौजूद हैं।\n",
"\n",
"## चरण 4: परिणाम को विज़ुअलाइज़ करना\n",
"## चरण 4: परिणाम का दृश्याकरण\n",
"\n",
"लोग डेटा को सबसे अच्छे तरीके से विज़ुअल फॉर्म में समझ सकते हैं। इसलिए, अक्सर डेटा को विज़ुअलाइज़ करना समझदारी होती है ताकि कुछ अंतर्दृष्टि प्राप्त की जा सके। हम Python में `matplotlib` लाइब्रेरी का उपयोग करके कीवर्ड्स के महत्व के साथ उनकी सरल वितरण को प्लॉट कर सकते हैं:\n"
"लोग डेटा को सबसे बेहतर दृश्य रूप में समझ पाते हैं। इसलिए अक्सर कुछ अंतर्दृष्टि प्राप्त करने के लिए डेटा को दृश्य रूप में प्रस्तुत करना समझदारी होती है। हम Python में `matplotlib` लाइब्रेरी का उपयोग करके कीवर्ड्स के प्रासंगिकता के साथ सरल वितरण को प्लॉट कर सकते हैं:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"हालांकि, शब्द आवृत्तियों को देखने का एक और बेहतर तरीका है - **वर्ड क्लाउड** का उपयोग करना। हमें अपनी कीवर्ड सूची से वर्ड क्लाउड बनाने के लिए एक और लाइब्रेरी इंस्टॉल करनी होगी।\n"
"हालांकि, शब्द आवृत्तियों का दृश्यांकन करने का एक और भी बेहतर तरीका है - **Word Cloud** का उपयोग करना। हमें अपनी कीवर्ड सूची से वर्ड क्लाउड प्लॉट करने के लिए एक और लाइब्रेरी स्थापित करनी होगी।\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` ऑब्जेक्ट मूल पाठ या पहले से गणना की गई शब्दों की सूची उनके आवृत्तियों के साथ लेता है, और एक छवि लौटाता है, जिसे फिर `matplotlib` का उपयोग करके प्रदर्शित किया जा सकता है:\n"
"`WordCloud` ऑब्जेक्ट मूल टेक्स्ट या पहले से गणना किए गए शब्दों की आवृत्तियों वाली सूची को इनपुट के रूप में लेता है, और एक छवि लौटाता है, जिसे फिर `matplotlib` का उपयोग करके प्रदर्शित किया जा सकता है:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"हम मूल पाठ को `WordCloud` में भी पास कर सकते हैं - आइए देखें कि क्या हम समान परिणाम प्राप्त कर सकते हैं:\n"
"हम `WordCloud` में मूल पाठ भी पास कर सकते हैं - चलिए देखते हैं कि क्या हम समान परिणाम प्राप्त कर पाते हैं:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"आप देख सकते हैं कि अब वर्ड क्लाउड अधिक प्रभावशाली दिखता है, लेकिन इसमें बहुत सारा शोर भी है (जैसे कि `Retrieved on` जैसे असंबंधित शब्द)। साथ ही, हमें दो शब्दों वाले कीवर्ड कम मिलते हैं, जैसे *data scientist* या *computer science*। इसका कारण यह है कि RAKE एल्गोरिदम टेक्स्ट से अच्छे कीवर्ड चुनने में बेहतर काम करता है। यह उदाहरण डेटा प्री-प्रोसेसिंग और क्लीनिंग के महत्व को दर्शाता है, क्योंकि अंत में स्पष्ट तस्वीर हमें बेहतर निर्णय लेने में मदद करेगी।\n",
"आप देख सकते हैं कि वर्ड क्लाउड अब अधिक प्रभावशाली दिखता है, लेकिन इसमें बहुत सारा शोर भी होता है (जैसे कि अप्रासंगिक शब्द जैसे `Retrieved on`)। साथ ही, हमें दो शब्दों वाले कम कीवर्ड मिलते हैं, जैसे *data scientist*, या *computer science*। ऐसा इसलिए है क्योंकि RAKE एल्गोरिद्म टेक्स्ट से अच्छे कीवर्ड चुनने में बेहतर काम करता है। यह उदाहरण डेटा प्री-प्रोसेसिंग और सफाई के महत्व को दर्शाता है, क्योंकि अंत में स्पष्ट तस्वीर हमें बेहतर निर्णय लेने में सक्षम बनाएगी।\n",
"\n",
"इस अभ्यास में हमने Wikipedia टेक्स्ट से कुछ अर्थ निकालने की एक सरल प्रक्रिया को देखा, कीवर्ड और वर्ड क्लाउड के रूप में। यह उदाहरण काफी सरल है, लेकिन यह उन सभी सामान्य चरणों को अच्छी तरह से प्रदर्शित करता है, जिन्हें एक डेटा वैज्ञानिक डेटा के साथ काम करते समय अपनाता है, डेटा अधिग्रहण से लेकर विज़ुअलाइज़ेशन तक।\n",
"इस अभ्यास में हमने विकिपीडिया टेक्स्ट से कीवर्ड और वर्ड क्लाउड के रूप में कुछ अर्थ निकालने की एक सरल प्रक्रिया देखी। यह उदाहरण बहुत सरल है, लेकिन यह उन सभी सामान्य कदमों को अच्छी तरह से दिखाता है जो एक डेटा साइंटिस्ट डेटा के साथ काम करते समय उठाता है, डेटा अधिग्रहण से लेकर विज़ुअलाइज़ेशन तक।\n",
"\n",
"हमारे कोर्स में हम इन सभी चरणों पर विस्तार से चर्चा करेंगे।\n"
"हमारे कोर्स में हम इन सभी कदमों को विस्तार से चर्चा करेंगे।\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**अस्वीकरण**: \nयह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**अस्वीकरण**: \nयह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयासरत हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियाँ या गलतियाँ हो सकती हैं। मूल दस्तावेज़ अपनी मातृभाषा में ही अधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानवीय अनुवाद की सलाह दी जाती है। हम इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए उत्तरदायी नहीं हैं।\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:34:04+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "hi"
}
},
"nbformat": 4,

@ -3,17 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# चुनौती: डेटा साइंस के बारे में टेक्स्ट का विश्लेषण करना\n",
"# चुनौती: डेटा साइंस के बारे में टेक्स्ट का विश्लेषण\n",
"\n",
"> *इस नोटबुक में, हम मशीन लर्निंग पर विकिपीडिया लेख का उपयोग करके विभिन्न URL के साथ प्रयोग करते हैं। आप देख सकते हैं कि, डेटा साइंस के विपरीत, इस लेख में कई तकनीकी शब्द हैं, जिससे विश्लेषण अधिक चुनौतीपूर्ण हो जाता है। हमें कीवर्ड एक्सट्रैक्शन के बाद डेटा को साफ करने का एक और तरीका ढूंढना होगा, ताकि कुछ सामान्य लेकिन अर्थहीन शब्द संयोजनों को हटाया जा सके।*\n",
"> *इस नोटबुक में, हम विभिन्न URL - मशीन लर्निंग पर विकिपीडिया लेख का उपयोग करने का प्रयोग करते हैं। आप देख सकते हैं कि, डेटा साइंस के विपरीत, इस लेख में कई शब्दावली हैं, जिससे विश्लेषण और भी जटिल हो जाता है। हमें कीवर्ड एक्सट्रैक्शन करने के बाद डेटा को साफ करने के लिए एक और तरीका निकालना होगा, ताकि कुछ सामान्य लेकिन अर्थहीन शब्द संयोजनों से छुटकारा पाया जा सके।*\n",
"\n",
"इस उदाहरण में, चलिए एक साधारण अभ्यास करते हैं जो पारंपरिक डेटा साइंस प्रक्रिया के सभी चरणों को कवर करता है। आपको कोई कोड लिखने की आवश्यकता नहीं है, आप बस नीचे दिए गए सेल्स पर क्लिक करके उन्हें निष्पादित कर सकते हैं और परिणाम देख सकते हैं। एक चुनौती के रूप में, आप इस कोड को अलग-अलग डेटा के साथ आजमाने के लिए प्रोत्साहित किए जाते हैं।\n",
"इस उदाहरण में, चल एक साधारण अभ्यास करते हैं जो पारंपरिक डेटा साइंस प्रक्रिया के सभी चरणों को कवर करता है। आपको कोई कोड लिखने की आवश्यकता नहीं है, आप नीचे कोष्ठकों पर क्लिक करके उन्हें निष्पादित कर सकते हैं और परिणाम देख सकते हैं। एक चुनौती के रूप में, आप प्रोत्साहित किए जाते हैं कि आप इस कोड को विभिन्न डेटा के साथ आजमाएं।\n",
"\n",
"## उद्देश्य\n",
"## लक्ष्य\n",
"\n",
"इस पाठ में, हमने डेटा साइंस से संबंधित विभिन्न अवधारणाओं पर चर्चा की है। चलिए **टेक्स्ट माइनिंग** करके और अधिक संबंधित अवधारणाओं की खोज करने की कोशिश करते हैं। हम डेटा साइंस के बारे में एक टेक्स्ट से शुरुआत करेंगे, उससे कीवर्ड निकालेंगे, और फिर परिणाम को विज़ुअलाइज़ करने की कोशिश करेंगे।\n",
"इस पाठ में, हमने डेटा साइंस से संबंधित विभिन्न अवधारणाओं पर चर्चा की है। चलो कुछ **टेक्स्ट माइनिंग** करके और संबंधित अवधारणाओं की खोज करने की कोशिश करते हैं। हम डेटा साइंस पर एक टेक्स्ट से शुरू करेंगे, उसमें से कीवर्ड निकालेंगे, और फिर परिणाम को विज़ुअलाइज़ करने की कोशिश करेंगे।\n",
"\n",
"टेक्स्ट के रूप में, मैं विकिपीडिया पर डेटा साइंस के पेज का उपयोग करूंगा:\n"
"एक टेक्स्ट के रूप में, मैं विकिपीडिया से डेटा साइंस का पृष्ठ उपयोग करूंगा:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## चरण 1: डेटा प्राप्त करना\n",
"## Step 1: डेटा प्राप्त करना\n",
"\n",
"हर डेटा साइंस प्रक्रिया का पहला चरण डेटा प्राप्त करना होता है। इसके लिए हम `requests` लाइब्रेरी का उपयोग करेंगे:\n"
"हर डेटा साइंस प्रक्रिया का पहला चरण डेटा प्राप्त करना होता है। हम इसके लिए `requests` लाइब्रेरी का उपयोग करेंगे:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## चरण 2: डेटा को रूपांतरित करना\n",
"## Step 2: डेटा को रूपांतरित करना\n",
"\n",
"अगला चरण डेटा को उस रूप में बदलना है जो प्रोसेसिंग के लिए उपयुक्त हो। हमारे मामले में, हमने पेज से HTML स्रोत कोड डाउनलोड किया है, और हमें इसे सादे टेक्स्ट में बदलने की आवश्यकता है।\n",
"अगला कदम डेटा को उस रूप में बदलना है जो संसाधन के लिए उपयुक्त हो। हमारे मामले में, हमने पेज से HTML स्रोत कोड डाउनलोड किया है, और हमें इसे प्लेन टेक्स्ट में बदलना है।\n",
"\n",
"यह कई तरीकों से किया जा सकता है। हम Python के सबसे सरल बिल्ट-इन [HTMLParser](https://docs.python.org/3/library/html.parser.html) ऑब्जेक्ट का उपयोग करेंगे। हमें `HTMLParser` क्लास को सबक्लास करना होगा और ऐसा कोड परिभाषित करना होगा जो HTML टैग्स के अंदर के सभी टेक्स्ट को इकट्ठा करेगा, लेकिन `<script>` और `<style>` टैग्स को छोड़कर।\n"
"इसे करने के कई तरीके हैं। हम [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), HTML पार्सिंग के लिए एक लोकप्रिय पायथन लाइब्रेरी, का उपयोग करेंगे। BeautifulSoup हमें विशिष्ट HTML तत्वों को लक्षित करने की अनुमति देता है, ताकि हम विकिपीडिया के मुख्य लेख सामग्री पर ध्यान केंद्रित कर सकें और कुछ नेविगेशन मेनू, साइडबार, फुटर्स, और अन्य अप्रासंगिक सामग्री को कम कर सकें (हालांकि कुछ बॉयलरप्लेट टेक्स्ट अभी भी रह सकता है)।\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"पहले, हमें HTML पार्सिंग के लिए BeautifulSoup लाइब्रेरी स्थापित करनी होगी:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## चरण 3: जानकारी प्राप्त करना\n",
"## Step 3: इनसाइट्स प्राप्त करना\n",
"\n",
"सबसे महत्वपूर्ण चरण यह है कि हम अपने डेटा को ऐसी स्थिति में बदलें जिससे हम जानकारी प्राप्त कर सकें। हमारे मामले में, हम टेक्स्ट से कीवर्ड निकालना चाहते हैं और देखना चाहते हैं कि कौन से कीवर्ड अधिक महत्वपूर्ण हैं।\n",
"सबसे महत्वपूर्ण चरण यह है कि हमारे डेटा को उस रूप में बदलना जिससे हम इनसाइट्स निकाल सकें। हमारे मामले में, हम टेक्स्ट से कीवर्ड निकालना चाहते हैं, और देखना चाहते हैं कि कौन से कीवर्ड ज्यादा मायने रखते हैं।\n",
"\n",
"हम कीवर्ड निकालने के लिए [RAKE](https://github.com/aneesha/RAKE) नामक Python लाइब्रेरी का उपयोग करेंगे। सबसे पहले, यदि यह लाइब्रेरी पहले से मौजूद नहीं है, तो इसे इंस्टॉल करें:\n"
"हम कीवर्ड निकालने के लिए Python लाइब्रेरी [RAKE](https://github.com/aneesha/RAKE) का उपयोग करेंगे। सबसे पहले, यदि यह लाइब्रेरी मौजूद नहीं है तो इसे इंस्टॉल करें:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"मुख्य कार्यक्षमता `Rake` ऑब्जेक्ट से उपलब्ध है, जिसे हम कुछ पैरामीटर का उपयोग करके अनुकूलित कर सकते हैं। हमारे मामले में, हम एक कीवर्ड की न्यूनतम लंबाई 5 अक्षरों, दस्तावेज़ में एक कीवर्ड की न्यूनतम आवृत्ति 3, और एक कीवर्ड में अधिकतम शब्दों की संख्या - 2 पर सेट करेंगे। अन्य मानों के साथ प्रयोग करने और परिणाम देखने के लिए स्वतंत्र महसूस करें।\n"
"मुख्य कार्यक्षमता `Rake` ऑब्जेक्ट से प्राप्त होती है, जिसे हम कुछ पैरामीटर का उपयोग करके अनुकूलित कर सकते हैं। हमारे मामले में, हम कीवर्ड की न्यूनतम लंबाई 5 अक्षरों तक सेट करेंगे, दस्तावेज़ में कीवर्ड की न्यूनतम आवृत्ति 3 तक, और कीवर्ड में शब्दों की अधिकतम संख्या - 2 तक। अन्य मानों के साथ प्रयोग करने में संकोच न करें और परिणाम देखें।\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"हमें महत्व के स्तर के साथ एक सूची प्राप्त हुई है। जैसा कि आप देख सकते हैं, सबसे प्रासंगिक विषय, जैसे मशीन लर्निंग और बिग डेटा, सूची में शीर्ष स्थानों पर मौजूद हैं।\n",
"हमने महत्वपूर्णता की डिग्री के साथ शब्दों की एक सूची प्राप्त की। जैसा कि आप देख सकते हैं, सबसे प्रासंगिक विषय, जैसे मशीन लर्निंग और बिग डेटा, सूची में शीर्ष स्थानों पर मौजूद हैं।\n",
"\n",
"## चरण 4: परिणाम को विज़ुअलाइज़ करना\n",
"## चरण 4: परिणाम का दृश्यांकन\n",
"\n",
"लोग डेटा को सबसे अच्छे तरीके से विज़ुअल फॉर्म में समझ सकते हैं। इसलिए, अक्सर डेटा को विज़ुअलाइज़ करना समझदारी होती है ताकि कुछ अंतर्दृष्टि प्राप्त की जा सके। हम Python में `matplotlib` लाइब्रेरी का उपयोग करके कीवर्ड्स के महत्व के साथ उनकी सरल वितरण को प्लॉट कर सकते हैं:\n"
"लोग डेटा को सबसे अच्छा दृश्य रूप में समझ सकते हैं। इसलिए कुछ अंतर्दृष्टियाँ प्राप्त करने के लिए अक्सर डेटा का दृश्यांकन करना समझदारी होती है। हम Python में `matplotlib` लाइब्रेरी का उपयोग करके मुख्य शब्दों के प्रासंगिकता के साथ सरल वितरण को प्लॉट कर सकते हैं:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"हालाकि, शब्द आवृत्तियों को देखने का एक और बेहतर तरीका है - **वर्ड क्लाउड** का उपयोग करना। हमें अपनी कीवर्ड सूची से वर्ड क्लाउड बनाने के लिए एक और लाइब्रेरी इंस्टॉल करनी होगी।\n"
"हालाकि, शब्द आवृत्तियों को देखने का एक और भी बेहतर तरीका है - **वर्ड क्लाउड** का उपयोग करना। हमारे कीवर्ड सूची से वर्ड क्लाउड को प्लॉट करने के लिए हमें एक और लाइब्रेरी इंस्टॉल करनी होगी।\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` ऑब्जेक्ट मूल पाठ या पूर्व-गणना किए गए शब्दों की सूची उनके आवृत्तियों के साथ लेता है, और एक छवि लौटाता है, जिसे फिर `matplotlib` का उपयोग करके प्रदर्शित किया जा सकता है:\n"
"`WordCloud` ऑब्जेक्ट मूल टेक्स्ट या पूर्व-गणना किए गए शब्दों की आवृत्तियों की सूची को स्वीकार करने के लिए जिम्मेदार होता है, और एक छवि लौटाता है, जिसे फिर `matplotlib` का उपयोग करके प्रदर्शित किया जा सकता है:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"हम मूल पाठ को `WordCloud` में भी पास कर सकते हैं - आइए देखें कि क्या हम समान परिणाम प्राप्त कर पाते हैं:\n"
"हम `WordCloud` में मूल पाठ भी पास कर सकते हैं - चलिए देखते हैं कि क्या हमें समान परिणाम मिल पाता है:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"आप देख सकते हैं कि अब वर्ड क्लाउड अधिक प्रभावशाली दिखता है, लेकिन इसमें बहुत सारा शोर भी है (जैसे कि `Retrieved on` जैसे असंबंधित शब्द)। साथ ही, हमें दो शब्दों वाले कीवर्ड कम मिलते हैं, जैसे *data scientist* या *computer science*। इसका कारण यह है कि RAKE एल्गोरिदम टेक्स्ट से अच्छे कीवर्ड चुनने में बेहतर काम करता है। यह उदाहरण डेटा प्री-प्रोसेसिंग और क्लीनिंग के महत्व को दर्शाता है, क्योंकि अंत में स्पष्ट तस्वीर हमें बेहतर निर्णय लेने में मदद करेगी।\n",
"आप देख सकते हैं कि अब वर्ड क्लाउड अधिक प्रभावशाली दिखता है, लेकिन इसमें बहुत अधिक शोर भी शामिल है (जैसे कि `Retrieved on` जैसे असंबंधित शब्द)। साथ ही, हमें कम कीवर्ड मिलते हैं जो दो शब्दों से बने होते हैं, जैसे *data scientist*, या *computer science*। इसका कारण यह है कि RAKE एल्गोरिदम टेक्स्ट से अच्छे कीवर्ड चुनने में बेहतर काम करता है। यह उदाहरण डेटा प्री-प्रोसेसिंग और सफाई के महत्व को दर्शाता है, क्योंकि अंत में स्पष्ट छवि हमें बेहतर निर्णय लेने की अनुमति देगी।\n",
"\n",
"इस अभ्यास में हमने Wikipedia टेक्स्ट से कुछ अर्थ निकालने की एक सरल प्रक्रिया को देखा, कीवर्ड और वर्ड क्लाउड के रूप में। यह उदाहरण काफी सरल है, लेकिन यह उन सभी सामान्य चरणों को अच्छी तरह से प्रदर्शित करता है, जिन्हें एक डेटा वैज्ञानिक डेटा के साथ काम करते समय अपनाता है, डेटा अधिग्रहण से लेकर विज़ुअलाइज़ेशन तक।\n",
"इस अभ्यास में हमने विकिपीडिया टेक्स्ट से कुछ अर्थ निकालने की एक सरल प्रक्रिया से गुजरते हुए कीवर्ड और वर्ड क्लाउड के रूप में जानकारी प्राप्त की। यह उदाहरण काफी सरल है, लेकिन यह अच्छी तरह से सभी सामान्य चरणों को प्रदर्शित करता है जो एक डेटा वैज्ञानिक डेटा के साथ काम करते समय अपनाएगा, डेटा अधिग्रहण से लेकर विज़ुअलाइज़ेशन तक।\n",
"\n",
"हमारे कोर्स में हम न सभी चरणों पर विस्तार से चर्चा करेंगे।\n"
"हमारे कोर्स में हम न सभी चरणों पर विस्तार से चर्चा करेंगे।\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**अस्वीकरण**: \nयह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**अस्वीकरण**: \nयह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयासरत हैं, कृपया इस बात का ध्यान रखें कि स्वचालित अनुवाद में त्रुटियाँ या गलतियां हो सकती हैं। मूल दस्तावेज़ अपनी मूल भाषा में आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए पेशेवर मानव अनुवाद का सुझाव दिया जाता है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:46:00+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "hi"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
सांख्यिकी और संभाव्यता सिद्धांत गणित के दो अत्यधिक संबंधित क्षेत्र हैं जो डेटा विज्ञान के लिए बहुत प्रासंगिक हैं। गणित का गहन ज्ञान न होने पर भी डेटा के साथ काम करना संभव है, लेकिन कुछ बुनियादी अवधारणाओं को जानना हमेशा बेहतर होता है। यहां हम एक छोटा सा परिचय प्रस्तुत करेंगे जो आपको शुरुआत करने में मदद करेगा।
[![परिचय वीडियो](../../../../translated_images/hi/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![परिचय वीडियो](../../../../translated_images/hi/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [पूर्व-व्याख्यान क्विज़](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
हम केवल वेरिएबल के किसी दिए गए मानों के अंतराल में गिरने की संभावना के बारे में बात कर सकते हैं, जैसे P(t<sub>1</sub>≤X<t<sub>2</sub>)। इस मामले में, संभाव्यता वितरण को **संभाव्यता घनत्व फ़ंक्शन** p(x) द्वारा वर्णित किया जाता है, ताकि
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/hi/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/hi/probability-density.a8aad29f17a14afb.webp)
यूनिफॉर्म वितरण का कंटीन्यस समकक्ष **कंटीन्यस यूनिफॉर्म** कहलाता है, जो एक सीमित अंतराल पर परिभाषित होता है। संभावना कि मान X लंबाई l के अंतराल में गिरता है, l के समानुपाती होती है और 1 तक बढ़ती है।
@ -73,11 +73,11 @@
यहां हमारे डेटा के लिए माध्य, माध्यिका और क्वारटाइल्स दिखाने वाला बॉक्स प्लॉट है:
![वजन बॉक्स प्लॉट](../../../../translated_images/hi/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![वजन बॉक्स प्लॉट](../../../../translated_images/hi/weight-boxplot.1dbab1c03af26f8a.webp)
चूंकि हमारे डेटा में विभिन्न खिलाड़ी **भूमिकाओं** की जानकारी है, हम भूमिका के अनुसार भी बॉक्स प्लॉट बना सकते हैं - यह हमें यह विचार करने की अनुमति देगा कि भूमिकाओं के बीच पैरामीटर मान कैसे भिन्न होते हैं। इस बार हम ऊंचाई पर विचार करेंगे:
![भूमिका के अनुसार बॉक्स प्लॉट](../../../../translated_images/hi/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![भूमिका के अनुसार बॉक्स प्लॉट](../../../../translated_images/hi/boxplot_byrole.036b27a1c3f52d42.webp)
यह आरेख सुझाव देता है कि, औसतन, पहले बेसमैन की ऊंचाई दूसरे बेसमैन की ऊंचाई से अधिक है। इस पाठ में बाद में हम सीखेंगे कि इस परिकल्पना को अधिक औपचारिक रूप से कैसे परीक्षण किया जा सकता है, और यह प्रदर्शित करने के लिए कि हमारे डेटा सांख्यिकीय रूप से महत्वपूर्ण है।
@ -85,7 +85,7 @@
हमारे डेटा का वितरण कैसा है, यह देखने के लिए हम **हिस्टोग्राम** नामक एक ग्राफ़ बना सकते हैं। X-अक्ष में विभिन्न वजन अंतराल (जिसे **बिन्स** कहा जाता है) की संख्या होगी, और वर्टिकल अक्ष दिखाएगा कि हमारा रैंडम वेरिएबल नमूना दिए गए अंतराल में कितनी बार था।
![वास्तविक दुनिया के डेटा का हिस्टोग्राम](../../../../translated_images/hi/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![वास्तविक दुनिया के डेटा का हिस्टोग्राम](../../../../translated_images/hi/weight-histogram.bfd00caf7fc30b14.webp)
इस हिस्टोग्राम से आप देख सकते हैं कि सभी मान एक निश्चित माध्य वजन के आसपास केंद्रित हैं, और जैसे-जैसे हम उस वजन से दूर जाते हैं - उस मान के वजन कम बार मिलते हैं। यानी, यह बहुत ही असंभावित है कि बेसबॉल खिलाड़ी का वजन माध्य वजन से बहुत अलग होगा। वजन का विचरण दिखाता है कि वजन माध्य से कितना भिन्न होने की संभावना है।
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
यदि हम उत्पन्न नमूनों का हिस्टोग्राम बनाते हैं, तो हम ऊपर दिखाए गए चित्र के समान चित्र देखेंगे। और यदि हम नमूनों की संख्या और बिन्स की संख्या बढ़ाते हैं, तो हम नॉर्मल वितरण की एक अधिक आदर्श तस्वीर उत्पन्न कर सकते हैं:
![माध्य=0 और मानक विचलन=1 के साथ नॉर्मल वितरण](../../../../translated_images/hi/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![माध्य=0 और मानक विचलन=1 के साथ नॉर्मल वितरण](../../../../translated_images/hi/normal-histogram.dfae0d67c202137d.webp)
*माध्य=0 और मानक विचलन=1 के साथ नॉर्मल वितरण*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
हमारे मामले में, मान 0.53 इंगित करता है कि किसी व्यक्ति के वज़न और ऊंचाई के बीच कुछ सहसंबंध है। हम एक मान को दूसरे के खिलाफ बिखराव प्लॉट भी बना सकते हैं ताकि संबंध को दृश्य रूप से देखा जा सके:
![वज़न और ऊंचाई के बीच संबंध](../../../../translated_images/hi/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![वज़न और ऊंचाई के बीच संबंध](../../../../translated_images/hi/weight-height-relationship.3f06bde4ca2aba99.webp)
> सहसंबंध और सहभिन्नता के और उदाहरण [संबंधित नोटबुक](notebook.ipynb) में पाए जा सकते हैं।

@ -1,6 +1,6 @@
# डेटा साइंस का परिचय
![डेटा इन एक्शन](../../../translated_images/hi/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![डेटा इन एक्शन](../../../translated_images/hi/data.48e22bb7617d8d92.webp)
> फोटो <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">स्टीफन डॉसन</a> द्वारा <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">अनस्प्लैश</a> पर
इन पाठों में, आप जानेंगे कि डेटा साइंस को कैसे परिभाषित किया जाता है और उन नैतिक विचारों के बारे में सीखेंगे जिन्हें एक डेटा वैज्ञानिक को ध्यान में रखना चाहिए। आप यह भी जानेंगे कि डेटा को कैसे परिभाषित किया जाता है और सांख्यिकी और संभावना के बारे में थोड़ा सीखेंगे, जो डेटा साइंस के मुख्य शैक्षणिक क्षेत्र हैं।

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Python के साथ काम करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
[![Intro Video](../../../../translated_images/hi/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Intro Video](../../../../translated_images/hi/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
हालांकि डेटाबेस डेटा को स्टोर करने और उन्हें क्वेरी लैंग्वेज का उपयोग करके क्वेरी करने के लिए बहुत प्रभावी तरीके प्रदान करते हैं, डेटा प्रोसेसिंग का सबसे लचीला तरीका अपना प्रोग्राम लिखना है। कई मामलों में, डेटाबेस क्वेरी करना अधिक प्रभावी हो सकता है। लेकिन कुछ मामलों में जब अधिक जटिल डेटा प्रोसेसिंग की आवश्यकता होती है, तो इसे SQL का उपयोग करके आसानी से नहीं किया जा सकता।
डेटा प्रोसेसिंग किसी भी प्रोग्रामिंग भाषा में की जा सकती है, लेकिन कुछ भाषाएँ डेटा के साथ काम करने के लिए उच्च स्तर की होती हैं। डेटा वैज्ञानिक आमतौर पर निम्नलिखित भाषाओं में से एक को प्राथमिकता देते हैं:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![टाइम सीरीज़ प्लॉट](../../../../translated_images/hi/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![टाइम सीरीज़ प्लॉट](../../../../translated_images/hi/timeseries-1.80de678ab1cf727e.webp)
अब मान लें कि हर सप्ताह हम दोस्तों के लिए एक पार्टी आयोजित कर रहे हैं और पार्टी के लिए अतिरिक्त 10 पैक आइसक्रीम लेते हैं। हम इसे दिखाने के लिए सप्ताह द्वारा इंडेक्स की गई एक और सीरीज़ बना सकते हैं:
```python
@ -75,7 +75,7 @@ additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![टाइम सीरीज़ प्लॉट](../../../../translated_images/hi/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![टाइम सीरीज़ प्लॉट](../../../../translated_images/hi/timeseries-2.aae51d575c55181c.webp)
> **ध्यान दें** कि हम साधारण सिंटैक्स `total_items+additional_items` का उपयोग नहीं कर रहे हैं। यदि हमने ऐसा किया होता, तो हमें परिणामी सीरीज़ में कई `NaN` (*Not a Number*) मान प्राप्त होते। ऐसा इसलिए है क्योंकि `additional_items` सीरीज़ में कुछ इंडेक्स पॉइंट्स के लिए मान गायब हैं, और किसी भी चीज़ में `NaN` जोड़ने से `NaN` मिलता है। इसलिए हमें जोड़ने के दौरान `fill_value` पैरामीटर निर्दिष्ट करने की आवश्यकता होती है।
@ -84,7 +84,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![मासिक टाइम सीरीज़ औसत](../../../../translated_images/hi/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![मासिक टाइम सीरीज़ औसत](../../../../translated_images/hi/timeseries-3.f3147cbc8c624881.webp)
### डेटा फ्रेम
@ -210,7 +210,7 @@ df = pd.read_csv('file.csv')
चूंकि हम दिखाना चाहते हैं कि डेटा के साथ कैसे काम किया जाए, हम आपको [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) खोलने और इसे ऊपर से नीचे तक पढ़ने के लिए आमंत्रित करते हैं। आप सेल्स को भी चला सकते हैं और अंत में छोड़े गए कुछ चैलेंज को हल कर सकते हैं।
![COVID फैलाव](../../../../translated_images/hi/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID फैलाव](../../../../translated_images/hi/covidspread.f3d131c4f1d260ab.webp)
> यदि आपको Jupyter Notebook में कोड चलाने का तरीका नहीं पता है, तो [इस लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) को देखें।
@ -232,7 +232,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb) खोलें और इसे ऊपर से नीचे तक पढ़ें। आप सेल्स को भी चला सकते हैं और अंत में छोड़े गए कुछ चैलेंज को हल कर सकते हैं।
![Covid मेडिकल ट्रीटमेंट](../../../../translated_images/hi/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid मेडिकल ट्रीटमेंट](../../../../translated_images/hi/covidtreat.b2ba59f57ca45fbc.webp)
## इमेज डेटा प्रोसेसिंग

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# डेटा के साथ काम करना
![data love](../../../translated_images/hi/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/hi/data-love.a22ef29e6742c852.webp)
> फोटो <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> द्वारा <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> पर
इन पाठों में, आप सीखेंगे कि डेटा को कैसे प्रबंधित, संशोधित और अनुप्रयोगों में उपयोग किया जा सकता है। आप रिलेशनल और नॉन-रिलेशनल डेटाबेस के बारे में जानेंगे और डेटा को उनमें कैसे संग्रहीत किया जा सकता है। आप डेटा प्रबंधन के लिए Python के साथ काम करने की मूल बातें सीखेंगे, और आप यह भी खोजेंगे कि Python का उपयोग करके डेटा को प्रबंधित और माइन करने के कई तरीके क्या हैं।

@ -42,7 +42,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![स्कैटरप्लॉट 1](../../../../translated_images/hi/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![स्कैटरप्लॉट 1](../../../../translated_images/hi/scatter1.5e1aa5fd6706c5d1.webp)
अब, वही डेटा शहद के रंग योजना के साथ दिखाएं ताकि यह दिखाया जा सके कि कीमत वर्षों के साथ कैसे विकसित होती है। आप इसे 'hue' पैरामीटर जोड़कर कर सकते हैं ताकि वर्ष दर वर्ष परिवर्तन दिखाया जा सके:
@ -51,7 +51,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![स्कैटरप्लॉट 2](../../../../translated_images/hi/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![स्कैटरप्लॉट 2](../../../../translated_images/hi/scatter2.c0041a58621ca702.webp)
इस रंग योजना परिवर्तन के साथ, आप देख सकते हैं कि वर्षों के साथ शहद की प्रति पाउंड कीमत में स्पष्ट रूप से एक मजबूत प्रगति है। वास्तव में, यदि आप डेटा के एक नमूना सेट को सत्यापित करने के लिए देखें (उदाहरण के लिए, एक राज्य, एरिज़ोना चुनें) तो आप देख सकते हैं कि कुछ अपवादों के साथ, कीमत में वर्ष दर वर्ष वृद्धि का एक पैटर्न है:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
आप देख सकते हैं कि डॉट्स का आकार धीरे-धीरे बढ़ रहा है।
![स्कैटरप्लॉट 3](../../../../translated_images/hi/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![स्कैटरप्लॉट 3](../../../../translated_images/hi/scatter3.3c160a3d1dcb36b3.webp)
क्या यह मांग और आपूर्ति का एक साधारण मामला है? जलवायु परिवर्तन और कॉलोनी कॉलैप्स जैसे कारकों के कारण, क्या वर्ष दर वर्ष खरीद के लिए कम शहद उपलब्ध है, और इसलिए कीमत बढ़ रही है?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
उत्तर: हां, कुछ अपवादों के साथ, विशेष रूप से 2003 के आसपास:
![लाइन चार्ट 1](../../../../translated_images/hi/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![लाइन चार्ट 1](../../../../translated_images/hi/line1.f36eb465229a3b1f.webp)
✅ क्योंकि Seaborn डेटा को एक लाइन के चारों ओर समेकित कर रहा है, यह "प्रत्येक x मान पर कई मापों को औसत और औसत के चारों ओर 95% विश्वास अंतराल को प्लॉट करके प्रदर्शित करता है"। [स्रोत](https://seaborn.pydata.org/tutorial/relational.html)। इस समय लेने वाले व्यवहार को `ci=None` जोड़कर अक्षम किया जा सकता है।
@ -105,7 +105,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![लाइन चार्ट 2](../../../../translated_images/hi/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![लाइन चार्ट 2](../../../../translated_images/hi/line2.a5b3493dc01058af.webp)
उत्तर: वास्तव में नहीं। यदि आप कुल उत्पादन को देखें, तो ऐसा लगता है कि उस विशेष वर्ष में यह वास्तव में बढ़ गया है, हालांकि सामान्य रूप से शहद का उत्पादन इन वर्षों के दौरान गिरावट में है।
@ -130,7 +130,7 @@ sns.relplot(
```
इस चित्रण में, आप कॉलोनी की प्रति कॉलोनी उत्पादन और कॉलोनियों की संख्या को वर्ष दर वर्ष, राज्य दर राज्य, 3 कॉलम पर रैप सेट के साथ साइड बाय साइड तुलना कर सकते हैं:
![फेसट ग्रिड](../../../../translated_images/hi/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![फेसट ग्रिड](../../../../translated_images/hi/facet.6a34851dcd540050.webp)
इस डेटा सेट के लिए, कॉलोनियों की संख्या और उनके उत्पादन के संबंध में वर्ष दर वर्ष और राज्य दर राज्य कुछ खास नहीं दिखता। क्या इन दो चर के बीच संबंध खोजने के लिए इसे देखने का कोई अलग तरीका है?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![सुपरइम्पोज़्ड प्लॉट्स](../../../../translated_images/hi/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![सुपरइम्पोज़्ड प्लॉट्स](../../../../translated_images/hi/dual-line.a4c28ce659603fab.webp)
हालांकि 2003 के आसपास कुछ भी आंखों को नहीं खटकता, यह हमें इस पाठ को थोड़ा खुशहाल नोट पर समाप्त करने की अनुमति देता है: जबकि कॉलोनियों की संख्या में समग्र रूप से गिरावट हो रही है, कॉलोनियों की संख्या स्थिर हो रही है, भले ही उनकी प्रति कॉलोनी उत्पादन घट रहा हो।

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
यहां, आप `ggplot2` पैकेज को इंस्टॉल करते हैं और फिर इसे `library("ggplot2")` कमांड का उपयोग करके वर्कस्पेस में इम्पोर्ट करते हैं। ggplot में किसी भी प्लॉट को प्लॉट करने के लिए `ggplot()` फ़ंक्शन का उपयोग किया जाता है और आप डेटासेट, x और y वेरिएबल्स को एट्रिब्यूट्स के रूप में निर्दिष्ट करते हैं। इस मामले में, हम एक लाइन प्लॉट को प्लॉट करने के लिए `geom_line()` फ़ंक्शन का उपयोग करते हैं।
![MaxWingspan-lineplot](../../../../../translated_images/hi/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/hi/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
आप तुरंत क्या नोटिस करते हैं? ऐसा लगता है कि कम से कम एक आउटलायर है - यह काफी बड़ा विंगस्पैन है! 2000+ सेंटीमीटर विंगस्पैन 20 मीटर से अधिक के बराबर है - क्या मिनेसोटा में पेटरोडैक्टाइल्स घूम रहे हैं? आइए जांच करें।
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
हम `theme` में कोण निर्दिष्ट करते हैं और `xlab()` और `ylab()` में x और y अक्ष लेबल निर्दिष्ट करते हैं। `ggtitle()` ग्राफ/प्लॉट को एक नाम देता है।
![MaxWingspan-lineplot-improved](../../../../../translated_images/hi/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/hi/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
लेबल्स को 45 डिग्री पर घुमाने के बावजूद, उन्हें पढ़ने के लिए बहुत अधिक हैं। आइए एक अलग रणनीति आजमाएं: केवल उन आउटलायर्स को लेबल करें और लेबल्स को चार्ट के भीतर सेट करें। आप लेबलिंग के लिए अधिक जगह बनाने के लिए एक स्कैटर चार्ट का उपयोग कर सकते हैं:
@ -91,7 +91,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
आप क्या खोजते हैं?
![MaxWingspan-scatterplot](../../../../../translated_images/hi/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/hi/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## अपने डेटा को फ़िल्टर करें
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
हमने एक नया डेटा फ्रेम `birds_filtered` बनाया और फिर एक स्कैटर प्लॉट को प्लॉट किया। आउटलायर्स को फ़िल्टर करके, आपका डेटा अब अधिक सुसंगत और समझने योग्य है।
![MaxWingspan-scatterplot-improved](../../../../../translated_images/hi/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/hi/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
अब जब हमारे पास विंगस्पैन के मामले में कम से कम एक साफ-सुथरा डेटासेट है, तो आइए इन पक्षियों के बारे में और अधिक खोज करें।
@ -152,7 +152,7 @@ birds_filtered %>% group_by(Category) %>%
```
निम्नलिखित स्निपेट में, हम [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) और [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) पैकेज इंस्टॉल करते हैं ताकि डेटा को हेरफेर और समूहित किया जा सके और एक स्टैक्ड बार चार्ट को प्लॉट किया जा सके। पहले, आप पक्षी की `Category` द्वारा डेटा को समूहित करते हैं और फिर `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` कॉलम को सारांशित करते हैं। फिर, `ggplot2` पैकेज का उपयोग करके बार चार्ट को प्लॉट करें और विभिन्न श्रेणियों के लिए रंग और लेबल निर्दिष्ट करें।
![Stacked bar chart](../../../../../translated_images/hi/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/hi/stacked-bar-chart.0c92264e89da7b39.webp)
हालांकि, यह बार चार्ट पढ़ने योग्य नहीं है क्योंकि इसमें बहुत अधिक गैर-समूहित डेटा है। आपको केवल उस डेटा का चयन करने की आवश्यकता है जिसे आप प्लॉट करना चाहते हैं, इसलिए आइए पक्षी की श्रेणी के आधार पर लंबाई देखें।
@ -167,7 +167,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
आप पहले `Category` कॉलम में अद्वितीय मानों की गणना करते हैं और फिर उन्हें एक नए डेटा फ्रेम `birds_count` में क्रमबद्ध करते हैं। इस क्रमबद्ध डेटा को फिर उसी स्तर पर फैक्टर किया जाता है ताकि इसे क्रमबद्ध तरीके से प्लॉट किया जा सके। फिर, `ggplot2` का उपयोग करके आप डेटा को एक बार चार्ट में प्लॉट करते हैं। `coord_flip()` क्षैतिज बार को प्लॉट करता है।
![category-length](../../../../../translated_images/hi/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/hi/category-length.7e34c296690e85d6.webp)
यह बार चार्ट प्रत्येक श्रेणी में पक्षियों की संख्या का अच्छा दृश्य दिखाता है। एक नज़र में, आप देख सकते हैं कि इस क्षेत्र में सबसे बड़ी संख्या में पक्षी Ducks/Geese/Waterfowl श्रेणी में हैं। मिनेसोटा '10,000 झीलों की भूमि' है, इसलिए यह आश्चर्यजनक नहीं है!
@ -190,7 +190,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
हम `birds_filtered` डेटा को `Category` द्वारा समूहित करते हैं और फिर एक बार ग्राफ़ को प्लॉट करते हैं।
![comparing data](../../../../../translated_images/hi/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/hi/comparingdata.f486a450d61c7ca5.webp)
यहां कुछ भी आश्चर्यजनक नहीं है: Hummingbirds की MaxLength Pelicans या Geese की तुलना में सबसे कम है। यह अच्छा है जब डेटा तार्किक रूप से समझ में आता है!
@ -202,7 +202,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/hi/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/hi/superimposed-values.5363f0705a1da416.webp)
## 🚀 चुनौती

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![प्रत्येक क्रम के लिए अधिकतम लंबाई](../../../../../translated_images/hi/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![प्रत्येक क्रम के लिए अधिकतम लंबाई](../../../../../translated_images/hi/max-length-per-order.e5b283d952c78c12.webp)
यह पक्षी क्रम के अनुसार शरीर की लंबाई के सामान्य वितरण का एक अवलोकन देता है, लेकिन यह सच्चे वितरण को प्रदर्शित करने का सबसे अच्छा तरीका नहीं है। यह कार्य आमतौर पर एक हिस्टोग्राम बनाकर किया जाता है।
## हिस्टोग्राम के साथ काम करना
@ -47,7 +47,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![पूरे डेटासेट पर वितरण](../../../../../translated_images/hi/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![पूरे डेटासेट पर वितरण](../../../../../translated_images/hi/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
जैसा कि आप देख सकते हैं, इस डेटासेट के 400+ पक्षियों में से अधिकांश का Max Body Mass 2000 से कम की सीमा में आता है। `bins` पैरामीटर को 30 जैसे उच्च संख्या में बदलकर डेटा के बारे में अधिक जानकारी प्राप्त करें:
@ -55,7 +55,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![30 बिन्स के साथ वितरण](../../../../../translated_images/hi/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![30 बिन्स के साथ वितरण](../../../../../translated_images/hi/distribution-30bins.6a3921ea7a421bf7.webp)
यह चार्ट वितरण को थोड़ा अधिक विस्तृत तरीके से दिखाता है। एक चार्ट जो बाईं ओर कम झुका हुआ हो, उसे केवल एक दी गई सीमा के भीतर डेटा का चयन करके बनाया जा सकता है:
@ -67,7 +67,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![फ़िल्टर किया गया हिस्टोग्राम](../../../../../translated_images/hi/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![फ़िल्टर किया गया हिस्टोग्राम](../../../../../translated_images/hi/filtered-histogram.6bf5d2bfd8253322.webp)
✅ कुछ अन्य फ़िल्टर और डेटा पॉइंट आज़माएं। डेटा के पूर्ण वितरण को देखने के लिए, लेबल वाले वितरण दिखाने के लिए `['MaxBodyMass']` फ़िल्टर को हटा दें।
@ -81,7 +81,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
ऐसा प्रतीत होता है कि इन दो तत्वों के बीच अपेक्षित अक्ष के साथ एक अपेक्षित सहसंबंध है, जिसमें अभिसरण का एक विशेष रूप से मजबूत बिंदु है:
![2D प्लॉट](../../../../../translated_images/hi/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![2D प्लॉट](../../../../../translated_images/hi/2d-plot.c504786f439bd7eb.webp)
हिस्टोग्राम डिफ़ॉल्ट रूप से संख्यात्मक डेटा के लिए अच्छी तरह से काम करते हैं। यदि आपको टेक्स्ट डेटा के अनुसार वितरण देखना हो तो क्या होगा?
## टेक्स्ट डेटा का उपयोग करके डेटासेट के वितरण का अन्वेषण करें
@ -112,7 +112,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![पंख फैलाव और संरक्षण स्थिति का संबंध](../../../../../translated_images/hi/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![पंख फैलाव और संरक्षण स्थिति का संबंध](../../../../../translated_images/hi/wingspan-conservation-collation.4024e9aa6910866a.webp)
न्यूनतम पंख फैलाव और संरक्षण स्थिति के बीच कोई अच्छा संबंध प्रतीत नहीं होता। इस विधि का उपयोग करके डेटासेट के अन्य तत्वों का परीक्षण करें। आप विभिन्न फ़िल्टर भी आज़मा सकते हैं। क्या आपको कोई संबंध मिलता है?
@ -126,7 +126,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![डेंसिटी प्लॉट](../../../../../translated_images/hi/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![डेंसिटी प्लॉट](../../../../../translated_images/hi/density-plot.675ccf865b76c690.webp)
आप देख सकते हैं कि यह प्लॉट न्यूनतम पंख फैलाव डेटा के लिए पिछले वाले को प्रतिध्वनित करता है; यह बस थोड़ा अधिक सुचारू है। यदि आप उस खुरदरे MaxBodyMass लाइन को फिर से देखना चाहते हैं जिसे आपने दूसरा चार्ट बनाते समय बनाया था, तो आप इसे इस विधि का उपयोग करके बहुत अच्छी तरह से सुचारू कर सकते हैं:
@ -134,7 +134,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![शरीर भार डेंसिटी](../../../../../translated_images/hi/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![शरीर भार डेंसिटी](../../../../../translated_images/hi/bodymass-smooth.d31ce526d82b0a1f.webp)
यदि आप एक सुचारू, लेकिन बहुत अधिक सुचारू रेखा नहीं चाहते हैं, तो `adjust` पैरामीटर को संपादित करें:
@ -142,7 +142,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![कम सुचारू शरीर भार](../../../../../translated_images/hi/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![कम सुचारू शरीर भार](../../../../../translated_images/hi/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ इस प्रकार के प्लॉट के लिए उपलब्ध पैरामीटर के बारे में पढ़ें और प्रयोग करें!
@ -152,7 +152,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![प्रत्येक क्रम के लिए शरीर भार](../../../../../translated_images/hi/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![प्रत्येक क्रम के लिए शरीर भार](../../../../../translated_images/hi/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 चुनौती

@ -83,7 +83,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
देखिए, एक पाई चार्ट जो इस डेटा को मशरूम के इन दो वर्गों के अनुसार दिखाता है। लेबल के क्रम को सही रखना बहुत महत्वपूर्ण है, खासकर यहां, इसलिए सुनिश्चित करें कि लेबल एरे को बनाते समय क्रम की जांच करें!
![पाई चार्ट](../../../../../translated_images/hi/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![पाई चार्ट](../../../../../translated_images/hi/pie1-wb.685df063673751f4.webp)
## डोनट्स!
@ -117,7 +117,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![डोनट चार्ट](../../../../../translated_images/hi/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![डोनट चार्ट](../../../../../translated_images/hi/donut-wb.34e6fb275da9d834.webp)
यह कोड दो लाइब्रेरीज़ - ggplot2 और webr का उपयोग करता है। webr लाइब्रेरी के PieDonut फ़ंक्शन का उपयोग करके, हम आसानी से एक डोनट चार्ट बना सकते हैं!
@ -155,7 +155,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
वाफल चार्ट का उपयोग करके, आप मशरूम डेटा सेट के टोपी रंगों के अनुपात को स्पष्ट रूप से देख सकते हैं। दिलचस्प बात यह है कि कई हरे रंग की टोपी वाले मशरूम हैं!
![वाफल चार्ट](../../../../../translated_images/hi/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![वाफल चार्ट](../../../../../translated_images/hi/waffle.aaa75c5337735a6e.webp)
इस पाठ में, आपने अनुपातों को विज़ुअलाइज़ करने के तीन तरीके सीखे। सबसे पहले, आपको अपने डेटा को श्रेणियों में समूहित करना होगा और फिर यह तय करना होगा कि डेटा को प्रदर्शित करने का सबसे अच्छा तरीका कौन सा है - पाई, डोनट, या वाफल। सभी स्वादिष्ट हैं और उपयोगकर्ता को डेटा सेट का त्वरित स्नैपशॉट प्रदान करते हैं।

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![स्कैटरप्लॉट 1](../../../../../translated_images/hi/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![स्कैटरप्लॉट 1](../../../../../translated_images/hi/scatter1.86b8900674d88b26.webp)
अब, वही डेटा एक शहद रंग योजना के साथ दिखाएं ताकि यह दिखाया जा सके कि कीमत वर्षों में कैसे विकसित होती है। आप इसे 'scale_color_gradientn' पैरामीटर जोड़कर कर सकते हैं, जो साल दर साल परिवर्तन दिखाता है:
@ -52,7 +52,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![स्कैटरप्लॉट 2](../../../../../translated_images/hi/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![स्कैटरप्लॉट 2](../../../../../translated_images/hi/scatter2.4d1cbc693bad20e2.webp)
इस रंग योजना परिवर्तन के साथ, आप देख सकते हैं कि वर्षों में प्रति पाउंड शहद की कीमत में स्पष्ट रूप से एक मजबूत प्रगति है। वास्तव में, यदि आप डेटा के एक नमूना सेट को सत्यापित करने के लिए देखते हैं (उदाहरण के लिए, एरिज़ोना राज्य को चुनें), तो आप देख सकते हैं कि कुछ अपवादों को छोड़कर, कीमत में साल दर साल वृद्धि का एक पैटर्न है:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
आप देख सकते हैं कि डॉट्स का आकार धीरे-धीरे बढ़ रहा है।
![स्कैटरप्लॉट 3](../../../../../translated_images/hi/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![स्कैटरप्लॉट 3](../../../../../translated_images/hi/scatter3.722d21e6f20b3ea2.webp)
क्या यह आपूर्ति और मांग का एक साधारण मामला है? जलवायु परिवर्तन और कॉलोनी कोलैप्स जैसे कारकों के कारण, क्या हर साल खरीदने के लिए कम शहद उपलब्ध है, और इसीलिए कीमत बढ़ रही है?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
उत्तर: हां, कुछ अपवादों के साथ, विशेष रूप से 2003 के आसपास:
![लाइन चार्ट 1](../../../../../translated_images/hi/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![लाइन चार्ट 1](../../../../../translated_images/hi/line1.299b576fbb2a59e6.webp)
प्रश्न: खैर, क्या 2003 में हम शहद की आपूर्ति में भी वृद्धि देख सकते हैं? यदि आप कुल उत्पादन को साल दर साल देखें तो क्या होता है?
@ -106,7 +106,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![लाइन चार्ट 2](../../../../../translated_images/hi/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![लाइन चार्ट 2](../../../../../translated_images/hi/line2.3b18fcda7176ceba.webp)
उत्तर: वास्तव में नहीं। यदि आप कुल उत्पादन को देखें, तो ऐसा लगता है कि यह विशेष वर्ष में बढ़ा है, हालांकि सामान्य रूप से इन वर्षों के दौरान शहद का उत्पादन घट रहा है।
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
इस विज़ुअलाइज़ेशन में, आप कॉलोनी की प्रति कॉलोनी उपज और कॉलोनियों की संख्या को साल दर साल, राज्य दर राज्य, 3 कॉलम के रैप के साथ साइड बाय साइड तुलना कर सकते हैं:
![फेसट ग्रिड](../../../../../translated_images/hi/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![फेसट ग्रिड](../../../../../translated_images/hi/facet.491ad90d61c2a7cc.webp)
इस डेटा सेट के लिए, कॉलोनियों की संख्या और उनकी उपज के संबंध में, साल दर साल और राज्य दर राज्य, कुछ भी विशेष रूप से अलग नहीं दिखता। क्या इन दो चर के बीच सहसंबंध खोजने का कोई और तरीका है?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![सुपरइम्पोज़्ड प्लॉट्स](../../../../../translated_images/hi/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![सुपरइम्पोज़्ड प्लॉट्स](../../../../../translated_images/hi/dual-line.fc4665f360a54018.webp)
हालांकि 2003 के आसपास कुछ भी आंखों को स्पष्ट रूप से नहीं दिखता, यह हमें इस पाठ को एक खुशहाल नोट पर समाप्त करने की अनुमति देता है: जबकि कॉलोनियों की संख्या में समग्र गिरावट हो रही है, कॉलोनियों की संख्या स्थिर हो रही है, भले ही उनकी प्रति कॉलोनी उपज घट रही हो।

@ -38,25 +38,25 @@
भले ही एक डेटा वैज्ञानिक सही डेटा के लिए सही चार्ट चुनने में सावधान हो, फिर भी डेटा को इस तरह से प्रदर्शित करने के कई तरीके हैं जो किसी बिंदु को साबित करने के लिए उपयोग किए जा सकते हैं, अक्सर डेटा की सच्चाई को कमजोर करते हुए। भ्रामक चार्ट और इन्फोग्राफिक्स के कई उदाहरण हैं!
[![अल्बर्टो काइरो द्वारा "हाउ चार्ट्स लाई"](../../../../../translated_images/hi/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "हाउ चार्ट्स लाई")
[![अल्बर्टो काइरो द्वारा "हाउ चार्ट्स लाई"](../../../../../translated_images/hi/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "हाउ चार्ट्स लाई")
> 🎥 ऊपर दी गई छवि पर क्लिक करें भ्रामक चार्ट्स पर एक सम्मेलन वार्ता के लिए
यह चार्ट X अक्ष को उलट देता है ताकि तारीख के आधार पर सच्चाई के विपरीत दिखाया जा सके:
![खराब चार्ट 1](../../../../../translated_images/hi/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![खराब चार्ट 1](../../../../../translated_images/hi/bad-chart-1.596bc93425a8ac30.webp)
[यह चार्ट](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) और भी भ्रामक है, क्योंकि आंखें दाईं ओर खिंचती हैं और यह निष्कर्ष निकालती हैं कि समय के साथ विभिन्न काउंटियों में COVID मामलों में गिरावट आई है। वास्तव में, यदि आप तारीखों को ध्यान से देखें, तो आप पाएंगे कि उन्हें इस भ्रामक गिरावट को दिखाने के लिए पुनर्व्यवस्थित किया गया है।
![खराब चार्ट 2](../../../../../translated_images/hi/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![खराब चार्ट 2](../../../../../translated_images/hi/bad-chart-2.62edf4d2f30f4e51.webp)
यह कुख्यात उदाहरण रंग और एक उलटे Y अक्ष का उपयोग करके धोखा देता है: बंदूक-अनुकूल कानून पारित होने के बाद बंदूक से होने वाली मौतों में वृद्धि के बजाय, आंखें यह सोचने के लिए धोखा खा जाती हैं कि इसके विपरीत सच है:
![खराब चार्ट 3](../../../../../translated_images/hi/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![खराब चार्ट 3](../../../../../translated_images/hi/bad-chart-3.e201e2e915a230bc.webp)
यह अजीब चार्ट दिखाता है कि अनुपात को कैसे हेरफेर किया जा सकता है, हास्यास्पद प्रभाव के लिए:
![खराब चार्ट 4](../../../../../translated_images/hi/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![खराब चार्ट 4](../../../../../translated_images/hi/bad-chart-4.8872b2b881ffa96c.webp)
अतुलनीय चीजों की तुलना करना एक और संदिग्ध चाल है। एक [शानदार वेबसाइट](https://tylervigen.com/spurious-correlations) है जो 'स्प्यूरियस कोरिलेशन्स' दिखाती है, जैसे कि मेन में तलाक की दर और मार्जरीन की खपत। एक Reddit समूह भी डेटा के [खराब उपयोग](https://www.reddit.com/r/dataisugly/top/?t=all) को एकत्र करता है।
@ -91,13 +91,13 @@
यदि आपका डेटा X अक्ष पर टेक्स्टुअल और वर्बोज़ है, तो बेहतर पठनीयता के लिए टेक्स्ट को एंगल करें। [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 3D प्लॉटिंग प्रदान करता है, यदि आपका डेटा इसे सपोर्ट करता है। इसका उपयोग करके परिष्कृत डेटा विज़ुअलाइज़ेशन बनाए जा सकते हैं।
![3D प्लॉट्स](../../../../../translated_images/hi/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3D प्लॉट्स](../../../../../translated_images/hi/3d.db1734c151eee87d.webp)
## एनिमेशन और 3D चार्ट डिस्प्ले
आज के कुछ बेहतरीन डेटा विज़ुअलाइज़ेशन एनिमेटेड हैं। Shirley Wu ने D3 के साथ अद्भुत विज़ुअलाइज़ेशन बनाए हैं, जैसे '[फिल्म फ्लावर्स](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', जहां प्रत्येक फूल एक फिल्म का विज़ुअलाइज़ेशन है। Guardian के लिए एक और उदाहरण है 'बस्ट आउट', जो NYC के बेघर लोगों को शहर से बाहर भेजने की समस्या को दिखाने के लिए विज़ुअलाइज़ेशन, Greensock और D3 के साथ एक स्क्रॉलीटेलिंग आर्टिकल फॉर्मेट को जोड़ता है।
![बसिंग](../../../../../translated_images/hi/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![बसिंग](../../../../../translated_images/hi/busing.8157cf1bc89a3f65.webp)
> "बस्ट आउट: अमेरिका अपने बेघर लोगों को कैसे स्थानांतरित करता है" [द गार्जियन](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) से। विज़ुअलाइज़ेशन Nadieh Bremer और Shirley Wu द्वारा।
@ -107,7 +107,7 @@
आप एक वेब ऐप पूरा करेंगे जो इस सोशल नेटवर्क का एनिमेटेड दृश्य प्रदर्शित करेगा। यह एक लाइब्रेरी का उपयोग करता है जिसे Vue.js और D3 का उपयोग करके [नेटवर्क का विज़ुअल](https://github.com/emiliorizzo/vue-d3-network) बनाने के लिए डिज़ाइन किया गया है। जब ऐप चल रहा हो, तो आप स्क्रीन पर नोड्स को खींच सकते हैं और डेटा को इधर-उधर कर सकते हैं।
![लायज़न्स](../../../../../translated_images/hi/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![लायज़न्स](../../../../../translated_images/hi/liaisons.90ce7360bcf84765.webp)
## प्रोजेक्ट: D3.js का उपयोग करके नेटवर्क दिखाने के लिए एक चार्ट बनाएं

@ -1,6 +1,6 @@
# विज़ुअलाइज़ेशन
![लैवेंडर फूल पर एक मधुमक्खी](../../../translated_images/hi/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![लैवेंडर फूल पर एक मधुमक्खी](../../../translated_images/hi/bee.0aa1d91132b12e3a.webp)
> फोटो <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">जेना ली</a> द्वारा <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">अनस्प्लैश</a> पर
डेटा को विज़ुअलाइज़ करना एक डेटा वैज्ञानिक के सबसे महत्वपूर्ण कार्यों में से एक है। एक तस्वीर 1000 शब्दों के बराबर होती है, और एक विज़ुअलाइज़ेशन आपको आपके डेटा के विभिन्न रोचक पहलुओं जैसे स्पाइक्स, आउटलायर्स, समूह, प्रवृत्तियों और अन्य चीजों को पहचानने में मदद कर सकता है, जो आपके डेटा की कहानी को समझने में सहायता करता है।

@ -16,7 +16,7 @@
यह पाठ जीवनचक्र के 3 भागों पर केंद्रित है: डेटा संग्रहण, प्रोसेसिंग और रखरखाव।
![डेटा साइंस जीवनचक्र का आरेख](../../../../translated_images/hi/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![डेटा साइंस जीवनचक्र का आरेख](../../../../translated_images/hi/data-science-lifecycle.a1e362637503c4fb.webp)
> फोटो [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/) द्वारा
## डेटा संग्रहण
@ -89,7 +89,7 @@
|टीम डेटा साइंस प्रक्रिया (TDSP)|क्रॉस-इंडस्ट्री स्टैंडर्ड प्रक्रिया फॉर डेटा माइनिंग (CRISP-DM)|
|--|--|
|![टीम डेटा साइंस जीवनचक्र](../../../../translated_images/hi/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![डेटा साइंस प्रक्रिया एलायंस छवि](../../../../translated_images/hi/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![टीम डेटा साइंस जीवनचक्र](../../../../translated_images/hi/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![डेटा साइंस प्रक्रिया एलायंस छवि](../../../../translated_images/hi/CRISP-DM.8bad2b4c66e62aa7.webp) |
| छवि [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) द्वारा | छवि [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) द्वारा |
## [पोस्ट-लेक्चर क्विज़](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# डेटा साइंस जीवनचक्र
![communication](../../../translated_images/hi/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/hi/communication.06d8e2a88d30d168.webp)
> फोटो <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> द्वारा <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> पर
इन पाठों में, आप डेटा साइंस जीवनचक्र के कुछ पहलुओं का पता लगाएंगे, जिसमें डेटा का विश्लेषण और उसके बारे में संवाद शामिल है।

@ -1,12 +1,12 @@
# क्लाउड में डेटा साइंस
![cloud-picture](../../../translated_images/hi/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/hi/cloud-picture.f5526de3c6c6387b.webp)
> फोटो [Jelleke Vanooteghem](https://unsplash.com/@ilumire) द्वारा [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) से
जब बड़े डेटा के साथ डेटा साइंस करने की बात आती है, तो क्लाउड एक गेम चेंजर साबित हो सकता है। अगले तीन पाठों में, हम देखेंगे कि क्लाउड क्या है और यह क्यों बहुत सहायक हो सकता है। हम एक हार्ट फेलियर डेटासेट का भी विश्लेषण करेंगे और एक मॉडल बनाएंगे जो किसी व्यक्ति के हार्ट फेलियर होने की संभावना का आकलन करने में मदद करेगा। हम क्लाउड की शक्ति का उपयोग करके दो अलग-अलग तरीकों से एक मॉडल को ट्रेन, डिप्लॉय और उपयोग करेंगे। एक तरीका केवल यूजर इंटरफेस का उपयोग करते हुए "लो कोड/नो कोड" तरीके से होगा, और दूसरा तरीका Azure Machine Learning Software Developer Kit (Azure ML SDK) का उपयोग करते हुए होगा।
![project-schema](../../../translated_images/hi/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/hi/project-schema.420e56d495624541.webp)
### विषय

@ -32,7 +32,7 @@ AI के लोकतंत्रीकरण के कारण, डेवल
* [Data Science in Healthcare](https://data-flair.training/blogs/data-science-in-healthcare/) - चिकित्सा इमेजिंग (जैसे, MRI, X-Ray, CT-Scan), जीनोमिक्स (DNA अनुक्रमण), दवा विकास (जोखिम मूल्यांकन, सफलता की भविष्यवाणी), पूर्वानुमानात्मक विश्लेषण (रोगी देखभाल और आपूर्ति लॉजिस्टिक्स), रोग ट्रैकिंग और रोकथाम जैसे अनुप्रयोगों को उजागर करता है।
![वास्तविक दुनिया में डेटा विज्ञान अनुप्रयोग](../../../../translated_images/hi/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) छवि क्रेडिट: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![वास्तविक दुनिया में डेटा विज्ञान अनुप्रयोग](../../../../translated_images/hi/data-science-applications.4e5019cd8790ebac.webp) छवि क्रेडिट: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
चित्र अन्य डोमेन और डेटा विज्ञान तकनीकों को लागू करने के उदाहरण दिखाता है। क्या आप अन्य अनुप्रयोगों का पता लगाना चाहते हैं? नीचे दिए गए [Review & Self Study](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) अनुभाग को देखें।

@ -13,7 +13,7 @@
2. डेटा सेट [कैटलॉग](https://planetarycomputer.microsoft.com/catalog) का अन्वेषण करें - प्रत्येक का उद्देश्य जानें।
3. एक्सप्लोरर का उपयोग करें - अपनी रुचि का डेटा सेट चुनें, एक प्रासंगिक क्वेरी और रेंडरिंग विकल्प चुनें।
![ग्रह कंप्यूटर एक्सप्लोरर](../../../../translated_images/hi/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![ग्रह कंप्यूटर एक्सप्लोरर](../../../../translated_images/hi/planetary-computer-explorer.c1e95a9b053167d6.webp)
`आपका कार्य:`
अब ब्राउज़र में रेंडर किए गए विज़ुअलाइज़ेशन का अध्ययन करें और निम्नलिखित प्रश्नों का उत्तर दें:

@ -1,12 +1,12 @@
# शुरुआती लोगों के लिए डेटा साइंस - एक पाठ्यक्रम
[![GitHub Codespaces में खलें](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![GitHub Codespaces में खलें](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![GitHub लाइसेंस](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub योगदानकर्ता](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub इश्यूज](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub पुल-रिक्वेस्ट्स](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs स्वागत है](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub इश्यूज](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub पुल-रिक्वेस्ट](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs स्वागतयोग्य](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub वॉचर्स](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub फोर्क्स](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
@ -17,181 +17,191 @@
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Microsoft के Azure Cloud Advocates डेटा साइंस के बारे में दस सप्ताह, 20-लेसन वाला एक संपूर्ण पाठ्यक्रम प्रस्तुत करते हुए प्रसन्न हैं। प्रत्येक पाठ में पूर्व-पाठ और पश्च-पाठ क्विज़, पाठ को पूरा करने के लिए लिखित निर्देश, एक समाधान, और एक असाइनमेंट शामिल है। हमार परियोजना-आधारित शिक्षण पद्धति आपको निर्माण करते हुए सीखने देती है, जो नई क्षमताओं को 'टिकाने' का सिद्ध तरीका है।
Microsoft में Azure Cloud Advocates डेटा साइंस के बारे में 10 सप्ताह, 20 पाठों का एक पाठ्यक्रम प्रस्तुत करने में प्रसन्न हैं। प्रत्येक पाठ में पूर्व-पाठ और बाद-पाठ क्विज़, पाठ पूरा करने के लिए लिखित निर्देश, समाधान, और एक असाइनमेंट शामिल है। हमार परियोजना-आधारित शिक्षण आपको निर्माण करते हुए सीखने की अनुमति देता है, जो नए कौशल को 'टिकाऊ' बनाने का एक प्रमाणित तरीका है।
**हमारे लेखकों क हार्दिक धन्यवाद:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer)
**हमारे लेखकों क हार्दिक धन्यवाद:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 विशेष धन्यवाद 🙏 हमारे [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) लेखकों, समीक्षकों और सामग्री योगदानकर्ताओं को,** विशेष रूप से आर्यन अरोड़ा, [आदित्य गर्ग](https://github.com/AdityaGarg00), [अलोन्द्रा सांचेज़](https://www.linkedin.com/in/alondra-sanchez-molina/), [अंकिता सिंह](https://www.linkedin.com/in/ankitasingh007), [अनुपम मिश्रा](https://www.linkedin.com/in/anupam--mishra/), [अर्पिता दास](https://www.linkedin.com/in/arpitadas01/), छैलबिहारी दुभे, [डिब्री नसोफोर](https://www.linkedin.com/in/dibrinsofor), [डिशिता भासिन](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [मजद सफी](https://www.linkedin.com/in/majd-s/), [मैक्स ब्लम](https://www.linkedin.com/in/max-blum-6036a1186/), [मिगुएल कोरेआ](https://www.linkedin.com/in/miguelmque/), [मोहम्मा इफ्तेखर (इफतू) एबने जलाल](https://twitter.com/iftu119), [नवरीन तबस्सुम](https://www.linkedin.com/in/nawrin-tabassum), [रेमंड वांसा पुत्र](https://www.linkedin.com/in/raymond-wp/), [रोहित यादव](https://www.linkedin.com/in/rty2423), समृद्धि शर्मा, [सांया सिन्हा](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[शीना नरुला](https://www.linkedin.com/in/sheena-narua-n/), [तौकीर अहमद](https://www.linkedin.com/in/tauqeerahmad5201/), योगेंद्रसिंह पवार , [विदूषी गुप्ता](https://www.linkedin.com/in/vidushi-gupta07/), [जसलीन संधि](https://www.linkedin.com/in/jasleen-sondhi/)
**🙏 हमारे [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) लेखकों, समीक्षकों और सामग्री योगदानकर्ताओं को विशेष धन्यवाद,** विशेष रूप से आर्यन अरोड़ा, [आदित्य गर्ग](https://github.com/AdityaGarg00), [अलोंद्रा सांचे](https://www.linkedin.com/in/alondra-sanchez-molina/), [अंकिता सिंह](https://www.linkedin.com/in/ankitasingh007), [अनुपम मिश्रा](https://www.linkedin.com/in/anupam--mishra/), [अर्पिता दास](https://www.linkedin.com/in/arpitadas01/), छैल बिहारी दुबे, [डिब्री नसोफ़ोर](https://www.linkedin.com/in/dibrinsofor), [दिषिता भासिन](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [मजद सफी](https://www.linkedin.com/in/majd-s/), [मैक्स ब्लम](https://www.linkedin.com/in/max-blum-6036a1186/), [मिगुएल कोरेआ](https://www.linkedin.com/in/miguelmque/), [मोहम्मा इफ्तेख़ेर (इफतु) एबने जलाल](https://twitter.com/iftu119), [नवरीन तबस्सुम](https://www.linkedin.com/in/nawrin-tabassum), [रेमंड वांसा पुत्र](https://www.linkedin.com/in/raymond-wp/), [रोहित यादव](https://www.linkedin.com/in/rty2423), सुमृधि शर्मा, [सान्या सिन्हा](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[शीना नरुला](https://www.linkedin.com/in/sheena-narua-n/), [तौकीर अहमद](https://www.linkedin.com/in/tauqeerahmad5201/), योगेन्द्रसिंह पवार , [विदुषी गुप्ता](https://www.linkedin.com/in/vidushi-gupta07/), [जसलीन सोढी](https://www.linkedin.com/in/jasleen-sondhi/)
|![@sketchthedocs द्वारा स्केचनोट https://sketchthedocs.dev](../../translated_images/hi/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| शुरुआती लोगों के लिए डेटा साइंस - _स्केचनोट [@nitya](https://twitter.com/nitya) द्वारा_ |
| शुरुआती लोगों के लिए डेटा साइंस - _स्केचनोट द्वारा [@nitya](https://twitter.com/nitya)_ |
### 🌐 बहुभाषी समर्थन
#### GitHub Action के माध्यम से समर्थित (स्वचालित और हमेशा अद्यतन)
#### GitHub Action के माध्यम से समर्थित (स्वचालित एवं हमेशा अपडेटेड)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](./README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **क्या आप स्थानीय रूप से क्लोन करना पसंद करेंगे?**
> इस रिपॉजिटरी में 50+ भाषा अनुवाद शामिल हैं जो डाउनलोड आकार को काफी बढ़ाते हैं। अनुवाद के बिना क्लोन करने के लिए sparse checkout का उपयोग करें:
> **स्थानीय रूप से क्लोन करना पसंद करते हैं?**
>
> यह रिपोज़िटरी 50+ भाषा अनुवाद शामिल करती है, जिससे डाउनलोड का आकार काफी बढ़ जाता है। अनुवाद के बिना क्लोन करने के लिए, sparse checkout का उपयोग करें:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> यह आपको तेज़ डाउनलोड के साथ पूरा कोर्स पूरा करने के लिए सब कुछ देता है।
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> यह आपको तेज़ डाउनलोड के साथ पाठ्यक्रम पूरा करने के लिए आवश्यक सब कुछ देता है।
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**यदि आप चाहते हैं कि अतिरिक्त अनुवाद भाषाओं का समर्थन किया जाए तो वे यहाँ सूचीबद्ध हैं [यहाँ](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**यदि आप चाहें कि अतिरिक्त अनुवाद भाषाएं समर्थित हों, वे [यहां](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md) सूचीबद्ध हैं।**
#### हमारे समुदाय में शामिल हों
#### हमारे समुदाय में शामिल हों
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
हमारे पास एक Discord Learn with AI श्रृंखला चल रही है, अधिक जानें और 18 - 30 सितंबर, 2025 को [Learn with AI Series](https://aka.ms/learnwithai/discord) में हमसे जुड़ें। आप पायेंगे GitHub Copilot को डेटा साइंस के लिए उपयोग करने के टिप्स और ट्रिक्स।
हमारी एक डिस्कॉर्ड 'AI के साथ सीखें' श्रृंखला चल रही है, और अधिक जानने और जुड़ने के लिए [Learn with AI Series](https://aka.ms/learnwithai/discord) पर जाएं, जो 18 - 30 सितम्बर, 2025 तक चलेगी। आपको डेटा साइंस के लिए GitHub Copilot के उपयोग के टिप्स और ट्रिक्स मिलेंगे
![Learn with AI series](../../translated_images/hi/1.2b28cdc6205e26fe.webp)
![AI के साथ सीखें श्रृंखला](../../translated_images/hi/1.2b28cdc6205e26fe.webp)
# क्या आप छात्र हैं?
निम्नलिखित संसाधनों से शुरुआत करें:
निम्न संसाधनों के साथ शुरू करें:
- [Student Hub पेज](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) इस पेज में, आपको शुरुआती संसाधन, छात्र पैक और यहाँ तक कि मुफ्त प्रमाणपत्र वाउचर पाने के तरीके मिलेंगे। यह एक ऐसा पेज है जिसे आप बुकमार्क करना चाहेंगे और समय-समय पर देखना चाहेंगे क्योंकि हम कम से कम मासिक रूप से सामग्री बदलते रहते हैं।
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) एक वैश्विक छात्र एम्बेसडर समुदाय में शामिल हों, यह आपके लिए Microsoft में प्रवेश का रास्ता हो सकता है।
- [छात्र हब पृष्ठ](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) इस पृष्ठ पर, आपको शुरुआती संसाधन, छात्र पैक, और मुफ्त प्रमाणपत्र वाउचर प्रप्त करने के तरीके मिलेंगे। यह एक ऐसा पृष्ठ है जिसे आप बुकमार्क करना चाहेंगे और समय-समय पर देखना चाहेंगे क्योंकि हम कम से कम महीने में एक बार सामग्री अपडेट करते हैं।
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) एक वैश्विक छात्र राजदूत समुदाय से जुड़ें, यह Microsoft में आपका मार्ग हो सकता है।
# शुरुआत कैसे करें
# शुर करें
## 📚 दस्तावेज़ीकरण
- **[इंस्टलेशन गाइड](INSTALLATION.md)** - शुरुआती लोगों के लिए चरण-दर-चरण सेटअप निर्देश
- **[उपयोग गाइड](USAGE.md)** - उदाहरण और सामान्य कार्यप्रवाह
- **[इंस्टलेशन गाइड](INSTALLATION.md)** - शुरुआती लोगों के लिए चरण-दर-चरण सेटअप निर्देश
- **[उपयोग गाइड](USAGE.md)** - उदाहरण और सामान्य वर्कफ़्लोज़
- **[समस्या निवारण](TROUBLESHOOTING.md)** - सामान्य समस्याओं के समाधान
- **[योगदान गाइड](CONTRIBUTING.md)** - इस प्रोजेक्ट में योगदान कैसे करें
- **[शिक्षकों के लिए](for-teachers.md)** - शिक्षण मार्गदर्शन और क्लासरूम संसाधन
- **[योगदान गाइड](CONTRIBUTING.md)** - इस परियोजना में योगदान कैसे करें
- **[शिक्षकों के लिए](for-teachers.md)** - शिक्षण मार्गदर्शन और कक्षा संसाधन
## 👨‍🎓 छात्रों के लिए
> **पूर्ण शुरुआत करने वाले**: डेटा साइंस में नए हैं? हमारे [शुरुआती अनुकूल उदाहरणों](examples/README.md) से शुरू करें! ये सरल, अच्छी तरह से टिप्पणी किए गए उदाहरण आपको पूरी पाठ्यक्रम में डूबने से पहले मूल बातें समझने में मदद करेंगे।
> **[छात्र](https://aka.ms/student-page)**: इस पाठ्यक्रम का उपयोग अपने लिए करने के लिए, पूरे रिपो को फोर्क करें और अपनी ओर से व्यायाम पूरा करें, एक पूर्व-लेक्चर क्विज़ से शुरू करें। फिर व्याख्यान पढ़ें और बाकी गतिविधियाँ पूरी करें। समाधान कोड की नकल करने के बजाय पाठ को समझकर प्रोजेक्ट बनाने का प्रयास करें; फिर भी वह कोड प्रत्येक परियोजना-उन्मुख पाठ में /solutions फोल्डर में उपलब्ध है। एक अन्य विचार यह होगा कि दोस्तों के साथ एक अध्ययन समूह बनाएं और सामग्री को साथ-साथ देखें। आगे अध्ययन के लिए, हम [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) की सिफारिश करते हैं।
> **पूर्ण शुरुआत**: डेटा साइंस में नए हैं? हमारे [शुरुआती-मित्रवत उदाहरणों](examples/README.md) के साथ शुरू करें! ये सरल, अच्छी तरह से टिप्पणी किए गए उदाहरण आपको पाठ्यक्रम में गहराई से जाने से पहले मूल बातें समझने में मदद करेंगे।
> **[छात्र](https://aka.ms/student-page)**: इस पाठ्यक्रम का उपयोग अपनी सुविधा अनुसार करें, पूरा रेपो फोर्क करें और स्वयं व्यायामों को पूरा करें, शुरूआत पूर्व-व्याख्यान क्विज़ से करें। फिर व्याख्यान पढ़ें और बाकी गतिविधियां पूरी करें। समाधान कोड को कॉपी करने के बजाय, पाठों को समझकर परियोजनाएं बनाने का प्रयास करें; हालांकि, वह कोड प्रत्येक परियोजना-प्रधान पाठ में /solutions फ़ोल्डर में उपलब्ध है। एक अन्य विचार है कि दोस्तों के साथ एक अध्ययन समूह बनाएं और साथ मिलकर सामग्री को पढ़ें। आगे की पढ़ाई के लिए, हम [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) की सलाह देते हैं।
**त्वरित शुरुआत:**
1. अपने पर्यावरण को सेट करने के लिए [इंस्टॉलेशन गाइड](INSTALLATION.md) देखें
2. पाठ्यक्रम के साथ काम करने के लिए [उपयोग गाइड](USAGE.md) की समीक्षा करें
3. पाठ 1 से शुरू करें और क्रम से आगे बढ़ें
**त्वरित प्रारंभ:**
1. अपने परिवेश को सेट करने के लिए [इंस्टालेशन गाइड](INSTALLATION.md) देखें
2. पाठ्यक्रम के साथ काम करना सीखने के लिए [उपयोग गाइड](USAGE.md) देखें
3. पाठ 1 से शुरू करें और अनुक्रमिक रूप से काम करें
4. सहायता के लिए हमारे [Discord समुदाय](https://aka.ms/ds4beginners/discord) में शामिल हों
## 👩‍🏫 शिक्षकों के लिए
> **शिक्षकगण**: हमने इस पाठ्यक्रम का उपयोग कैसे करें, इस पर [कुछ सुझाव शामिल किए हैं](for-teachers.md)। हम आपकी प्रतिक्रिया [हमारे चर्चा मंच](https://github.com/microsoft/Data-Science-For-Beginners/discussions) में जानना पसंद करेंगे!
> **शिक्षकगण**: हमने [कुछ सुझाव](for-teachers.md) शामिल किए हैं कि इस पाठ्यक्रम का उपयोग कैसे करें। हमें आपके प्रतिक्रिया का इंतजार रहेगा [हमारे चर्चा मंच](https://github.com/microsoft/Data-Science-For-Beginners/discussions) में!
## टीम से मिलिए
## टीम से मिलें
[![प्रमो वीडियो](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "प्रमो वीडियो")
[![प्रमो वीडियो](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "प्रमो वीडियो")
**गिफ़ द्वारा** [मोहित जैसल](https://www.linkedin.com/in/mohitjaisal)
> 🎥 परियोजना और उन्हें बनाने वालों के बारे में वीडियो के लिए उपरोक्त छवि पर क्लिक करें!
> 🎥 परियोजना और इसे बनाने वाले लोगों के बारे में वीडियो देखने के लिए ऊपर की छवि पर क्लिक करें!
## शिक्षाशास्त्र
## शिक्षण पद्धति
इस पाठ्यक्रम को बनाते समय हमने दो शैक्षिक सिद्धांत चुने हैं: यह सुनिश्चित करना कि यह परियोजना आधारित हो और इसमें बार-बार क्विज़ शामिल हों। इस श्रृंखला के अंत तक, छात्र डेटा विज्ञान के मूल सिद्धांतों को सीखेंगे, जिसमें नैतिक अवधारणाएं, डेटा तैयारी, डेटा के साथ काम करने के विभिन्न तरीके, डेटा विज़ुअलाइज़ेशन, डेटा विश्लेषण, डेटा विज्ञान के वास्तविक विश्व उपयोग के मामले, और भी बहुत कुछ शामिल है।
इस पाठ्यक्रम को बनाते समय हमने दो शिक्षण सिद्धांत चुने हैं: सुनिश्चित करना कि यह परियोजना-आधारित हो और इसमें बार-बार क्विज़ शामिल हों। इस श्रृंखला के अंत तक, छात्र डेटा साइंस के मूल सिद्धांतों को सीखेंगे, जिनमें नैतिक अवधारणाएँ, डेटा तैयारी, डेटा के साथ काम करने के विभिन्न तरीके, डेटा विज़ुअलाइज़ेशन, डेटा विश्लेषण, डेटा साइंस के वास्तविक दुनिया के उपयोग के मामले, और बहुत कुछ शामिल है।
इसके अलावा, क्लास से पहले एक कम दबाव वाला क्विज़ विद्यार्थी की किसी विषय को सीखने की इच्छा निर्धारित करता है, जबकि क्लास के बाद दूसरा क्विज़ अतिरिक्त समझ बनाए रखता है। यह पाठ्यक्रम लचीला और मजेदार बनाया गया है और इसे पूरी तरह अथवा भागों में लिया जा सकता है। परियोजनाएं छोटी शुरुआत करती हैं और 10 सप्ताह के चक्र के अंत तक धीरे-धीरे जटिल होती जाती हैं।
इसके अतिरिक्त, कक्षा से पहले एक कम दबाव वाला क्विज़ छात्र के सीखने की इच्छा को सेट करता है, जबकि कक्षा के बाद दूसरा क्विज़ और बेहतर अवधारण सुनिश्चित करता है। यह पाठ्यक्रम लचीला और मजेदार बनाने के लिए डिज़ाइन किया गया है और इसे पूरी तरह से या आंशिक रूप से लिया जा सकता है। परियोजनाएँ छोटी शुरू होती हैं और 10 सप्ताह के चक्र के अंत तक धीरे-धीरे जटिल हो जाती हैं।
> हमारे [कोड ऑफ कंडक्ट](CODE_OF_CONDUCT.md), [योगदान](CONTRIBUTING.md), [अनुवाद](TRANSLATIONS.md) दिशानिर्देश देखें। हम आपके रचनात्मक फीडबैक का स्वागत करते हैं!
> हमारे [व्यवहार संहिता](CODE_OF_CONDUCT.md), [योगदान देने के निर्देश](CONTRIBUTING.md), [अनुवाद](TRANSLATIONS.md) दिशानिर्देश देखें। हम आपकी रचनात्मक प्रतिक्रिया का स्वागत करते हैं!
## प्रत्येक पाठ में शामिल है:
## प्रत्येक पाठ में शामिल है:
- वैकल्पिक स्केचनोट
- वैकल्पिक पूरक वीडियो
- पूर्व-पाठ वार्मअप क्विज़
- पाठ से पहले वार्मअप क्विज़
- लिखित पाठ
- परियोजना-आधारित पाठों के लिए, परियोजना बनाने के चरण-दर-चरण निर्देश
- परियोजना-आधारित पाठों के लिए, परियोजना बनाने के चरण-दर-चरण मार्गदर्शिकाएँ
- ज्ञान जांच
- एक चुनौती
- एक挑战
- पूरक पठन सामग्री
- असाइनमेंट
- [पाठ के बाद क्विज़](https://ff-quizzes.netlify.app/en/)
> **क्विज़ के बारे में एक नोट**: सभी क्विज़ Quiz-App फ़ोल्डर में हैं, प्रत्येक में तीन सवालों के साथ कुल 40 क्विज़। ये पाठों के भीतर लिंक की गई हैं, लेकिन क्विज़ ऐप स्थानीय रूप से चलाया जा सकता है या Azure पर तैनात किया जा सकता है; निर्देशों के लिए `quiz-app` फ़ोल्डर देखें। इन्हें धीरे-धीरे स्थानीयकृत किया जा रहा है।
> **क्विज़ के बारे में एक नोट**: सभी क्विज़ Quiz-App फ़ोल्डर में हैं, जिसमें प्रत्येक में तीन प्रश्नों के कुल 40 क्विज़ हैं। ये पाठों से लिंक किए गए हैं, लेकिन क्विज़ ऐप लोकल भी चलाया जा सकता है या Azure पर डिप्लॉय किया जा सकता है; `quiz-app` फ़ोल्डर में निर्देशों का पालन करें। इन्हें धीरे-धीरे स्थानीयकृत किया जा रहा है।
## 🎓 शुरुआती के लिए दोस्ताना उदाहरण
**डेटा विज्ञान में नए हैं?** हमने एक विशेष [उदाहरण निर्देशिका](examples/README.md) बनाई है जिसमें सरल, अच्छी तरह से टिप्पणी की गई कोड है जो आपकी शुरुआत में मदद करेगी:
**डेटा साइंस में नए हैं?** हमने एक विशेष [उदाहरण निर्देशिका](examples/README.md) बनाई है जिसमें सरल, अच्छी तरह से टिप्पणी की गई कोड है जो आपको शुरू करने में मदद करेगी:
- 🌟 **ेलो वर्ल्ड** - आपका पहला डेटा विज्ञान प्रोग्राम
- 🌟 **ैलो वर्ल्ड** - आपका पहला डेटा साइंस प्रोग्राम
- 📂 **डेटा लोड करना** - डेटा सेट पढ़ना और एक्सप्लोर करना सीखें
- 📊 **सरल विश्लेषण** - सांख्यिकी की गणना करें और पैटर्न खोजें
- 📈 **मूल विज़ुअलाइज़ेशन** - चार्ट और ग्राफ बनाएं
- 🔬 **वास्तविक दुनिया परियोजना** - शुरू से लेकर अंत तक पूरा कार्यप्रवाह
- 📊 **सरल विश्लेषण** - सांख्यिकी गणना करें और पैटर्न खोजें
- 📈 **बुनियादी विज़ुअलाइज़ेशन** - चार्ट और ग्राफ बनाएं
- 🔬 **वास्तविक दुनिया परियोजना** - शुरू से अंत तक पूरी कार्यप्रणाली
हर उदाहरण में हर कदम को समझाने वाली विस्तृत टिप्पणियाँ होती हैं, जो इसे बिल्कुल शुरुआती लोगों के लिए उपयुक्त बनाती हैं!
प्रत्येक उदाहरण में विस्तृत टिप्पणियाँ शामिल हैं जो हर कदम की व्याख्या करती हैं, जिससे यह बिल्कुल शुरुआती लोगों के लिए उपयुक्त हो जाता है!
👉 **[उदाहरणों के साथ शुरू करें](examples/README.md)** 👈
👉 **[उदाहरणों से शुरू करें](examples/README.md)** 👈
## पाठ
|![ @sketchthedocs के द्वारा स्केचनोट https://sketchthedocs.dev](../../translated_images/hi/00-Roadmap.4905d6567dff4753.webp)|
|![ @sketchthedocs द्वारा स्केचनोट https://sketchthedocs.dev](../../translated_images/hi/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| डेटा साइंस फॉर बिगिनर्स: रोडमैप - _स्केचनोट [@nitya](https://twitter.com/nitya) के द्वारा_ |
| Data Science For Beginners: रोडमैप - _स्केचनोट द्वारा [@nitya](https://twitter.com/nitya)_ |
| पाठ संख्या | विषय | पाठ समूह | सीखने के उद्देश्य | संबंधित पाठ | लेखक |
| पाठ संख्या | विषय | पाठ समूह | सीखने के उद्देश्य | लिंक्ड पाठ | लेखक |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | डेटा साइंस की परिभाषा | [परिचय](1-Introduction/README.md) | डेटा विज्ञान के मूल सिद्धांत सीखें और यह कैसे कृत्रिम बुद्धिमत्ता, मशीन लर्निंग, और बड़े डेटा से संबंधित है। | [पाठ](1-Introduction/01-defining-data-science/README.md) [वीडियो](https://youtu.be/beZ7Mb_oz9I) | [מיט्री](http://soshnikov.com) |
| 02 | डेटा साइंस नैतिकता | [परिचय](1-Introduction/README.md) | डेटा नैतिकता के सिद्धांत, चुनौतियां और फ्रेमवर्क। | [पाठ](1-Introduction/02-ethics/README.md) | [नित्य](https://twitter.com/nitya) |
| 01 | डेटा साइंस की परिभाषा | [परिचय](1-Introduction/README.md) | डेटा साइंस के मूल सिद्धांतों को सीखें और यह आर्टिफिशियल इंटेलिजेंस, मशीन लर्निंग, और बिग डेटा से कैसे संबंधित है। | [पाठ](1-Introduction/01-defining-data-science/README.md) [वीडियो](https://youtu.be/beZ7Mb_oz9I) | [िमित्रि](http://soshnikov.com) |
| 02 | डेटा साइंस नैतिकता | [परिचय](1-Introduction/README.md) | डेटा नैतिकता की अवधारणाएं, चुनौतियाँ और ढाँचे। | [पाठ](1-Introduction/02-ethics/README.md) | [नित्य](https://twitter.com/nitya) |
| 03 | डेटा की परिभाषा | [परिचय](1-Introduction/README.md) | डेटा को कैसे वर्गीकृत किया जाता है और इसके सामान्य स्रोत। | [पाठ](1-Introduction/03-defining-data/README.md) | [जैस्मिन](https://www.twitter.com/paladique) |
| 04 | सांख्यिकी और संभावा का परिचय | [परिचय](1-Introduction/README.md) | डेटा समझने के लिए संभावना और सांख्यिकी की गणितीय तकनीकें। | [पाठ](1-Introduction/04-stats-and-probability/README.md) [वीडियो](https://youtu.be/Z5Zy85g4Yjw) | [מיט्री](http://soshnikov.com) |
| 05 | रिलेशनल डेटा के साथ काम करना | [डेटा के साथ काम](2-Working-With-Data/README.md) | रिलेशनल डेटा का परिचय और उसके विश्लेषण के लिए संरचित क्वेरी भाषा (SQL) का उपयोग। | [पाठ](2-Working-With-Data/05-relational-databases/README.md) | [क्रिस्टोफर](https://www.twitter.com/geektrainer) | | |
| 06 | नोएसक्यूएल डेटा के साथ काम करना | [डेटा के साथ काम](2-Working-With-Data/README.md) | गैर-रिलेशनल डेटा का परिचय, इसके विभिन्न प्रकार और दस्तावेज़ डेटाबेस का विश्लेषण। | [पाठ](2-Working-With-Data/06-non-relational/README.md) | [जैस्मिन](https://twitter.com/paladique)|
| 07 | पायथन के साथ काम करना | [डेटा के साथ काम](2-Working-With-Data/README.md) | पांडास जैसी लाइब्रेरीज के साथ पायथन का उपयोग करते हुए डेटा एक्सप्लोरेशन की बुनियादी बातें। पायथन प्रोग्रामिंग की मूल समझ अनुशंसित है। | [पाठ](2-Working-With-Data/07-python/README.md) [वीडियो](https://youtu.be/dZjWOGbsN4Y) | [מיט्री](http://soshnikov.com) |
| 08 | डेटा तैयारी | [डेटा के साथ काम](2-Working-With-Data/README.md) | गायब, गलत या अपूर्ण डेटा की चुनौतियों को संभालने के लिए डेटा साफ़ करने और बदलने की तकनीकें। | [पाठ](2-Working-With-Data/08-data-preparation/README.md) | [जैस्मिन](https://www.twitter.com/paladique) |
| 09 | मात्राओं का विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | माटप्लॉटलिब का उपयोग कर बर्ड डेटा 🦆 को विज़ुअलाइज़ करना सीखें | [पाठ](3-Data-Visualization/09-visualization-quantities/README.md) | [जेन](https://twitter.com/jenlooper) |
| 10 | डेटा वितरण का विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | अवलोकनों और प्रवृत्तियों को एक अंतराल के भीतर विज़ुअलाइज़ करना। | [पाठ](3-Data-Visualization/10-visualization-distributions/README.md) | [जेन](https://twitter.com/jenlooper) |
| 11 | अनुपात का विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | पृथक और समूहित प्रतिशत को विज़ुअलाइज़ करना। | [पाठ](3-Data-Visualization/11-visualization-proportions/README.md) | [जेन](https://twitter.com/jenlooper) |
| 12 | संबंधों का विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | डेटा सेट और उनके वेरिएबल्स के बीच कनेक्शन और सहसंबंधों का विज़ुअलाइज़ेशन। | [पाठ](3-Data-Visualization/12-visualization-relationships/README.md) | [जेन](https://twitter.com/jenlooper) |
| 13 | अर्थपूर्ण विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | प्रभावी समस्या समाधान और अंतर्दृष्टि के लिए अपने विज़ुअलाइज़ेशन को मूल्यवान बनाने की तकनीकें और मार्गदर्शन। | [पाठ](3-Data-Visualization/13-meaningful-visualizations/README.md) | [जेन](https://twitter.com/jenlooper) |
| 14 | डेटा विज्ञान जीवनचक्र का परिचय | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डेटा विज्ञान जीवनचक्र का परिचय और डेटा प्राप्त करने और निकालने का पहला चरण। | [पाठ](4-Data-Science-Lifecycle/14-Introduction/README.md) | [जैस्मिन](https://twitter.com/paladique) |
| 15 | विश्लेषण | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डेटा विज्ञान जीवनचक्र का यह चरण डेटा का विश्लेषण करने की तकनीकों पर केंद्रित है। | [पाठ](4-Data-Science-Lifecycle/15-analyzing/README.md) | [जैस्मिन](https://twitter.com/paladique) | | |
| 16 | संवाद | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डेटा विज्ञान जीवनचक्र का यह चरण डेटा से अंतर्दृष्टि प्रस्तुत करने पर केंद्रित है ताकि निर्णय लेने वालों के लिए इसे समझना आसान हो। | [पाठ](4-Data-Science-Lifecycle/16-communication/README.md) | [न](https://twitter.com/JalenMcG) | | |
| 17 | क्लाउड में डेटा साइंस | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | क्लाउड में डेटा साइंस और इसके लाभों का परिचय। | [पाठ](5-Data-Science-In-Cloud/17-Introduction/README.md) | [टिफ़नी](https://twitter.com/TiffanySouterre) और [ड](https://twitter.com/maudstweets) |
| 18 | क्लाउड में डेटा साइंस | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | लो कोड टूल्स का उपयोग कर मॉडल प्रशिक्षण। |[पाठ](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [टिफ़नी](https://twitter.com/TiffanySouterre) और [ड](https://twitter.com/maudstweets) |
| 19 | क्लाउड में डेटा साइंस | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | Azure मशीन लर्निंग स्टूडियो के साथ मॉडल तैनात करना। | [पाठ](5-Data-Science-In-Cloud/19-Azure/README.md)| [टिफ़नी](https://twitter.com/TiffanySouterre) और [ड](https://twitter.com/maudstweets) |
| 20 | असली दुनिया में डेटा साइंस | [असली दुनिया में](6-Data-Science-In-Wild/README.md) | असली दुनिया में डेटा साइंस संचालित परियोजनाए। | [पाठ](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [नित्य](https://twitter.com/nitya) |
| 04 | सांख्यिकी और संभाव्यता का परिचय | [परिचय](1-Introduction/README.md) | डेटा को समझने के लिए संभाव्यता और सांख्यिकी की गणितीय तकनीकें। | [पाठ](1-Introduction/04-stats-and-probability/README.md) [वीडियो](https://youtu.be/Z5Zy85g4Yjw) | [िमित्रि](http://soshnikov.com) |
| 05 | संबंधपरक डेटा के साथ काम करना | [डेटा के साथ काम करना](2-Working-With-Data/README.md) | संबंधपरक डेटा का परिचय और संरचित क्वेरी भाषा (SQL) के साथ संबंधपरक डेटा का अन्वेषण और विश्लेषण के मूल बातें। | [पाठ](2-Working-With-Data/05-relational-databases/README.md) | [क्रिस्टोफर](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQL डेटा के साथ काम करना | [डेटा के साथ काम करना](2-Working-With-Data/README.md) | गैर-संबंधपरक डेटा का परिचय, इसके विभिन्न प्रकार और दस्तावेज़ डेटाबेस का अन्वेषण और विश्लेषण की मूल बातें। | [पाठ](2-Working-With-Data/06-non-relational/README.md) | [जैस्मिन](https://twitter.com/paladique)|
| 07 | पायथन के साथ काम करना | [डेटा के साथ काम करना](2-Working-With-Data/README.md) | पायथन का उपयोग डेटा अन्वेषण के लिए करना, जैसे कि पांडस लाइब्रेरी के साथ। पायथन प्रोग्रामिंग की मूल समझ अनुशंसित है। | [पाठ](2-Working-With-Data/07-python/README.md) [वीडियो](https://youtu.be/dZjWOGbsN4Y) | [िमित्रि](http://soshnikov.com) |
| 08 | डेटा तैयारी | [डेटा के साथ काम करना](2-Working-With-Data/README.md) | डेटा साफ़ करने और रूपांतरित करने के तकनीकें ताकि मिसिंग, गलत या अपूर्ण डेटा की चुनौतियों को संभाला जा सके। | [पाठ](2-Working-With-Data/08-data-preparation/README.md) | [जैस्मिन](https://www.twitter.com/paladique) |
| 09 | मात्राओं का विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | बैट डेटा का विज़ुअलायज़ेशन करने के लिए Matplotlib का उपयोग करना सीखें 🦆 | [पाठ](3-Data-Visualization/09-visualization-quantities/README.md) | [जेन](https://twitter.com/jenlooper) |
| 10 | डेटा के वितरण का विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | अवलोकनों और प्रवृत्तियों को एक अंतराल के भीतर विज़ुअलाइज़ करना। | [पाठ](3-Data-Visualization/10-visualization-distributions/README.md) | [जेन](https://twitter.com/jenlooper) |
| 11 | अनुपातों का विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | विविक्त और समूहित प्रतिशत का विज़ुअलाइज़ेशन। | [पाठ](3-Data-Visualization/11-visualization-proportions/README.md) | [जेन](https://twitter.com/jenlooper) |
| 12 | संबंधों का विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | डेटा सेट और उनके चर के बीच कनेक्शन और सहसंबंध का विज़ुअलाइज़ेशन। | [पाठ](3-Data-Visualization/12-visualization-relationships/README.md) | [जेन](https://twitter.com/jenlooper) |
| 13 | अर्थपूर्ण विज़ुअलाइज़ेशन | [डेटा विज़ुअलाइज़ेशन](3-Data-Visualization/README.md) | मूल्यवान और प्रभावी समस्या समाधान और अंतर्दृष्टि के लिए आपकी विज़ुअलाइज़ेशन बनाने की तकनीक और मार्गदर्शन। | [पाठ](3-Data-Visualization/13-meaningful-visualizations/README.md) | [जेन](https://twitter.com/jenlooper) |
| 14 | डेटा साइंस जीवनचक्र का परिचय | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डेटा साइंस जीवनचक्र का परिचय और उसके पहले चरण में डेटा प्राप्त करना और निकालना। | [पाठ](4-Data-Science-Lifecycle/14-Introduction/README.md) | [जैस्मिन](https://twitter.com/paladique) |
| 15 | विश्लेषण करना | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डेटा साइंस जीवनचक्र का यह चरण डेटा का विश्लेषण करने की तकनीकों पर केंद्रित है। | [पाठ](4-Data-Science-Lifecycle/15-analyzing/README.md) | [जैस्मिन](https://twitter.com/paladique) | | |
| 16 | संवाद करना | [जीवनचक्र](4-Data-Science-Lifecycle/README.md) | डेटा साइंस जीवनचक्र का यह चरण डेटा से अंतर्दृष्टि प्रस्तुत करने पर केंद्रित है, ताकि निर्णय लेने वालों को समझना आसान हो सके। | [पाठ](4-Data-Science-Lifecycle/16-communication/README.md) | [ालेन](https://twitter.com/JalenMcG) | | |
| 17 | क्लाउड में डेटा साइंस | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | क्लाउड में डेटा साइंस और इसके लाभों का परिचय। | [पाठ](5-Data-Science-In-Cloud/17-Introduction/README.md) | [टिफ़नी](https://twitter.com/TiffanySouterre) और [ड](https://twitter.com/maudstweets) |
| 18 | क्लाउड में डेटा साइंस | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | लो कोड टूल्स का उपयोग करके मॉडल प्रशिक्षण। |[पाठ](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [टिफ़नी](https://twitter.com/TiffanySouterre) और [ड](https://twitter.com/maudstweets) |
| 19 | क्लाउड में डेटा साइंस | [क्लाउड डेटा](5-Data-Science-In-Cloud/README.md) | Azure मशीन लर्निंग स्टूडियो के साथ मॉडल तैनात करना। | [पाठ](5-Data-Science-In-Cloud/19-Azure/README.md)| [टिफ़नी](https://twitter.com/TiffanySouterre) और [ड](https://twitter.com/maudstweets) |
| 20 | डेटा साइंस इन द वाइल्ड | [इन् द वाइल्ड](6-Data-Science-In-Wild/README.md) | वास्तविक दुनिया में डेटा साइंस संचालित परियोजनाए। | [पाठ](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [नित्य](https://twitter.com/nitya) |
## GitHub Codespaces
इस नमूने को Codespace में खोलने के लिए निम्नलिखित चरणों का पालन करें:
1. Code ड्रॉप-डाउन मेनू पर क्लिक करें और Open with Codespaces विकल्प चुनें।
2. पैन के नीचे + New codespace चुनें।
और जानकारी के लिए, [GitHub दस्तावेज़](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) देखें।
इस नमूना को Codespace में खोलने के लिए ये कदम उठाएँ:
1. कोड ड्रॉप-डाउन मेनू पर क्लिक करें और Open with Codespaces विकल्प चुनें।
2. पैन के नीचे + New codespace चुनें।
अधिक जानकारी के लिए, [GitHub दस्तावेज़](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) देखें।
## VSCode Remote - Containers
अपने स्थानीय कंप्यूटर और VSCode का उपयोग करके इस रिपॉजिटरी को कंटेनर में खोलने के लिए VS Code Remote - Containers एक्सटेंशन का उपयोग करें:
## VSCode Remote - कंटेनर
अपने स्थानीय मशीन और VSCode के साथ इस रिपॉजिटरी को कंटेनर में खोलने के लिए VS Code Remote - Containers एक्सटेंशन का उपयोग करें:
1. यदि यह आपका पहला विकास कंटेनर उपयोग है, तो कृपया सुनिश्चित करें कि आपकी प्रणाली आवश्यकताएं पूरी करती हैं (जैसे Docker इंस्टॉल होना) [शुरुआत के दस्तावेज़](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) में।
1. यदि यह आपकी पहली बार डेवलपमेंट कंटेनर उपयोग कर रहे हैं, तो कृपया सुनिश्चित करें कि आपकी प्रणाली [शुरुआत के दस्तावेज़](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) में उल्लिखित आवश्यकताएँ पूरी करती है (जैसे Docker इंस्टॉल होना)
इस रिपॉजिटरी का उपयोग करने के लिए, आप या तो रिपॉजिटरी को एक अलग Docker वॉल्यूम में खोल सकते हैं:
इस रिपॉजिटरी का उपयोग करने के लिए, आप या तो इसे एक अलग Docker वॉल्यूम में खोल सकते हैं:
**नोट**: अंतर्निहित रूप से, यह Remote-Containers: **Clone Repository in Container Volume...** कमांड का उपयोग करके स्रोत कोड को स्थानीय फ़ाइल सिस्टम के बजाय Docker वॉल्यूम में क्लोन करेगा। [वॉल्यूम](https://docs.docker.com/storage/volumes/) कंटेनर डेटा संग्रहीत करने के लिए प्राथमिक माध्यम हैं।
**नोट**: इसके तहत Remote-Containers: **Clone Repository in Container Volume...** कमांड का उपयोग कर सोर्स कोड को लोकल फाइलसिस्टम के बजाय Docker वॉल्यूम में क्लोन किया जाएगा। [वॉल्यूम](https://docs.docker.com/storage/volumes/) कंटेनर डेटा को स्थायी बनाने के लिए पसंदीदा तंत्र हैं।
या रिपॉजिटरी की स्थानीय रूप से क्लोन की गई या डाउनलोड की गई प्रति खोल सकते हैं:
या रिपॉजिटरी की लोकली क्लोन या डाउनलोड की गई कॉपी खोलें:
- इस रिपॉजिटरी को अपने स्थानीय फ़ाइल सिस्टम पर क्लोन करें।
- इसे अपनी लोकल फाइलसिस्टम में क्लोन करें।
- F1 दबाएं और **Remote-Containers: Open Folder in Container...** कमांड चुनें।
- इस फ़ोल्डर की क्लोन की गई प्रति चुनें, कंटेनर के शुरू होने का इंतजार करें, और प्रयोग करें।
- इस फ़ोल्डर की क्लोन की गई कॉपी चुनें, कंटेनर के शुरू होने का इंतजार करें, और फिर प्रयोग करें।
## ऑफ़लाइन एक्सेस
## ऑफ़लाइन पहुँच
[Docsify](https://docsify.js.org/#/) का उपयोग करके आप इस दस्तावेज़ को ऑफ़लाइन चला सकते हैं। इस रिपॉजिटरी को फोर्क करें, अपने स्थानीय कंप्यूटर पर [Docsify इंस्टॉल करें](https://docsify.js.org/#/quickstart), फिर इस रिपॉजिटरी के रूट फ़ोल्डर में टाइپ करें `docsify serve`। वेबसाइट आपके लोकलहोस्ट पर पोर्ट 3000 पर सेवा देगी: `localhost:3000`
आप इस दस्तावेज़ को ऑफ़लाइन [Docsify](https://docsify.js.org/#/) का उपयोग करके चला सकते हैं। इस रिपॉजिटरी को फोर्क करें, अपने स्थानीय मशीन पर [Docsify इंस्टॉल करें](https://docsify.js.org/#/quickstart), फिर इस रिपॉजिटरी की रूट फ़ोल्डर में `docsify serve` टाइप करें। वेबसाइट आपके लोकलहोस्ट पर पोर्ट 3000 पर सर्व होगी: `localhost:3000`
> नोट करें, नोटबुक Docsify के माध्यम से रेंडर नहीं होंगे, इसलिए जब आपको नोटबुक चलाना हो, तो वह अलग से VS Code में पायथन कर्नेल के साथ करें।
> ध्यान दें, नोटबुक्स Docsify के माध्यम से रेंडर नहीं होंगी, इसलिए जब आपको नोटबुक चलाना हो, तो वह अलग से VS Code में पायथन कर्नेल चलाकर करें।
## अन्य पाठ्यक्रम
हमारी टीम अन्य पाठ्यक्रम भी तैयार करती है! देखें:
हमारी टीम अन्य पाठ्यक्रम भी बनाती है! देखें:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
@ -208,7 +218,7 @@ Microsoft के Azure Cloud Advocates डेटा साइंस के ब
---
### जनरेटिव AI सीरीज
### जनरेटिव AI श्रृंखला
[![Generative AI for Beginners](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Generative AI (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![Generative AI (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
@ -227,7 +237,7 @@ Microsoft के Azure Cloud Advocates डेटा साइंस के ब
---
### कोपिलॉट सीरीज
### कोपिलॉट श्रृंखला
[![Copilot for AI Paired Programming](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot for C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Copilot Adventure](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
@ -237,11 +247,11 @@ Microsoft के Azure Cloud Advocates डेटा साइंस के ब
**समस्याओं का सामना कर रहे हैं?** सामान्य समस्याओं के समाधान के लिए हमारा [ट्रबलशूटिंग गाइड](TROUBLESHOOTING.md) देखें।
यदि आप फंस गए हैं या AI ऐप बनाने के बारे में कोई प्रश्न है। MCP के बारे में चर्चा में साथी शिक्षार्थियों और अनुभवी डेवलपर्स में शामिल हों। यह एक सहायक समुदाय है जहां प्रश्नों का स्वागत है और ज्ञान स्वतंत्र रूप से साझा किया जाता है।
यदि आप अटक जाते हैं या AI ऐप बनाने के बारे में कोई सवाल है। MCP के बारे में चर्चाओं में साथी शिक्षार्थियों और अनुभवी डेवलपर्स में शामिल हों। यह एक सहायक समुदाय है जहाँ प्रश्न स्वागत योग्य हैं और ज्ञान खुले तौर पर साझा किया जाता है।
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
यदि आपके पास उत्पाद प्रतिक्रिया या निर्माण के दौरान त्रुटियाँ हैं तो निम्नलिखित पर जाएँ:
यदि आपके पास उत्पाद प्रतिक्रिया या निर्माण के दौरान त्रुटियाँ हैं तो यहां जाएं:
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
@ -249,5 +259,5 @@ Microsoft के Azure Cloud Advocates डेटा साइंस के ब
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**अस्वीकरण**:
इस दस्तावेज़ का अनुवाद एआई अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके किया गया है। जबकि हम सटीकता के लिए प्रयासरत हैं, कृपया ध्यान रखें कि स्वचालित अनुवादों में त्रुटियाँ या अप्रमाणिकताएं हो सकती हैं। मूल दस्तावेज़ अपनी मूल भाषा में प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सलाह दी जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।
इस दस्तावेज़ का अनुवाद AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके किया गया है। हम सही अनुवाद के लिए प्रयासरत हैं, लेकिन कृपया ध्यान दें कि स्वचालित अनुवादों में त्रुटियाँ या असंगतियाँ हो सकती हैं। मूल दस्तावेज़ अपनी मूल भाषा में ही अधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@
नित्या नरसिम्हन, कलाकार
![रोडमैप स्केच नोट](../../../translated_images/hi/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![रोडमैप स्केच नोट](../../../translated_images/hi/00-Roadmap.4905d6567dff4753.webp)
**अस्वीकरण**:
यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "ja"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-28T09:11:22+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "ja"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-25T16:57:47+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "ja"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-28T09:11:54+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "ja"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:11:22+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "ja"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-28T09:12:48+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "ja"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T12:41:03+00:00",
@ -360,8 +378,8 @@
"language_code": "ja"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T07:44:20+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-28T09:18:21+00:00",
"source_file": "README.md",
"language_code": "ja"
},

@ -6,7 +6,7 @@
---
[![データサイエンスの定義ビデオ](../../../../translated_images/ja/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![データサイエンスの定義ビデオ](../../../../translated_images/ja/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [講義前のクイズ](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@
このチャレンジでは、テキストを調べることでデータサイエンス分野に関連する概念を見つけることを試みます。データサイエンスに関するWikipediaの記事を取得し、テキストを処理した後、以下のようなワードクラウドを作成します
![データサイエンスのワードクラウド](../../../../translated_images/ja/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![データサイエンスのワードクラウド](../../../../translated_images/ja/ds_wordcloud.664a7c07dca57de0.webp)
コードを読むには[`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore')を訪問してください。また、コードを実行して、リアルタイムでデータ変換がどのように行われるか確認することもできます。

@ -3,15 +3,15 @@
{
"cell_type": "markdown",
"source": [
"# チャレンジ: データサイエンスに関するテキストの分析\n",
"# チャレンジデータサイエンスに関するテキストの分析\n",
"\n",
"この例では、伝統的なデータサイエンスプロセスのすべてのステップをカバーする簡単な演習を行います。コードを書く必要はありません。以下のセルをクリックして実行し、結果を観察するだけで構いません。チャレンジとして、異なるデータでこのコードを試してみることをお勧めします。\n",
"この例では、伝統的なデータサイエンスプロセスのすべてのステップをカバーする簡単な演習を行います。コードを書く必要はなく、下のセルをクリックして実行し、結果を観察するだけで構いません。チャレンジとして、異なるデータでこのコードを試ことをお勧めします。\n",
"\n",
"## 目標\n",
"\n",
"このレッスンでは、データサイエンスに関連するさまざまな概念について議論してきました。**テキストマイニング**を行うことで、さらに関連する概念を発見してみましょう。データサイエンスに関するテキストを使い、そこからキーワードを抽出し、結果を視覚化してみます。\n",
"このレッスンでは、データサイエンスに関連するさまざまな概念について議論してきました。**テキストマイニング**を行い、関連する概念をさらに発見してみましょう。データサイエンスに関するテキストからキーワードを抽出し、その結果を可視化することから始めます。\n",
"\n",
"テキストとして、Wikipediaのデータサイエンスに関するページを使用します:\n"
"テキストとして、Wikipediaのデータサイエンスに関するページを使用します\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## ステップ1: データの取得\n",
"## ステップ 1: データの取得\n",
"\n",
"データサイエンスプロセスの最初のステップは、データを取得することです。これには `requests` ライブラリを使用します。\n"
"データサイエンスプロセスの最初のステップはデータの取得です。これには `requests` ライブラリを使用します:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## ステップ2: データの変換\n",
"## ステップ 2: データの変換\n",
"\n",
"次のステップは、データを処理に適した形式に変換することです。今回の場合、ページからHTMLソースコードをダウンロードしており、それをプレーンテキストに変換する必要があります。\n",
"次のステップは、処理に適した形にデータを変換することです。今回は、ページからHTMLソースコードをダウンロードしてきたので、それをプレーンテキストに変換する必要があります。\n",
"\n",
"これを行う方法は多数あります。ここでは、Pythonの組み込みオブジェクトである[HTMLParser](https://docs.python.org/3/library/html.parser.html)を使用します。`HTMLParser`クラスをサブクラス化し、`<script>`タグや`<style>`タグを除くHTMLタグ内のすべてのテキストを収集するコードを定義します。\n"
"この変換方法はいくつもあります。ここでは、HTML解析のための人気のあるPythonライブラリである[BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)を使います。BeautifulSoupを使うことで、特定のHTML要素を対象にできるため、Wikipediaの主な記事内容に集中し、ナビゲーションメニューやサイドバー、フッターなどの不要なコンテンツを減らすことができますただし、いくつかの定型文は残る場合があります。\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"まず、HTML解析のためにBeautifulSoupライブラリをインストールする必要があります:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## ステップ 3: インサイトを得る\n",
"## Step 3: インサイトの取得\n",
"\n",
"最も重要なステップは、データをインサイトを引き出せる形に変えることです。今回の場合、テキストからキーワードを抽出し、どのキーワードがより意味のあるものかを確認します。\n",
"最も重要なステップは、データを洞察を引き出せる形に変換することです。私たちの場合、テキストからキーワードを抽出し、どのキーワードがより意味を持つかを確認したいと思います。\n",
"\n",
"キーワード抽出には、[RAKE](https://github.com/aneesha/RAKE) というPythonライブラリを使用します。まず、このライブラリがインストールされていない場合に備えて、インストールを行いましょう:\n"
"キーワード抽出には、[RAKE](https://github.com/aneesha/RAKE)というPythonライブラリを使用します。まず、このライブラリがインストールされていない場合は、インストールしましょう。\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"主要な機能は`Rake`オブジェクトから利用可能であり、いくつかのパラメーターを使用してカスタマイズできます。今回の場合、キーワードの最小長を5文字、ドキュメント内でのキーワードの最小頻度を3、キーワード内の最大単語数を2に設定します。他の値試して結果を観察してみてください。\n"
"主な機能は `Rake` オブジェクトから利用でき、いくつかのパラメータでカスタマイズ可能です。今回の場合、キーワードの最小長さを5文字、文書内でのキーワードの最小頻度を3、キーワード内の最大単語数を2に設定します。他の値も自由に試して結果を観察してみてください。\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"私たちは、重要度と関連付けられた用語のリストを取得しました。ご覧の通り、機械学習やビッグデータのような最も関連性の高い分野が、リストの上位に位置しています。\n",
"重要度の度合いとともに用語の一覧を取得しました。ご覧のとおり、機械学習やビッグデータなどの最も関連性の高い分野が、リストの上位に存在しています。\n",
"\n",
"## ステップ4: 結果の可視化\n",
"## Step 4: Visualizing the Result\n",
"\n",
"データは視覚的な形式で解釈するのが最も簡単です。そのため、洞察を得るためにデータを可視化することはよく理にかなっています。Pythonの`matplotlib`ライブラリを使用して、キーワードとその関連性の単純な分布をプロットすることができます。\n"
"人々はデータを視覚的な形で最もよく解釈できます。そのため、洞察を引き出すためにデータを視覚化することはしばしば有効です。Pythonの`matplotlib`ライブラリを使って、キーワードの関連性の分布を簡単にプロットできます:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"しかし、単語の頻度を視覚化するさらに良い方法があります。それは、**ワードクラウド**を使用することです。キーワードリストからワードクラウドをプロットするために、別のライブラリをインストールする必要があります。\n"
"しかし、単語の出現頻度を視覚化するもっと良い方法があります。それは **Word Cloud** を使うことです。キーワードリストからワードクラウドをプロットするために、別のライブラリをインストールする必要があります。\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud`オブジェクトは、元のテキストまたは事前に計算された単語とその頻度のリストを受け取り、画像を返します。その画像は`matplotlib`を使用して表示することができます。\n"
"`WordCloud`オブジェクトは、元のテキストまたは事前に計算された単語とその頻度のリストのいずれかを受け取り、画像を返します。その画像は`matplotlib`を使って表示できます。\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"元のテキストを `WordCloud` に渡すこともできます - 同様の結果が得られるか見てみましょう:\n"
"元のテキストを `WordCloud` に渡すこともできます - 似たような結果が得られるか見てみましょう:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"ワードクラウドが以前よりも印象的に見えるようになりましたが、同時に多くのノイズ(例えば、`Retrieved on`のような無関係な単語)も含まれています。また、*data scientist* や *computer science* のような2語からなるキーワードが少なくなっています。これは、RAKEアルゴリズムがテキストから適切なキーワードを選び出すのに優れているためです。この例は、データの前処理とクリーニングの重要性を示しています。最終的に明確な結果が得られることで、より良い意思決定が可能になります。\n",
"ワードクラウドがより印象的になったのが分かりますが、多くのノイズ(例:`Retrieved on` のような無関係な単語)も含まれています。また、*data scientist* や *computer science* のような2語からなるキーワードが少なくなっています。これは、RAKEアルゴリズムがテキストから良いキーワードを選択するのにずっと優れているためです。この例は、最終的にクリアな図を得ることでより良い意思決定が可能になるため、データの前処理とクレンジングの重要性を示しています。\n",
"\n",
"この演習では、Wikipediaのテキストからキーワードやワードクラウドの形で意味を抽出する簡単なプロセスを体験しました。この例は非常にシンプルですが、データサイエンティストがデータを扱う際に取る典型的なステップ、つまりデータの取得から可視化までの流れをよく示しています。\n",
"この演習では、Wikipediaのテキストからキーワードやワードクラウドの形で意味を抽出する簡単なプロセスを経験しました。この例は非常に単純ですが、データサイエンティストがデータを扱う際に通常行うすべての典型的なステップ、すなわちデータ取得から可視化までをよく示しています。\n",
"\n",
"このコースでは、これらすべてのステップについて詳しく説明していきます。\n"
"このコースでは、それらすべてのステップを詳しく説明していきます。\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**免責事項**: \nこの文書は、AI翻訳サービス [Co-op Translator](https://github.com/Azure/co-op-translator) を使用して翻訳されています。正確性を期すよう努めておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があります。元の言語で記載された原文が正式な情報源と見なされるべきです。重要な情報については、専門の人間による翻訳を推奨します。この翻訳の使用に起因する誤解や誤認について、当方は一切の責任を負いません。\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**免責事項** \n本書類はAI翻訳サービス「Co-op Translator」https://github.com/Azure/co-op-translatorを使用して翻訳されました。正確性の向上に努めておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があります。原文の言語による文書が正式な情報源とみなされるべきです。重要な情報については、専門の人間による翻訳を推奨します。本翻訳の利用により生じたいかなる誤解や誤訳についても、当方は一切責任を負いかねます。\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:36:26+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "ja"
}
},
"nbformat": 4,

@ -5,15 +5,15 @@
"source": [
"# チャレンジ: データサイエンスに関するテキストの分析\n",
"\n",
"> *このノートブックでは、異なるURLを使用して実験を行います - 機械学習に関するWikipediaの記事です。データサイエンスとは異なり、この記事には多くの専門用語が含まれており、そのため分析がより困難になります。キーワード抽出を行った後に、頻出だが意味のない単語の組み合わせを取り除くための別の方法を考え出す必要があります。*\n",
"> *このノートブックでは、機械学習に関するウィキペディアの記事という異なるURLを使った実験を行います。データサイエンスとは異なり、この記事には多くの用語が含まれており、これが分析をより難しくしています。キーワード抽出後に、頻繁だが意味のない語の組み合わせを取り除くための別の方法でデータをクリーンアップする必要があります。*\n",
"\n",
"この例では、伝統的なデータサイエンスプロセスのすべてのステップをカバーする簡単な演習を行います。コードを書く必要はありません。下のセルをクリックして実行し、結果を観察するだけで構いません。チャレンジとして、異なるデータでこのコードを試してみることをお勧めします。\n",
"この例では、伝統的なデータサイエンスプロセスのすべてのステップをカバーする簡単な演習を行います。コードを書く必要はありません。下のセルをクリックして実行し、結果を観察してください。チャレンジとして、異なるデータでこのコードを試すことも推奨します。\n",
"\n",
"## 目標\n",
"\n",
"このレッスンでは、データサイエンスに関連するさまざまな概念について議論してきました。**テキストマイニング**を行うことで、さらに関連する概念を発見してみましょう。データサイエンスに関するテキストを使用し、そこからキーワードを抽出し、結果を視覚化してみます。\n",
"このレッスンでは、データサイエンスに関連するさまざまな概念について議論してきました。**テキストマイニング**を行い、さらに多くの関連概念を見つけてみましょう。まずは、データサイエンスに関するテキストを使い、そこからキーワードを抽出し、結果を視覚化することを試みます。\n",
"\n",
"テキストとして、Wikipediaのデータサイエンスに関するページを使用します:\n"
"テキストとしては、ウィキペディアのデータサイエンスのページを使用します:\n"
],
"metadata": {}
},
@ -37,7 +37,7 @@
"source": [
"## ステップ1: データの取得\n",
"\n",
"データサイエンスプロセスの最初のステップは、データを取得することです。これには `requests` ライブラリを使用します:\n"
"あらゆるデータサイエンスプロセスの最初のステップはデータの取得です。ここでは `requests` ライブラリを使います:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## ステップ2: データの変換\n",
"## Step 2: データの変換\n",
"\n",
"次のステップは、データを処理に適した形式に変換することです。今回の場合、ページからHTMLソースコードをダウンロードしており、それをプレーンテキストに変換する必要があります。\n",
"次のステップは、データを処理に適した形式に変換することです。今回の場合、ページからHTMLソースコードをダウンロードしているので、それをプレーンテキストに変換する必要があります。\n",
"\n",
"これを行う方法は多数あります。ここでは、Pythonの組み込みの最も簡単な[HTMLParser](https://docs.python.org/3/library/html.parser.html)オブジェクトを使用します。`HTMLParser`クラスをサブクラス化し、HTMLタグ内のすべてのテキストを収集するコードを定義します。ただし、`<script>`タグと`<style>`タグ内のテキストは除外します。\n"
"これには多くの方法があります。ここでは、HTML解析のための人気のPythonライブラリである[BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)を使用します。BeautifulSoupを使うことで特定のHTML要素を指定できるため、Wikipediaのメイン記事コンテンツに注目し、ナビゲーションメニューやサイドバー、フッターなどの不要な内容を減らすことができますただし、一部のボイラープレートテキストは依然として残る場合があります。\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"まず、HTML解析のためにBeautifulSoupライブラリをインストールする必要があります\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## ステップ3: 洞察を得る\n",
"## Step 3: インサイトの取得\n",
"\n",
"最も重要なステップは、データを洞察を引き出せる形に変えることです。今回の場合、テキストからキーワードを抽出し、どのキーワードがより意味のあるものかを確認したいと考えています。\n",
"最も重要なステップは、データを何らかの形に変換してインサイトを引き出せるようにすることです。私たちの場合、テキストからキーワードを抽出し、どのキーワードがより意味を持つかを確認したいと考えています。\n",
"\n",
"キーワード抽出には、[RAKE](https://github.com/aneesha/RAKE)というPythonライブラリを使用します。まず、このライブラリがインストールされていない場合に備えて、インストールを行いましょう:\n"
"キーワード抽出には、Pythonのライブラリ[RAKE](https://github.com/aneesha/RAKE)を使用します。まず、このライブラリが存在しない場合に備えてインストールしましょう: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"主な機能は `Rake` オブジェクトから利用可能であり、いくつかのパラメーターを使用してカスタマイズできます。私たちの場合、キーワードの最小長を5文字、ドキュメント内でのキーワードの最小頻度を3、キーワード内の最大単語数を2に設定します。他の値を試して結果を観察してみてください。\n"
"主な機能は `Rake` オブジェクトから利用でき、いくつかのパラメータを使ってカスタマイズできます。今回の場合、キーワードの最小長を5文字、文書内でのキーワードの最小出現頻度を3に設定し、キーワード内の最大単語数を2に設定します。他の値を試して結果を観察してみてください。\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"私たちは、重要度と関連付けられた用語のリストを取得しました。ご覧の通り、機械学習やビッグデータのような最も関連性の高い分野が、リストの上位に位置しています。\n",
"重要度の程度とともに用語のリストを取得しました。ご覧のとおり、機械学習やビッグデータなど、最も関連性の高い分野がリストの上位にあります。\n",
"\n",
"## ステップ4: 結果の可視化\n",
"## ステップ4:結果の視覚化\n",
"\n",
"データは視覚的な形で表現することで最も理解しやすくなります。そのため、洞察を得るためにデータを可視化することはよくあることです。Pythonの`matplotlib`ライブラリを使用して、キーワードとその関連性の簡単な分布をプロットすることができます。\n"
"人々はデータを視覚的な形で最もよく解釈できます。したがって、何らかの洞察を得るためにデータを視覚化することはしばしば有効です。Pythonの`matplotlib`ライブラリを使って、関連性とともにキーワードの単純な分布をプロットすることができます:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"しかし、単語の頻度を視覚化するさらに良い方法があります。それは、**ワードクラウド**を使用することです。キーワードリストからワードクラウドをプロットするために、別のライブラリをインストールする必要があります。\n"
"しかし、単語の頻度を視覚化するさらに良い方法があります - **ワードクラウド**を使うことです。キーワードリストからワードクラウドをプロットするために、別のライブラリをインストールする必要があります。\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud`オブジェクトは、元のテキストまたは事前に計算された単語とその頻度のリストを受け取り、画像を返します。その画像は`matplotlib`を使用して表示することができます。\n"
"`WordCloud`オブジェクトは、元のテキストまたは事前に計算された単語とその頻度のリストのいずれかを受け取り、画像を返します。その画像は`matplotlib`を使って表示できます:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"ワードクラウドが以前よりも印象的に見えるようになりましたが、同時に多くのノイズ(例えば、`Retrieved on`のような無関係な単語)も含まれています。また、*data scientist* や *computer science* のような2語からなるキーワードが少なくなっています。これは、RAKEアルゴリズムがテキストから適切なキーワードを選び出すのに優れているためです。この例は、データの前処理とクリーニングの重要性を示しています。最終的に明確な結果を得ることで、より良い意思決定が可能になります。\n",
"ワードクラウドがより印象的に見えるようになったことがわかりますが、多くのノイズ(例えば、`Retrieved on` のような無関係の単語)も含まれています。また、*data scientist* や *computer science* のような2語からなるキーワードが少なくなっています。これは、RAKEアルゴリズムがテキストから良いキーワードを選択するのに非常に優れているためです。この例は、データの前処理とクリーニングの重要性を示しています。最終的に明確なイメージを得ることで、より良い意思決定が可能になるからです。\n",
"\n",
"この演習では、Wikipediaテキストからキーワードやワードクラウドの形で意味を抽出する簡単なプロセスを体験しました。この例は非常にシンプルですが、データサイエンティストがデータを扱う際に取る典型的なステップ、データ取得から可視化までをよく示しています。\n",
"この演習では、Wikipediaテキストからキーワードやワードクラウドの形で意味を抽出するという簡単なプロセスを体験しました。この例は比較的簡単ですが、データサイエンティストがデータを扱う際に行う典型的なステップ、すなわちデータ取得から可視化までをよく示しています。\n",
"\n",
"このコースでは、これらすべてのステップについて詳しく説明していきます。\n"
"本コースでは、これらのすべてのステップについて詳しく説明していきます。\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**免責事項**: \nこの文書は、AI翻訳サービス [Co-op Translator](https://github.com/Azure/co-op-translator) を使用して翻訳されています。正確性を期すよう努めておりますが、自動翻訳には誤りや不正確な表現が含まれる可能性があります。元の言語で記載された原文が公式な情報源と見なされるべきです。重要な情報については、専門の人間による翻訳を推奨します。この翻訳の使用に起因する誤解や誤解釈について、当方は一切の責任を負いません。\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**免責事項** \n本書類はAI翻訳サービス[Co-op Translator](https://github.com/Azure/co-op-translator)を使用して翻訳されています。正確性の確保に努めておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があります。正式な資料としては、原文言語で書かれたオリジナルの文書を基準としてください。重要な情報については、専門の人間による翻訳を推奨いたします。本翻訳の使用に伴う誤解や誤訳について、当方は一切の責任を負いかねます。\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:48:30+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "ja"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
統計学と確率論は、データサイエンスにおいて非常に関連性の高い数学の分野です。数学の深い知識がなくてもデータを扱うことは可能ですが、基本的な概念を少しでも知っておく方が良いでしょう。ここでは、始めるための簡単な紹介を行います。
[![イントロ動画](../../../../translated_images/ja/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![イントロ動画](../../../../translated_images/ja/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [講義前のクイズ](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
変数が特定の値の範囲に収まる確率についてのみ話すことができます。例えば、P(t<sub>1</sub>≤X<t<sub>2</sub>)です。この場合、確率分布は**確率密度関数**p(x)によって記述されます。
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/ja/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/ja/probability-density.a8aad29f17a14afb.webp)
連続型の一様分布は**連続一様分布**と呼ばれ、有限の区間で定義されます。値Xが長さlの区間に収まる確率はlに比例し、最大で1になります。
@ -73,11 +73,11 @@
以下は、データの平均、中央値、四分位数を示す箱ひげ図です:
![体重の箱ひげ図](../../../../translated_images/ja/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![体重の箱ひげ図](../../../../translated_images/ja/weight-boxplot.1dbab1c03af26f8a.webp)
データには異なる選手の**役割**に関する情報が含まれているため、役割ごとに箱ひげ図を作成することもできます。これにより、パラメータ値が役割ごとにどのように異なるかを把握できます。今回は身長を考慮します:
![役割ごとの箱ひげ図](../../../../translated_images/ja/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![役割ごとの箱ひげ図](../../../../translated_images/ja/boxplot_byrole.036b27a1c3f52d42.webp)
この図から、平均的に一塁手の身長が二塁手の身長より高いことが示唆されています。このレッスンの後半では、この仮説をより正式にテストする方法と、データが統計的に有意であることを示す方法を学びます。
@ -85,7 +85,7 @@
データの分布を確認するために、**ヒストグラム**と呼ばれるグラフをプロットすることができます。X軸には異なる体重区間**ビン**)の数を含め、縦軸にはランダム変数のサンプルが特定の区間内に収まった回数を示します。
![実世界データのヒストグラム](../../../../translated_images/ja/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![実世界データのヒストグラム](../../../../translated_images/ja/weight-histogram.bfd00caf7fc30b14.webp)
このヒストグラムから、すべての値が特定の平均体重の周りに集中しており、その体重から離れるほど、その値の体重が観測される頻度が減少することがわかります。つまり、野球選手の体重が平均体重から大きく異なることは非常に起こりにくいです。体重の分散は、体重が平均からどの程度異なる可能性があるかを示します。
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
生成されたサンプルのヒストグラムをプロットすると、上記の図に非常に似たものが表示されます。サンプル数とビン数を増やすと、理想に近い正規分布の図を生成することができます:
![平均=0、標準偏差=1の正規分布](../../../../translated_images/ja/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![平均=0、標準偏差=1の正規分布](../../../../translated_images/ja/normal-histogram.dfae0d67c202137d.webp)
*平均=0、標準偏差=1の正規分布*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
この場合、値0.53は、体重と身長の間にある程度の相関があることを示しています。また、1つの値をもう1つの値に対して散布図を作成し、関係を視覚的に確認することもできます
![体重と身長の関係](../../../../translated_images/ja/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![体重と身長の関係](../../../../translated_images/ja/weight-height-relationship.3f06bde4ca2aba99.webp)
> 相関と共分散のさらなる例は[付属のノートブック](notebook.ipynb)に記載されています。

@ -1,6 +1,6 @@
# データサイエンス入門
![データの活用](../../../translated_images/ja/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![データの活用](../../../translated_images/ja/data.48e22bb7617d8d92.webp)
> 写真提供:<a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a><a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
このレッスンでは、データサイエンスの定義について学び、データサイエンティストが考慮すべき倫理的な問題について理解します。また、データの定義や、データサイエンスの主要な学問分野である統計学と確率論について少し学びます。

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Pythonでの操作 - _[@nitya](https://twitter.com/nitya) によるスケッチート_ |
[![イントロ動画](../../../../translated_images/ja/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![イントロ動画](../../../../translated_images/ja/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
データベースはデータを効率的に保存し、クエリ言語を使用して検索する方法を提供しますが、データ処理の最も柔軟な方法は、自分自身でプログラムを書いてデータを操作することです。多くの場合、データベースクエリを使用する方が効果的です。しかし、より複雑なデータ処理が必要な場合、SQLでは簡単に実現できないことがあります。
データ処理はどのプログラミング言語でもプログラム可能ですが、データ操作に特化した高レベルな言語があります。データサイエンティストは通常、以下の言語のいずれかを好みます:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![時系列プロット](../../../../translated_images/ja/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![時系列プロット](../../../../translated_images/ja/timeseries-1.80de678ab1cf727e.webp)
次に、毎週友人のためにパーティーを開催し、パーティー用にアイスクリームを10パック追加で購入するとします。これを示すために、週ごとにインデックス付けされた別のSeriesを作成できます:
```python
@ -75,7 +75,7 @@ additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![時系列プロット](../../../../translated_images/ja/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![時系列プロット](../../../../translated_images/ja/timeseries-2.aae51d575c55181c.webp)
> **注意**: 単純な構文 `total_items+additional_items` を使用していないことに注意してください。この場合、結果のSeriesに多くの`NaN`*Not a Number*)値が含まれることになります。これは、`additional_items` Seriesのインデックスポイントの一部に欠損値があり、`NaN`を加算すると結果が`NaN`になるためです。そのため、加算時に`fill_value`パラメータを指定する必要があります。
@ -84,7 +84,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![月次時系列平均](../../../../translated_images/ja/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![月次時系列平均](../../../../translated_images/ja/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -210,7 +210,7 @@ df = pd.read_csv('file.csv')
データの扱い方を示すために、[`notebook-covidspread.ipynb`](notebook-covidspread.ipynb)を開き、上から下まで読んでみてください。また、セルを実行したり、最後に残しておいたチャレンジに取り組むこともできます。
![COVID Spread](../../../../translated_images/ja/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID Spread](../../../../translated_images/ja/covidspread.f3d131c4f1d260ab.webp)
> Jupyter Notebookでコードを実行する方法がわからない場合は、[この記事](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)を参照してください。
@ -232,7 +232,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb)を開き、上から下まで読んでみてください。また、セルを実行したり、最後に残しておいたチャレンジに取り組むこともできます。
![Covid Medical Treatment](../../../../translated_images/ja/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid Medical Treatment](../../../../translated_images/ja/covidtreat.b2ba59f57ca45fbc.webp)
## 画像データの処理

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# データの活用
![data love](../../../translated_images/ja/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/ja/data-love.a22ef29e6742c852.webp)
> 写真提供: <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> on <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
このレッスンでは、データを管理、操作、そしてアプリケーションで活用する方法について学びます。リレーショナルデータベースと非リレーショナルデータベースについて学び、それらにデータを保存する方法を理解します。また、Pythonを使ったデータ管理の基本を学び、Pythonを活用してデータを管理・分析するさまざまな方法を発見します。

@ -42,7 +42,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/ja/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/ja/scatter1.5e1aa5fd6706c5d1.webp)
次に、ハチミツの価格が年々どのように変化しているかを示すために、ハチミツの色合いを使用して同じデータを表示します。これを行うには、`hue`パラメータを追加して、年ごとの変化を示します:
@ -51,7 +51,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/ja/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/ja/scatter2.c0041a58621ca702.webp)
このカラースキームの変更により、1ポンドあたりのハチミツ価格が年々明らかに上昇していることがわかります。実際、データのサンプルセットを確認すると例えばアリゾナ州を選ぶ、例外はあるものの、年々価格が上昇しているパターンが見られます:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
点のサイズが徐々に大きくなっているのがわかります。
![scatterplot 3](../../../../translated_images/ja/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/ja/scatter3.3c160a3d1dcb36b3.webp)
これは単純な需要と供給の問題でしょうか?気候変動やコロニー崩壊などの要因により、年々購入可能なハチミツが減少し、その結果価格が上昇しているのでしょうか?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
答え: はい、2003年頃を除いて明確に上昇しています:
![line chart 1](../../../../translated_images/ja/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/ja/line1.f36eb465229a3b1f.webp)
✅ Seabornはデフォルトで「各x値での複数の測定値を平均値とその周りの95%信頼区間をプロットすることで表示」します。[出典](https://seaborn.pydata.org/tutorial/relational.html)。この時間のかかる動作は、`ci=None`を追加することで無効にできます。
@ -105,7 +105,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/ja/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/ja/line2.a5b3493dc01058af.webp)
答え: 実際にはそうではありません。総生産量を見ると、特定の年に増加しているように見えますが、一般的にはこれらの年に生産量が減少していることがわかります。
@ -130,7 +130,7 @@ sns.relplot(
```
この可視化では、コロニーあたりの収量とコロニー数を年ごとに比較し、列を3つに設定してラップします:
![facet grid](../../../../translated_images/ja/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/ja/facet.6a34851dcd540050.webp)
このデータセットでは、州ごとの年ごとのコロニー数や収量に関して特に目立つものはありません。これら2つの変数間の相関を見つける別の方法はあるでしょうか
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/ja/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/ja/dual-line.a4c28ce659603fab.webp)
2003年頃に目立つものはありませんが、全体的にコロニー数が減少している一方で、コロニー数が安定していることがわかります。コロニーあたりの収量は減少しているものの、少し明るいニュースでこのレッスンを終えることができます。

@ -58,7 +58,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
ここでは、`ggplot2`パッケージをインストールし、`library("ggplot2")`コマンドを使用してワークスペースにインポートします。`ggplot`でプロットを作成するには、`ggplot()`関数を使用し、データセット、x軸とy軸の変数を属性として指定します。この場合、折れ線グラフをプロットするために`geom_line()`関数を使用します。
![MaxWingspan-lineplot](../../../../../translated_images/ja/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/ja/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
何がすぐに目に留まりますか少なくとも1つの外れ値があるようです。これはかなりの翼幅ですね2000センチメートル以上の翼幅は20メートル以上に相当します。ミネソタ州にプテラドンがいるのでしょうか調査してみましょう。
@ -76,7 +76,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
`theme`で角度を指定し、`xlab()`と`ylab()`でx軸とy軸のラベルを指定します。`ggtitle()`でグラフ/プロットに名前を付けます。
![MaxWingspan-lineplot-improved](../../../../../translated_images/ja/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/ja/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
ラベルの回転を45度に設定しても、読み取るには多すぎます。別の戦略を試してみましょう。外れ値のみをラベル付けし、チャート内にラベルを設定します。散布図を使用してラベル付けのスペースを確保します。
@ -92,7 +92,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
何がわかりますか?
![MaxWingspan-scatterplot](../../../../../translated_images/ja/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/ja/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## データをフィルタリングする
@ -111,7 +111,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
新しいデータフレーム`birds_filtered`を作成し、散布図をプロットしました。外れ値を除外することで、データがより一貫性があり理解しやすくなりました。
![MaxWingspan-scatterplot-improved](../../../../../translated_images/ja/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/ja/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
翼幅に関して少なくともクリーンなデータセットが得られたので、これらの鳥についてさらに発見してみましょう。
@ -154,7 +154,7 @@ birds_filtered %>% group_by(Category) %>%
```
以下のスニペットでは、データを操作してグループ化し、積み上げ棒グラフをプロットするために[dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8)と[lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0)パッケージをインストールします。まず、鳥の`Category`でデータをグループ化し、`MinLength`、`MaxLength`、`MinBodyMass`、`MaxBodyMass`、`MinWingspan`、`MaxWingspan`列を要約します。その後、`ggplot2`パッケージを使用して棒グラフをプロットし、異なるカテゴリの色とラベルを指定します。
![Stacked bar chart](../../../../../translated_images/ja/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/ja/stacked-bar-chart.0c92264e89da7b39.webp)
この棒グラフは、グループ化されていないデータが多すぎるため、読み取りにくいです。プロットしたいデータのみを選択する必要があります。鳥のカテゴリに基づいて長さを調べてみましょう。
@ -169,7 +169,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
まず、`Category`列のユニークな値をカウントし、それを新しいデータフレーム`birds_count`にソートします。このソートされたデータを同じレベルでファクタリングし、ソートされた方法でプロットされるようにします。その後、`ggplot2`を使用して棒グラフをプロットします。`coord_flip()`を使用して水平棒をプロットします。
![category-length](../../../../../translated_images/ja/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/ja/category-length.7e34c296690e85d6.webp)
この棒グラフは、各カテゴリの鳥の数をよく示しています。一目で、この地域で最も多い鳥がカモ/ガン/水鳥カテゴリに属していることがわかります。ミネソタ州は「1万の湖の地」として知られているので、これは驚くべきことではありません
@ -192,7 +192,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
`birds_filtered`データを`Category`でグループ化し、棒グラフをプロットします。
![comparing data](../../../../../translated_images/ja/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/ja/comparingdata.f486a450d61c7ca5.webp)
ここには驚くことはありません。ハチドリの最大長さはペリカンやガンと比較して最も短いです。データが論理的に意味をなすのは良いことです!
@ -204,7 +204,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/ja/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/ja/superimposed-values.5363f0705a1da416.webp)
## 🚀 チャレンジ

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![目ごとの最大長](../../../../../translated_images/ja/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![目ごとの最大長](../../../../../translated_images/ja/max-length-per-order.e5b283d952c78c12.webp)
これにより、鳥の目ごとの体長の一般的な分布が概観できますが、真の分布を表示する最適な方法ではありません。このタスクは通常、ヒストグラムを作成することで行われます。
## ヒストグラムの操作
@ -47,7 +47,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![データセット全体の分布](../../../../../translated_images/ja/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![データセット全体の分布](../../../../../translated_images/ja/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
ご覧のように、このデータセットに含まれる400以上の鳥のほとんどは、最大体重が2000未満の範囲に収まっています。`bins`パラメータを30などのより高い数値に変更して、データについてさらに洞察を得てみましょう。
@ -55,7 +55,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![30ビンの分布](../../../../../translated_images/ja/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![30ビンの分布](../../../../../translated_images/ja/distribution-30bins.6a3921ea7a421bf7.webp)
このチャートは、より細かい粒度で分布を示しています。左に偏りすぎないチャートを作成するには、特定の範囲内のデータのみを選択するようにします。
@ -67,7 +67,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![フィルタリングされたヒストグラム](../../../../../translated_images/ja/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![フィルタリングされたヒストグラム](../../../../../translated_images/ja/filtered-histogram.6bf5d2bfd8253322.webp)
✅ 他のフィルタやデータポイントを試してみてください。データの完全な分布を確認するには、`['MaxBodyMass']`フィルタを削除してラベル付き分布を表示してください。
@ -81,7 +81,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
これら2つの要素間には予想される軸に沿った相関があり、特に強い収束点が1つあります。
![2Dプロット](../../../../../translated_images/ja/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![2Dプロット](../../../../../translated_images/ja/2d-plot.c504786f439bd7eb.webp)
ヒストグラムは数値データに対してデフォルトでうまく機能します。テキストデータに基づいて分布を確認する必要がある場合はどうしますか?
## テキストデータを使用したデータセットの分布を探索する
@ -112,7 +112,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![翼幅と保全状況の集計](../../../../../translated_images/ja/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![翼幅と保全状況の集計](../../../../../translated_images/ja/wingspan-conservation-collation.4024e9aa6910866a.webp)
最小翼幅と保全状況の間に良い相関関係は見られないようです。この方法を使用してデータセットの他の要素をテストしてください。異なるフィルタを試すこともできます。何か相関関係が見つかりますか?
@ -126,7 +126,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![密度プロット](../../../../../translated_images/ja/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![密度プロット](../../../../../translated_images/ja/density-plot.675ccf865b76c690.webp)
このプロットは、最小翼幅データに関する以前のプロットを反映していますが、少し滑らかになっています。2番目に作成したギザギザの`MaxBodyMass`ラインを再現することで、この方法を使用して非常に滑らかにすることができます。
@ -134,7 +134,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![体重密度](../../../../../translated_images/ja/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![体重密度](../../../../../translated_images/ja/bodymass-smooth.d31ce526d82b0a1f.webp)
滑らかすぎない線を作成したい場合は、`adjust`パラメータを編集してください。
@ -142,7 +142,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![滑らかさが少ない体重](../../../../../translated_images/ja/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![滑らかさが少ない体重](../../../../../translated_images/ja/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ このタイプのプロットで利用可能なパラメータについて調べて、実験してみてください!
@ -152,7 +152,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![目ごとの体重](../../../../../translated_images/ja/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![目ごとの体重](../../../../../translated_images/ja/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 チャレンジ

@ -83,7 +83,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
完成!この円グラフは、キノコのデータを毒性/食用の2つのクラスに基づいて比率を示しています。ラベルの順序が特に重要なので、ラベル配列の順序を必ず確認してください
![円グラフ](../../../../../translated_images/ja/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![円グラフ](../../../../../translated_images/ja/pie1-wb.685df063673751f4.webp)
## ドーナツグラフ!
@ -117,7 +117,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![ドーナツグラフ](../../../../../translated_images/ja/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![ドーナツグラフ](../../../../../translated_images/ja/donut-wb.34e6fb275da9d834.webp)
このコードでは、ggplot2とwebrの2つのライブラリを使用しています。webrライブラリのPieDonut関数を使用すると、簡単にドーナツグラフを作成できます
@ -155,7 +155,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
ワッフルチャートを使用すると、このキノコのデータセットの傘の色の比率がはっきりとわかります。興味深いことに、緑色の傘を持つキノコがたくさんあります!
![ワッフルチャート](../../../../../translated_images/ja/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![ワッフルチャート](../../../../../translated_images/ja/waffle.aaa75c5337735a6e.webp)
このレッスンでは、比率を可視化する3つの方法を学びました。まず、データをカテゴリにグループ化し、次にデータを表示する最適な方法を決定します - 円グラフ、ドーナツグラフ、またはワッフルチャート。どれも魅力的で、データセットのスナップショットを瞬時に提供します。

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/ja/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/ja/scatter1.86b8900674d88b26.webp)
次に、ハチミツの色合いを使用して、価格が年々どのように変化しているかを示します。これを行うには、'scale_color_gradientn'パラメータを追加して、年ごとの変化を表示します:
@ -52,7 +52,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/ja/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/ja/scatter2.4d1cbc693bad20e2.webp)
このカラースキームの変更により、ハチミツの1ポンドあたりの価格が年々明らかに進行していることがわかります。実際、データのサンプルセットを確認すると例えばアリゾナ州を選択、年々価格が上昇するパターンがいくつかの例外を除いて見られます:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
点のサイズが徐々に大きくなっているのがわかります。
![scatterplot 3](../../../../../translated_images/ja/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/ja/scatter3.722d21e6f20b3ea2.webp)
これは単純な需要と供給の問題でしょうか?気候変動やコロニー崩壊などの要因により、年々購入可能なハチミツが減少し、その結果価格が上昇しているのでしょうか?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
答え: はい、ただし2003年付近にはいくつかの例外があります:
![line chart 1](../../../../../translated_images/ja/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/ja/line1.299b576fbb2a59e6.webp)
質問: では、2003年にはハチミツ供給の急増も見られるのでしょうか年々の総生産量を見てみるとどうでしょう
@ -106,7 +106,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/ja/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/ja/line2.3b18fcda7176ceba.webp)
答え: 実際にはそうではありません。総生産量を見ると、特定の年には増加しているように見えますが、一般的にはこの期間中のハチミツ生産量は減少しているようです。
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
この可視化では、コロニーあたりの収量とコロニー数を年々比較し、列を3に設定して並べて表示します:
![facet grid](../../../../../translated_images/ja/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/ja/facet.491ad90d61c2a7cc.webp)
このデータセットでは、州ごとのコロニー数とその収量に関して、年々特に際立ったものは見られません。これら2つの変数間の相関関係を見つける別の方法はあるでしょうか
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/ja/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/ja/dual-line.fc4665f360a54018.webp)
2003年付近で目立つものはありませんが、全体的にコロニー数が減少している一方で、コロニー数が安定していることがわかります。コロニーあたりの収量は減少しているものの、少し明るいニュースでこのレッスンを締めくくることができます。

@ -38,25 +38,25 @@
データサイエンティストが適切なチャートを選んだとしても、データを誤解を招く形で表示する方法はたくさんあります。これにより、データそのものを損なうことがあります。誤解を招くチャートやインフォグラフィックの例は数多く存在します!
[![アルベルト・カイロによる「How Charts Lie」](../../../../../translated_images/ja/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[![アルベルト・カイロによる「How Charts Lie」](../../../../../translated_images/ja/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 上の画像をクリックすると、誤解を招くチャートについてのカンファレンストークを見ることができます
このチャートはX軸を逆転させ、日付に基づいて真実の反対を示しています
![悪いチャート 1](../../../../../translated_images/ja/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![悪いチャート 1](../../../../../translated_images/ja/bad-chart-1.596bc93425a8ac30.webp)
[このチャート](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg)はさらに誤解を招きます。目は右側に引き寄せられ、時間の経過とともにCOVIDの症例が減少していると結論付けます。しかし、日付をよく見ると、誤解を招く下降傾向を示すために日付が並べ替えられていることがわかります。
![悪いチャート 2](../../../../../translated_images/ja/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![悪いチャート 2](../../../../../translated_images/ja/bad-chart-2.62edf4d2f30f4e51.webp)
この悪名高い例では、色と反転したY軸を使用して誤解を招きます。銃に優しい法律の施行後に銃による死亡が急増したのではなく、目は逆の結論を導くように欺かれます
![悪いチャート 3](../../../../../translated_images/ja/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![悪いチャート 3](../../../../../translated_images/ja/bad-chart-3.e201e2e915a230bc.webp)
この奇妙なチャートは、比率を操作することで笑える効果を生み出しています:
![悪いチャート 4](../../../../../translated_images/ja/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![悪いチャート 4](../../../../../translated_images/ja/bad-chart-4.8872b2b881ffa96c.webp)
比較できないものを比較するのも、もう一つの不正な手法です。[素晴らしいウェブサイト](https://tylervigen.com/spurious-correlations)では、「スプリアスな相関関係」を示す「事実」を集めています。例えば、メイン州の離婚率とマーガリンの消費量などです。Redditのグループでは、データの[醜い使い方](https://www.reddit.com/r/dataisugly/top/?t=all)を収集しています。
@ -91,13 +91,13 @@
データがX軸でテキストとして長い場合は、テキストを角度をつけて表示することで読みやすさを向上させることができます。[plot3D](https://cran.r-project.org/web/packages/plot3D/index.html)は、データが対応している場合に3Dプロットを提供します。洗練されたデータビジュアライゼーションを作成することができます。
![3Dプロット](../../../../../translated_images/ja/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3Dプロット](../../../../../translated_images/ja/3d.db1734c151eee87d.webp)
## アニメーションと3Dチャート表示
今日の最高のデータビジュアライゼーションの中には、アニメーション化されたものがあります。Shirley WuはD3を使った素晴らしい例を持っています。例えば、'[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)'では、各花が映画のビジュアライゼーションを表しています。別の例として、Guardianの「bussed out」は、NYCがホームレス問題に対処する方法を示すスクロール型の記事形式で、GreensockとD3を組み合わせたインタラクティブな体験を提供しています。
![バス輸送](../../../../../translated_images/ja/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![バス輸送](../../../../../translated_images/ja/busing.8157cf1bc89a3f65.webp)
> 「Bussed Out: How America Moves its Homeless」 - [Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study)。ビジュアライゼーションNadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@
このソーシャルネットワークのアニメーション表示を行うウェブアプリを完成させます。このアプリは、Vue.jsとD3を使用して[ネットワークのビジュアル](https://github.com/emiliorizzo/vue-d3-network)を作成するために構築されたライブラリを使用します。アプリが実行されると、画面上でノードを引っ張ってデータをシャッフルすることができます。
![危険な関係](../../../../../translated_images/ja/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![危険な関係](../../../../../translated_images/ja/liaisons.90ce7360bcf84765.webp)
## プロジェクト: D3.jsを使ってネットワークを表示するチャートを作成する

@ -1,6 +1,6 @@
# ビジュアライゼーション
![ラベンダーの花にとまるミツバチ](../../../translated_images/ja/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![ラベンダーの花にとまるミツバチ](../../../translated_images/ja/bee.0aa1d91132b12e3a.webp)
> 写真提供: <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> on <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
データの可視化は、データサイエンティストにとって最も重要なタスクの1つです。画像は1000語に値すると言われるように、ビジュアライゼーションはデータの中に潜む興味深い部分、例えばスパイク、外れ値、グループ化、傾向などを特定し、データが語ろうとしているストーリーを理解する助けとなります。

@ -16,7 +16,7 @@
このレッスンでは、ライフサイクルの3つの部分、つまりデータの収集、処理、保守に焦点を当てます。
![データサイエンスライフサイクルの図](../../../../translated_images/ja/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![データサイエンスライフサイクルの図](../../../../translated_images/ja/data-science-lifecycle.a1e362637503c4fb.webp)
> 写真提供:[Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## データの収集
@ -89,7 +89,7 @@
|Team Data Science Process (TDSP)|データマイニングの業界標準プロセス (CRISP-DM)|
|--|--|
|![Team Data Science Lifecycle](../../../../translated_images/ja/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Data Science Process Alliance Image](../../../../translated_images/ja/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Team Data Science Lifecycle](../../../../translated_images/ja/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Data Science Process Alliance Image](../../../../translated_images/ja/CRISP-DM.8bad2b4c66e62aa7.webp) |
| 画像提供:[Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | 画像提供:[Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [講義後クイズ](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# データサイエンスライフサイクル
![communication](../../../translated_images/ja/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/ja/communication.06d8e2a88d30d168.webp)
> 写真提供:<a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a><a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
このレッスンでは、データサイエンスのライフサイクルのいくつかの側面、特にデータの分析やコミュニケーションについて学びます。

@ -1,12 +1,12 @@
# クラウドでのデータサイエンス
![cloud-picture](../../../translated_images/ja/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/ja/cloud-picture.f5526de3c6c6387b.webp)
> 写真提供:[Jelleke Vanooteghem](https://unsplash.com/@ilumire)[Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
ビッグデータを使ったデータサイエンスを行う際、クラウドは大きな変化をもたらす可能性があります。次の3つのレッスンでは、クラウドとは何か、そしてそれがなぜ非常に役立つのかを見ていきます。また、心不全のデータセットを調査し、心不全の可能性を評価するモデルを構築します。クラウドの力を活用して、モデルをトレーニング、デプロイ、そして2つの異なる方法で利用します。一つは、ユーザーインターフェースを使用してLow code/No code形式で行う方法、もう一つはAzure Machine Learning Software Developer Kit (Azure ML SDK)を使用する方法です。
![project-schema](../../../translated_images/ja/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/ja/project-schema.420e56d495624541.webp)
### トピック

@ -32,7 +32,7 @@ AIの民主化のおかげで、開発者はAI駆動の意思決定やデータ
* [医療におけるデータサイエンス](https://data-flair.training/blogs/data-science-in-healthcare/) - 医療画像(例: MRI、X線、CTスキャン、ゲミクスDNAシーケンシング、薬剤開発リスク評価、成功予測、予測分析患者ケア供給物流、疾病追跡予防などの応用を強調しています。
![現実世界におけるデータサイエンスの応用](../../../../translated_images/ja/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) 画像提供: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![現実世界におけるデータサイエンスの応用](../../../../translated_images/ja/data-science-applications.4e5019cd8790ebac.webp) 画像提供: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
この図は、データサイエンス技術を応用する他の分野と例を示しています。他の応用を探りたいですか?以下の [レビュー&自己学習](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) セクションをチェックしてください。

@ -13,7 +13,7 @@ Explorerインターフェース以下のスクリーンショット参照
2. データセットの [Catalog](https://planetarycomputer.microsoft.com/catalog) を調べる - 各データセットの目的を学ぶ。
3. Explorerを使用する - 興味のあるデータセットを選び、関連するクエリとレンダリングオプションを選択する。
![惑星コンピューターのExplorer](../../../../translated_images/ja/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![惑星コンピューターのExplorer](../../../../translated_images/ja/planetary-computer-explorer.c1e95a9b053167d6.webp)
`あなたの課題:`
ブラウザに表示された視覚化を調べ、以下の質問に答えてください:

@ -1,200 +1,208 @@
# 初心者のためのデータサイエンス - カリキュラム
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![GitHub Codespacesで開く](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![GitHub license](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub contributors](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub issues](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub pull-requests](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHubライセンス](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHubコントリビューター](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHubイシュー](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHubプルリクエスト](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PR歓迎](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub watchers](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub forks](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub stars](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![GitHubウォッチャー](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHubフォーク](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHubスター](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
MicrosoftのAzure Cloud Advocatesは、データサイエンスに関する10週間、20レッスンのカリキュラムを提供できることを嬉しく思います。各レッスンには、事前および事後のクイズ、レッスンを完了するための書面による指示、解答例、そして課題が含まれています。私たちのプロジェクトベースの教育法により、構築しながら学ぶことができ、新しいスキルが定着することが証明されています。
MicrosoftのAzure Cloud Advocatesは、データサイエンスに関する全20レッスン・10週間のカリキュラムを提供できることを嬉しく思います。各レッスンには、事前テストおよび事後テスト、レッスンを完了するための書面による指示、ソリューション、および課題が含まれています。プロジェクトベースの教育法により、実際に作りながら学ぶことで、新しいスキルが定着することが証明されています。
**心から感謝を込めて、我々の著者たちへ** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**執筆者の皆様に心から感謝いたします** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 特別な感謝 🙏 を[Microsoft Student Ambassador](https://studentambassadors.microsoft.com/)の著者、レビュアー、コンテンツ貢献者の皆様に。** 特にAaryan Arora、[Aditya Garg](https://github.com/AdityaGarg00)、[Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/)、[Ankita Singh](https://www.linkedin.com/in/ankitasingh007)、[Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/)、[Arpita Das](https://www.linkedin.com/in/arpitadas01/)、ChhailBihari Dubey、[Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor)、[Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb)、[Majd Safi](https://www.linkedin.com/in/majd-s/)、[Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/)、[Miguel Correa](https://www.linkedin.com/in/miguelmque/)、[Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119)、[Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum)、[Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/)、[Rohit Yadav](https://www.linkedin.com/in/rty2423)、Samridhi Sharma、[Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200)、[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/)、[Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/)、Yogendrasingh Pawar 、[Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/)、[Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
**🙏 特別感謝 🙏 [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) の著者、レビュアー、コンテンツ寄稿者の皆様へ、** 特に Aaryan Arora、[Aditya Garg](https://github.com/AdityaGarg00)、[Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/)、[Ankita Singh](https://www.linkedin.com/in/ankitasingh007)、[Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/)、[Arpita Das](https://www.linkedin.com/in/arpitadas01/)、ChhailBihari Dubey、[Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor)、[Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb)、[Majd Safi](https://www.linkedin.com/in/majd-s/)、[Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/)、[Miguel Correa](https://www.linkedin.com/in/miguelmque/)、[Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119)、[Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum)、[Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/)、[Rohit Yadav](https://www.linkedin.com/in/rty2423)、Samridhi Sharma、[Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200)、[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/)、[Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/)、Yogendrasingh Pawar、[Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/)、[Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/ja/00-Title.8af36cd35da1ac55.webp)|
|![@sketchthedocs https://sketchthedocs.dev によるスケッチノート](../../translated_images/ja/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| 初心者のためのデータサイエンス - _スケッチノート by [@nitya](https://twitter.com/nitya)_ |
| 初心者のためのデータサイエンス - _[@nitya](https://twitter.com/nitya)によるスケッチノート_ |
### 🌐 多言語サポート
#### GitHub Actionを通じてサポート(自動&常に最新)
#### GitHub Actionsによるサポート(自動&常に最新)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](./README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **ローカルでクローンしたいですか?**
> このリポジトリには50以上の言語訳が含まれており、ダウンロードサイズが大幅に大きくなります。翻訳なしでクローンするにはスパースチェックアウトを使用してください
> **ローカルにクローンしたい場合は?**
>
> このリポジトリには50以上の言語翻訳が含まれているため、ダウンロードサイズが大幅に増加します。翻訳なしでクローンするにはスパースチェックアウトを使用してください
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> これにより、コースの完了に必要なすべてを、ずっと速いダウンロードで入手できます。
>
> **CMDWindows:**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> これでコースを完了するために必要なものをすべて、より高速にダウンロードできます。
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**追加の翻訳言語のサポートを希望される場合は、[こちら](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)をご覧ください。**
**追加の翻訳言語のサポートをご希望の場合は、[こちら](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)をご覧ください。**
#### コミュニティに参加しよう
#### コミュニティに参加しましょう
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Discordで現在進行中の「Learn with AI」シリーズをぜひご覧ください。2025年9月18日〜30日に[Learn with AI Series](https://aka.ms/learnwithai/discord)で詳細を確認し、ご参加ください。GitHub Copilotを使ったデータサイエンスのヒントやコツを得られます。
DiscordにてAIシリーズの学習を継続中です。2025年9月18日30日に [Learn with AI Series](https://aka.ms/learnwithai/discord) に参加して詳細を学び、GitHub Copilotをデータサイエンスで使うヒントやコツを取得しましょう
![Learn with AI series](../../translated_images/ja/1.2b28cdc6205e26fe.webp)
# あなたは学生ですか?
# 学生ですか?
以下のリソース始めましょう:
以下のリソースから始めましょう:
- [学生ハブページ](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) このページでは初心者向けのリソース、学生向けパック、無料認定バウチャーの入手方法などを見つけられます。コンテンツは月に一度以上更新されるため、ブックマークして定期的にチェックすることをお勧めします
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) 学生アンバサダーのグローバルコミュニティに参加し、Microsoftへの道を開きましょう
- [Student Hubページ](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) このページでは、初心者向けリソース、学生パック、無料認定バウチャー獲得方法などを見つけることができます。コンテンツは少なくとも月に一度更新されるので、ぜひブックマークして時々チェックしてください
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) 学生アンバサダーのグローバルコミュニティに参加できます。これがMicrosoftへの道になるかもしれません
# はじめに
## 📚 ドキュメント
- **[インストールガイド](INSTALLATION.md)** - 初心者向けの段階的セットアップ手順
- **[使い方ガイド](USAGE.md)** - 例と一般的なワークフロー
- **[トラブルシューティング](TROUBLESHOOTING.md)** - よくある問題の解決
- **[コントリビューションガイド](CONTRIBUTING.md)** - このプロジェクトへの貢献方法
- **[教師向け](for-teachers.md)** - 教授の指針と教室用リソース
- **[インストールガイド](INSTALLATION.md)** - 初心者向けのステップバイステップセットアップ手順
- **[使用方法ガイド](USAGE.md)** - 例と一般的なワークフロー
- **[トラブルシューティング](TROUBLESHOOTING.md)** - よくある問題の解決
- **[貢献ガイド](CONTRIBUTING.md)** - このプロジェクトへの貢献方法
- **[教師向け](for-teachers.md)** - 指導ガイダンスと教室用リソース
## 👨‍🎓 学生の皆さんへ
> **完全初心者**:データサイエンスに初めてですか?まずは[初心者向けの例](examples/README.md)から始めましょう!わかりやすくコメントされたシンプルな例で、カリキュラム全体に入る前に基礎を理解できます。
> **[学生向け](https://aka.ms/student-page)**:カリキュラムを自分で使う場合は、リポジトリをフォークし、講義前クイズから始めて自分で演習を完了してください。その後、講義を読み進めて残りの活動をやり遂げましょう。解答コードをコピーするのではなく、レッスン内容を理解してプロジェクトを作成することを目指してください。ただし、各プロジェクト指向のレッスンには/solutionsフォルダーにそのコードも用意されています。また、友達と勉強会を作って一緒に進めるのも良い方法です。さらに学びたい場合は[Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum)をお勧めします。
## 👨‍🎓 学生向け
> **完全な初心者の方へ**: データサイエンスが初めてですか?[初心者向けの例](examples/README.md)から始めましょう!これらのシンプルでよくコメントされた例は、カリキュラムに入る前に基本を理解するのに役立ちます。
> **[学生の方へ](https://aka.ms/student-page)**: このカリキュラムを自分で使うには、リポジトリ全体をフォークして演習を自分で進めてください。事前講義のクイズから始め、講義を読み、残りのアクティビティを完了します。ソリューションコードをコピーするよりも、レッスンを理解しながらプロジェクトを作成することをお勧めします。ただし、各プロジェクト指向レッスンの /solutions フォルダーにはそのコードが用意されています。また、友達と勉強グループを作り、一緒に内容を学ぶのも良いでしょう。より詳しく学びたい場合は、[Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum)をお勧めします。
**クイックスタート:**
1. 環境構築のために[インストールガイド](INSTALLATION.md)を確認する
2. カリキュラムの使い方を学ぶために[使い方ガイド](USAGE.md)を読む
1. 環境設定のために[インストールガイド](INSTALLATION.md)を確認
2. カリキュラムの使い方を学ぶために[使用方法ガイド](USAGE.md)をレビュー
3. レッスン1から順に進める
4. サポートのために[Discordコミュニティ](https://aka.ms/ds4beginners/discord)に参加する
4. サポートが必要なら[Discordコミュニティ](https://aka.ms/ds4beginners/discord)に参加
## 👩‍🏫 教師の皆様へ
## 👩‍🏫 教師向け
> **先生方へ**: このカリキュラムの使い方について[いくつかの提案](for-teachers.md)を含めています。ぜひ私たちの[ディスカッションフォーラム](https://github.com/microsoft/Data-Science-For-Beginners/discussions)でフィードバックをお寄せください!
> **教師の方へ**:このカリキュラムの活用法について[いくつか提案](for-teachers.md)を用意しています。[ディスカッションフォーラム](https://github.com/microsoft/Data-Science-For-Beginners/discussions)でフィードバックをお待ちしています!
## チーム紹介
[![プロモ動画](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "プロモ動画")
[![プロモーション動画](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "プロモーション動画")
**Gif提供** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
**Gif作成** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 上の画像をクリックすると、このプロジェクトとそれを作った人たちについてのビデオをご覧いただけます
> 🎥 プロジェクトと作成者に関する動画は上の画像をクリックしてください
## 教育方針
このカリキュラムを構築するにあたり、2つの教育理念を選択しました:プロジェクトベースであること、頻繁なクイズを含むことです。このシリーズの終わりまでに、学生はデータサイエンスの基本原則を学びます。これには倫理的概念、データ準備、データのいろいろな扱い方、データ可視化、データ分析、データサイエンスの実世界のユースケースなどが含まれます。
このカリキュラムを構築する際に、私たちは2つの教育原則を選びました:プロジェクトベースであること、頻繁なクイズを含むことです。このシリーズを終える頃には、学生は倫理的な概念、データ準備、さまざまなデータ操作方法、データ可視化、データ分析、データサイエンスの現実世界のユースケースなど、データサイエンスの基本原則を学んでいます。
さらに、授業前の低負荷クイズは学生の学習意欲を高め、授業後のクイズは記憶の定着を確実にします。このカリキュラムは柔軟かつ楽しく設計されており、全てまたは一部を受講できます。プロジェクトは小さく始まり、10週間のサイクルの最後には徐々に複雑になります。
加えて、授業前の低負荷クイズは学生のトピック学習への意欲を高め、授業後の二回目のクイズが記憶の定着を保証します。このカリキュラムは柔軟で楽しく取り組めるよう設計されており、全てまたは一部だけを学ぶことも可能です。プロジェクトは小さく始まり、10週間のサイクル終盤には次第に複雑になります。
> 私たちの[行動規範](CODE_OF_CONDUCT.md)、[貢献ガイドライン](CONTRIBUTING.md)、[翻訳ガイドライン](TRANSLATIONS.md)をご覧ください。建設的なフィードバックを歓迎します!
> 私たちの[行動規範](CODE_OF_CONDUCT.md)、[貢献](CONTRIBUTING.md)、[翻訳](TRANSLATIONS.md)ガイドラインをご覧ください。建設的なフィードバックを歓迎します!
## 各レッスンには以下が含まれます:
- 任意のスケッチノート
- 任意の補足ビデオ
- 授業前ウォームアップクイズ
- テキストレッスン
- プロジェクトベースのレッスンの場合、プロジェクト作成のステップバイステップガイド
- 任意の補足動画
- 授業前ウォームアップクイズ
- 書かれたレッスン
- プロジェクトベースのレッスンには、プロジェクト構築のステップバイステップガイド
- 知識チェック
- チャレンジ
- 補足読書
- 課題
- [授業後クイズ](https://ff-quizzes.netlify.app/en/)
- [授業後クイズ](https://ff-quizzes.netlify.app/en/)
> **クイズについての注意**すべてのクイズはQuiz-Appフォルダー内にあり、合計40回の3問ずつのクイズがあります。レッスン内からリンクされていますが、クイズアプリはローカルで実行するかAzureに展開可能です。`quiz-app`フォルダー内の指示に従ってください。順次ローカライズが進行中です。
> **クイズについての注意**: 全てのクイズはQuiz-Appフォルダーにあり、各クイズは3問で合計40個あります。レッスン内からリンクされていますが、クイズアプリはローカルで実行したりAzureにデプロイ可能です。`quiz-app`フォルダーの指示に従ってください。現在、徐々に多言語化が進んでいます。
## 🎓 初心者向け例
## 🎓 初心者向け
**データサイエンスが初めてですか?** 簡単でよくコメントが付いたコードの[examplesディレクトリ](examples/README.md)を特別に作成しました
**データサイエンスが初めてですか?** シンプルでよくコメントされたコードを備えた特別な[examplesディレクトリ](examples/README.md)を用意しています
- 🌟 **Hello World** - 最初のデータサイエンスプログラム
- 📂 **データの読み込み** - データセットを読み込み、探る方法を学ぶ
- 📂 **データの読み込み** - データセットの読み取りと探索を学ぶ
- 📊 **簡単な分析** - 統計を計算しパターンを見つける
- 📈 **基本的な可視化** - グラフやチャートを作成
- 🔬 **実世界プロジェクト** - 最初から最後までのワークフローを完遂
- 📈 **基本的な可視化** - チャートやグラフを作成
- 🔬 **現実世界のプロジェクト** - はじめから終わりまでの完全なワークフロー
各例にはあらゆるステップを説明する詳細なコメントがあり、完全な初心者にも最適です!
各例には詳細なコメントが含まれており、初学者に適しています!
👉 **[例から始める](examples/README.md)** 👈
## レッスン
|![ @sketchthedocsによるスケッチノート https://sketchthedocs.dev](../../translated_images/ja/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| Data Science For Beginners: ロードマップ - _スケッチート提供 [@nitya](https://twitter.com/nitya)_ |
| データサイエンス入門: ロードマップ - _スケッチート [@nitya](https://twitter.com/nitya)による_ |
| レッスン番号 | トピック | レッスングループ | 学習目標 | リンクされたレッスン | 著者 |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | データサイエンスの定義 | [紹介](1-Introduction/README.md) | データサイエンスの基本概念とそれが人工知能、機械学習、ビッグデータにどう関連するかを学ぶ。 | [レッスン](1-Introduction/01-defining-data-science/README.md) [動画](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | データサイエンスの倫理 | [紹介](1-Introduction/README.md) | データ倫理の概念、課題、フレームワーク。 | [レッスン](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | データの定義 | [紹介](1-Introduction/README.md) | データの分類方法と一般的なデータソース。 | [レッスン](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | 統計学と確率の導入 | [紹介](1-Introduction/README.md) | データ理解に用いる確率と統計の数学的手法。 | [レッスン](1-Introduction/04-stats-and-probability/README.md) [動画](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | リレーショナルデータの扱い | [データの扱い](2-Working-With-Data/README.md) | リレーショナルデータの紹介と、SQLエスキューエルとも発音を用いた探索と分析の基本。 | [レッスン](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQLデータの扱い | [データの扱い](2-Working-With-Data/README.md) | 非リレーショナルデータの紹介、様々なタイプとドキュメントデータベースの探索・分析の基本。 | [レッスン](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique) |
| 07 | Pythonの扱い | [データの扱い](2-Working-With-Data/README.md) | Pandasなどのライブラリを用いたPythonによるデータ探索の基礎。Pythonプログラミングの基礎理解が推奨されます。 | [レッスン](2-Working-With-Data/07-python/README.md) [動画](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | データ準備 | [データの扱い](2-Working-With-Data/README.md) | 欠損値、不正確または不完全なデータを処理するためのデータクレンジングおよび変換技術。 | [レッスン](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | 量の可視化 | [データ可視化](3-Data-Visualization/README.md) | Matplotlibを使って鳥のデータを可視化する方法を学ぶ 🦆 | [レッスン](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | データの分布の可視化 | [データ可視化](3-Data-Visualization/README.md) | 観測値と傾向を区間内で可視化する。 | [レッスン](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | 比率の可視化 | [データ可視化](3-Data-Visualization/README.md) | 離散およびグループ化されたパーセンテージを可視化する。 | [レッスン](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | 関係の可視化 | [データ可視化](3-Data-Visualization/README.md) | データセットや変数間のつながりや相関を可視化する。 | [レッスン](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | 意味のある可視化 | [データ可視化](3-Data-Visualization/README.md) | 効果的な問題解決と洞察のためにビジュアライゼーションを価値あるものにする技術と指針。 | [レッスン](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | データサイエンスライフサイクル入門 | [ライフサイクル](4-Data-Science-Lifecycle/README.md) | データサイエンスのライフサイクルと最初のステップであるデータ取得・抽出の紹介。 | [レッスン](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | 分析 | [ライフサイクル](4-Data-Science-Lifecycle/README.md) | データサイエンスライフサイクルのこのフェーズはデータ分析の技法に焦点を当てる。 | [レッスン](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | コミュニケーション | [ライフサイクル](4-Data-Science-Lifecycle/README.md) | データサイエンスライフサイクルのこのフェーズは、意思決定者が理解しやすいようにデータから得られた知見を提示することに注力する。 | [レッスン](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | クラウドにおけるデータサイエンス | [クラウドデータ](5-Data-Science-In-Cloud/README.md) | クラウド上のデータサイエンスとその利点を紹介する一連のレッスン。 | [レッスン](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) と [Maud](https://twitter.com/maudstweets) |
| 18 | クラウドにおけるデータサイエンス | [クラウドデータ](5-Data-Science-In-Cloud/README.md) | ローコードツールを用いたモデルのトレーニング。 | [レッスン](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) と [Maud](https://twitter.com/maudstweets) |
| 19 | クラウドにおけるデータサイエンス | [クラウドデータ](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studioによるモデルのデプロイ。 | [レッスン](5-Data-Science-In-Cloud/19-Azure/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) と [Maud](https://twitter.com/maudstweets) |
| 20 | 現実世界でのデータサイエンス | [現実世界](6-Data-Science-In-Wild/README.md) | 現実世界でのデータサイエンス駆動のプロジェクト。 | [レッスン](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 01 | データサイエンスの定義 | [イントロダクション](1-Introduction/README.md) | データサイエンスの基本概念、その人工知能、機械学習、ビッグデータとの関係を学ぶ。 | [レッスン](1-Introduction/01-defining-data-science/README.md) [動画](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | データサイエンス倫理 | [イントロダクション](1-Introduction/README.md) | データ倫理の概念、課題とフレームワーク。 | [レッスン](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | データの定義 | [イントロダクション](1-Introduction/README.md) | データの分類と一般的なソース。 | [レッスン](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | 統計と確率の紹介 | [イントロダクション](1-Introduction/README.md) | データ理解のための確率論と統計学の数学的手法。 | [レッスン](1-Introduction/04-stats-and-probability/README.md) [動画](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | リレーショナルデータの取り扱い | [データ操作](2-Working-With-Data/README.md) | リレーショナルデータ入門と、SQLシークエルの基本的な探索・分析方法。 | [レッスン](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQLデータの取り扱い | [データ操作](2-Working-With-Data/README.md) | 非リレーショナルデータの種類とドキュメントデータベースの探索・分析入門。 | [レッスン](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Pythonの利用 | [データ操作](2-Working-With-Data/README.md) | Pandasなどのライブラリを使ったPythonでのデータ探索の基礎。Pythonプログラミングの基礎理解を推奨。 | [レッスン](2-Working-With-Data/07-python/README.md) [動画](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | データ準備 | [データ操作](2-Working-With-Data/README.md) | 欠損、不正確、未完成のデータの課題に対処するためのデータクリーニングや変換技術。 | [レッスン](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | 量の可視化 | [データ可視化](3-Data-Visualization/README.md) | Matplotlibを使って鳥のデータを可視化する方法 🦆 | [レッスン](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | データの分布の可視化 | [データ可視化](3-Data-Visualization/README.md) | 観察や傾向を区間内で可視化する方法。 | [レッスン](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | 比率の可視化 | [データ可視化](3-Data-Visualization/README.md) | 離散およびグループ化されたパーセンテージの可視化。 | [レッスン](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | 関係の可視化 | [データ可視化](3-Data-Visualization/README.md) | データセットと変数間の接続や相関の可視化。 | [レッスン](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | 意味のある可視化 | [データ可視化](3-Data-Visualization/README.md) | 効果的な問題解決と洞察のために可視化を価値あるものにする技術と指針。 | [レッスン](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | データサイエンスライフサイクルの紹介 | [ライフサイクル](4-Data-Science-Lifecycle/README.md) | データサイエンスライフサイクルの紹介と最初のステップであるデータの取得と抽出。 | [レッスン](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | 分析 | [ライフサイクル](4-Data-Science-Lifecycle/README.md) | データサイエンスライフサイクルにおけるデータ分析の技法に焦点を当てるフェーズ。 | [レッスン](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | コミュニケーション | [ライフサイクル](4-Data-Science-Lifecycle/README.md) | データサイエンスライフサイクルにおけるデータの洞察を意思決定者が理解しやすく伝えるフェーズ。 | [レッスン](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | クラウド上のデータサイエンス | [クラウドデータ](5-Data-Science-In-Cloud/README.md) | クラウド上のデータサイエンスとその利点を紹介するシリーズ。 | [レッスン](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) と [Maud](https://twitter.com/maudstweets) |
| 18 | クラウド上のデータサイエンス | [クラウドデータ](5-Data-Science-In-Cloud/README.md) | ローコードツールによるモデル学習。 |[レッスン](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) と [Maud](https://twitter.com/maudstweets) |
| 19 | クラウド上のデータサイエンス | [クラウドデータ](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studioによるモデルのデプロイ。 | [レッスン](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) と [Maud](https://twitter.com/maudstweets) |
| 20 | 実地のデータサイエンス | [現場](6-Data-Science-In-Wild/README.md) | 現実世界でのデータサイエンス駆動型プロジェクト。 | [レッスン](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
このサンプルをCodespaceで開く手順
1. Codeドロップダウンメニューをクリックし、「Open with Codespaces」を選択
2. パネル下部で「+ New codespace」を選択
詳細は[GitHubドキュメント](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace)を参照ください。
このサンプルをCodespaceで開くには、以下の手順に従ってください
1. Codeドロップダウンメニューをクリックし、Open with Codespacesオプションを選択します
2. ペインの下部で+ New codespaceを選択します
詳細は[GitHubドキュメント](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace)を参照してください。
## VSCode Remote - Containers
VS Code Remote - Containers拡張機能を使い、ローカルマシンでこのリポジトリをコンテナ内で開く手順:
## VSCode Remote - コンテナ
ローカルマシンでVSCodeのRemote - Containers拡張機能を使い、このリポジトリをコンテナ内で開く手順:
1. 開発コンテナを初めて使う場合は、[開始ドキュメント](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started)でシステム要件Dockerインストールなどを満たしていることを確認してください。
1. 開発用コンテナを初めて使う場合は、[はじめにのドキュメント](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started)でシステム要件Dockerインストールなど)を確認してください。
このリポジトリを使うには、隔離されたDockerボリューム内でリポジトリを開く方法があります:
このリポジトリを使うには、リポジトリを分離されたDockerボリューム内に開けます:
**注意**内部的にはRemote-Containersの「Clone Repository in Container Volume...」コマンドを使ってソースコードをローカルファイルシステムではなくDockerボリュームにクローンします。[ボリューム](https://docs.docker.com/storage/volumes/)はコンテナデータ保持に推奨される方法です。
**注記**: 内部的には、Remote-Containersの **Clone Repository in Container Volume...** コマンドを使い、ローカルファイルシステムの代わりにDockerボリュームにソースコードをクローンします。データ永続化には[ボリューム](https://docs.docker.com/storage/volumes/)が推奨されています。
またはローカルでクローンまたはダウンロードしたリポジトリを開く方法
または、ローカルにクローンまたはダウンロードしたリポジトリを開く:
- このリポジトリをローカルにクローンする。
- F1キーを押し、「Remote-Containers: Open Folder in Container...」コマンドを選択。
- クローンしたフォルダーを選択し、コンテナ起動を待って操作を試みる
- このリポジトリをローカルファイルシステムにクローンする。
- F1を押して **Remote-Containers: Open Folder in Container...** コマンドを選択。
- このフォルダーのクローンコピーを選択し、コンテナ起動を待って試してください
## オフラインアクセス
[Docsify](https://docsify.js.org/#/)を使い、このドキュメントをオフラインで閲覧可能です。このリポジトリをフォークし、ローカルマシンに[Docsifyをインストール](https://docsify.js.org/#/quickstart)し、このリポジトリのルートフォルダーで `docsify serve` と入力してください。ウェブサイトはローカルホストの3000番ポートで提供されます`localhost:3000`
[Docsify](https://docsify.js.org/#/)を使ってこのドキュメントをオフラインで実行できます。このリポジトリをフォークし、ローカルマシンに[Docsify](https://docsify.js.org/#/quickstart)をインストール後、このリポジトリのルートフォルダで`docsify serve`を実行してください。Webサイトはローカルホストのポート3000、すなわち `localhost:3000` で提供されます
> なお、ートブックはDocsify経由では表示されません。ートブック実行が必要な場合は、Pythonカーネルを動かしているVS Codeで別途実行してください。
> ートブックはDocsifyではレンダリングされませんので、ートブックを実行する必要がある場合は別途VS CodeでPythonカーネルを使って実行してください。
## その他のカリキュラム
私たちのチームは他のカリキュラムも作成しています!ぜひご覧ください:
当チームは他のカリキュラムも制作しています!ぜひご覧ください:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![LangChain4j 初心者向け](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain4j for Beginners](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js for Beginners](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain for Beginners](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
@ -215,7 +223,7 @@ VS Code Remote - Containers拡張機能を使い、ローカルマシンでこ
---
### コアラーニング
### コア学習
[![ML for Beginners](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Data Science for Beginners](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![AI for Beginners](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
@ -234,13 +242,13 @@ VS Code Remote - Containers拡張機能を使い、ローカルマシンでこ
## ヘルプを得る
**問題が発生していますか?** 一般的な問題の解決策については、[トラブルシューティングガイド](TROUBLESHOOTING.md)を確認してください。
**問題が発生しましたか?** よくある問題の解決策については、[トラブルシューティングガイド](TROUBLESHOOTING.md)を確認してください。
AIアプリの構築で行き詰まったり質問がある場合は、学習者や経験豊富な開発者と一緒にMCPに関するディスカッションに参加しましょう。質問が歓迎され、知識が自由に共有されるサポートコミュニティです。
AIアプリの構築で行き詰まったり質問がある場合は、仲間の学習者や経験豊富な開発者とMCPについての議論に参加しましょう。質問が歓迎され、知識が自由に共有されるサポートコミュニティです。
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
製品のフィードバックや構築中のエラーがある場合は、以下をご利用ください。
製品のフィードバックや構築中のエラーについては、以下をご利用ください:
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
@ -248,5 +256,5 @@ AIアプリの構築で行き詰まったり質問がある場合は、学習者
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**免責事項**
本書類はAI翻訳サービス「Co-op Translator」https://github.com/Azure/co-op-translatorを使用して翻訳されました。正確性には努めておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があります。原文が正式な情報源として優先されるべきです。重要な情報については、専門の人間による翻訳を推奨します。本翻訳の使用により生じたいかなる誤解や誤訳についても、一切の責任を負いかねますのでご了承ください
本書類はAI翻訳サービス「Co-op Translator」https://github.com/Azure/co-op-translatorを使用して翻訳されています。正確性の向上に努めておりますが、自動翻訳には誤りや不正確な箇所が含まれる可能性があります。原文の言語による原本を正式な情報源としてご参照ください。重要な情報については、専門の翻訳者による翻訳を推奨いたします。本翻訳の利用により生じた誤解や誤訳について、当方は一切の責任を負いかねます
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@
アーティスト: Nitya Narasimhan
![ロードマップスケッチノート](../../../translated_images/ja/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![ロードマップスケッチノート](../../../translated_images/ja/00-Roadmap.4905d6567dff4753.webp)
**免責事項**:
この文書は、AI翻訳サービス [Co-op Translator](https://github.com/Azure/co-op-translator) を使用して翻訳されています。正確性を追求しておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があることをご承知ください。元の言語で記載された文書が正式な情報源とみなされるべきです。重要な情報については、専門の人間による翻訳を推奨します。この翻訳の使用に起因する誤解や誤解釈について、当方は責任を負いません。

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "ko"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-28T09:13:18+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "ko"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-25T16:58:03+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "ko"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-28T09:13:49+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "ko"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:12:49+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "ko"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-28T09:14:48+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "ko"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T13:00:29+00:00",
@ -360,8 +378,8 @@
"language_code": "ko"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T07:46:15+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-28T09:19:36+00:00",
"source_file": "README.md",
"language_code": "ko"
},

@ -6,7 +6,7 @@
---
[![데이터 과학 정의 비디오](../../../../translated_images/ko/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![데이터 과학 정의 비디오](../../../../translated_images/ko/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [강의 전 퀴즈](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@
이번 도전 과제에서는 텍스트를 분석하여 데이터 과학 분야와 관련된 개념을 찾아보겠습니다. 데이터 과학에 대한 위키피디아 글을 가져와 텍스트를 처리한 후, 아래와 같은 워드 클라우드를 만들어 보겠습니다:
![데이터 과학 워드 클라우드](../../../../translated_images/ko/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![데이터 과학 워드 클라우드](../../../../translated_images/ko/ds_wordcloud.664a7c07dca57de0.webp)
[`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore')를 방문하여 코드를 읽어보세요. 코드를 실행하여 모든 데이터 변환이 실시간으로 어떻게 수행되는지 확인할 수도 있습니다.

@ -5,13 +5,13 @@
"source": [
"# 도전 과제: 데이터 과학에 관한 텍스트 분석\n",
"\n",
"이 예제에서는 전통적인 데이터 과학 프로세스의 모든 단계를 다루는 간단한 연습을 해보겠습니다. 코드를 작성할 필요는 없으며, 아래 셀을 클릭하여 실행하고 결과를 관찰하기만 하면 됩니다. 도전 과제로, 다른 데이터를 사용하여 이 코드를 시도해보는 것을 권장합니다.\n",
"이 예제에서는 전통적인 데이터 과학 프로세스의 모든 단계를 포함하는 간단한 연습을 해보겠습니다. 코드를 작성할 필요 없이 아래 셀을 클릭하여 실행하고 결과를 관찰하면 됩니다. 도전 과제로, 다양한 데이터를 사용하여 이 코드를 시도해 보는 것을 권장합니다.\n",
"\n",
"## 목표\n",
"\n",
"이번 강의에서는 데이터 과학과 관련된 다양한 개념에 대해 논의했습니다. 이제 **텍스트 마이닝**을 통해 더 많은 관련 개념을 발견해 봅시다. 데이터 과학에 관한 텍스트를 시작으로 키워드를 추출하고, 결과를 시각화해 보겠습니다.\n",
"이 수업에서는 데이터 과학과 관련된 다양한 개념에 대해 논의했습니다. 텍스트 마이닝을 수행하여 더 많은 관련 개념을 발견해 봅시다. 데이터 과학에 관한 텍스트를 시작으로 키워드를 추출한 후 결과를 시각화해 보겠습니다.\n",
"\n",
"텍스트로는 Wikipedia의 데이터 과학 페이지를 사용하겠습니다:\n"
"텍스트로는 위키백과의 데이터 과학 페이지를 사용하겠습니다:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## 1단계: 데이터 가져오기\n",
"## Step 1: 데이터 가져오기\n",
"\n",
"데이터 과학 프로세스의 첫 번째 단계는 데이터를 가져오는 것입니다. 이를 위해 `requests` 라이브러리를 사용할 것입니다:\n"
"모든 데이터 과학 프로세스의 첫 번째 단계는 데이터를 가져오는 것입니다. 우리는 `requests` 라이브러리를 사용해서 이를 수행할 것입니다:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## 2단계: 데이터 변환\n",
"## Step 2: 데이터 변환하기\n",
"\n",
"다음 단계는 데이터를 처리하기 적합한 형태로 변환하는 것입니다. 우리의 경우, 페이지에서 HTML 소스 코드를 다운로드했으며 이를 일반 텍스트로 변환해야 합니다.\n",
"다음 단계는 데이터를 처리 적합한 형태로 변환하는 것입니다. 우리의 경우, 페이지에서 HTML 소스 코드를 다운로드했고, 이를 일반 텍스트로 변환해야 합니다.\n",
"\n",
"이를 수행하는 방법은 여러 가지가 있습니다. 우리는 Python의 가장 간단한 내장 [HTMLParser](https://docs.python.org/3/library/html.parser.html) 객체를 사용할 것입니다. `HTMLParser` 클래스를 서브클래싱하고 `<script>` 및 `<style>` 태그를 제외한 HTML 태그 내부의 모든 텍스트를 수집하는 코드를 정의해야 합니다.\n"
"이를 수행하는 방법은 여러 가지가 있습니다. 여기서는 HTML 파싱을 위한 인기 있는 파이썬 라이브러리인 [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)를 사용할 것입니다. BeautifulSoup은 특정 HTML 요소를 대상으로 지정할 수 있어, 위키피디아의 주요 기사 내용에 집중하고 일부 탐색 메뉴, 사이드바, 푸터 및 기타 관련 없는 내용을 줄일 수 있습니다(일부 기본 텍스트는 여전히 남아 있을 수 있습니다).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"먼저, HTML 파싱을 위해 BeautifulSoup 라이브러리를 설치해야 합니다:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## 3단계: 인사이트 얻기\n",
"## Step 3: Getting Insights\n",
"\n",
"가장 중요한 단계는 데이터를 분석 가능한 형태로 변환하여 인사이트를 도출하는 것입니다. 우리의 경우, 텍스트에서 키워드를 추출하고 어떤 키워드가 더 의미 있는지 확인하고자 합니다.\n",
"가장 중요한 단계는 데이터를 우리가 인사이트를 얻을 수 있는 형태로 바꾸는 것입니다. 여기서는 텍스트에서 키워드를 추출하고, 어떤 키워드가 더 의미 있는지 확인하고자 합니다.\n",
"\n",
"키워드 추출을 위해 [RAKE](https://github.com/aneesha/RAKE)라는 Python 라이브러리를 사용할 것입니다. 먼저, 이 라이브러리가 설치되어 있지 않다면 설치해 보겠습니다:\n"
"키워드 추출을 위해 Python 라이브러리인 [RAKE](https://github.com/aneesha/RAKE)를 사용할 것입니다. 먼저, 이 라이브러리가 설치되어 있지 않다면 설치해 봅시다:\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"주요 기능은 `Rake` 객체에서 사용할 수 있으며, 일부 매개변수를 사용하여 사용자 정의할 수 있습니다. 우리의 경우, 키워드의 최소 길이를 5자로 설정하고, 문서에서 키워드의 최소 빈도를 3으로 설정하며, 키워드의 최대 단어 수를 2로 설정할 것입니다. 다른 값을 자유롭게 변경하여 결과를 관찰해 보세요.\n"
"주요 기능은 `Rake` 객체에서 제공되며, 몇 가지 매개변수를 사용하여 사용자 정의할 수 있습니다. 우리의 경우, 키워드의 최소 길이를 5자, 문서 내 키워드의 최소 빈도를 3회, 키워드 내 최대 단어 수를 2로 설정할 것입니다. 다른 값으로도 자유롭게 실험해보고 결과를 확인해 보세요.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"우리는 용어 목록과 그에 따른 중요도를 함께 얻었습니다. 보시다시피, 머신 러닝과 빅 데이터와 같은 가장 관련성 높은 분야들이 목록의 상위에 위치해 있습니다.\n",
"우리는 관련도와 함께 용어 리스트를 얻었습니다. 보시다시피, 머신 러닝과 빅 데이터처럼 가장 관련성 높은 학문들이 리스트 상위에 위치해 있습니다.\n",
"\n",
"## 4단계: 결과 시각화\n",
"## Step 4: 결과 시각화하기\n",
"\n",
"사람들은 데이터를 시각적인 형태로 가장 잘 해석할 수 있습니다. 따라서 통찰을 얻기 위해 데이터를 시각화하는 것이 종종 의미가 있습니다. 우리는 Python의 `matplotlib` 라이브러리를 사용하여 키워드와 그 관련성의 간단한 분포를 그래프로 나타낼 수 있습니다:\n"
"사람들은 시각적인 형태로 데이터를 가장 잘 해석할 수 있습니다. 따라서 인사이트를 도출하기 위해 데이터를 시각화하는 것이 종종 의미가 있습니다. 우리는 파이썬의 `matplotlib` 라이브러리를 사용하여 키워드와 관련성의 간단한 분포를 그릴 수 있습니다:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"단어 빈도를 시각화하는 더 나은 방법이 있습니다. 바로 **워드 클라우드**를 사용하는 것입니다. 키워드 목록에서 워드 클라우드를 그리기 위해 다른 라이브러리를 설치해야 합니다.\n"
"그러나 단어 빈도를 시각화하는 더 좋은 방법이 있습니다 - **워드 클라우드**를 사용하는 것입니다. 키워드 목록에서 워드 클라우드를 그리기 위해 다른 라이브러리를 설치해야 합니다.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` 객체는 원본 텍스트 또는 미리 계산된 단어와 빈도 목록을 입력으로 받아들이고, 이미지를 반환하며, 이는 `matplotlib`을 사용하여 표시할 수 있습니다:\n"
"`WordCloud` 객체는 원본 텍스트 또는 단어와 그 빈도수가 미리 계산된 목록을 입력받아 이미지를 반환하며, 이 이미지는 `matplotlib`을 사용하여 표시할 수 있습니다:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"우리는 원본 텍스트를 `WordCloud`에 전달할 수도 있습니다 - 비슷한 결과를 얻을 수 있는지 확인해 봅시다:\n"
"원본 텍스트를 `WordCloud`에 전달할 수도 있습니다 - 비슷한 결과를 얻을 수 있는지 확인해 봅시다:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"이제 워드 클라우드가 더 인상적으로 보이지만, 동시에 많은 잡음(예: `Retrieved on`과 같은 관련 없는 단어들)도 포함되어 있습니다. 또한, *data scientist*나 *computer science*와 같은 두 단어로 이루어진 키워드가 더 적게 추출됩니다. 이는 RAKE 알고리즘이 텍스트에서 좋은 키워드를 선택하는 데 훨씬 더 뛰어난 성능을 보이기 때문입니다. 이 예시는 데이터 전처리와 정리의 중요성을 보여줍니다. 최종적으로 명확한 결과를 얻으면 더 나은 결정을 내릴 수 있기 때문입니다.\n",
"이제 단어 구름이 더 인상적으로 보이지만, 많은 잡음(예: `Retrieved on`과 같은 관련 없는 단어)도 포함하고 있음을 알 수 있습니다. 또한 *data scientist*나 *computer science*와 같이 두 단어로 이루어진 키워드는 더 적게 나옵니다. 이는 RAKE 알고리즘이 텍스트에서 좋은 키워드를 선택하는 데 훨씬 더 능숙하기 때문입니다. 이 예시는 데이터 전처리와 정리의 중요성을 보여줍니다. 명확한 결과물이 있어야 더 나은 의사결정을 내릴 수 있기 때문입니다.\n",
"\n",
"이번 연습에서는 Wikipedia 텍스트에서 키워드와 워드 클라우드 형태로 의미를 추출하는 간단한 과정을 살펴보았습니다. 이 예시는 매우 단순하지만, 데이터 과학자가 데이터를 다룰 때 거치는 전형적인 모든 단계를 잘 보여줍니다. 데이터 수집에서부터 시각화에 이르기까지의 과정이 포함됩니다.\n",
"이번 연습에서는 키워드와 단어 구름 형태로 위키피디아 텍스트에서 의미를 추출하는 간단한 과정을 살펴보았습니다. 이 예시는 매우 단순하지만 데이터 과학자가 데이터를 다룰 때 수행하는 일반적인 모든 단계를 잘 보여줍니다. 데이터 수집에서 시각화에 이르기까지의 과정입니다.\n",
"\n",
"우리 강의에서는 이러한 모든 단계를 자세히 다룰 예정입니다.\n"
"우리 강의에서는 이러한 모든 단계를 자세히 다룰 입니다.\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**면책 조항**: \n이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있으나, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서를 해당 언어로 작성된 상태에서 권위 있는 자료로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다. \n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**면책조항**: \n이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다했으나, 자동 번역은 오류나 부정확한 내용이 포함될 수 있음을 유의해 주시기 바랍니다. 원문 문서가 권위 있는 출처로 간주되어야 합니다. 중요한 정보의 경우 전문적인 인력에 의한 번역을 권장합니다. 본 번역을 사용함으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:36:56+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "ko"
}
},
"nbformat": 4,

@ -3,17 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# 도전 과제: 데이터 과학에 대한 텍스트 분석\n",
"# 챌린지: 데이터 과학에 관한 텍스트 분석\n",
"\n",
"> *이 노트북에서는 다양한 URL을 사용하여 실험을 진행합니다 - 머신 러닝에 대한 위키피디아 기사입니다. 데이터 과학과는 달리, 이 기사에는 많은 용어가 포함되어 있어 분석이 더 어렵습니다. 키워드 추출을 수행한 후 데이터를 정리하는 또 다른 방법을 찾아서 자주 등장하지만 의미 없는 단어 조합을 제거해야 합니다.*\n",
"> *이 노트북에서는 다양한 URL - 머신러닝에 관한 위키피디아 문서를 사용하여 실험해 봅니다. 데이터 과학과 달리, 이 문서에는 많은 용어가 포함되어 있어 분석이 더 까다로워집니다. 키워드 추출 후 데이터를 정리하기 위한 또 다른 방법을 찾아야 하며, 잦지만 의미 없는 단어 조합들을 제거할 필요가 있습니다.*\n",
"\n",
"이 예제에서는 전통적인 데이터 과학 프로세스의 모든 단계를 다루는 간단한 연습을 해보겠습니다. 코드를 작성할 필요는 없으며, 아래 셀을 클릭하여 실행하고 결과를 관찰하기만 하면 됩니다. 도전 과제로, 다른 데이터를 사용하여 이 코드를 직접 시도해보는 것을 권장합니다.\n",
"이 예제에서는 전통적인 데이터 과학 프로세스의 모든 단계를 포함하는 간단한 연습을 해봅니다. 코드를 직접 작성할 필요는 없으며, 아래 셀을 클릭해 실행하고 결과를 관찰할 수 있습니다. 도전 과제로, 이 코드를 다른 데이터로 시도해 보는 것을 권장합니다.\n",
"\n",
"## 목표\n",
"\n",
"이번 수업에서는 데이터 과학과 관련된 다양한 개념을 논의했습니다. **텍스트 마이닝**을 통해 더 많은 관련 개념을 발견해 봅시다. 데이터 과학에 대한 텍스트를 시작으로 키워드를 추출하고, 결과를 시각화해 보겠습니다.\n",
"이번 수업에서는 데이터 과학과 관련된 다양한 개념을 논의했습니다. **텍스트 마이닝**을 통해 더 많은 관련 개념을 발견해 봅시다. 데이터 과학에 관한 텍스트를 사용해 키워드를 추출하고, 그 결과를 시각화하는 작업부터 시작하겠습니다.\n",
"\n",
"텍스트로는 위키피디아의 데이터 과학 페이지를 사용할 것입니다.\n"
"텍스트로는 위키피디아의 데이터 과학 페이지를 사용하겠습니다:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## 1단계: 데이터 가져오기\n",
"## Step 1: 데이터 가져오기\n",
"\n",
"데이터 과학 프로세스의 첫 번째 단계는 데이터를 가져오는 것입니다. 이를 위해 `requests` 라이브러리를 사용할 것입니다:\n"
"모든 데이터 과학 프로세스의 첫 번째 단계는 데이터를 가져오는 것입니다. 이를 위해 `requests` 라이브러리를 사용할 것입니다:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## 2단계: 데이터 변환\n",
"## Step 2: 데이터 변환\n",
"\n",
"다음 단계는 데이터를 처리하기 적합한 형태로 변환하는 것입니다. 우리의 경우, 페이지에서 HTML 소스 코드를 다운로드했으며 이를 일반 텍스트로 변환해야 합니다.\n",
"다음 단계는 데이터를 처리 적합한 형태로 변환하는 것입니다. 우리의 경우, 페이지에서 HTML 소스 코드를 다운로드했으며, 이를 일반 텍스트로 변환해야 합니다.\n",
"\n",
"이를 수행하는 방법은 여러 가지가 있습니다. 우리는 Python의 가장 간단한 내장 [HTMLParser](https://docs.python.org/3/library/html.parser.html) 객체를 사용할 것입니다. `HTMLParser` 클래스를 서브클래싱하고 `<script>` 및 `<style>` 태그를 제외한 HTML 태그 내부의 모든 텍스트를 수집하는 코드를 정의해야 합니다.\n"
"이 작업을 수행하는 방법은 여러 가지가 있습니다. 우리는 HTML 파싱을 위해 널리 사용되는 파이썬 라이브러리인 [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)을 사용할 것입니다. BeautifulSoup은 특정 HTML 요소를 대상으로 할 수 있어, 위키피디아의 주요 기사 내용에 집중하고 일부 탐색 메뉴, 사이드바, 푸터 및 기타 관련 없는 콘텐츠를 줄일 수 있습니다(일부 기본 텍스트가 남을 수도 있지만).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"먼저, HTML 파싱을 위해 BeautifulSoup 라이브러리를 설치해야 합니다:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## 3단계: 인사이트 얻기\n",
"## Step 3: 통찰력 얻기\n",
"\n",
"가장 중요한 단계는 데이터를 분석 가능한 형태로 변환하여 인사이트를 도출하는 것입니다. 여기서는 텍스트에서 키워드를 추출하고, 어떤 키워드가 더 의미 있는지 확인하려고 합니다.\n",
"가장 중요한 단계는 데이터를 인사이트를 도출할 수 있는 형태로 변환하는 것입니다. 우리의 경우, 텍스트에서 키워드를 추출하고, 어떤 키워드가 더 의미 있는지 확인하려고 합니다.\n",
"\n",
"키워드 추출을 위해 [RAKE](https://github.com/aneesha/RAKE)라는 Python 라이브러리를 사용할 것입니다. 먼저, 이 라이브러리가 설치되어 있지 않다면 설치해 보겠습니다:\n"
"키워드 추출을 위해 [RAKE](https://github.com/aneesha/RAKE)라는 파이썬 라이브러리를 사용할 것입니다. 먼저, 이 라이브러리가 설치되어 있지 않다면 설치해 봅시다: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"주요 기능은 `Rake` 객체에서 사용할 수 있으며, 일부 매개변수를 사용하여 사용자 정의할 수 있습니다. 우리의 경우, 키워드의 최소 길이를 5자로 설정하고, 문서에서 키워드의 최소 빈도를 3으로 설정하며, 키워드의 최대 단어 수를 2로 설정할 것입니다. 다른 값을 시도해보고 결과를 관찰해 보세요.\n"
"주요 기능은 `Rake` 객체에서 제공되며, 몇 가지 매개변수를 사용하여 사용자화할 수 있습니다. 우리의 경우, 키워드의 최소 길이를 5자로, 문서 내 키워드의 최소 빈도를 3으로, 키워드 내 최대 단어 수를 2로 설정할 것입니다. 다른 값들로도 자유롭게 시도해보고 결과를 관찰해보세요.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"우리는 용어 목록과 그에 따른 중요도를 함께 얻었습니다. 보시다시피, 머신 러닝과 빅 데이터와 같은 가장 관련성 높은 분야들이 목록의 상위에 위치해 있습니다.\n",
"우리는 관련 중요도와 함께 용어 목록을 얻었습니다. 보시다시피, 머신 러닝 및 빅 데이터와 같은 가장 관련성 높은 분야가 목록 상단에 나타나 있습니다.\n",
"\n",
"## 4단계: 결과 시각화\n",
"## Step 4: 결과 시각화하기\n",
"\n",
"사람들은 데이터를 시각적인 형태로 가장 잘 해석할 수 있습니다. 따라서 데이터를 시각화하여 통찰을 얻는 것이 종종 합리적입니다. 우리는 Python의 `matplotlib` 라이브러리를 사용하여 키워드와 그 관련성의 간단한 분포를 그래프로 나타낼 수 있습니다:\n"
"사람들은 시각적 형태에서 데이터를 가장 잘 해석할 수 있습니다. 따라서 통찰을 얻기 위해 데이터를 시각화하는 것이 종종 의미가 있습니다. 우리는 파이썬의 `matplotlib` 라이브러리를 사용하여 키워드와 그 관련성의 간단한 분포를 그 수 있습니다:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"그러나 단어 빈도를 시각화하는 더 나은 방법이 있습니다 - 바로 **워드 클라우드**를 사용하는 것입니다. 키워드 목록에서 워드 클라우드를 그리기 위해 또 다른 라이브러리를 설치해야 합니다.\n"
"그러나 단어 빈도를 시각화하는 더 좋은 방법이 있습니다 - **워드 클라우드**를 사용하는 것입니다. 키워드 목록에서 워드 클라우드를 그리기 위해 또 다른 라이브러리를 설치해야 합니다.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` 객체는 원본 텍스트 또는 미리 계산된 단어와 빈도 목록을 입력으로 받아들이고, 이미지를 반환하며, 이는 `matplotlib`을 사용하여 표시할 수 있습니다:\n"
"`WordCloud` 객체는 원본 텍스트 또는 미리 계산된 단어와 빈도 목록을 입력받아 이미지를 반환하며, 이 이미지는 `matplotlib`을 사용하여 표시할 수 있습니다:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"우리는 원본 텍스트를 `WordCloud`에 전달할 수도 있습니다 - 비슷한 결과를 얻을 수 있는지 확인해 봅시다:\n"
"우리는 또한 원본 텍스트를 `WordCloud`에 전달할 수 있습니다 - 유사한 결과를 얻을 수 있는지 봅시다:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"이제 워드 클라우드가 더 인상적으로 보이지만, 동시에 많은 잡음(예: `Retrieved on`과 같은 관련 없는 단어들)도 포함되어 있습니다. 또한, *data scientist*나 *computer science*와 같은 두 단어로 이루어진 키워드가 더 적게 추출됩니다. 이는 RAKE 알고리즘이 텍스트에서 좋은 키워드를 선택하는 데 훨씬 더 뛰어난 성능을 보이기 때문입니다. 이 예는 데이터 전처리와 정리의 중요성을 보여줍니다. 최종적으로 명확한 그림을 얻으면 더 나은 결정을 내릴 수 있기 때문입니다.\n",
"지금 단어 구름이 더 인상적으로 보이지만, 많은 노이즈(예: `Retrieved on` 같은 관련 없는 단어)도 포함되어 있습니다. 또한 *data scientist*나 *computer science*와 같이 두 단어로 구성된 키워드는 더 적게 나타납니다. 이는 RAKE 알고리즘이 텍스트에서 좋은 키워드를 선택하는 데 훨씬 더 뛰어난 성능을 보이기 때문입니다. 이 예는 데이터 전처리와 정리의 중요성을 보여줍니다. 최종적으로 명확한 그림을 얻는 것이 더 나은 결정을 내릴 수 있게 해주기 때문입니다.\n",
"\n",
"이번 연습에서는 Wikipedia 텍스트에서 키워드와 워드 클라우드 형태로 의미를 추출하는 간단한 과정을 거쳤습니다. 이 예시는 매우 단순하지만, 데이터 과학자가 데이터를 다룰 때 거치는 전형적인 모든 단계를 잘 보여줍니다. 데이터 수집에서부터 시각화에 이르기까지 말이죠.\n",
"이번 연습에서는 키워드와 단어 구름 형태로 Wikipedia 텍스트에서 의미를 추출하는 간단한 과정을 살펴보았습니다. 이 예제는 매우 단순하지만, 데이터 과학자가 데이터를 다룰 때 취하는 일반적인 모든 단계를 잘 보여줍니다. 데이터 수집부터 시각화에 이르기까지 말입니다.\n",
"\n",
"우리 강의에서는 이러한 모든 단계를 자세히 다룰 예정입니다.\n"
"본 강의에서는 이러한 모든 단계를 자세히 다룰 것입니다.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**면책 조항**: \n이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있으나, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서의 원어 버전이 권위 있는 출처로 간주되어야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**면책 조항**: \n이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 노력하고 있지만, 자동 번역에는 오류나 부정확성이 포함될 수 있음을 유의해 주시기 바랍니다. 원문은 해당 언어로 작성된 원본 문서를 권위 있는 출처로 간주해야 합니다. 중요한 정보의 경우, 전문 인력의 인간 번역을 권장합니다. 본 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 어떠한 책임도 지지 않습니다.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:49:00+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "ko"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
통계와 확률 이론은 데이터 과학에서 매우 중요한 수학의 두 가지 밀접한 분야입니다. 수학에 대한 깊은 지식 없이도 데이터를 다룰 수는 있지만, 최소한 기본 개념은 알고 있는 것이 좋습니다. 여기에서는 시작하는 데 도움이 되는 간단한 소개를 제공합니다.
[![Intro Video](../../../../translated_images/ko/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Intro Video](../../../../translated_images/ko/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [강의 전 퀴즈](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
우리는 변수 값이 특정 구간에 속할 확률, 예를 들어 P(t<sub>1</sub>≤X<t<sub>2</sub>)에 대해서만 이야기할 수 있습니다. 이 경우, 확률 분포는 **확률 밀도 함수** p(x)로 설명됩니다. 이 함수는 다음과 같이 정의됩니다:
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/ko/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/ko/probability-density.a8aad29f17a14afb.webp)
연속형 균등 분포는 유한 구간에서 정의되며, **연속 균등 분포**라고 불립니다. 값 X가 길이 l의 구간에 속할 확률은 l에 비례하며, 최대 1까지 증가합니다.
@ -73,11 +73,11 @@
다음은 데이터의 평균, 중앙값, 사분위수를 보여주는 박스 플롯입니다:
![Weight Box Plot](../../../../translated_images/ko/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![Weight Box Plot](../../../../translated_images/ko/weight-boxplot.1dbab1c03af26f8a.webp)
우리의 데이터는 서로 다른 선수 **포지션**에 대한 정보를 포함하고 있으므로, 포지션별로 박스 플롯을 작성할 수도 있습니다. 이를 통해 포지션별로 매개변수 값이 어떻게 다른지 알 수 있습니다. 이번에는 키를 고려해 봅시다:
![Box plot by role](../../../../translated_images/ko/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![Box plot by role](../../../../translated_images/ko/boxplot_byrole.036b27a1c3f52d42.webp)
이 다이어그램은 평균적으로 1루수의 키가 2루수의 키보다 더 높다는 것을 시사합니다. 이 강의 후반부에서는 이 가설을 더 공식적으로 검증하는 방법과 데이터가 통계적으로 유의미함을 보여주는 방법을 배울 것입니다.
@ -85,7 +85,7 @@
우리 데이터의 분포를 확인하려면 **히스토그램**이라는 그래프를 그릴 수 있습니다. X축에는 다양한 몸무게 구간(즉, **빈**)이 포함되고, Y축에는 해당 구간에 속한 샘플의 개수가 표시됩니다.
![Histogram of real world data](../../../../translated_images/ko/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![Histogram of real world data](../../../../translated_images/ko/weight-histogram.bfd00caf7fc30b14.webp)
이 히스토그램에서 모든 값이 특정 평균 몸무게를 중심으로 집중되어 있으며, 평균에서 멀어질수록 해당 값의 몸무게가 나타날 확률이 낮아진다는 것을 알 수 있습니다. 즉, 야구 선수의 몸무게가 평균 몸무게와 크게 다를 확률은 매우 낮습니다. 몸무게의 분산은 평균에서 얼마나 벗어날 가능성이 있는지를 보여줍니다.
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
생성된 샘플의 히스토그램을 그리면 위에서 본 그림과 매우 유사한 모습을 볼 수 있습니다. 샘플 수와 빈 수를 늘리면 이상적인 정규 분포에 더 가까운 그림을 생성할 수 있습니다:
![Normal Distribution with mean=0 and std.dev=1](../../../../translated_images/ko/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![Normal Distribution with mean=0 and std.dev=1](../../../../translated_images/ko/normal-histogram.dfae0d67c202137d.webp)
*평균=0, 표준 편차=1인 정규 분포*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
이 경우, 값 0.53은 사람의 체중과 키 간에 어느 정도 상관관계가 있음을 나타냅니다. 또한, 한 값을 다른 값에 대해 산점도로 나타내어 관계를 시각적으로 확인할 수 있습니다:
![체중과 키 간의 관계](../../../../translated_images/ko/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![체중과 키 간의 관계](../../../../translated_images/ko/weight-height-relationship.3f06bde4ca2aba99.webp)
> 상관관계와 공분산에 대한 더 많은 예제는 [첨부된 노트북](notebook.ipynb)에서 확인할 수 있습니다.

@ -1,6 +1,6 @@
# 데이터 과학 입문
![데이터 활용](../../../translated_images/ko/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![데이터 활용](../../../translated_images/ko/data.48e22bb7617d8d92.webp)
> 사진 제공: <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> / <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
이 강의에서는 데이터 과학이 어떻게 정의되는지 알아보고, 데이터 과학자가 반드시 고려해야 할 윤리적 문제들에 대해 배웁니다. 또한 데이터가 어떻게 정의되는지 배우고, 데이터 과학의 핵심 학문 분야인 통계와 확률에 대해 간단히 살펴볼 것입니다.

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Python 작업하기 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
[![Intro Video](../../../../translated_images/ko/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Intro Video](../../../../translated_images/ko/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
데이터베이스는 데이터를 저장하고 쿼리 언어를 사용하여 데이터를 조회하는 데 매우 효율적인 방법을 제공하지만, 데이터 처리를 가장 유연하게 수행하는 방법은 직접 프로그램을 작성하여 데이터를 조작하는 것입니다. 많은 경우 데이터베이스 쿼리가 더 효과적인 방법일 수 있습니다. 하지만 더 복잡한 데이터 처리가 필요한 경우 SQL로 쉽게 처리할 수 없는 경우도 있습니다.
데이터 처리는 어떤 프로그래밍 언어로도 작성할 수 있지만, 데이터 작업에 있어 더 높은 수준의 언어들이 있습니다. 데이터 과학자들은 일반적으로 다음 언어들 중 하나를 선호합니다:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Time Series Plot](../../../../translated_images/ko/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Time Series Plot](../../../../translated_images/ko/timeseries-1.80de678ab1cf727e.webp)
이제 매주 친구들과 파티를 열고 추가로 아이스크림 10팩을 가져간다고 가정해 봅시다. 이를 나타내는 또 다른 시리즈를 생성할 수 있습니다:
```python
@ -75,7 +75,7 @@ additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Time Series Plot](../../../../translated_images/ko/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Time Series Plot](../../../../translated_images/ko/timeseries-2.aae51d575c55181c.webp)
> **참고**: 단순한 문법 `total_items+additional_items`을 사용하지 않았습니다. 그렇게 하면 결과 시리즈에 많은 `NaN`(*Not a Number*) 값이 생깁니다. 이는 `additional_items` 시리즈의 일부 인덱스 포인트에 값이 없기 때문이며, `NaN`을 다른 값에 더하면 결과는 `NaN`이 됩니다. 따라서 덧셈 중에 `fill_value` 매개변수를 지정해야 합니다.
@ -84,7 +84,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Monthly Time Series Averages](../../../../translated_images/ko/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Monthly Time Series Averages](../../../../translated_images/ko/timeseries-3.f3147cbc8c624881.webp)
### 데이터프레임 (DataFrame)
@ -210,7 +210,7 @@ df = pd.read_csv('file.csv')
데이터를 다루는 방법을 보여주기 위해 [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb)를 열어 처음부터 끝까지 읽어보시길 권장합니다. 셀을 실행하고, 마지막에 남겨둔 몇 가지 도전을 수행할 수도 있습니다.
![COVID 확산](../../../../translated_images/ko/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID 확산](../../../../translated_images/ko/covidspread.f3d131c4f1d260ab.webp)
> Jupyter Notebook에서 코드를 실행하는 방법을 모른다면 [이 기사](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)를 참고하세요.
@ -232,7 +232,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb)를 열어 처음부터 끝까지 읽어보세요. 셀을 실행하고, 마지막에 남겨둔 몇 가지 도전을 수행할 수도 있습니다.
![COVID 의료 치료](../../../../translated_images/ko/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![COVID 의료 치료](../../../../translated_images/ko/covidtreat.b2ba59f57ca45fbc.webp)
## 이미지 데이터 처리

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# 데이터 작업하기
![data love](../../../translated_images/ko/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/ko/data-love.a22ef29e6742c852.webp)
> 사진 제공: <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> on <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
이 강의에서는 데이터를 관리, 조작, 그리고 애플리케이션에서 활용하는 다양한 방법을 배우게 됩니다. 관계형 및 비관계형 데이터베이스에 대해 배우고, 데이터가 어떻게 저장될 수 있는지 알아볼 것입니다. 또한, 데이터를 관리하기 위해 Python을 사용하는 기본 원리를 배우고, Python을 활용하여 데이터를 관리하고 분석하는 다양한 방법을 발견하게 될 것입니다.

@ -42,7 +42,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/ko/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/ko/scatter1.5e1aa5fd6706c5d1.webp)
이제 꿀 색상 테마를 추가하여 연도별로 가격이 어떻게 변화했는지 보여주세요. 'hue' 매개변수를 추가하여 연도별 변화를 표시할 수 있습니다:
@ -51,7 +51,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/ko/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/ko/scatter2.c0041a58621ca702.webp)
이 색상 테마 변경을 통해 꿀 가격이 연도별로 강한 상승 추세를 보인다는 것을 명확히 알 수 있습니다. 실제로 데이터를 샘플링하여 확인해 보면(예: 애리조나 주) 연도별로 가격이 증가하는 패턴을 확인할 수 있으며, 몇 가지 예외를 제외하고는 그렇습니다:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
점의 크기가 점차 증가하는 것을 볼 수 있습니다.
![scatterplot 3](../../../../translated_images/ko/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/ko/scatter3.3c160a3d1dcb36b3.webp)
이것이 단순히 수요와 공급의 문제일까요? 기후 변화와 꿀벌 군집 붕괴와 같은 요인으로 인해 연도별로 구매 가능한 꿀이 줄어들고, 그 결과 가격이 상승하는 것일까요?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
답변: 네, 2003년을 중심으로 몇 가지 예외가 있습니다:
![line chart 1](../../../../translated_images/ko/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/ko/line1.f36eb465229a3b1f.webp)
✅ Seaborn은 데이터를 하나의 선으로 집계하며, "각 x 값에서 여러 측정을 평균과 평균 주변의 95% 신뢰 구간을 표시하여 플로팅합니다". [출처](https://seaborn.pydata.org/tutorial/relational.html). 이 시간 소모적인 동작은 `ci=None`을 추가하여 비활성화할 수 있습니다.
@ -105,7 +105,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/ko/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/ko/line2.a5b3493dc01058af.webp)
답변: 그렇지 않습니다. 총 생산량을 보면, 특정 연도에는 실제로 증가한 것으로 보이지만, 일반적으로 꿀 생산량은 이 기간 동안 감소하는 추세입니다.
@ -130,7 +130,7 @@ sns.relplot(
```
이 시각화에서는 꿀벌 군집당 생산량과 꿀벌 군집 수를 연도별로 나란히 비교할 수 있으며, 열을 3으로 설정하여 랩을 적용합니다:
![facet grid](../../../../translated_images/ko/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/ko/facet.6a34851dcd540050.webp)
이 데이터셋에서는 연도별, 주별 꿀벌 군집 수와 생산량에 관해 특별히 두드러지는 점은 없습니다. 이 두 변수 간의 상관관계를 찾는 다른 방법이 있을까요?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/ko/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/ko/dual-line.a4c28ce659603fab.webp)
2003년을 중심으로 눈에 띄는 점은 없지만, 이 강의를 조금 더 긍정적인 노트로 마무리할 수 있습니다: 꿀벌 군집 수는 전반적으로 감소하고 있지만, 군집 수는 안정화되고 있으며 군집당 생산량은 감소하고 있습니다.

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
여기서는 `ggplot2` 패키지를 설치한 후 `library("ggplot2")` 명령을 사용하여 작업 공간에 가져옵니다. ggplot에서 플롯을 그리려면 `ggplot()` 함수를 사용하며 데이터셋, x 및 y 변수 등을 속성으로 지정합니다. 이 경우 선형 플롯을 그리기 위해 `geom_line()` 함수를 사용합니다.
![MaxWingspan-lineplot](../../../../../translated_images/ko/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/ko/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
즉시 눈에 띄는 점은 무엇인가요? 적어도 하나의 이상치가 있는 것 같습니다. 2000cm 이상의 날개 길이는 20미터가 넘습니다. 미네소타에 프테로닥틸이 살고 있는 걸까요? 조사해 봅시다.
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
`theme`에서 각도를 지정하고 `xlab()``ylab()`에서 x축과 y축 레이블을 지정합니다. `ggtitle()`은 그래프/플롯에 이름을 부여합니다.
![MaxWingspan-lineplot-improved](../../../../../translated_images/ko/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/ko/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
레이블을 45도 회전시켰음에도 불구하고 읽기에는 너무 많습니다. 다른 전략을 시도해 봅시다: 이상치만 레이블을 지정하고 차트 내에서 레이블을 설정합니다. 산점도를 사용하여 레이블링 공간을 더 확보할 수 있습니다:
@ -91,7 +91,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
무엇을 발견했나요?
![MaxWingspan-scatterplot](../../../../../translated_images/ko/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/ko/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## 데이터 필터링
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
새로운 데이터프레임 `birds_filtered`를 만들고 산점도를 그렸습니다. 이상치를 필터링함으로써 데이터가 더 일관되고 이해하기 쉬워졌습니다.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/ko/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/ko/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
이제 날개 길이에 관한 데이터가 더 깨끗해졌으니, 이 새들에 대해 더 알아봅시다.
@ -150,7 +150,7 @@ birds_filtered %>% group_by(Category) %>%
```
다음 코드 스니펫에서는 데이터를 조작하고 그룹화하여 누적 막대 차트를 그리기 위해 [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8)과 [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) 패키지를 설치합니다. 먼저 새의 `Category`로 데이터를 그룹화한 후 `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` 열을 요약합니다. 그런 다음 `ggplot2` 패키지를 사용하여 막대 차트를 그리고 각 카테고리에 대한 색상과 레이블을 지정합니다.
![Stacked bar chart](../../../../../translated_images/ko/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/ko/stacked-bar-chart.0c92264e89da7b39.webp)
하지만 이 막대 차트는 너무 많은 비그룹화된 데이터로 인해 읽기 어렵습니다. 플롯하려는 데이터만 선택해야 합니다. 새의 카테고리를 기준으로 길이를 살펴봅시다.
@ -165,7 +165,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
먼저 `Category` 열의 고유 값을 계산한 후 이를 새 데이터프레임 `birds_count`로 정렬합니다. 이 정렬된 데이터를 동일한 수준으로 팩터링하여 정렬된 방식으로 플롯됩니다. 그런 다음 `ggplot2`를 사용하여 데이터를 막대 차트로 플롯합니다. `coord_flip()`은 수평 막대를 플롯합니다.
![category-length](../../../../../translated_images/ko/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/ko/category-length.7e34c296690e85d6.webp)
이 막대 차트는 각 카테고리의 새 수를 잘 보여줍니다. 한눈에 미네소타 지역에서 가장 많은 새가 Ducks/Geese/Waterfowl 카테고리에 속한다는 것을 알 수 있습니다. 미네소타는 '10,000개의 호수의 땅'이므로 놀랍지 않습니다!
@ -188,7 +188,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
`birds_filtered` 데이터를 `Category`로 그룹화한 후 막대 그래프를 플롯합니다.
![comparing data](../../../../../translated_images/ko/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/ko/comparingdata.f486a450d61c7ca5.webp)
여기서 놀라운 점은 없습니다: 벌새는 펠리컨이나 기러기에 비해 MaxLength가 가장 적습니다. 데이터가 논리적으로 맞아떨어지는 것은 좋은 일입니다!
@ -200,7 +200,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/ko/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/ko/superimposed-values.5363f0705a1da416.webp)
## 🚀 도전 과제

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![max length per order](../../../../../translated_images/ko/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![max length per order](../../../../../translated_images/ko/max-length-per-order.e5b283d952c78c12.webp)
이 그래프는 새의 Order별 몸 길이의 일반적인 분포를 보여주지만, 실제 분포를 표시하기에는 최적의 방법이 아닙니다. 이 작업은 보통 히스토그램을 생성하여 수행됩니다.
@ -48,7 +48,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![distribution over entire dataset](../../../../../translated_images/ko/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![distribution over entire dataset](../../../../../translated_images/ko/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
보시다시피, 이 데이터셋에 포함된 400개 이상의 새들 중 대부분은 Max Body Mass가 2000 이하 범위에 속합니다. `bins` 매개변수를 30과 같은 더 높은 숫자로 변경하여 데이터를 더 자세히 살펴보세요:
@ -56,7 +56,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![distribution-30bins](../../../../../translated_images/ko/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![distribution-30bins](../../../../../translated_images/ko/distribution-30bins.6a3921ea7a421bf7.webp)
이 차트는 분포를 조금 더 세부적으로 보여줍니다. 왼쪽으로 덜 치우친 차트를 만들려면 특정 범위 내의 데이터만 선택하도록 필터링하면 됩니다:
@ -68,7 +68,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![filtered histogram](../../../../../translated_images/ko/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![filtered histogram](../../../../../translated_images/ko/filtered-histogram.6bf5d2bfd8253322.webp)
✅ 다른 필터와 데이터 포인트를 시도해 보세요. 데이터의 전체 분포를 보려면 `['MaxBodyMass']` 필터를 제거하여 라벨이 있는 분포를 표시하세요.
@ -82,7 +82,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
이 두 요소가 예상 축을 따라 예상되는 상관관계를 가지며, 특히 강한 수렴 지점이 하나 있는 것으로 보입니다:
![2d plot](../../../../../translated_images/ko/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![2d plot](../../../../../translated_images/ko/2d-plot.c504786f439bd7eb.webp)
히스토그램은 기본적으로 숫자 데이터에 잘 작동합니다. 그렇다면 텍스트 데이터에 따라 분포를 확인해야 한다면 어떻게 해야 할까요?
@ -114,7 +114,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![wingspan and conservation collation](../../../../../translated_images/ko/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![wingspan and conservation collation](../../../../../translated_images/ko/wingspan-conservation-collation.4024e9aa6910866a.webp)
최소 날개 길이와 보존 상태 간에 뚜렷한 상관관계는 없어 보입니다. 이 방법을 사용하여 데이터셋의 다른 요소를 테스트해 보세요. 다른 필터도 시도해 보세요. 상관관계를 발견할 수 있나요?
@ -128,7 +128,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![density plot](../../../../../translated_images/ko/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![density plot](../../../../../translated_images/ko/density-plot.675ccf865b76c690.webp)
이 플롯은 이전의 최소 날개 길이 데이터와 유사한 결과를 보여줍니다. 단지 조금 더 부드럽게 표현되었을 뿐입니다. 두 번째로 생성한 MaxBodyMass의 울퉁불퉁한 선을 다시 방문하고 싶다면, 이 방법을 사용하여 매우 부드럽게 만들 수 있습니다:
@ -136,7 +136,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![bodymass density](../../../../../translated_images/ko/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![bodymass density](../../../../../translated_images/ko/bodymass-smooth.d31ce526d82b0a1f.webp)
너무 부드럽지 않은 선을 원한다면 `adjust` 매개변수를 편집하세요:
@ -144,7 +144,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![less smooth bodymass](../../../../../translated_images/ko/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![less smooth bodymass](../../../../../translated_images/ko/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ 이 유형의 플롯에 사용할 수 있는 매개변수에 대해 읽어보고 실험해 보세요!
@ -154,7 +154,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![bodymass per order](../../../../../translated_images/ko/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![bodymass per order](../../../../../translated_images/ko/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 도전 과제

@ -83,7 +83,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
짜잔, 이 두 가지 버섯 클래스에 따라 데이터 비율을 보여주는 파이 차트가 완성되었습니다. 레이블 배열을 생성할 때 순서를 올바르게 설정하는 것이 특히 중요하므로 반드시 확인하세요!
![pie chart](../../../../../translated_images/ko/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![pie chart](../../../../../translated_images/ko/pie1-wb.685df063673751f4.webp)
## 도넛!
@ -117,7 +117,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![donut chart](../../../../../translated_images/ko/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![donut chart](../../../../../translated_images/ko/donut-wb.34e6fb275da9d834.webp)
이 코드는 두 개의 라이브러리 - ggplot2와 webr을 사용합니다. webr 라이브러리의 PieDonut 함수를 사용하면 도넛 차트를 쉽게 만들 수 있습니다!
@ -155,7 +155,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
와플 차트를 사용하면 이 버섯 데이터셋의 갓 색상 비율을 명확히 볼 수 있습니다. 흥미롭게도 녹색 갓을 가진 버섯이 많이 있습니다!
![waffle chart](../../../../../translated_images/ko/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![waffle chart](../../../../../translated_images/ko/waffle.aaa75c5337735a6e.webp)
이 강의에서는 비율을 시각화하는 세 가지 방법을 배웠습니다. 먼저 데이터를 카테고리로 그룹화한 후 데이터를 표시하는 가장 적합한 방법 - 파이, 도넛, 또는 와플을 결정해야 합니다. 모두 맛있고 사용자에게 데이터셋의 즉각적인 스냅샷을 제공합니다.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/ko/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/ko/scatter1.86b8900674d88b26.webp)
이제 같은 데이터를 꿀 색상 테마로 표시하여 연도별로 가격이 어떻게 변화했는지 보여주세요. 이를 위해 'scale_color_gradientn' 매개변수를 추가하여 연도별 변화를 표시할 수 있습니다:
@ -52,7 +52,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/ko/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/ko/scatter2.4d1cbc693bad20e2.webp)
이 색상 테마 변경을 통해 꿀의 파운드당 가격이 연도별로 강한 상승 추세를 보이는 것을 명확히 확인할 수 있습니다. 실제로 데이터를 샘플링하여 확인해 보면(예: 애리조나 주) 연도별로 가격이 증가하는 패턴을 확인할 수 있으며, 예외는 거의 없습니다:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
점의 크기가 점차 증가하는 것을 확인할 수 있습니다.
![scatterplot 3](../../../../../translated_images/ko/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/ko/scatter3.722d21e6f20b3ea2.webp)
이것이 단순히 수요와 공급의 문제일까요? 기후 변화와 꿀벌 군집 붕괴와 같은 요인으로 인해 구매 가능한 꿀이 연도별로 줄어들고, 그 결과 가격이 상승하는 것일까요?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
답변: 네, 2003년을 중심으로 몇 가지 예외가 있습니다:
![line chart 1](../../../../../translated_images/ko/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/ko/line1.299b576fbb2a59e6.webp)
질문: 그렇다면 2003년에 꿀 공급량에서도 급증이 있었나요? 연도별 총 생산량을 살펴보면 어떨까요?
@ -106,7 +106,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/ko/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/ko/line2.3b18fcda7176ceba.webp)
답변: 그렇지 않습니다. 총 생산량을 보면, 특정 연도에는 실제로 증가한 것으로 보이지만, 일반적으로 꿀 생산량은 이 기간 동안 감소하는 추세입니다.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
이 시각화에서는 꿀벌 군집당 생산량과 군집 수를 연도별로 나란히 비교할 수 있습니다. 열은 3으로 설정합니다:
![facet grid](../../../../../translated_images/ko/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/ko/facet.491ad90d61c2a7cc.webp)
이 데이터셋에서는 연도별, 주별로 꿀벌 군집 수와 생산량에 관해 특별히 두드러지는 점은 없습니다. 이 두 변수 간 상관관계를 찾는 다른 방법이 있을까요?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/ko/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/ko/dual-line.fc4665f360a54018.webp)
2003년을 중심으로 눈에 띄는 점은 없지만, 이 강의를 조금 더 긍정적인 노트로 마무리할 수 있습니다: 꿀벌 군집 수는 전반적으로 감소하고 있지만, 군집 수는 안정화되고 있으며 군집당 생산량은 감소하고 있습니다.

@ -38,25 +38,25 @@
데이터 과학자가 올바른 데이터에 적합한 차트를 신중히 선택하더라도, 데이터를 특정 관점을 증명하기 위해 표시하는 과정에서 데이터 자체를 훼손하는 경우가 많습니다. 기만적인 차트와 인포그래픽의 예는 무수히 많습니다!
[![How Charts Lie by Alberto Cairo](../../../../../translated_images/ko/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[![How Charts Lie by Alberto Cairo](../../../../../translated_images/ko/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 위 이미지를 클릭하면 기만적인 차트에 대한 컨퍼런스 강연을 볼 수 있습니다.
이 차트는 X축을 반대로 뒤집어 날짜를 기준으로 진실의 반대를 보여줍니다:
![bad chart 1](../../../../../translated_images/ko/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![bad chart 1](../../../../../translated_images/ko/bad-chart-1.596bc93425a8ac30.webp)
[이 차트](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg)는 더욱 기만적입니다. 눈은 오른쪽으로 향하며 시간이 지남에 따라 COVID 사례가 감소했다고 결론짓게 만듭니다. 하지만 날짜를 자세히 보면, 기만적인 하락 추세를 보여주기 위해 날짜가 재배열된 것을 알 수 있습니다.
![bad chart 2](../../../../../translated_images/ko/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![bad chart 2](../../../../../translated_images/ko/bad-chart-2.62edf4d2f30f4e51.webp)
이 악명 높은 예시는 색상과 뒤집힌 Y축을 사용하여 기만합니다. 총기 친화적 법안 통과 후 총기 사망자가 급증했음에도 불구하고, 눈은 반대의 결론을 내리도록 속습니다:
![bad chart 3](../../../../../translated_images/ko/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![bad chart 3](../../../../../translated_images/ko/bad-chart-3.e201e2e915a230bc.webp)
이 이상한 차트는 비율을 조작하여 웃음을 자아냅니다:
![bad chart 4](../../../../../translated_images/ko/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![bad chart 4](../../../../../translated_images/ko/bad-chart-4.8872b2b881ffa96c.webp)
비교할 수 없는 것을 비교하는 것도 또 다른 기만적인 방법입니다. [멋진 웹사이트](https://tylervigen.com/spurious-correlations)는 '허위 상관관계'를 보여주는 '사실'을 수집하며, 예를 들어 메인주의 이혼율과 마가린 소비를 상관시키는 데이터를 제공합니다. Reddit 그룹은 데이터의 [기만적인 사용](https://www.reddit.com/r/dataisugly/top/?t=all)을 수집합니다.
@ -91,13 +91,13 @@
X축에 텍스트 데이터가 길고 자세하다면, 텍스트를 각도로 조정하여 가독성을 높일 수 있습니다. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html)는 데이터가 지원하는 경우 3D 플로팅을 제공합니다. 이를 사용하여 정교한 데이터 시각화를 생성할 수 있습니다.
![3d plots](../../../../../translated_images/ko/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3d plots](../../../../../translated_images/ko/3d.db1734c151eee87d.webp)
## 애니메이션 및 3D 차트 표시
오늘날 최고의 데이터 시각화 중 일부는 애니메이션으로 제작됩니다. Shirley Wu는 D3를 사용하여 '[영화 꽃](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)'과 같은 놀라운 애니메이션을 만들었습니다. 각 꽃은 영화의 시각화를 나타냅니다. 또 다른 예로 Guardian의 'Bussed Out'은 NYC가 노숙자 문제를 해결하기 위해 사람들을 도시 밖으로 버스에 태워 보내는 방식을 보여주는 스크롤텔링 기사 형식과 Greensock 및 D3를 결합한 인터랙티브 경험입니다.
![busing](../../../../../translated_images/ko/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![busing](../../../../../translated_images/ko/busing.8157cf1bc89a3f65.webp)
> "Bussed Out: How America Moves its Homeless" from [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualizations by Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ X축에 텍스트 데이터가 길고 자세하다면, 텍스트를 각도로
Vue.js와 D3를 사용하여 네트워크 시각화를 표시하는 라이브러리를 사용하여 애니메이션화된 소셜 네트워크를 보여주는 웹 앱을 완성하세요. 앱이 실행되면 화면에서 노드를 끌어 데이터를 재배열할 수 있습니다.
![liaisons](../../../../../translated_images/ko/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/ko/liaisons.90ce7360bcf84765.webp)
## 프로젝트: D3.js를 사용하여 네트워크를 보여주는 차트 만들기

@ -1,6 +1,6 @@
# 시각화
![라벤더 꽃 위의 벌](../../../translated_images/ko/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![라벤더 꽃 위의 벌](../../../translated_images/ko/bee.0aa1d91132b12e3a.webp)
> 사진 제공: <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> on <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
데이터 시각화는 데이터 과학자에게 가장 중요한 작업 중 하나입니다. "이미지는 천 마디 말보다 강하다"는 말처럼, 시각화는 데이터의 스파이크, 이상치, 그룹화, 경향 등 흥미로운 부분을 식별하는 데 도움을 주며, 데이터가 전달하려는 이야기를 이해하는 데 큰 도움을 줍니다.

@ -16,7 +16,7 @@
이번 강의에서는 생애 주기의 3가지 부분인 데이터 수집, 처리, 유지 관리에 초점을 맞춥니다.
![데이터 과학 생애 주기 다이어그램](../../../../translated_images/ko/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![데이터 과학 생애 주기 다이어그램](../../../../translated_images/ko/data-science-lifecycle.a1e362637503c4fb.webp)
> 사진 출처: [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## 데이터 수집
@ -88,7 +88,7 @@
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
|![Team Data Science Lifecycle](../../../../translated_images/ko/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Data Science Process Alliance Image](../../../../translated_images/ko/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Team Data Science Lifecycle](../../../../translated_images/ko/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Data Science Process Alliance Image](../../../../translated_images/ko/CRISP-DM.8bad2b4c66e62aa7.webp) |
| 이미지 출처: [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | 이미지 출처: [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [강의 후 퀴즈](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# 데이터 과학 생명주기
![communication](../../../translated_images/ko/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/ko/communication.06d8e2a88d30d168.webp)
> 사진 제공: <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> on <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
이 강의에서는 데이터 과학 생명주기의 일부 측면, 특히 데이터 분석과 데이터에 대한 커뮤니케이션을 탐구합니다.

@ -1,12 +1,12 @@
# 클라우드에서의 데이터 과학
![cloud-picture](../../../translated_images/ko/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/ko/cloud-picture.f5526de3c6c6387b.webp)
> 사진 제공: [Jelleke Vanooteghem](https://unsplash.com/@ilumire) / [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
빅데이터를 활용한 데이터 과학을 수행할 때, 클라우드는 게임 체인저가 될 수 있습니다. 다음 세 가지 강의에서 클라우드가 무엇인지, 그리고 왜 유용한지 알아보겠습니다. 또한 심부전 데이터셋을 탐구하고, 심부전 발생 가능성을 평가하는 데 도움을 줄 수 있는 모델을 구축할 것입니다. 클라우드의 강력한 기능을 활용하여 두 가지 방식으로 모델을 학습, 배포 및 활용할 것입니다. 첫 번째는 Low code/No code 방식으로 사용자 인터페이스만을 사용하는 방법이고, 두 번째는 Azure Machine Learning Software Developer Kit (Azure ML SDK)를 사용하는 방법입니다.
![project-schema](../../../translated_images/ko/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/ko/project-schema.420e56d495624541.webp)
### 주제

@ -32,7 +32,7 @@ AI의 민주화 덕분에 개발자들은 이제 AI 기반 의사결정과 데
* [헬스케어에서의 데이터 과학](https://data-flair.training/blogs/data-science-in-healthcare/) - 의료 영상 (예: MRI, X-Ray, CT-Scan), 유전체학 (DNA 시퀀싱), 약물 개발 (위험 평가, 성공 예측), 예측 분석 (환자 관리 및 공급 물류), 질병 추적 및 예방 등과 같은 응용 사례를 강조합니다.
![현실 세계에서의 데이터 과학 응용 사례](../../../../translated_images/ko/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) 이미지 출처: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![현실 세계에서의 데이터 과학 응용 사례](../../../../translated_images/ko/data-science-applications.4e5019cd8790ebac.webp) 이미지 출처: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
이 그림은 데이터 과학 기술을 적용할 수 있는 다른 도메인과 예제를 보여줍니다. 다른 응용 사례를 탐구하고 싶으신가요? 아래의 [리뷰 및 자기 학습](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) 섹션을 확인하세요.

@ -13,7 +13,7 @@ Explorer 인터페이스(아래 스크린샷 참조)는 데이터셋(제공된
2. 데이터셋 [카탈로그](https://planetarycomputer.microsoft.com/catalog)를 탐색하여 각 데이터셋의 목적을 학습하세요.
3. Explorer를 사용하여 관심 있는 데이터셋을 선택하고, 관련 쿼리와 렌더링 옵션을 선택하세요.
![The Planetary Computer Explorer](../../../../translated_images/ko/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![The Planetary Computer Explorer](../../../../translated_images/ko/planetary-computer-explorer.c1e95a9b053167d6.webp)
`여러분의 과제:`
이제 브라우저에 렌더링된 시각화를 연구하고 다음 질문에 답하세요:

@ -1,32 +1,32 @@
# 초보자를 위한 데이터 과학 - 커리큘럼
# 초보자를 위한 데이터 과학 - 교과 과정
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![GitHub Codespaces에서 열기](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![GitHub license](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub contributors](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub issues](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub pull-requests](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub 라이선스](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub 기여자](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub 이슈](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub 풀 리퀘스트](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs 환영](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub watchers](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub forks](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub stars](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![GitHub 감시자](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub 포크](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub 스타](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
마이크로소프트의 Azure Cloud Advocates는 데이터 과학에 관한 10주간 20개의 강의로 구성된 커리큘럼을 기쁘게 제공합니다. 각 강의에는 강의 전후 퀴즈, 강의를 완성하는 데 도움이 되는 서면 지침, 솔루션, 과제가 포함되어 있습니다. 프로젝트 기반 교수법을 통해 배우면서 직접 구축할 수 있어, 새로운 기술을 '정착'시키는 입증된 방법입니다.
Microsoft의 Azure Cloud Advocates는 데이터 과학에 관한 10주, 20개 레슨의 커리큘럼을 제공합니다. 각 레슨에는 사전 및 사후 퀴즈, 레슨을 완료하기 위한 서면 지침, 솔루션 및 과제가 포함되어 있습니다. 우리의 프로젝트 기반 교수법은 구축하며 배우는 방식을 제공하여 새로운 기술이 잘 습득되도록 합니다.
**저자분께 진심으로 감사드립니다:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**저자 여러분께 진심으로 감사드립니다:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 특별한 감사의 말씀을 전합니다 🙏 저희 [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) 저자, 리뷰어, 콘텐츠 기여자분들께,** 특히 Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 특별 [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) 저자, 리뷰어 및 콘텐츠 기여자 여러분께 감사드립니다,** 특히 Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/ko/00-Title.8af36cd35da1ac55.webp)|
|![@sketchthedocs의 스케치노트 https://sketchthedocs.dev](../../translated_images/ko/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| 초보자를 위한 데이터 과학 - _[@nitya](https://twitter.com/nitya) 제작 스케치노트_ |
| 초보자를 위한 데이터 과학 - _[@nitya](https://twitter.com/nitya) 스케치노트_ |
### 🌐 다국어 지원
@ -35,172 +35,182 @@
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](./README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **로컬에서 클론하는 것을 선호하나요?**
> 이 저장소는 50개 이상의 언어 번역을 포함하기 때문에 다운로드 크기가 상당히 커집니다. 번역 없이 클론 하려면 sparse checkout을 사용하세요:
> **로컬에 클론하여 사용하시겠습니까?**
>
> 이 저장소는 50개 이상의 언어 번역을 포함하여 다운로드 크기가 크게 증가합니다. 번역 없이 클론하려면 sparse checkout을 사용하세요:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> 이렇게 하면 훨씬 빠른 다운로드로 코스를 완료하는 데 필요한 모든 것을 얻을 수 있습니다.
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> 이 방법으로 커리큘럼을 완료하는 데 필요한 모든 것을 훨씬 빠르게 다운로드할 수 있습니다.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**추가 번역 언어 지원을 원하시면 [여기](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)를 참조하세요**
**추가 번역 언어 지원을 원하시면 [여기](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)를 참하세요**
#### 우리 커뮤니티에 참여하세요
#### 커뮤니티에 참여하세요
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
우리는 현재 Discord에서 AI와 함께 배우는 시리즈를 진행 중입니다. 자세히 알아보고 2025년 9월 18일부터 30일까지 [Learn with AI Series](https://aka.ms/learnwithai/discord)에서 함께하세요. GitHub Copilot을 데이터 과학에 활용하는 팁과 요령을 얻을 수 있습니다.
Discord에서 AI와 함께 배우는 시리즈가 진행 중입니다. 자세한 내용 및 참여는 [Learn with AI Series](https://aka.ms/learnwithai/discord)에서 확인하세요. 2025년 9월 18일부터 30일까지 GitHub Copilot을 활용한 데이터 과학 팁과 요령을 배울 수 있습니다.
![Learn with AI series](../../translated_images/ko/1.2b28cdc6205e26fe.webp)
# 학생이신가요?
다음 자료에서 시작하세요:
다음 자료들로 시작하세요:
- [학생 허브 페이지](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) 이 페이지에는 초보자를 위한 자료, 학생팩, 무료 인증 바우처 받는 방법까지 포함되어 있습니다. 매달 콘텐츠를 교체하니 즐겨찾기에 추가하고 주기적으로 확인하세요.
- [마이크로소프트 학습 학생 대사](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) 전 세계 학생 대사 커뮤니티에 참여하세요, 이것이 마이크로소프트에 들어갈 수 있는 길이 될 수 있습니다.
- [Student Hub 페이지](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) 이 페이지에서는 초보자 자료, 학생 팩, 무료 자격증 바우처를 얻는 방법 등을 확인할 수 있습니다. 매달 콘텐츠를 교체하므로 즐겨찾기에 추가하고 수시로 확인하는 것을 추천합니다.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) 전 세계 학생 대사 커뮤니티에 가입하세요. Microsoft에 진입하는 좋은 방법이 될 수 있습니다.
# 시작하기
## 📚 문서
- **[설치 가이드](INSTALLATION.md)** - 초보자를 위한 단계별 설정 안내
- **[사용 가이드](USAGE.md)** - 예제 및 자주 사용하는 워크플로우
- **[문제 해결](TROUBLESHOOTING.md)** - 일반적인 문제 해결책
- **[기여 안내](CONTRIBUTING.md)** - 이 프로젝트에 기여하는 방법
- **[교사를 위한 자료](for-teachers.md)** - 교육 지침 및 교실 자료
- **[설치 가이드](INSTALLATION.md)** - 초보자를 위한 단계별 설치 지침
- **[사용법 가이드](USAGE.md)** - 예제 및 일반 워크플로우
- **[문제 해결](TROUBLESHOOTING.md)** - 자주 발생하는 문제 해결책
- **[기여 가이드](CONTRIBUTING.md)** - 프로젝트 기여 방법
- **[교사용 자료](for-teachers.md)** - 교육 안내 및 교실 자료
## 👨‍🎓 학생들을 위해
> **완전 초보자**: 데이터 과학이 처음이신가요? [초보자 친화적 예제](examples/README.md)부터 시작하세요! 이 간단하고 잘 주석이 달린 예제로 기본기를 익힌 후 전체 커리큘럼에 도전할 수 있습니다.
> **[학생](https://aka.ms/student-page)** 여러분: 이 커리큘럼을 혼자 이용하려면, 저장소 전체를 포크한 뒤 강의 전 퀴즈부터 시작해 스스로 연습 문제를 완료하세요. 강의를 읽고 나머지 활동도 완료하세요. 솔루션 코드를 복사하기보다는 강의를 이해하여 직접 프로젝트를 만들어 보는 것이 좋습니다; 하지만 각 프로젝트 중심 강의의 /solutions 폴더에 솔루션 코드가 준비되어 있습니다. 또 다른 방법으로 친구들과 스터디 그룹을 만들어 함께 진행해도 좋습니다. 더 깊은 학습을 위해 [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum)을 추천합니다.
## 👨‍🎓 학생
> **완전 초보자**: 데이터 과학이 처음인가요? [초보자 친화적 예제](examples/README.md)부터 시작하세요! 간단하고 주석이 잘 달린 예제들로 기본 개념을 이해한 후 전체 커리큘럼을 진행하는 데 도움이 됩니다.
> **[학생](https://aka.ms/student-page)**: 이 커리큘럼을 독학하려면 저장소를 포크(fork)한 후 사전 강의 퀴즈부터 시작해 연습문제를 완료하세요. 강의를 읽고 나머지 활동을 완료하세요. 솔루션 코드를 복사하기보다는 수업을 이해하며 프로젝트를 만들어보세요. 하지만 각 프로젝트 지향 레슨의 /solutions 폴더에서 코드가 제공됩니다. 친구들과 스터디 그룹을 만들어 함께 공부하는 것도 좋은 방법입니다. 추가 학습을 원한다면 [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum)을 추천합니다.
**빠른 시작:**
1. [설치 가이드](INSTALLATION.md)를 참고해 환경을 설정하세요
2. [사용 가이드](USAGE.md)를 검토하여 커리큘럼 활용법을 배우세요
3. 1강부터 순서대로 진행하세요
1. [설치 가이드](INSTALLATION.md)를 확인해 환경을 설정하세요
2. [사용법 가이드](USAGE.md)를 검토해 커리큘럼 활용법을 배우세요
3. 레슨 1부터 순차적으로 진행하세요
4. 지원이 필요하면 [Discord 커뮤니티](https://aka.ms/ds4beginners/discord)에 참여하세요
## 👩‍🏫 교사들을 위해
## 👩‍🏫 교사용
> **교사 여러분**: 저희는 이 교육 과정을 사용하는 방법에 대해 [몇 가지 제안](for-teachers.md)을 포함시켰습니다. [토론 포럼](https://github.com/microsoft/Data-Science-For-Beginners/discussions)에서 여러분의 피드백을 기다립니다!
> **교사분들**: 이 커리큘럼 활용법에 대한 [몇 가지 제안](for-teachers.md)을 포함했습니다. 의견이 있으시면 [토론 포럼](https://github.com/microsoft/Data-Science-For-Beginners/discussions)에서 알려주세요!
## 팀 소개
[![홍보 영상](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "홍보 영상")
[![프로모 영상](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "프로모 영상")
**Gif 제작자** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
**GIF 제작자** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 위 이미지를 클릭하면 프로젝트와 이를 만든 사람들에 관한 영상을 볼 수 있습니다!
> 🎥 위 이미지를 클릭하여 이 프로젝트와 이를 만든 분들에 관한 영상을 확인하세요!
## 교수법
## 교육 방법론
이 커리큘럼을 만들면서 두 가지 교육 원칙을 선택했습니다: 프로젝트 기반 교육과 빈번한 퀴즈 포함. 이 시리즈가 끝나면 학생들은 윤리 개념, 데이터 준비, 다양한 데이터 작업 방법, 데이터 시각화, 데이터 분석, 데이터 과학의 실제 사례 등 기본적인 데이터 과학 원리를 학습하게 됩니다.
이 커리큘럼을 구축하면서 두 가지 교육 원칙을 선택했습니다: 프로젝트 기반 학습과 빈번한 퀴즈 포함입니다. 이 시리즈가 끝나면 학생들은 윤리적 개념, 데이터 준비, 데이터 작업의 다양한 방법, 데이터 시각화, 데이터 분석, 데이터 과학의 실제 사례 등을 포함한 데이터 과학의 기본 원리를 배우게 됩니다.
또한, 수업 전의 낮은 부담 퀴즈는 학생이 학습 주제에 집중하도록 하며, 수업 후의 두 번째 퀴즈는 학습 내용을 더 잘 기억하도록 돕습니다. 이 커리큘럼은 유연하고 재미있게 설계되어 전체 또는 일부만 사용할 수 있습니다. 프로젝트는 작게 시작해 10주차에 점점 더 복잡해집니다.
또한 수업 전 낮은 부담의 퀴즈는 학생이 주제 학습에 집중하도록 동기를 부여하며, 수업 후 두 번째 퀴즈는 학습 내용의 추가 기억을 돕습니다. 이 커리큘럼은 유연하고 재미있게 설계되어 전체 또는 일부만 수강할 수 있습니다. 프로젝트는 처음에 작게 시작하여 10주 주기 종료 시점에 점점 복잡해집니다.
> 우리의 [행동 강령](CODE_OF_CONDUCT.md), [기여 지침](CONTRIBUTING.md), [번역 지침](TRANSLATIONS.md)을 확인하세요. 여러분의 건설적인 피드백을 환영합니다!
> 저희의 [행동 강령](CODE_OF_CONDUCT.md), [기여 가이드](CONTRIBUTING.md), [번역 안내](TRANSLATIONS.md)를 참고하세요. 건설적인 피드백을 환영합니다!
## 각 수업에는 다음이 포함됩니다:
## 각 강의에 포함된 내용:
- 선택적 스케치노트
- 선택적 보조 영상
- 수업 전 준비 퀴즈
- 텍스트 수업 내용
- 프로젝트 기반 수업의 경우 프로젝트 구축 단계별 안내
- 학습 확인
- 수업 전 워밍업 퀴즈
- 서면 강의 자료
- 프로젝트 기반 강의의 경우, 프로젝트 구축 단계별 가이드
- 지식 점검
- 도전 과제
- 보조 읽기 자료
- 보조 읽을거리
- 과제
- [수업 후 퀴즈](https://ff-quizzes.netlify.app/en/)
> **퀴즈에 관한 안내**: 모든 퀴즈는 Quiz-App 폴더에 있으며, 총 40개의 퀴즈가 각 3문제로 구성되어 있습니다. 수업 내에서 링크되어 있지만, 퀴즈 앱은 로컬에서 실행하거나 Azure에 배포할 수 있습니다. `quiz-app` 폴더 내 지침을 따르세요. 현재 점진적으로 현지화 작업이 진행 중입니다.
> **퀴즈에 관한 참고 사항**: 모든 퀴즈는 Quiz-App 폴더 내에 있으며, 총 40개 퀴즈로 각각 3문제씩 구성되어 있습니다. 강의 내에서 링크되어 있지만, 퀴즈 앱은 로컬에서 실행하거나 Azure에 배포할 수 있습니다; `quiz-app` 폴더의 지침을 따르세요. 점진적으로 현지화되고 있습니다.
## 🎓 초보자 친화적 예제
**데이터 과학이 처음인가요?** 시작하는 데 도움이 되도록 간단하고 잘 주석 처리된 코드가 담긴 특별한 [예제 디렉터리](examples/README.md)를 만들었습니다:
**데이터 과학이 처음인가요?** 간단하고 잘 주석 처리된 코드로 시작할 수 있도록 특별한 [예제 디렉터리](examples/README.md)를 만들었습니다:
- 🌟 **Hello World** - 당신의 첫 번째 데이터 과학 프로그램
- 📂 **데이터 로딩** - 데이터셋을 읽고 탐색하는 방법 배우기
- 📊 **간단한 분석** - 통계 계산과 패턴 찾기
- 📈 **본 시각화** - 차트와 그래프 생성
- 🔬 **실제 프로젝트** - 시작부터 완료까지 전체 워크플로우
- 🌟 **Hello World** - 여러분의 첫 데이터 과학 프로그램
- 📂 **데이터 로딩** - 데이터셋 읽기 및 탐색 배우기
- 📊 **간단 분석** - 통계 계산 및 패턴 찾기
- 📈 **초 시각화** - 차트 및 그래프 만들기
- 🔬 **실제 프로젝트** - 처음부터 끝까지 완성하는 워크플로우
각 예제에는 모든 단계를 설명하는 자세한 주석이 포함되어 있어 초보자에게 안성맞춤입니다!
각 예제에는 모든 단계를 자세히 설명하는 주석이 포함되어 있어 완전 초보자에게 안성맞춤입니다!
👉 **[예제부터 시작하기](examples/README.md)** 👈
## 수업 목록
## 강의목록
|![ @sketchthedocs 스케치노트 https://sketchthedocs.dev](../../translated_images/ko/00-Roadmap.4905d6567dff4753.webp)|
|![ @sketchthedocs 작성 스케치노트 https://sketchthedocs.dev](../../translated_images/ko/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| 데이터 과학 초보자: 로드맵 - _스케치노트 by [@nitya](https://twitter.com/nitya)_ |
| Data Science For Beginners: 로드맵 - _스케치노트 [@nitya](https://twitter.com/nitya) 작성_ |
| 수업 번호 | 주제 | 수업 그룹 | 학습 목표 | 연결된 수업 | 저자 |
| :--------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | 데이터 과학 정의 | [소개](1-Introduction/README.md) | 데이터 과학의 기본 개념과 인공지능, 머신러닝, 빅데이터와의 연관성을 학습한다. | [수업](1-Introduction/01-defining-data-science/README.md) [영상](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 강의 번호 | 주제 | 강의 그룹 | 학습 목표 | 연결된 강의 | 저자 |
| :---: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | 데이터 과학 정의 | [소개](1-Introduction/README.md) | 데이터 과학의 기본 개념과 인공지능, 머신러닝, 빅데이터와의 관계를 배웁니다. | [수업](1-Introduction/01-defining-data-science/README.md) [영상](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | 데이터 과학 윤리 | [소개](1-Introduction/README.md) | 데이터 윤리 개념, 도전과제 및 프레임워크. | [수업](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | 데이터 정의 | [소개](1-Introduction/README.md) | 데이터가 어떻게 분류되고 일반적인 출처는 무엇인지. | [수업](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | 통계와 확률 소개 | [소개](1-Introduction/README.md) | 데이터 이해를 위한 확률과 통계의 수학적 기법. | [수업](1-Introduction/04-stats-and-probability/README.md) [영상](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | 관계형 데이터 작업 | [데이터 작업](2-Working-With-Data/README.md) | 관계형 데이터 소개 및 관계형 데이터 탐색·분석 기초, SQL 사용법 (발음: ‘씨퀄’). | [수업](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQL 데이터 작업 | [데이터 작업](2-Working-With-Data/README.md) | 비관계형 데이터 소개, 다양한 유형 및 문서형 데이터베이스 탐색·분석 기초. | [수업](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique) |
| 07 | Python으로 작업하기 | [데이터 작업](2-Working-With-Data/README.md) | Pandas 같은 라이브러리를 사용한 데이터 탐색을 위한 Python 기초. Python 프로그래밍 기본 이해 권장. | [수업](2-Working-With-Data/07-python/README.md) [영상](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | 데이터 준비 | [데이터 작업](2-Working-With-Data/README.md) | 결측, 부정확하거나 불완전한 데이터를 처리하기 위한 클리닝 및 변환 기술. | [수업](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | 양 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | Matplotlib을 활용해 조류 데이터를 시각화하는 방법 🦆 | [수업](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | 데이터 분포 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | 구간 내 관측값과 추세 시각화. | [수업](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | 비율 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | 이산 및 그룹별 퍼센트 시각화. | [수업](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | 관계 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | 데이터 집합과 변수 간 연결과 상관관계 시각화. | [수업](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | 의미 있는 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | 문제 해결과 통찰에 효과적인 시각화를 위한 기법과 안내. | [수업](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | 데이터 과학 생애주기 소개 | [생애주기](4-Data-Science-Lifecycle/README.md) | 데이터 과학 생애주기 및 첫 단계인 데이터 수집과 추출 소개. | [수업](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | 분석 | [생애주기](4-Data-Science-Lifecycle/README.md) | 데이터 과학 생애주기 중 데이터 분석 기술에 초점. | [수업](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | 커뮤니케이션 | [생애주기](4-Data-Science-Lifecycle/README.md) | 의사결정자가 이해하기 쉽게 데이터로부터 얻은 통찰을 전달하는 단계. | [수업](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | 클라우드에서의 데이터 과학 | [클라우드 데이터](5-Data-Science-In-Cloud/README.md) | 클라우드에서의 데이터 과학과 그 이점 소개. | [수업](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) [Maud](https://twitter.com/maudstweets) |
| 18 | 클라우드에서의 데이터 과학 | [클라우드 데이터](5-Data-Science-In-Cloud/README.md) | Low Code 도구를 사용한 모델 훈련. | [수업](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) 및 [Maud](https://twitter.com/maudstweets) |
| 19 | 클라우드에서의 데이터 과학 | [클라우드 데이터](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio를 사용한 모델 배포. | [수업](5-Data-Science-In-Cloud/19-Azure/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) [Maud](https://twitter.com/maudstweets) |
| 20 | 야생에서의 데이터 과학 | [야생](6-Data-Science-In-Wild/README.md) | 현실 세계에서의 데이터 과학 주도 프로젝트. | [수업](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | 데이터 정의 | [소개](1-Introduction/README.md) | 데이터 분류 방식과 주요 출처. | [수업](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | 통계 및 확률 소개 | [소개](1-Introduction/README.md) | 데이터를 이해하기 위한 확률 및 통계 수학 기법. | [수업](1-Introduction/04-stats-and-probability/README.md) [영상](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | 관계형 데이터 작업 | [데이터 작업](2-Working-With-Data/README.md) | 관계형 데이터 소개 및 SQL(“시퀄”)을 사용한 탐색과 분석 기초. | [수업](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQL 데이터 작업 | [데이터 작업](2-Working-With-Data/README.md) | 비관계형 데이터 소개, 다양한 유형과 문서 데이터베이스 탐색 및 분석 기초. | [수업](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | 파이썬으로 작업하기 | [데이터 작업](2-Working-With-Data/README.md) | Pandas 같은 라이브러리를 활용한 데이터 탐색용 Python 기초. Python 프로그래밍 기초 지식 권장. | [수업](2-Working-With-Data/07-python/README.md) [영상](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | 데이터 준비 | [데이터 작업](2-Working-With-Data/README.md) | 누락, 부정확하거나 불완전한 데이터를 처리하기 위한 데이터 정제 및 변환 기술. | [수업](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | 수량 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | Matplotlib을 사용하여 새 데이터를 시각화하는 방법 배우기 🦆 | [수업](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | 데이터 분포 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | 구간 내 관찰 및 추세 시각화. | [수업](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | 비율 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | 이산 데이터 및 그룹 비율 시각화. | [수업](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | 관계 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | 데이터 집합과 변수 간의 연관성과 상관 관계 시각화. | [수업](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | 의미 있는 시각화 | [데이터 시각화](3-Data-Visualization/README.md) | 효과적인 문제 해결과 인사이트를 위한 유용한 시각화 기술과 지침. | [수업](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | 데이터 과학 수명 주기 소개 | [수명 주기](4-Data-Science-Lifecycle/README.md) | 데이터 과학 수명 주기 소개 및 데이터 획득 및 추출의 첫 단계. | [수업](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | 분석 | [수명 주기](4-Data-Science-Lifecycle/README.md) | 데이터 과학 수명 주기에서 데이터를 분석하는 기법에 중점. | [수업](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | 커뮤니케이션 | [수명 주기](4-Data-Science-Lifecycle/README.md) | 데이터 과학 수명 주기에서 데이터 인사이트를 의사결정자가 이해하기 쉽게 전달하는 단계. | [수업](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | 클라우드에서의 데이터 과학 | [클라우드 데이터](5-Data-Science-In-Cloud/README.md) | 클라우드에서의 데이터 과학과 그 이점 소개하는 시리즈 강의. | [수업](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 18 | 클라우드에서의 데이터 과학 | [클라우드 데이터](5-Data-Science-In-Cloud/README.md) | 로우 코드 도구를 사용한 모델 훈련. |[수업](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 19 | 클라우드에서의 데이터 과학 | [클라우드 데이터](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio를 사용한 모델 배포. | [수업](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 20 | 현장에서의 데이터 과학 | [현장](6-Data-Science-In-Wild/README.md) | 현실 세계에서 진행되는 데이터 과학 기반 프로젝트. | [수업](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
다음 절차에 따라 이 샘플을 Codespace에서 열 수 있습니다:
이 샘플을 Codespace에서 열려면 다음 단계를 따르세요:
1. Code 드롭다운 메뉴를 클릭하고 Open with Codespaces 옵션을 선택합니다.
2. 패널 맨 아래에서 + New codespace를 선택합니다.
2. 창 하단에서 + New codespace를 선택합니다.
자세한 내용은 [GitHub 문서](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace)를 참조하세요.
## VSCode 원격 - 컨테이너
로컬 컴퓨터와 VSCode에서 VS Code Remote - Containers 확장 프로그램을 사용하여 이 저장소를 컨테이너에서 여는 방법은 다음과 같습니다:
## VSCode Remote - Containers
로컬 머신과 VSCode에서 VS Code Remote - Containers 확장을 사용해 이 저장소를 컨테이너로 열려면 다음 단계를 따르세요:
1. 개발 컨테이너를 처음 사용하는 경우, 시스템이 [시작 가이드 문서](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started)에 명시된 사전 요구사항(예: Docker 설치)을 충족하는지 확인하세요.
1. 처음 개발 컨테이너를 사용하는 경우, [시작하기 문서](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started)에 명시된 사전 요구 사항(예: Docker 설치)을 충족하는지 확인하세요.
이 저장소를 사용하려면 격리된 Docker 볼륨에서 저장소를 열 수 있습니다:
**참고**: 내부적으로 Remote-Containers: **Clone Repository in Container Volume...** 명령을 사용하여 소스 코드를 로컬 파일 시스템 대신 Docker 볼륨에 복제합니다. [볼륨](https://docs.docker.com/storage/volumes/)은 컨테이너 데이터 영속성에 권장되는 방식입니다.
**참고**: 내부적으로 이 방법은 Remote-Containers: **Clone Repository in Container Volume...** 명령을 사용해 로컬 파일 시스템 대신 Docker 볼륨에 소스 코드를 복제합니다. [볼륨](https://docs.docker.com/storage/volumes/)은 컨테이너 데이터를 지속하는 권장 메커니즘입니다.
또는 로컬에서 클론하거나 다운로드한 저장소 버전을 열 수 있습니다:
또는 로컬에 복제하거나 다운로드한 저장소 버전을 열 수 있습니다:
- 이 저장소를 로컬 파일 시스템에 클론하세요.
- F1을 누르고 **Remote-Containers: Open Folder in Container...** 명령을 선택하세요.
- 클론한 폴더를 선택하고 컨테이너가 시작될 때까지 기다린 후 사용해보세요.
- 이 저장소를 로컬 파일 시스템에 복제합니다.
- F1 키를 누르고 **Remote-Containers: Open Folder in Container...** 명령을 선택합니다.
- 이 폴더의 복제본을 선택하고 컨테이너가 시작될 때까지 기다린 후 사용해 보세요.
## 오프라인 접근
[Docsify](https://docsify.js.org/#/)를 사용하여 이 문서를 오프라인에서 실행할 수 있습니다. 이 저장소를 포크하고, 로컬에 [Docsify 설치](https://docsify.js.org/#/quickstart) 후, 루트 폴더에서 `docsify serve`를 입력하세요. 웹사이트가 localhost의 3000번 포트에서 실행됩니다: `localhost:3000`.
[Docsify](https://docsify.js.org/#/)를 사용 이 문서를 오프라인에서 실행할 수 있습니다. 이 저장소를 포크하고, 로컬에 [Docsify 설치](https://docsify.js.org/#/quickstart) 후, 이 저장소 루트 폴더에서 `docsify serve`를 입력하세요. 웹사이트는 로컬호스트 포트 3000에서 제공됩니다: `localhost:3000`.
> 참고로 노트북은 Docsify를 통해 렌더링되지 않으므로, 노트북 실행이 필요할 때는 VS Code에서 Python 커널을 실행하여 별도로 진행하세요.
> 참고: 노트북은 Docsify로 렌더링 되지 않으니, 노트북을 실행할 필요가 있을 때는 VS Code에서 Python 커널을 실행하여 별도 작업하세요.
## 기타 커리큘럼
우리 팀은 다른 커리큘럼도 제작합니다! 확인해 보세요:
저희 팀이 제작한 다른 커리큘럼도 확인해 보세요!
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![초보자를 위한 LangChain4j](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain4j for Beginners](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js for Beginners](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain for Beginners](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Agents
### Azure / Edge / MCP / 에이전트
[![AZD for Beginners](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI for Beginners](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP for Beginners](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
@ -235,19 +245,19 @@
## 도움 받기
**문제가 발생했나요?** 자주 발생하는 문제에 대한 해결책은 [문제 해결 가이드](TROUBLESHOOTING.md) 확인하세요.
**문제를 겪고 계신가요?** 자주 발생하는 문제에 대한 해결책은 [문제 해결 가이드](TROUBLESHOOTING.md)에서 확인하세요.
AI 앱 개발 중 막히거나 질문이 생기면 MCP 관련 토론에 참여하세요. 질문이 환영받고 지식이 자유롭게 공유되는 지원 커뮤니티입니다.
AI 앱을 개발하시면서 막히거나 질문이 있다면, MCP에 대해 함께 학습하는 학습자 및 숙련된 개발자들과 토론에 참여하세요. 질문이 환영받고 지식이 자유롭게 공유되는 지원 커뮤니티입니다.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
제품 피드백이나 빌드 오류가 있으면 다음을 방문하세요:
제품 피드백이나 빌드 중 오류가 있을 경우 다음을 방문하세요:
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**면책 조항**:
이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있으나, 자동 번역에는 오류나 부정확성이 있을 수 있음을 양지해 주시기 바랍니다. 원문의 원어 문서가 권위 있는 출처로 간주되어야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 본 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해서는 당사가 책임지지 않습니다.
**면책 조항**:
이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 당사는 정확성을 위해 최선을 다하고 있으나, 자동 번역은 오류나 부정확성을 포함할 수 있음을 유의하시기 바랍니다. 원문은 해당 언어의 원본 문서를 권위 있는 자료로 간주해야 합니다. 중요한 정보의 경우 전문적인 인간 번역을 권장합니다. 본 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@
아티스트: Nitya Narasimhan
![로드맵 스케치노트](../../../translated_images/ko/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![로드맵 스케치노트](../../../translated_images/ko/00-Roadmap.4905d6567dff4753.webp)
**면책 조항**:
이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있지만, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서의 원어 버전을 권위 있는 출처로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 책임을 지지 않습니다.
Loading…
Cancel
Save