From 0954651aea052eba60c8f7eb7a6974ec69910c6b Mon Sep 17 00:00:00 2001 From: Sachin Date: Wed, 9 Mar 2022 07:34:28 +0530 Subject: [PATCH 01/35] Hindi Translation of Defining Data Science README.md --- .../01-defining-data-science/README.md | 175 +++++++++--------- 1 file changed, 87 insertions(+), 88 deletions(-) diff --git a/1-Introduction/01-defining-data-science/README.md b/1-Introduction/01-defining-data-science/README.md index b24e6069..d8525e73 100644 --- a/1-Introduction/01-defining-data-science/README.md +++ b/1-Introduction/01-defining-data-science/README.md @@ -1,165 +1,164 @@ -# Defining Data Science +# डेटा विज्ञान को परिभाषित करना | ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | | :----------------------------------------------------------------------------------------------------: | -| Defining Data Science - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | +| डेटा विज्ञान को परिभाषित करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | --- -[![Defining Data Science Video](images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) +[![डेटा विज्ञान वीडियो को परिभाषित करना](images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) ## [Pre-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/0) -## What is Data? -In our everyday life, we are constantly surrounded by data. The text you are reading now is data. The list of phone numbers of your friends in your smartphone is data, as well as the current time displayed on your watch. As human beings, we naturally operate with data by counting the money we have or by writing letters to our friends. +## डेटा क्या है? +अपने दैनिक जीवन में हम लगातार डेटा से घिरे रहते हैं। अभी आप जो पाठ पढ़ रहे हैं वह डेटा है। आपके स्मार्टफ़ोन में आपके मित्रों के फ़ोन नंबरों की सूची डेटा है, साथ ही आपकी घड़ी पर प्रदर्शित वर्तमान समय भी है। मनुष्य के रूप में, हम स्वाभाविक रूप से हमारे पास मौजूद धन की गणना करके या अपने मित्रों को पत्र लिखकर डेटा के साथ काम करते हैं। -However, data became much more critical with the creation of computers. The primary role of computers is to perform computations, but they need data to operate on. Thus, we need to understand how computers store and process data. +हालाँकि, कंप्यूटर के निर्माण के साथ डेटा बहुत अधिक महत्वपूर्ण हो गया। कंप्यूटर की प्राथमिक भूमिका संगणना करना है, लेकिन उन्हें संचालित करने के लिए डेटा की आवश्यकता होती है। इस प्रकार, हमें यह समझने की आवश्यकता है कि कंप्यूटर डेटा को कैसे संग्रहीत और संसाधित करता है। -With the emergence of the Internet, the role of computers as data handling devices increased. If you think about it, we now use computers more and more for data processing and communication, rather than actual computations. When we write an e-mail to a friend or search for some information on the Internet - we are essentially creating, storing, transmitting, and manipulating data. -> Can you remember the last time you have used computers to actually compute something? +इंटरनेट के उद्भव के साथ, डेटा हैंडलिंग उपकरणों के रूप में कंप्यूटर की भूमिका में वृद्धि हुई है। यदि आप इसके बारे में सोचते हैं, तो हम अब वास्तविक गणनाओं के बजाय डेटा प्रोसेसिंग और संचार के लिए कंप्यूटर का अधिक से अधिक उपयोग करते हैं। जब हम किसी मित्र को ई-मेल लिखते हैं या इंटरनेट पर कुछ जानकारी खोजते हैं - तो हम अनिवार्य रूप से डेटा बना रहे हैं, स्टोर कर रहे हैं, ट्रांसमिट कर रहे हैं और उसमें हेरफेर कर रहे हैं। +> क्या आपको याद है कि पिछली बार आपने किसी चीज़ की गणना करने के लिए कंप्यूटर का उपयोग कब किया था? -## What is Data Science? +## डेटा साइंस क्या है? -In [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **Data Science** is defined as *a scientific field that uses scientific methods to extract knowledge and insights from structured and unstructured data, and apply knowledge and actionable insights from data across a broad range of application domains*. +In [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **डेटा साइंस** *एक वैज्ञानिक क्षेत्र के रूप में परिभाषित किया गया है जो संरचित और असंरचित डेटा से ज्ञान और अंतर्दृष्टि निकालने के लिए वैज्ञानिक तरीकों का उपयोग करता है, और आवेदन डोमेन की एक विस्तृत श्रृंखला में डेटा से ज्ञान और कार्रवाई योग्य अंतर्दृष्टि लागू करता है।*. -This definition highlights the following important aspects of data science: +यह परिभाषा डेटा विज्ञान के निम्नलिखित महत्वपूर्ण पहलुओं पर प्रकाश डालती है:: -* The main goal of data science is to **extract knowledge** from data, in other words - to **understand** data, find some hidden relationships and build a **model**. -* Data science uses **scientific methods**, such as probability and statistics. In fact, when the term *data science* was first introduced, some people argued that data science was just a new fancy name for statistics. Nowadays it has become evident that the field is much broader. -* Obtained knowledge should be applied to produce some **actionable insights**, i.e. practical insights that you can apply to real business situations. -* We should be able to operate on both **structured** and **unstructured** data. We will come back to discuss different types of data later in the course. -* **Application domain** is an important concept, and data scientists often need at least some degree of expertise in the problem domain, for example: finance, medicine, marketing, etc. +* डेटा साइंस का मुख्य लक्ष्य डेटा से **ज्ञान निकालना** है, दूसरे शब्दों में - डेटा को **समझना**, कुछ छिपे हुए संबंध ढूंढना और **मॉडल** बनाना। +* डेटा विज्ञान **वैज्ञानिक विधियों** का उपयोग करता है, जैसे कि प्रायिकता और सांख्यिकी। वास्तव में, जब *डेटा साइंस* शब्द पहली बार पेश किया गया था, तो कुछ लोगों ने तर्क दिया कि डेटा साइंस आंकड़ों के लिए सिर्फ एक नया फैंसी नाम था। आजकल यह स्पष्ट हो गया है कि क्षेत्र बहुत व्यापक है। +* प्राप्त ज्ञान को कुछ **कार्रवाई योग्य अंतर्दृष्टि**, यानी व्यावहारिक अंतर्दृष्टि उत्पन्न करने के लिए लागू किया जाना चाहिए जिसे आप वास्तविक व्यावसायिक स्थितियों पर लागू कर सकते हैं। +* हमें **संरचित** और **असंरचित** दोनों डेटा पर काम करने में सक्षम होना चाहिए। हम पाठ्यक्रम में बाद में विभिन्न प्रकार के डेटा पर चर्चा करने के लिए वापस आएंगे। +* **एप्लिकेशन डोमेन** एक महत्वपूर्ण अवधारणा है, और डेटा वैज्ञानिकों को अक्सर समस्या क्षेत्र में कम से कम कुछ हद तक विशेषज्ञता की आवश्यकता होती है, उदाहरण के लिए: वित्त, चिकित्सा, विपणन, आदि। -> Another important aspect of Data Science is that it studies how data can be gathered, stored and operated upon using computers. While statistics gives us mathematical foundations, data science applies mathematical concepts to actually draw insights from data. +> डेटा साइंस का एक अन्य महत्वपूर्ण पहलू यह है कि यह अध्ययन करता है कि कंप्यूटर का उपयोग करके डेटा कैसे एकत्र, संग्रहीत और संचालित किया जा सकता है। जबकि सांख्यिकी हमें गणितीय आधार प्रदान करती है, डेटा विज्ञान वास्तव में डेटा से अंतर्दृष्टि प्राप्त करने के लिए गणितीय अवधारणाओं को लागू करता है। -One of the ways (attributed to [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) to look at the data science is to consider it to be a separate paradigm of science: -* **Empirical**, in which we rely mostly on observations and results of experiments -* **Theoretical**, where new concepts emerge from existing scientific knowledge -* **Computational**, where we discover new principles based on some computational experiments -* **Data-Driven**, based on discovering relationships and patterns in the data +(attributed to [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) डेटा विज्ञान को देखने का एक तरीका यह है कि इसे विज्ञान का एक अलग प्रतिमान माना जाए: +* **अनुभवजन्य**, जिसमें हम ज्यादातर अवलोकनों और प्रयोगों के परिणामों पर भरोसा करते हैं +* **सैद्धांतिक**, जहां मौजूदा वैज्ञानिक ज्ञान से नई अवधारणाएं उभरती हैं +* **कम्प्यूटेशनल**, जहां हम कुछ कम्प्यूटेशनल प्रयोगों के आधार पर नए सिद्धांतों की खोज करते हैं +* **डेटा-चालित**, डेटा में संबंधों और पैटर्न की खोज पर आधारित -## Other Related Fields +## अन्य संबंधित क्षेत्र -Since data is pervasive, data science itself is also a broad field, touching many other disciplines. +चूंकि डेटा व्यापक है, डेटा विज्ञान भी एक व्यापक क्षेत्र है, जो कई अन्य विषयों को छूता है।
-
Databases
+
डेटाबेस
-A critical consideration is **how to store** the data, i.e. how to structure it in a way that allows faster processing. There are different types of databases that store structured and unstructured data, which we will consider in our course. +डेटा को **कैसे स्टोर करें** एक महत्वपूर्ण विचार है, यानी इसे इस तरह से कैसे संरचित किया जाए जिससे तेजी से प्रोसेसिंग हो सके। विभिन्न प्रकार के डेटाबेस हैं जो संरचित और असंरचित डेटा संग्रहीत करते हैं, जिन पर हम अपने पाठ्यक्रम में विचार करेंगे.
-
Big Data
+
बड़ा डेटा
-Often we need to store and process very large quantities of data with a relatively simple structure. There are special approaches and tools to store that data in a distributed manner on a computer cluster, and process it efficiently. +अक्सर हमें अपेक्षाकृत सरल संरचना के साथ बहुत बड़ी मात्रा में डेटा को स्टोर और संसाधित करने की आवश्यकता होती है। उस डेटा को एक कंप्यूटर क्लस्टर पर वितरित तरीके से संग्रहीत करने और इसे कुशलतापूर्वक संसाधित करने के लिए विशेष दृष्टिकोण और उपकरण हैं।
-
Machine Learning
+
यंत्र अधिगम
-One way to understand data is to **build a model** that will be able to predict a desired outcome. Developing models from data is called **machine learning**. You may want to have a look at our Machine Learning for Beginners Curriculum to learn more about it. +डेटा को समझने का एक तरीका **एक मॉडल बनाना** है जो वांछित परिणाम की भविष्यवाणी करने में सक्षम होगा। डेटा से मॉडल विकसित करना **मशीन लर्निंग** कहलाता है। इसके बारे में अधिक जानने के लिए आप हमारे मशीन लर्निंग फॉर बिगिनर्स पाठ्यक्रम को देखना चाहेंगे।.
-
Artificial Intelligence
+
कृत्रिम होशियारी
-An area of machine learning known as artificial intelligence (AI) also relies on data, and it involves building high complexity models that mimic human thought processes. AI methods often allow us to turn unstructured data (e.g. natural language) into structured insights. +आर्टिफिशियल इंटेलिजेंस (एआई) के रूप में जाना जाने वाला मशीन लर्निंग का एक क्षेत्र भी डेटा पर निर्भर करता है, और इसमें उच्च जटिलता वाले मॉडल बनाना शामिल है जो मानव विचार प्रक्रियाओं की नकल करते हैं। एआई विधियां अक्सर हमें असंरचित डेटा (जैसे प्राकृतिक भाषा) को संरचित अंतर्दृष्टि में बदलने की अनुमति देती हैं।
-
Visualization
+
प्रत्योक्षकरण
-Vast amounts of data are incomprehensible for a human being, but once we create useful visualizations using that data, we can make more sense of the data, and draw some conclusions. Thus, it is important to know many ways to visualize information - something that we will cover in Section 3 of our course. Related fields also include **Infographics**, and **Human-Computer Interaction** in general. +एक इंसान के लिए बड़ी मात्रा में डेटा समझ से बाहर है, लेकिन एक बार जब हम उस डेटा का उपयोग करके उपयोगी विज़ुअलाइज़ेशन बनाते हैं, तो हम डेटा की अधिक समझ बना सकते हैं, और कुछ निष्कर्ष निकाल सकते हैं। इस प्रकार, जानकारी की कल्पना करने के कई तरीके जानना महत्वपूर्ण है - कुछ ऐसा जिसे हम अपने पाठ्यक्रम के धारा 3 में शामिल करेंगे। . संबंधित क्षेत्रों में सामान्य रूप से **इन्फोग्राफिक्स**, और **मानव-कंप्यूटर इंटरैक्शन** भी शामिल हैं।
-## Types of Data +## डेटा के प्रकार -As we have already mentioned, data is everywhere. We just need to capture it in the right way! It is useful to distinguish between **structured** and **unstructured** data. The former is typically represented in some well-structured form, often as a table or number of tables, while the latter is just a collection of files. Sometimes we can also talk about **semi-structured** data, that have some sort of a structure that may vary greatly. +जैसा कि हमने पहले ही उल्लेख किया है, डेटा हर जगह है। बस जरूरत है इसे सही तरीके से पकड़ने की! **संरचित** और **असंरचित** डेटा के बीच अंतर करना उपयोगी है। पूर्व को आम तौर पर कुछ अच्छी तरह से संरचित रूप में दर्शाया जाता है, अक्सर तालिका या तालिकाओं की संख्या के रूप में, जबकि बाद वाला केवल फाइलों का संग्रह होता है। कभी-कभी हम **अर्ध-संरचित** डेटा के बारे में भी बात कर सकते हैं, जिसमें किसी प्रकार की संरचना होती है जो बहुत भिन्न हो सकती है। -| Structured | Semi-structured | Unstructured | +| संरचित | अर्ध-संरचित | असंरचित | | ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | -| List of people with their phone numbers | Wikipedia pages with links | Text of Encyclopedia Britannica | -| Temperature in all rooms of a building at every minute for the last 20 years | Collection of scientific papers in JSON format with authors, data of publication, and abstract | File share with corporate documents | -| Data for age and gender of all people entering the building | Internet pages | Raw video feed from surveillance camera | +| उन लोगों की सूची जिनके फ़ोन नंबर हैं | विकिपीडिया पृष्ठ लिंक के साथ | एनसाइक्लोपीडिया ब्रिटानिका का पाठ | +| पिछले 20 वर्षों से हर मिनट एक इमारत के सभी कमरों में तापमान | लेखकों के साथ JSON प्रारूप में वैज्ञानिक पत्रों का संग्रह, प्रकाशन का डेटा, और सार | कॉर्पोरेट दस्तावेज़ों के साथ फ़ाइल साझा करें | +| भवन में प्रवेश करने वाले सभी लोगों की आयु और लिंग का डेटा | इंटरनेट पेज | निगरानी कैमरे से कच्चा वीडियो फ़ीड | +## डेटा कहाँ से प्राप्त करें -## Where to get Data +डेटा के कई संभावित स्रोत हैं, और उन सभी को सूचीबद्ध करना असंभव होगा! हालाँकि, आइए कुछ विशिष्ट स्थानों का उल्लेख करें जहाँ आप डेटा प्राप्त कर सकते हैं: -There are many possible sources of data, and it will be impossible to list all of them! However, let's mention some of the typical places where you can get data: +* **संरचित** + - **इंटरनेट ऑफ थिंग्स** (IoT), जिसमें तापमान या दबाव सेंसर जैसे विभिन्न सेंसर के डेटा शामिल हैं, बहुत उपयोगी डेटा प्रदान करता है। उदाहरण के लिए, यदि कोई कार्यालय भवन IoT सेंसर से लैस है, तो हम लागत को कम करने के लिए स्वचालित रूप से हीटिंग और प्रकाश व्यवस्था को नियंत्रित कर सकते हैं। + - **सर्वेक्षण** जो हम उपयोगकर्ताओं को खरीदारी के बाद, या किसी वेब साइट पर जाने के बाद पूरा करने के लिए कहते हैं। + - **व्यवहार का विश्लेषण**, उदाहरण के लिए, यह समझने में हमारी सहायता कर सकता है कि उपयोगकर्ता किसी साइट में कितनी गहराई तक जाता है, और साइट छोड़ने का सामान्य कारण क्या है। +* **असंरचित** + - **पाठ** अंतर्दृष्टि का एक समृद्ध स्रोत हो सकता है, जैसे समग्र **भावना स्कोर**, या कीवर्ड और अर्थ अर्थ निकालना। + - **छवियां** या **वीडियो**। सड़क पर यातायात का अनुमान लगाने और संभावित ट्रैफिक जाम के बारे में लोगों को सूचित करने के लिए एक निगरानी कैमरे से एक वीडियो का उपयोग किया जा सकता है। + - वेब सर्वर **लॉग** का उपयोग यह समझने के लिए किया जा सकता है कि हमारी साइट के कौन से पृष्ठ सबसे अधिक बार देखे जाते हैं, और कितने समय के लिए। +* **अर्ध-संरचित** + - **सोशल नेटवर्क** ग्राफ़ उपयोगकर्ता के व्यक्तित्व के बारे में डेटा के महान स्रोत हो सकते हैं और जानकारी के प्रसार में संभावित प्रभावशीलता हो सकती है। + - जब हमारे पास किसी पार्टी से तस्वीरों का एक गुच्छा होता है, तो हम एक दूसरे के साथ तस्वीरें लेने वाले लोगों का ग्राफ बनाकर **ग्रुप डायनेमिक्स** डेटा निकालने का प्रयास कर सकते हैं। -* **Structured** - - **Internet of Things** (IoT), including data from different sensors, such as temperature or pressure sensors, provides a lot of useful data. For example, if an office building is equipped with IoT sensors, we can automatically control heating and lighting in order to minimize costs. - - **Surveys** that we ask users to complete after a purchase, or after visiting a web site. - - **Analysis of behavior** can, for example, help us understand how deeply a user goes into a site, and what is the typical reason for leaving the site. -* **Unstructured** - - **Texts** can be a rich source of insights, such as an overall **sentiment score**, or extracting keywords and semantic meaning. - - **Images** or **Video**. A video from a surveillance camera can be used to estimate traffic on the road, and inform people about potential traffic jams. - - Web server **Logs** can be used to understand which pages of our site are most often visited, and for how long. -* Semi-structured - - **Social Network** graphs can be great sources of data about user personalities and potential effectiveness in spreading information around. - - When we have a bunch of photographs from a party, we can try to extract **Group Dynamics** data by building a graph of people taking pictures with each other. +डेटा के विभिन्न संभावित स्रोतों को जानकर, आप विभिन्न परिदृश्यों के बारे में सोचने की कोशिश कर सकते हैं जहां स्थिति को बेहतर तरीके से जानने और व्यावसायिक प्रक्रियाओं को बेहतर बनाने के लिए डेटा विज्ञान तकनीकों को लागू किया जा सकता है। -By knowing different possible sources of data, you can try to think about different scenarios where data science techniques can be applied to know the situation better, and to improve business processes. +## आप डेटा के साथ क्या कर सकते हैं -## What you can do with Data - -In Data Science, we focus on the following steps of data journey: +डेटा साइंस में, हम डेटा यात्रा के निम्नलिखित चरणों पर ध्यान केंद्रित करते हैं:
-
1) Data Acquisition
+
1) डेटा अधिग्रहण
-The first step is to collect the data. While in many cases it can be a straightforward process, like data coming to a database from a web application, sometimes we need to use special techniques. For example, data from IoT sensors can be overwhelming, and it is a good practice to use buffering endpoints such as IoT Hub to collect all the data before further processing. +पहला कदम डेटा एकत्र करना है। जबकि कई मामलों में यह एक सीधी प्रक्रिया हो सकती है, जैसे वेब एप्लिकेशन से डेटाबेस में डेटा आना, कभी-कभी हमें विशेष तकनीकों का उपयोग करने की आवश्यकता होती है। उदाहरण के लिए, IoT सेंसर से डेटा भारी हो सकता है, और आगे की प्रक्रिया से पहले सभी डेटा एकत्र करने के लिए IoT हब जैसे बफरिंग एंडपॉइंट का उपयोग करना एक अच्छा अभ्यास है।
-
2) Data Storage
+
2) डाटा स्टोरेज
-Storing data can be challenging, especially if we are talking about big data. When deciding how to store data, it makes sense to anticipate the way you would to query the data in the future. There are several ways data can be stored: +डेटा स्टोर करना चुनौतीपूर्ण हो सकता है, खासकर अगर हम बड़े डेटा के बारे में बात कर रहे हैं। डेटा को स्टोर करने का तरीका तय करते समय, भविष्य में डेटा को क्वेरी करने के तरीके का अनुमान लगाना समझ में आता है। डेटा को स्टोर करने के कई तरीके हैं:
    -
  • A relational database stores a collection of tables, and uses a special language called SQL to query them. Typically, tables are organized into different groups called schemas. In many cases we need to convert the data from original form to fit the schema.
  • -
  • A NoSQL database, such as CosmosDB, does not enforce schemas on data, and allows storing more complex data, for example, hierarchical JSON documents or graphs. However, NoSQL databases do not have the rich querying capabilities of SQL, and cannot enforce referential integrity, i.e. rules on how the data is structured in tables and governing the relationships between tables.
  • -
  • Data Lake storage is used for large collections of data in raw, unstructured form. Data lakes are often used with big data, where all data cannot fit on one machine, and has to be stored and processed by a cluster of servers. Parquet is the data format that is often used in conjunction with big data.
  • +
  • एक रिलेशनल डेटाबेस तालिकाओं के संग्रह को संग्रहीत करता है, और उन्हें क्वेरी करने के लिए SQL नामक एक विशेष भाषा का उपयोग करता है। आमतौर पर, तालिकाओं को विभिन्न समूहों में व्यवस्थित किया जाता है जिन्हें स्कीमा कहा जाता है। कई मामलों में हमें स्कीमा को फिट करने के लिए डेटा को मूल रूप से परिवर्तित करने की आवश्यकता होती है।
  • +
  • एक NoSQL डेटाबेस, जैसे कि CosmosDB, करता है डेटा पर स्कीमा लागू नहीं करता है, और अधिक जटिल डेटा संग्रहीत करने की अनुमति देता है, उदाहरण के लिए, पदानुक्रमित JSON दस्तावेज़ या ग्राफ़। हालाँकि, NoSQL डेटाबेस में SQL की समृद्ध क्वेरी क्षमता नहीं होती है, और यह संदर्भात्मक अखंडता को लागू नहीं कर सकता है, अर्थात डेटा को तालिकाओं में कैसे संरचित किया जाता है और तालिकाओं के बीच संबंधों को नियंत्रित करने के नियम।
  • +
  • डेटा लेक संग्रहण का उपयोग कच्चे, असंरचित रूप में डेटा के बड़े संग्रह के लिए किया जाता है। डेटा झीलों का उपयोग अक्सर बड़े डेटा के साथ किया जाता है, जहां सभी डेटा एक मशीन पर फिट नहीं हो सकते हैं, और सर्वरों के एक समूह द्वारा संग्रहीत और संसाधित किया जाना है। Parquet डेटा प्रारूप है जिसे अक्सर बड़े डेटा के संयोजन में उपयोग किया जाता है।
-
3) Data Processing
+
3) डाटा प्रोसेसिंग
-This is the most exciting part of the data journey, which involves converting the data from its original form into a form that can be used for visualization/model training. When dealing with unstructured data such as text or images, we may need to use some AI techniques to extract **features** from the data, thus converting it to structured form. +यह डेटा यात्रा का सबसे रोमांचक हिस्सा है, जिसमें डेटा को उसके मूल रूप से एक ऐसे रूप में परिवर्तित करना शामिल है जिसका उपयोग विज़ुअलाइज़ेशन/मॉडल प्रशिक्षण के लिए किया जा सकता है। टेक्स्ट या इमेज जैसे असंरचित डेटा के साथ काम करते समय, हमें डेटा से **फीचर्स** निकालने के लिए कुछ एआई तकनीकों का उपयोग करने की आवश्यकता हो सकती है, इस प्रकार इसे संरचित रूप में परिवर्तित किया जा सकता है।
-
4) Visualization / Human Insights
+
4) विज़ुअलाइज़ेशन / मानव अंतर्दृष्टि
-Oftentimes, in order to understand the data, we need to visualize it. Having many different visualization techniques in our toolbox, we can find the right view to make an insight. Often, a data scientist needs to "play with data", visualizing it many times and looking for some relationships. Also, we may use statistical techniques to test a hypotheses or prove a correlation between different pieces of data. +अक्सर, डेटा को समझने के लिए, हमें इसकी कल्पना करने की आवश्यकता होती है। हमारे टूलबॉक्स में कई अलग-अलग विज़ुअलाइज़ेशन तकनीकें होने से, हम एक अंतर्दृष्टि बनाने के लिए सही दृश्य ढूंढ सकते हैं। अक्सर, एक डेटा वैज्ञानिक को "डेटा के साथ खेलने" की आवश्यकता होती है, इसे कई बार विज़ुअलाइज़ करना और कुछ रिश्तों की तलाश करना। इसके अलावा, हम एक परिकल्पना का परीक्षण करने या डेटा के विभिन्न टुकड़ों के बीच संबंध साबित करने के लिए सांख्यिकीय तकनीकों का उपयोग कर सकते हैं।
-
5) Training a predictive model
+
5) एक भविष्य कहनेवाला मॉडल प्रशिक्षण
-Because the ultimate goal of data science is to be able to make decisions based on data, we may want to use the techniques of Machine Learning to build a predictive model. We can then use this to make predictions using new data sets with similar structures. +चूंकि डेटा विज्ञान का अंतिम लक्ष्य डेटा के आधार पर निर्णय लेने में सक्षम होना है, इसलिए हम मशीन लर्निंग की तकनीकों का उपयोग करना चाह सकते हैं। एक भविष्य कहनेवाला मॉडल बनाने के लिए। इसके बाद हम समान संरचनाओं वाले नए डेटा सेट का उपयोग करके भविष्यवाणियां करने के लिए इसका उपयोग कर सकते हैं।
-Of course, depending on the actual data, some steps might be missing (e.g., when we already have the data in the database, or when we do not need model training), or some steps might be repeated several times (such as data processing). +बेशक, वास्तविक डेटा के आधार पर, कुछ चरण गायब हो सकते हैं (उदाहरण के लिए, जब हमारे पास पहले से ही डेटाबेस में डेटा है, या जब हमें मॉडल प्रशिक्षण की आवश्यकता नहीं है), या कुछ चरणों को कई बार दोहराया जा सकता है (जैसे डेटा प्रोसेसिंग ) -## Digitalization and Digital Transformation +## डिजिटलीकरण और डिजिटल परिवर्तन -In the last decade, many businesses started to understand the importance of data when making business decisions. To apply data science principles to running a business, one first needs to collect some data, i.e. translate business processes into digital form. This is known as **digitalization**. Applying data science techniques to this data to guide decisions can lead to significant increases in productivity (or even business pivot), called **digital transformation**. +पिछले दशक में, कई व्यवसायों ने व्यावसायिक निर्णय लेते समय डेटा के महत्व को समझना शुरू कर दिया। व्यवसाय चलाने के लिए डेटा विज्ञान सिद्धांतों को लागू करने के लिए, पहले कुछ डेटा एकत्र करने की आवश्यकता होती है, अर्थात व्यावसायिक प्रक्रियाओं का डिजिटल रूप में अनुवाद करना। इसे **डिजिटलाइजेशन** के नाम से जाना जाता है। निर्णयों को निर्देशित करने के लिए इस डेटा में डेटा विज्ञान तकनीकों को लागू करने से उत्पादकता (या यहां तक ​​कि व्यावसायिक धुरी) में उल्लेखनीय वृद्धि हो सकती है, जिसे **डिजिटल परिवर्तन** कहा जाता है। -Let's consider an example. Suppose we have a data science course (like this one) which we deliver online to students, and we want to use data science to improve it. How can we do it? +आइए एक उदाहरण पर विचार करें। मान लीजिए कि हमारे पास एक डेटा विज्ञान पाठ्यक्रम है (जैसे यह एक) जिसे हम छात्रों को ऑनलाइन वितरित करते हैं, और हम इसे सुधारने के लिए डेटा विज्ञान का उपयोग करना चाहते हैं। हम यह कैसे कर सकते हैं? -We can start by asking "What can be digitized?" The simplest way would be to measure the time it takes each student to complete each module, and to measure the obtained knowledge by giving a multiple-choice test at the end of each module. By averaging time-to-complete across all students, we can find out which modules cause the most difficulties for students, and work on simplifying them. +हम "क्या डिजीटल किया जा सकता है?" पूछकर शुरू कर सकते हैं। सबसे आसान तरीका यह होगा कि प्रत्येक छात्र को प्रत्येक मॉड्यूल को पूरा करने में लगने वाले समय को मापें, और प्रत्येक मॉड्यूल के अंत में एक बहुविकल्पीय परीक्षा देकर प्राप्त ज्ञान को मापें। सभी छात्रों में औसत समय-से-पूरा करके, हम यह पता लगा सकते हैं कि कौन से मॉड्यूल छात्रों के लिए सबसे अधिक कठिनाइयों का कारण बनते हैं, और उन्हें सरल बनाने पर काम करते हैं। -> You may argue that this approach is not ideal, because modules can be of different lengths. It is probably more fair to divide the time by the length of the module (in number of characters), and compare those values instead. +> आप तर्क दे सकते हैं कि यह दृष्टिकोण आदर्श नहीं है, क्योंकि मॉड्यूल अलग-अलग लंबाई के हो सकते हैं। मॉड्यूल की लंबाई (वर्णों की संख्या में) से समय को विभाजित करना शायद अधिक उचित है, और इसके बजाय उन मानों की तुलना करें। -When we start analyzing results of multiple-choice tests, we can try to determine which concepts that students have difficulty understanding, and and use that information to improve the content. To do that, we need to design tests in such a way that each question maps to a certain concept or chunk of knowledge. +जब हम बहुविकल्पीय परीक्षणों के परिणामों का विश्लेषण करना शुरू करते हैं, तो हम यह निर्धारित करने का प्रयास कर सकते हैं कि छात्रों को किन अवधारणाओं को समझने में कठिनाई होती है, और उस जानकारी का उपयोग सामग्री को बेहतर बनाने के लिए कर सकते हैं। ऐसा करने के लिए, हमें परीक्षणों को इस तरह से डिजाइन करने की आवश्यकता है कि प्रत्येक प्रश्न एक निश्चित अवधारणा या ज्ञान के हिस्से से मेल खाता हो। -If we want to get even more complicated, we can plot the time taken for each module against the age category of students. We might find out that for some age categories it takes an inappropriately long time to complete the module, or that students drop out before completing it. This can help us provide age recommendations for the module, and minimize people's dissatisfaction from wrong expectations. +यदि हम और अधिक जटिल होना चाहते हैं, तो हम छात्रों की आयु वर्ग के विरुद्ध प्रत्येक मॉड्यूल के लिए लिए गए समय को प्लॉट कर सकते हैं। हमें पता चल सकता है कि कुछ आयु वर्गों के लिए मॉड्यूल को पूरा करने में अनुचित रूप से लंबा समय लगता है, या छात्र इसे पूरा करने से पहले छोड़ देते हैं। यह हमें मॉड्यूल के लिए उम्र की सिफारिशें प्रदान करने में मदद कर सकता है, और गलत उम्मीदों से लोगों के असंतोष को कम कर सकता है। -## 🚀 Challenge +## 🚀 चुनौती -In this challenge, we will try to find concepts relevant to the field of Data Science by looking at texts. We will take a Wikipedia article on Data Science, download and process the text, and then build a word cloud like this one: +इस चुनौती में, हम ग्रंथों को देखकर डेटा विज्ञान के क्षेत्र से प्रासंगिक अवधारणाओं को खोजने का प्रयास करेंगे। हम डेटा विज्ञान पर एक विकिपीडिया लेख लेंगे, पाठ को डाउनलोड और संसाधित करेंगे, और फिर इस तरह एक शब्द क्लाउड का निर्माण करेंगे: -![Word Cloud for Data Science](images/ds_wordcloud.png) +![डेटा साइंस के लिए वर्ड क्लाउड](images/ds_wordcloud.png) -Visit [`notebook.ipynb`](/1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') to read through the code. You can also run the code, and see how it performs all data transformations in real time. +Visit [`notebook.ipynb`](/1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') कोड के माध्यम से पढ़ने के लिए। आप कोड भी चला सकते हैं, और देख सकते हैं कि यह वास्तविक समय में सभी डेटा परिवर्तन कैसे करता है। -> If you do not know how to run code in a Jupyter Notebook, have a look at [this article](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). +> यदि आप नहीं जानते कि जुपिटर नोटबुक में कोड कैसे चलाना है, तो एक नज़र डालें [this article](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). ## [Post-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/1) -## Assignments +## कार्य (Assignments) -* **Task 1**: Modify the code above to find out related concepts for the fields of **Big Data** and **Machine Learning** -* **Task 2**: [Think About Data Science Scenarios](assignment.md) +* **कार्य 1**: **बिग डेटा** और **मशीन लर्निंग** के क्षेत्रों के लिए संबंधित अवधारणाओं का पता लगाने के लिए ऊपर दिए गए कोड को संशोधित करें +* **कार्य 2**: [डेटा विज्ञान परिदृश्यों के बारे में सोचें](assignment.md) -## Credits +## क्रेडिट -This lesson has been authored with ♥️ by [Dmitry Soshnikov](http://soshnikov.com) +यह पाठ ♥️ के साथ [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा लिखा गया है। और इस्का हिंदी अनुवाद [सचिन दाभाड़े](https://www.github.com/SachinDabhade) ने किया है \ No newline at end of file From 8090a53ce60cec22e51ae7bf314a33636e66c7d3 Mon Sep 17 00:00:00 2001 From: Sachin Date: Wed, 9 Mar 2022 07:43:55 +0530 Subject: [PATCH 02/35] Created new README.md for Hindi Translation of Defining Data Science in translation folder --- .../01-defining-data-science/README.md | 175 +++++++++--------- translations/README.hi.md | 164 ++++++++++++++++ 2 files changed, 252 insertions(+), 87 deletions(-) create mode 100644 translations/README.hi.md diff --git a/1-Introduction/01-defining-data-science/README.md b/1-Introduction/01-defining-data-science/README.md index d8525e73..32734a52 100644 --- a/1-Introduction/01-defining-data-science/README.md +++ b/1-Introduction/01-defining-data-science/README.md @@ -1,164 +1,165 @@ -# डेटा विज्ञान को परिभाषित करना +# Defining Data Science | ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | | :----------------------------------------------------------------------------------------------------: | -| डेटा विज्ञान को परिभाषित करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | +| Defining Data Science - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | --- -[![डेटा विज्ञान वीडियो को परिभाषित करना](images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) +[![Defining Data Science Video](images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) ## [Pre-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/0) -## डेटा क्या है? -अपने दैनिक जीवन में हम लगातार डेटा से घिरे रहते हैं। अभी आप जो पाठ पढ़ रहे हैं वह डेटा है। आपके स्मार्टफ़ोन में आपके मित्रों के फ़ोन नंबरों की सूची डेटा है, साथ ही आपकी घड़ी पर प्रदर्शित वर्तमान समय भी है। मनुष्य के रूप में, हम स्वाभाविक रूप से हमारे पास मौजूद धन की गणना करके या अपने मित्रों को पत्र लिखकर डेटा के साथ काम करते हैं। +## What is Data? +In our everyday life, we are constantly surrounded by data. The text you are reading now is data. The list of phone numbers of your friends in your smartphone is data, as well as the current time displayed on your watch. As human beings, we naturally operate with data by counting the money we have or by writing letters to our friends. -हालाँकि, कंप्यूटर के निर्माण के साथ डेटा बहुत अधिक महत्वपूर्ण हो गया। कंप्यूटर की प्राथमिक भूमिका संगणना करना है, लेकिन उन्हें संचालित करने के लिए डेटा की आवश्यकता होती है। इस प्रकार, हमें यह समझने की आवश्यकता है कि कंप्यूटर डेटा को कैसे संग्रहीत और संसाधित करता है। +However, data became much more critical with the creation of computers. The primary role of computers is to perform computations, but they need data to operate on. Thus, we need to understand how computers store and process data. -इंटरनेट के उद्भव के साथ, डेटा हैंडलिंग उपकरणों के रूप में कंप्यूटर की भूमिका में वृद्धि हुई है। यदि आप इसके बारे में सोचते हैं, तो हम अब वास्तविक गणनाओं के बजाय डेटा प्रोसेसिंग और संचार के लिए कंप्यूटर का अधिक से अधिक उपयोग करते हैं। जब हम किसी मित्र को ई-मेल लिखते हैं या इंटरनेट पर कुछ जानकारी खोजते हैं - तो हम अनिवार्य रूप से डेटा बना रहे हैं, स्टोर कर रहे हैं, ट्रांसमिट कर रहे हैं और उसमें हेरफेर कर रहे हैं। -> क्या आपको याद है कि पिछली बार आपने किसी चीज़ की गणना करने के लिए कंप्यूटर का उपयोग कब किया था? +With the emergence of the Internet, the role of computers as data handling devices increased. If you think about it, we now use computers more and more for data processing and communication, rather than actual computations. When we write an e-mail to a friend or search for some information on the Internet - we are essentially creating, storing, transmitting, and manipulating data. +> Can you remember the last time you have used computers to actually compute something? -## डेटा साइंस क्या है? +## What is Data Science? -In [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **डेटा साइंस** *एक वैज्ञानिक क्षेत्र के रूप में परिभाषित किया गया है जो संरचित और असंरचित डेटा से ज्ञान और अंतर्दृष्टि निकालने के लिए वैज्ञानिक तरीकों का उपयोग करता है, और आवेदन डोमेन की एक विस्तृत श्रृंखला में डेटा से ज्ञान और कार्रवाई योग्य अंतर्दृष्टि लागू करता है।*. +In [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **Data Science** is defined as *a scientific field that uses scientific methods to extract knowledge and insights from structured and unstructured data, and apply knowledge and actionable insights from data across a broad range of application domains*. -यह परिभाषा डेटा विज्ञान के निम्नलिखित महत्वपूर्ण पहलुओं पर प्रकाश डालती है:: +This definition highlights the following important aspects of data science: -* डेटा साइंस का मुख्य लक्ष्य डेटा से **ज्ञान निकालना** है, दूसरे शब्दों में - डेटा को **समझना**, कुछ छिपे हुए संबंध ढूंढना और **मॉडल** बनाना। -* डेटा विज्ञान **वैज्ञानिक विधियों** का उपयोग करता है, जैसे कि प्रायिकता और सांख्यिकी। वास्तव में, जब *डेटा साइंस* शब्द पहली बार पेश किया गया था, तो कुछ लोगों ने तर्क दिया कि डेटा साइंस आंकड़ों के लिए सिर्फ एक नया फैंसी नाम था। आजकल यह स्पष्ट हो गया है कि क्षेत्र बहुत व्यापक है। -* प्राप्त ज्ञान को कुछ **कार्रवाई योग्य अंतर्दृष्टि**, यानी व्यावहारिक अंतर्दृष्टि उत्पन्न करने के लिए लागू किया जाना चाहिए जिसे आप वास्तविक व्यावसायिक स्थितियों पर लागू कर सकते हैं। -* हमें **संरचित** और **असंरचित** दोनों डेटा पर काम करने में सक्षम होना चाहिए। हम पाठ्यक्रम में बाद में विभिन्न प्रकार के डेटा पर चर्चा करने के लिए वापस आएंगे। -* **एप्लिकेशन डोमेन** एक महत्वपूर्ण अवधारणा है, और डेटा वैज्ञानिकों को अक्सर समस्या क्षेत्र में कम से कम कुछ हद तक विशेषज्ञता की आवश्यकता होती है, उदाहरण के लिए: वित्त, चिकित्सा, विपणन, आदि। +* The main goal of data science is to **extract knowledge** from data, in other words - to **understand** data, find some hidden relationships and build a **model**. +* Data science uses **scientific methods**, such as probability and statistics. In fact, when the term *data science* was first introduced, some people argued that data science was just a new fancy name for statistics. Nowadays it has become evident that the field is much broader. +* Obtained knowledge should be applied to produce some **actionable insights**, i.e. practical insights that you can apply to real business situations. +* We should be able to operate on both **structured** and **unstructured** data. We will come back to discuss different types of data later in the course. +* **Application domain** is an important concept, and data scientists often need at least some degree of expertise in the problem domain, for example: finance, medicine, marketing, etc. -> डेटा साइंस का एक अन्य महत्वपूर्ण पहलू यह है कि यह अध्ययन करता है कि कंप्यूटर का उपयोग करके डेटा कैसे एकत्र, संग्रहीत और संचालित किया जा सकता है। जबकि सांख्यिकी हमें गणितीय आधार प्रदान करती है, डेटा विज्ञान वास्तव में डेटा से अंतर्दृष्टि प्राप्त करने के लिए गणितीय अवधारणाओं को लागू करता है। +> Another important aspect of Data Science is that it studies how data can be gathered, stored and operated upon using computers. While statistics gives us mathematical foundations, data science applies mathematical concepts to actually draw insights from data. -(attributed to [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) डेटा विज्ञान को देखने का एक तरीका यह है कि इसे विज्ञान का एक अलग प्रतिमान माना जाए: -* **अनुभवजन्य**, जिसमें हम ज्यादातर अवलोकनों और प्रयोगों के परिणामों पर भरोसा करते हैं -* **सैद्धांतिक**, जहां मौजूदा वैज्ञानिक ज्ञान से नई अवधारणाएं उभरती हैं -* **कम्प्यूटेशनल**, जहां हम कुछ कम्प्यूटेशनल प्रयोगों के आधार पर नए सिद्धांतों की खोज करते हैं -* **डेटा-चालित**, डेटा में संबंधों और पैटर्न की खोज पर आधारित +One of the ways (attributed to [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) to look at the data science is to consider it to be a separate paradigm of science: +* **Empirical**, in which we rely mostly on observations and results of experiments +* **Theoretical**, where new concepts emerge from existing scientific knowledge +* **Computational**, where we discover new principles based on some computational experiments +* **Data-Driven**, based on discovering relationships and patterns in the data -## अन्य संबंधित क्षेत्र +## Other Related Fields -चूंकि डेटा व्यापक है, डेटा विज्ञान भी एक व्यापक क्षेत्र है, जो कई अन्य विषयों को छूता है। +Since data is pervasive, data science itself is also a broad field, touching many other disciplines.
-
डेटाबेस
+
Databases
-डेटा को **कैसे स्टोर करें** एक महत्वपूर्ण विचार है, यानी इसे इस तरह से कैसे संरचित किया जाए जिससे तेजी से प्रोसेसिंग हो सके। विभिन्न प्रकार के डेटाबेस हैं जो संरचित और असंरचित डेटा संग्रहीत करते हैं, जिन पर हम अपने पाठ्यक्रम में विचार करेंगे. +A critical consideration is **how to store** the data, i.e. how to structure it in a way that allows faster processing. There are different types of databases that store structured and unstructured data, which we will consider in our course.
-
बड़ा डेटा
+
Big Data
-अक्सर हमें अपेक्षाकृत सरल संरचना के साथ बहुत बड़ी मात्रा में डेटा को स्टोर और संसाधित करने की आवश्यकता होती है। उस डेटा को एक कंप्यूटर क्लस्टर पर वितरित तरीके से संग्रहीत करने और इसे कुशलतापूर्वक संसाधित करने के लिए विशेष दृष्टिकोण और उपकरण हैं। +Often we need to store and process very large quantities of data with a relatively simple structure. There are special approaches and tools to store that data in a distributed manner on a computer cluster, and process it efficiently.
-
यंत्र अधिगम
+
Machine Learning
-डेटा को समझने का एक तरीका **एक मॉडल बनाना** है जो वांछित परिणाम की भविष्यवाणी करने में सक्षम होगा। डेटा से मॉडल विकसित करना **मशीन लर्निंग** कहलाता है। इसके बारे में अधिक जानने के लिए आप हमारे मशीन लर्निंग फॉर बिगिनर्स पाठ्यक्रम को देखना चाहेंगे।. +One way to understand data is to **build a model** that will be able to predict a desired outcome. Developing models from data is called **machine learning**. You may want to have a look at our Machine Learning for Beginners Curriculum to learn more about it.
-
कृत्रिम होशियारी
+
Artificial Intelligence
-आर्टिफिशियल इंटेलिजेंस (एआई) के रूप में जाना जाने वाला मशीन लर्निंग का एक क्षेत्र भी डेटा पर निर्भर करता है, और इसमें उच्च जटिलता वाले मॉडल बनाना शामिल है जो मानव विचार प्रक्रियाओं की नकल करते हैं। एआई विधियां अक्सर हमें असंरचित डेटा (जैसे प्राकृतिक भाषा) को संरचित अंतर्दृष्टि में बदलने की अनुमति देती हैं। +An area of machine learning known as artificial intelligence (AI) also relies on data, and it involves building high complexity models that mimic human thought processes. AI methods often allow us to turn unstructured data (e.g. natural language) into structured insights.
-
प्रत्योक्षकरण
+
Visualization
-एक इंसान के लिए बड़ी मात्रा में डेटा समझ से बाहर है, लेकिन एक बार जब हम उस डेटा का उपयोग करके उपयोगी विज़ुअलाइज़ेशन बनाते हैं, तो हम डेटा की अधिक समझ बना सकते हैं, और कुछ निष्कर्ष निकाल सकते हैं। इस प्रकार, जानकारी की कल्पना करने के कई तरीके जानना महत्वपूर्ण है - कुछ ऐसा जिसे हम अपने पाठ्यक्रम के धारा 3 में शामिल करेंगे। . संबंधित क्षेत्रों में सामान्य रूप से **इन्फोग्राफिक्स**, और **मानव-कंप्यूटर इंटरैक्शन** भी शामिल हैं। +Vast amounts of data are incomprehensible for a human being, but once we create useful visualizations using that data, we can make more sense of the data, and draw some conclusions. Thus, it is important to know many ways to visualize information - something that we will cover in Section 3 of our course. Related fields also include **Infographics**, and **Human-Computer Interaction** in general.
-## डेटा के प्रकार +## Types of Data -जैसा कि हमने पहले ही उल्लेख किया है, डेटा हर जगह है। बस जरूरत है इसे सही तरीके से पकड़ने की! **संरचित** और **असंरचित** डेटा के बीच अंतर करना उपयोगी है। पूर्व को आम तौर पर कुछ अच्छी तरह से संरचित रूप में दर्शाया जाता है, अक्सर तालिका या तालिकाओं की संख्या के रूप में, जबकि बाद वाला केवल फाइलों का संग्रह होता है। कभी-कभी हम **अर्ध-संरचित** डेटा के बारे में भी बात कर सकते हैं, जिसमें किसी प्रकार की संरचना होती है जो बहुत भिन्न हो सकती है। +As we have already mentioned, data is everywhere. We just need to capture it in the right way! It is useful to distinguish between **structured** and **unstructured** data. The former is typically represented in some well-structured form, often as a table or number of tables, while the latter is just a collection of files. Sometimes we can also talk about **semi-structured** data, that have some sort of a structure that may vary greatly. -| संरचित | अर्ध-संरचित | असंरचित | +| Structured | Semi-structured | Unstructured | | ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | -| उन लोगों की सूची जिनके फ़ोन नंबर हैं | विकिपीडिया पृष्ठ लिंक के साथ | एनसाइक्लोपीडिया ब्रिटानिका का पाठ | -| पिछले 20 वर्षों से हर मिनट एक इमारत के सभी कमरों में तापमान | लेखकों के साथ JSON प्रारूप में वैज्ञानिक पत्रों का संग्रह, प्रकाशन का डेटा, और सार | कॉर्पोरेट दस्तावेज़ों के साथ फ़ाइल साझा करें | -| भवन में प्रवेश करने वाले सभी लोगों की आयु और लिंग का डेटा | इंटरनेट पेज | निगरानी कैमरे से कच्चा वीडियो फ़ीड | -## डेटा कहाँ से प्राप्त करें +| List of people with their phone numbers | Wikipedia pages with links | Text of Encyclopedia Britannica | +| Temperature in all rooms of a building at every minute for the last 20 years | Collection of scientific papers in JSON format with authors, data of publication, and abstract | File share with corporate documents | +| Data for age and gender of all people entering the building | Internet pages | Raw video feed from surveillance camera | -डेटा के कई संभावित स्रोत हैं, और उन सभी को सूचीबद्ध करना असंभव होगा! हालाँकि, आइए कुछ विशिष्ट स्थानों का उल्लेख करें जहाँ आप डेटा प्राप्त कर सकते हैं: +## Where to get Data -* **संरचित** - - **इंटरनेट ऑफ थिंग्स** (IoT), जिसमें तापमान या दबाव सेंसर जैसे विभिन्न सेंसर के डेटा शामिल हैं, बहुत उपयोगी डेटा प्रदान करता है। उदाहरण के लिए, यदि कोई कार्यालय भवन IoT सेंसर से लैस है, तो हम लागत को कम करने के लिए स्वचालित रूप से हीटिंग और प्रकाश व्यवस्था को नियंत्रित कर सकते हैं। - - **सर्वेक्षण** जो हम उपयोगकर्ताओं को खरीदारी के बाद, या किसी वेब साइट पर जाने के बाद पूरा करने के लिए कहते हैं। - - **व्यवहार का विश्लेषण**, उदाहरण के लिए, यह समझने में हमारी सहायता कर सकता है कि उपयोगकर्ता किसी साइट में कितनी गहराई तक जाता है, और साइट छोड़ने का सामान्य कारण क्या है। -* **असंरचित** - - **पाठ** अंतर्दृष्टि का एक समृद्ध स्रोत हो सकता है, जैसे समग्र **भावना स्कोर**, या कीवर्ड और अर्थ अर्थ निकालना। - - **छवियां** या **वीडियो**। सड़क पर यातायात का अनुमान लगाने और संभावित ट्रैफिक जाम के बारे में लोगों को सूचित करने के लिए एक निगरानी कैमरे से एक वीडियो का उपयोग किया जा सकता है। - - वेब सर्वर **लॉग** का उपयोग यह समझने के लिए किया जा सकता है कि हमारी साइट के कौन से पृष्ठ सबसे अधिक बार देखे जाते हैं, और कितने समय के लिए। -* **अर्ध-संरचित** - - **सोशल नेटवर्क** ग्राफ़ उपयोगकर्ता के व्यक्तित्व के बारे में डेटा के महान स्रोत हो सकते हैं और जानकारी के प्रसार में संभावित प्रभावशीलता हो सकती है। - - जब हमारे पास किसी पार्टी से तस्वीरों का एक गुच्छा होता है, तो हम एक दूसरे के साथ तस्वीरें लेने वाले लोगों का ग्राफ बनाकर **ग्रुप डायनेमिक्स** डेटा निकालने का प्रयास कर सकते हैं। +There are many possible sources of data, and it will be impossible to list all of them! However, let's mention some of the typical places where you can get data: -डेटा के विभिन्न संभावित स्रोतों को जानकर, आप विभिन्न परिदृश्यों के बारे में सोचने की कोशिश कर सकते हैं जहां स्थिति को बेहतर तरीके से जानने और व्यावसायिक प्रक्रियाओं को बेहतर बनाने के लिए डेटा विज्ञान तकनीकों को लागू किया जा सकता है। +* **Structured** + - **Internet of Things** (IoT), including data from different sensors, such as temperature or pressure sensors, provides a lot of useful data. For example, if an office building is equipped with IoT sensors, we can automatically control heating and lighting in order to minimize costs. + - **Surveys** that we ask users to complete after a purchase, or after visiting a web site. + - **Analysis of behavior** can, for example, help us understand how deeply a user goes into a site, and what is the typical reason for leaving the site. +* **Unstructured** + - **Texts** can be a rich source of insights, such as an overall **sentiment score**, or extracting keywords and semantic meaning. + - **Images** or **Video**. A video from a surveillance camera can be used to estimate traffic on the road, and inform people about potential traffic jams. + - Web server **Logs** can be used to understand which pages of our site are most often visited, and for how long. +* Semi-structured + - **Social Network** graphs can be great sources of data about user personalities and potential effectiveness in spreading information around. + - When we have a bunch of photographs from a party, we can try to extract **Group Dynamics** data by building a graph of people taking pictures with each other. -## आप डेटा के साथ क्या कर सकते हैं +By knowing different possible sources of data, you can try to think about different scenarios where data science techniques can be applied to know the situation better, and to improve business processes. -डेटा साइंस में, हम डेटा यात्रा के निम्नलिखित चरणों पर ध्यान केंद्रित करते हैं: +## What you can do with Data + +In Data Science, we focus on the following steps of data journey:
-
1) डेटा अधिग्रहण
+
1) Data Acquisition
-पहला कदम डेटा एकत्र करना है। जबकि कई मामलों में यह एक सीधी प्रक्रिया हो सकती है, जैसे वेब एप्लिकेशन से डेटाबेस में डेटा आना, कभी-कभी हमें विशेष तकनीकों का उपयोग करने की आवश्यकता होती है। उदाहरण के लिए, IoT सेंसर से डेटा भारी हो सकता है, और आगे की प्रक्रिया से पहले सभी डेटा एकत्र करने के लिए IoT हब जैसे बफरिंग एंडपॉइंट का उपयोग करना एक अच्छा अभ्यास है। +The first step is to collect the data. While in many cases it can be a straightforward process, like data coming to a database from a web application, sometimes we need to use special techniques. For example, data from IoT sensors can be overwhelming, and it is a good practice to use buffering endpoints such as IoT Hub to collect all the data before further processing.
-
2) डाटा स्टोरेज
+
2) Data Storage
-डेटा स्टोर करना चुनौतीपूर्ण हो सकता है, खासकर अगर हम बड़े डेटा के बारे में बात कर रहे हैं। डेटा को स्टोर करने का तरीका तय करते समय, भविष्य में डेटा को क्वेरी करने के तरीके का अनुमान लगाना समझ में आता है। डेटा को स्टोर करने के कई तरीके हैं: +Storing data can be challenging, especially if we are talking about big data. When deciding how to store data, it makes sense to anticipate the way you would to query the data in the future. There are several ways data can be stored:
    -
  • एक रिलेशनल डेटाबेस तालिकाओं के संग्रह को संग्रहीत करता है, और उन्हें क्वेरी करने के लिए SQL नामक एक विशेष भाषा का उपयोग करता है। आमतौर पर, तालिकाओं को विभिन्न समूहों में व्यवस्थित किया जाता है जिन्हें स्कीमा कहा जाता है। कई मामलों में हमें स्कीमा को फिट करने के लिए डेटा को मूल रूप से परिवर्तित करने की आवश्यकता होती है।
  • -
  • एक NoSQL डेटाबेस, जैसे कि CosmosDB, करता है डेटा पर स्कीमा लागू नहीं करता है, और अधिक जटिल डेटा संग्रहीत करने की अनुमति देता है, उदाहरण के लिए, पदानुक्रमित JSON दस्तावेज़ या ग्राफ़। हालाँकि, NoSQL डेटाबेस में SQL की समृद्ध क्वेरी क्षमता नहीं होती है, और यह संदर्भात्मक अखंडता को लागू नहीं कर सकता है, अर्थात डेटा को तालिकाओं में कैसे संरचित किया जाता है और तालिकाओं के बीच संबंधों को नियंत्रित करने के नियम।
  • -
  • डेटा लेक संग्रहण का उपयोग कच्चे, असंरचित रूप में डेटा के बड़े संग्रह के लिए किया जाता है। डेटा झीलों का उपयोग अक्सर बड़े डेटा के साथ किया जाता है, जहां सभी डेटा एक मशीन पर फिट नहीं हो सकते हैं, और सर्वरों के एक समूह द्वारा संग्रहीत और संसाधित किया जाना है। Parquet डेटा प्रारूप है जिसे अक्सर बड़े डेटा के संयोजन में उपयोग किया जाता है।
  • +
  • A relational database stores a collection of tables, and uses a special language called SQL to query them. Typically, tables are organized into different groups called schemas. In many cases we need to convert the data from original form to fit the schema.
  • +
  • A NoSQL database, such as CosmosDB, does not enforce schemas on data, and allows storing more complex data, for example, hierarchical JSON documents or graphs. However, NoSQL databases do not have the rich querying capabilities of SQL, and cannot enforce referential integrity, i.e. rules on how the data is structured in tables and governing the relationships between tables.
  • +
  • Data Lake storage is used for large collections of data in raw, unstructured form. Data lakes are often used with big data, where all data cannot fit on one machine, and has to be stored and processed by a cluster of servers. Parquet is the data format that is often used in conjunction with big data.
-
3) डाटा प्रोसेसिंग
+
3) Data Processing
-यह डेटा यात्रा का सबसे रोमांचक हिस्सा है, जिसमें डेटा को उसके मूल रूप से एक ऐसे रूप में परिवर्तित करना शामिल है जिसका उपयोग विज़ुअलाइज़ेशन/मॉडल प्रशिक्षण के लिए किया जा सकता है। टेक्स्ट या इमेज जैसे असंरचित डेटा के साथ काम करते समय, हमें डेटा से **फीचर्स** निकालने के लिए कुछ एआई तकनीकों का उपयोग करने की आवश्यकता हो सकती है, इस प्रकार इसे संरचित रूप में परिवर्तित किया जा सकता है। +This is the most exciting part of the data journey, which involves converting the data from its original form into a form that can be used for visualization/model training. When dealing with unstructured data such as text or images, we may need to use some AI techniques to extract **features** from the data, thus converting it to structured form.
-
4) विज़ुअलाइज़ेशन / मानव अंतर्दृष्टि
+
4) Visualization / Human Insights
-अक्सर, डेटा को समझने के लिए, हमें इसकी कल्पना करने की आवश्यकता होती है। हमारे टूलबॉक्स में कई अलग-अलग विज़ुअलाइज़ेशन तकनीकें होने से, हम एक अंतर्दृष्टि बनाने के लिए सही दृश्य ढूंढ सकते हैं। अक्सर, एक डेटा वैज्ञानिक को "डेटा के साथ खेलने" की आवश्यकता होती है, इसे कई बार विज़ुअलाइज़ करना और कुछ रिश्तों की तलाश करना। इसके अलावा, हम एक परिकल्पना का परीक्षण करने या डेटा के विभिन्न टुकड़ों के बीच संबंध साबित करने के लिए सांख्यिकीय तकनीकों का उपयोग कर सकते हैं। +Oftentimes, in order to understand the data, we need to visualize it. Having many different visualization techniques in our toolbox, we can find the right view to make an insight. Often, a data scientist needs to "play with data", visualizing it many times and looking for some relationships. Also, we may use statistical techniques to test a hypotheses or prove a correlation between different pieces of data.
-
5) एक भविष्य कहनेवाला मॉडल प्रशिक्षण
+
5) Training a predictive model
-चूंकि डेटा विज्ञान का अंतिम लक्ष्य डेटा के आधार पर निर्णय लेने में सक्षम होना है, इसलिए हम मशीन लर्निंग की तकनीकों का उपयोग करना चाह सकते हैं। एक भविष्य कहनेवाला मॉडल बनाने के लिए। इसके बाद हम समान संरचनाओं वाले नए डेटा सेट का उपयोग करके भविष्यवाणियां करने के लिए इसका उपयोग कर सकते हैं। +Because the ultimate goal of data science is to be able to make decisions based on data, we may want to use the techniques of Machine Learning to build a predictive model. We can then use this to make predictions using new data sets with similar structures.
-बेशक, वास्तविक डेटा के आधार पर, कुछ चरण गायब हो सकते हैं (उदाहरण के लिए, जब हमारे पास पहले से ही डेटाबेस में डेटा है, या जब हमें मॉडल प्रशिक्षण की आवश्यकता नहीं है), या कुछ चरणों को कई बार दोहराया जा सकता है (जैसे डेटा प्रोसेसिंग ) +Of course, depending on the actual data, some steps might be missing (e.g., when we already have the data in the database, or when we do not need model training), or some steps might be repeated several times (such as data processing). -## डिजिटलीकरण और डिजिटल परिवर्तन +## Digitalization and Digital Transformation -पिछले दशक में, कई व्यवसायों ने व्यावसायिक निर्णय लेते समय डेटा के महत्व को समझना शुरू कर दिया। व्यवसाय चलाने के लिए डेटा विज्ञान सिद्धांतों को लागू करने के लिए, पहले कुछ डेटा एकत्र करने की आवश्यकता होती है, अर्थात व्यावसायिक प्रक्रियाओं का डिजिटल रूप में अनुवाद करना। इसे **डिजिटलाइजेशन** के नाम से जाना जाता है। निर्णयों को निर्देशित करने के लिए इस डेटा में डेटा विज्ञान तकनीकों को लागू करने से उत्पादकता (या यहां तक ​​कि व्यावसायिक धुरी) में उल्लेखनीय वृद्धि हो सकती है, जिसे **डिजिटल परिवर्तन** कहा जाता है। +In the last decade, many businesses started to understand the importance of data when making business decisions. To apply data science principles to running a business, one first needs to collect some data, i.e. translate business processes into digital form. This is known as **digitalization**. Applying data science techniques to this data to guide decisions can lead to significant increases in productivity (or even business pivot), called **digital transformation**. -आइए एक उदाहरण पर विचार करें। मान लीजिए कि हमारे पास एक डेटा विज्ञान पाठ्यक्रम है (जैसे यह एक) जिसे हम छात्रों को ऑनलाइन वितरित करते हैं, और हम इसे सुधारने के लिए डेटा विज्ञान का उपयोग करना चाहते हैं। हम यह कैसे कर सकते हैं? +Let's consider an example. Suppose we have a data science course (like this one) which we deliver online to students, and we want to use data science to improve it. How can we do it? -हम "क्या डिजीटल किया जा सकता है?" पूछकर शुरू कर सकते हैं। सबसे आसान तरीका यह होगा कि प्रत्येक छात्र को प्रत्येक मॉड्यूल को पूरा करने में लगने वाले समय को मापें, और प्रत्येक मॉड्यूल के अंत में एक बहुविकल्पीय परीक्षा देकर प्राप्त ज्ञान को मापें। सभी छात्रों में औसत समय-से-पूरा करके, हम यह पता लगा सकते हैं कि कौन से मॉड्यूल छात्रों के लिए सबसे अधिक कठिनाइयों का कारण बनते हैं, और उन्हें सरल बनाने पर काम करते हैं। +We can start by asking "What can be digitized?" The simplest way would be to measure the time it takes each student to complete each module, and to measure the obtained knowledge by giving a multiple-choice test at the end of each module. By averaging time-to-complete across all students, we can find out which modules cause the most difficulties for students, and work on simplifying them. -> आप तर्क दे सकते हैं कि यह दृष्टिकोण आदर्श नहीं है, क्योंकि मॉड्यूल अलग-अलग लंबाई के हो सकते हैं। मॉड्यूल की लंबाई (वर्णों की संख्या में) से समय को विभाजित करना शायद अधिक उचित है, और इसके बजाय उन मानों की तुलना करें। +> You may argue that this approach is not ideal, because modules can be of different lengths. It is probably more fair to divide the time by the length of the module (in number of characters), and compare those values instead. -जब हम बहुविकल्पीय परीक्षणों के परिणामों का विश्लेषण करना शुरू करते हैं, तो हम यह निर्धारित करने का प्रयास कर सकते हैं कि छात्रों को किन अवधारणाओं को समझने में कठिनाई होती है, और उस जानकारी का उपयोग सामग्री को बेहतर बनाने के लिए कर सकते हैं। ऐसा करने के लिए, हमें परीक्षणों को इस तरह से डिजाइन करने की आवश्यकता है कि प्रत्येक प्रश्न एक निश्चित अवधारणा या ज्ञान के हिस्से से मेल खाता हो। +When we start analyzing results of multiple-choice tests, we can try to determine which concepts that students have difficulty understanding, and and use that information to improve the content. To do that, we need to design tests in such a way that each question maps to a certain concept or chunk of knowledge. -यदि हम और अधिक जटिल होना चाहते हैं, तो हम छात्रों की आयु वर्ग के विरुद्ध प्रत्येक मॉड्यूल के लिए लिए गए समय को प्लॉट कर सकते हैं। हमें पता चल सकता है कि कुछ आयु वर्गों के लिए मॉड्यूल को पूरा करने में अनुचित रूप से लंबा समय लगता है, या छात्र इसे पूरा करने से पहले छोड़ देते हैं। यह हमें मॉड्यूल के लिए उम्र की सिफारिशें प्रदान करने में मदद कर सकता है, और गलत उम्मीदों से लोगों के असंतोष को कम कर सकता है। +If we want to get even more complicated, we can plot the time taken for each module against the age category of students. We might find out that for some age categories it takes an inappropriately long time to complete the module, or that students drop out before completing it. This can help us provide age recommendations for the module, and minimize people's dissatisfaction from wrong expectations. -## 🚀 चुनौती +## 🚀 Challenge -इस चुनौती में, हम ग्रंथों को देखकर डेटा विज्ञान के क्षेत्र से प्रासंगिक अवधारणाओं को खोजने का प्रयास करेंगे। हम डेटा विज्ञान पर एक विकिपीडिया लेख लेंगे, पाठ को डाउनलोड और संसाधित करेंगे, और फिर इस तरह एक शब्द क्लाउड का निर्माण करेंगे: +In this challenge, we will try to find concepts relevant to the field of Data Science by looking at texts. We will take a Wikipedia article on Data Science, download and process the text, and then build a word cloud like this one: -![डेटा साइंस के लिए वर्ड क्लाउड](images/ds_wordcloud.png) +![Word Cloud for Data Science](images/ds_wordcloud.png) -Visit [`notebook.ipynb`](/1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') कोड के माध्यम से पढ़ने के लिए। आप कोड भी चला सकते हैं, और देख सकते हैं कि यह वास्तविक समय में सभी डेटा परिवर्तन कैसे करता है। +Visit [`notebook.ipynb`](/1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') to read through the code. You can also run the code, and see how it performs all data transformations in real time. -> यदि आप नहीं जानते कि जुपिटर नोटबुक में कोड कैसे चलाना है, तो एक नज़र डालें [this article](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). +> If you do not know how to run code in a Jupyter Notebook, have a look at [this article](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). ## [Post-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/1) -## कार्य (Assignments) +## Assignments -* **कार्य 1**: **बिग डेटा** और **मशीन लर्निंग** के क्षेत्रों के लिए संबंधित अवधारणाओं का पता लगाने के लिए ऊपर दिए गए कोड को संशोधित करें -* **कार्य 2**: [डेटा विज्ञान परिदृश्यों के बारे में सोचें](assignment.md) +* **Task 1**: Modify the code above to find out related concepts for the fields of **Big Data** and **Machine Learning** +* **Task 2**: [Think About Data Science Scenarios](assignment.md) -## क्रेडिट +## Credits -यह पाठ ♥️ के साथ [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा लिखा गया है। और इस्का हिंदी अनुवाद [सचिन दाभाड़े](https://www.github.com/SachinDabhade) ने किया है \ No newline at end of file +This lesson has been authored with ♥️ by [Dmitry Soshnikov](http://soshnikov.com) \ No newline at end of file diff --git a/translations/README.hi.md b/translations/README.hi.md new file mode 100644 index 00000000..d8525e73 --- /dev/null +++ b/translations/README.hi.md @@ -0,0 +1,164 @@ +# डेटा विज्ञान को परिभाषित करना + +| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | +| :----------------------------------------------------------------------------------------------------: | +| डेटा विज्ञान को परिभाषित करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +--- + +[![डेटा विज्ञान वीडियो को परिभाषित करना](images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) + +## [Pre-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/0) + +## डेटा क्या है? +अपने दैनिक जीवन में हम लगातार डेटा से घिरे रहते हैं। अभी आप जो पाठ पढ़ रहे हैं वह डेटा है। आपके स्मार्टफ़ोन में आपके मित्रों के फ़ोन नंबरों की सूची डेटा है, साथ ही आपकी घड़ी पर प्रदर्शित वर्तमान समय भी है। मनुष्य के रूप में, हम स्वाभाविक रूप से हमारे पास मौजूद धन की गणना करके या अपने मित्रों को पत्र लिखकर डेटा के साथ काम करते हैं। + +हालाँकि, कंप्यूटर के निर्माण के साथ डेटा बहुत अधिक महत्वपूर्ण हो गया। कंप्यूटर की प्राथमिक भूमिका संगणना करना है, लेकिन उन्हें संचालित करने के लिए डेटा की आवश्यकता होती है। इस प्रकार, हमें यह समझने की आवश्यकता है कि कंप्यूटर डेटा को कैसे संग्रहीत और संसाधित करता है। + +इंटरनेट के उद्भव के साथ, डेटा हैंडलिंग उपकरणों के रूप में कंप्यूटर की भूमिका में वृद्धि हुई है। यदि आप इसके बारे में सोचते हैं, तो हम अब वास्तविक गणनाओं के बजाय डेटा प्रोसेसिंग और संचार के लिए कंप्यूटर का अधिक से अधिक उपयोग करते हैं। जब हम किसी मित्र को ई-मेल लिखते हैं या इंटरनेट पर कुछ जानकारी खोजते हैं - तो हम अनिवार्य रूप से डेटा बना रहे हैं, स्टोर कर रहे हैं, ट्रांसमिट कर रहे हैं और उसमें हेरफेर कर रहे हैं। +> क्या आपको याद है कि पिछली बार आपने किसी चीज़ की गणना करने के लिए कंप्यूटर का उपयोग कब किया था? + +## डेटा साइंस क्या है? + +In [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **डेटा साइंस** *एक वैज्ञानिक क्षेत्र के रूप में परिभाषित किया गया है जो संरचित और असंरचित डेटा से ज्ञान और अंतर्दृष्टि निकालने के लिए वैज्ञानिक तरीकों का उपयोग करता है, और आवेदन डोमेन की एक विस्तृत श्रृंखला में डेटा से ज्ञान और कार्रवाई योग्य अंतर्दृष्टि लागू करता है।*. + +यह परिभाषा डेटा विज्ञान के निम्नलिखित महत्वपूर्ण पहलुओं पर प्रकाश डालती है:: + +* डेटा साइंस का मुख्य लक्ष्य डेटा से **ज्ञान निकालना** है, दूसरे शब्दों में - डेटा को **समझना**, कुछ छिपे हुए संबंध ढूंढना और **मॉडल** बनाना। +* डेटा विज्ञान **वैज्ञानिक विधियों** का उपयोग करता है, जैसे कि प्रायिकता और सांख्यिकी। वास्तव में, जब *डेटा साइंस* शब्द पहली बार पेश किया गया था, तो कुछ लोगों ने तर्क दिया कि डेटा साइंस आंकड़ों के लिए सिर्फ एक नया फैंसी नाम था। आजकल यह स्पष्ट हो गया है कि क्षेत्र बहुत व्यापक है। +* प्राप्त ज्ञान को कुछ **कार्रवाई योग्य अंतर्दृष्टि**, यानी व्यावहारिक अंतर्दृष्टि उत्पन्न करने के लिए लागू किया जाना चाहिए जिसे आप वास्तविक व्यावसायिक स्थितियों पर लागू कर सकते हैं। +* हमें **संरचित** और **असंरचित** दोनों डेटा पर काम करने में सक्षम होना चाहिए। हम पाठ्यक्रम में बाद में विभिन्न प्रकार के डेटा पर चर्चा करने के लिए वापस आएंगे। +* **एप्लिकेशन डोमेन** एक महत्वपूर्ण अवधारणा है, और डेटा वैज्ञानिकों को अक्सर समस्या क्षेत्र में कम से कम कुछ हद तक विशेषज्ञता की आवश्यकता होती है, उदाहरण के लिए: वित्त, चिकित्सा, विपणन, आदि। + +> डेटा साइंस का एक अन्य महत्वपूर्ण पहलू यह है कि यह अध्ययन करता है कि कंप्यूटर का उपयोग करके डेटा कैसे एकत्र, संग्रहीत और संचालित किया जा सकता है। जबकि सांख्यिकी हमें गणितीय आधार प्रदान करती है, डेटा विज्ञान वास्तव में डेटा से अंतर्दृष्टि प्राप्त करने के लिए गणितीय अवधारणाओं को लागू करता है। + +(attributed to [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) डेटा विज्ञान को देखने का एक तरीका यह है कि इसे विज्ञान का एक अलग प्रतिमान माना जाए: +* **अनुभवजन्य**, जिसमें हम ज्यादातर अवलोकनों और प्रयोगों के परिणामों पर भरोसा करते हैं +* **सैद्धांतिक**, जहां मौजूदा वैज्ञानिक ज्ञान से नई अवधारणाएं उभरती हैं +* **कम्प्यूटेशनल**, जहां हम कुछ कम्प्यूटेशनल प्रयोगों के आधार पर नए सिद्धांतों की खोज करते हैं +* **डेटा-चालित**, डेटा में संबंधों और पैटर्न की खोज पर आधारित + +## अन्य संबंधित क्षेत्र + +चूंकि डेटा व्यापक है, डेटा विज्ञान भी एक व्यापक क्षेत्र है, जो कई अन्य विषयों को छूता है। + +
+
डेटाबेस
+
+डेटा को **कैसे स्टोर करें** एक महत्वपूर्ण विचार है, यानी इसे इस तरह से कैसे संरचित किया जाए जिससे तेजी से प्रोसेसिंग हो सके। विभिन्न प्रकार के डेटाबेस हैं जो संरचित और असंरचित डेटा संग्रहीत करते हैं, जिन पर हम अपने पाठ्यक्रम में विचार करेंगे. +
+
बड़ा डेटा
+
+अक्सर हमें अपेक्षाकृत सरल संरचना के साथ बहुत बड़ी मात्रा में डेटा को स्टोर और संसाधित करने की आवश्यकता होती है। उस डेटा को एक कंप्यूटर क्लस्टर पर वितरित तरीके से संग्रहीत करने और इसे कुशलतापूर्वक संसाधित करने के लिए विशेष दृष्टिकोण और उपकरण हैं। +
+
यंत्र अधिगम
+
+डेटा को समझने का एक तरीका **एक मॉडल बनाना** है जो वांछित परिणाम की भविष्यवाणी करने में सक्षम होगा। डेटा से मॉडल विकसित करना **मशीन लर्निंग** कहलाता है। इसके बारे में अधिक जानने के लिए आप हमारे मशीन लर्निंग फॉर बिगिनर्स पाठ्यक्रम को देखना चाहेंगे।. +
+
कृत्रिम होशियारी
+
+आर्टिफिशियल इंटेलिजेंस (एआई) के रूप में जाना जाने वाला मशीन लर्निंग का एक क्षेत्र भी डेटा पर निर्भर करता है, और इसमें उच्च जटिलता वाले मॉडल बनाना शामिल है जो मानव विचार प्रक्रियाओं की नकल करते हैं। एआई विधियां अक्सर हमें असंरचित डेटा (जैसे प्राकृतिक भाषा) को संरचित अंतर्दृष्टि में बदलने की अनुमति देती हैं। +
+
प्रत्योक्षकरण
+
+एक इंसान के लिए बड़ी मात्रा में डेटा समझ से बाहर है, लेकिन एक बार जब हम उस डेटा का उपयोग करके उपयोगी विज़ुअलाइज़ेशन बनाते हैं, तो हम डेटा की अधिक समझ बना सकते हैं, और कुछ निष्कर्ष निकाल सकते हैं। इस प्रकार, जानकारी की कल्पना करने के कई तरीके जानना महत्वपूर्ण है - कुछ ऐसा जिसे हम अपने पाठ्यक्रम के धारा 3 में शामिल करेंगे। . संबंधित क्षेत्रों में सामान्य रूप से **इन्फोग्राफिक्स**, और **मानव-कंप्यूटर इंटरैक्शन** भी शामिल हैं। +
+
+ +## डेटा के प्रकार + +जैसा कि हमने पहले ही उल्लेख किया है, डेटा हर जगह है। बस जरूरत है इसे सही तरीके से पकड़ने की! **संरचित** और **असंरचित** डेटा के बीच अंतर करना उपयोगी है। पूर्व को आम तौर पर कुछ अच्छी तरह से संरचित रूप में दर्शाया जाता है, अक्सर तालिका या तालिकाओं की संख्या के रूप में, जबकि बाद वाला केवल फाइलों का संग्रह होता है। कभी-कभी हम **अर्ध-संरचित** डेटा के बारे में भी बात कर सकते हैं, जिसमें किसी प्रकार की संरचना होती है जो बहुत भिन्न हो सकती है। + +| संरचित | अर्ध-संरचित | असंरचित | +| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | +| उन लोगों की सूची जिनके फ़ोन नंबर हैं | विकिपीडिया पृष्ठ लिंक के साथ | एनसाइक्लोपीडिया ब्रिटानिका का पाठ | +| पिछले 20 वर्षों से हर मिनट एक इमारत के सभी कमरों में तापमान | लेखकों के साथ JSON प्रारूप में वैज्ञानिक पत्रों का संग्रह, प्रकाशन का डेटा, और सार | कॉर्पोरेट दस्तावेज़ों के साथ फ़ाइल साझा करें | +| भवन में प्रवेश करने वाले सभी लोगों की आयु और लिंग का डेटा | इंटरनेट पेज | निगरानी कैमरे से कच्चा वीडियो फ़ीड | +## डेटा कहाँ से प्राप्त करें + +डेटा के कई संभावित स्रोत हैं, और उन सभी को सूचीबद्ध करना असंभव होगा! हालाँकि, आइए कुछ विशिष्ट स्थानों का उल्लेख करें जहाँ आप डेटा प्राप्त कर सकते हैं: + +* **संरचित** + - **इंटरनेट ऑफ थिंग्स** (IoT), जिसमें तापमान या दबाव सेंसर जैसे विभिन्न सेंसर के डेटा शामिल हैं, बहुत उपयोगी डेटा प्रदान करता है। उदाहरण के लिए, यदि कोई कार्यालय भवन IoT सेंसर से लैस है, तो हम लागत को कम करने के लिए स्वचालित रूप से हीटिंग और प्रकाश व्यवस्था को नियंत्रित कर सकते हैं। + - **सर्वेक्षण** जो हम उपयोगकर्ताओं को खरीदारी के बाद, या किसी वेब साइट पर जाने के बाद पूरा करने के लिए कहते हैं। + - **व्यवहार का विश्लेषण**, उदाहरण के लिए, यह समझने में हमारी सहायता कर सकता है कि उपयोगकर्ता किसी साइट में कितनी गहराई तक जाता है, और साइट छोड़ने का सामान्य कारण क्या है। +* **असंरचित** + - **पाठ** अंतर्दृष्टि का एक समृद्ध स्रोत हो सकता है, जैसे समग्र **भावना स्कोर**, या कीवर्ड और अर्थ अर्थ निकालना। + - **छवियां** या **वीडियो**। सड़क पर यातायात का अनुमान लगाने और संभावित ट्रैफिक जाम के बारे में लोगों को सूचित करने के लिए एक निगरानी कैमरे से एक वीडियो का उपयोग किया जा सकता है। + - वेब सर्वर **लॉग** का उपयोग यह समझने के लिए किया जा सकता है कि हमारी साइट के कौन से पृष्ठ सबसे अधिक बार देखे जाते हैं, और कितने समय के लिए। +* **अर्ध-संरचित** + - **सोशल नेटवर्क** ग्राफ़ उपयोगकर्ता के व्यक्तित्व के बारे में डेटा के महान स्रोत हो सकते हैं और जानकारी के प्रसार में संभावित प्रभावशीलता हो सकती है। + - जब हमारे पास किसी पार्टी से तस्वीरों का एक गुच्छा होता है, तो हम एक दूसरे के साथ तस्वीरें लेने वाले लोगों का ग्राफ बनाकर **ग्रुप डायनेमिक्स** डेटा निकालने का प्रयास कर सकते हैं। + +डेटा के विभिन्न संभावित स्रोतों को जानकर, आप विभिन्न परिदृश्यों के बारे में सोचने की कोशिश कर सकते हैं जहां स्थिति को बेहतर तरीके से जानने और व्यावसायिक प्रक्रियाओं को बेहतर बनाने के लिए डेटा विज्ञान तकनीकों को लागू किया जा सकता है। + +## आप डेटा के साथ क्या कर सकते हैं + +डेटा साइंस में, हम डेटा यात्रा के निम्नलिखित चरणों पर ध्यान केंद्रित करते हैं: + +
+
1) डेटा अधिग्रहण
+
+पहला कदम डेटा एकत्र करना है। जबकि कई मामलों में यह एक सीधी प्रक्रिया हो सकती है, जैसे वेब एप्लिकेशन से डेटाबेस में डेटा आना, कभी-कभी हमें विशेष तकनीकों का उपयोग करने की आवश्यकता होती है। उदाहरण के लिए, IoT सेंसर से डेटा भारी हो सकता है, और आगे की प्रक्रिया से पहले सभी डेटा एकत्र करने के लिए IoT हब जैसे बफरिंग एंडपॉइंट का उपयोग करना एक अच्छा अभ्यास है। +
+
2) डाटा स्टोरेज
+
+डेटा स्टोर करना चुनौतीपूर्ण हो सकता है, खासकर अगर हम बड़े डेटा के बारे में बात कर रहे हैं। डेटा को स्टोर करने का तरीका तय करते समय, भविष्य में डेटा को क्वेरी करने के तरीके का अनुमान लगाना समझ में आता है। डेटा को स्टोर करने के कई तरीके हैं: +
    +
  • एक रिलेशनल डेटाबेस तालिकाओं के संग्रह को संग्रहीत करता है, और उन्हें क्वेरी करने के लिए SQL नामक एक विशेष भाषा का उपयोग करता है। आमतौर पर, तालिकाओं को विभिन्न समूहों में व्यवस्थित किया जाता है जिन्हें स्कीमा कहा जाता है। कई मामलों में हमें स्कीमा को फिट करने के लिए डेटा को मूल रूप से परिवर्तित करने की आवश्यकता होती है।
  • +
  • एक NoSQL डेटाबेस, जैसे कि CosmosDB, करता है डेटा पर स्कीमा लागू नहीं करता है, और अधिक जटिल डेटा संग्रहीत करने की अनुमति देता है, उदाहरण के लिए, पदानुक्रमित JSON दस्तावेज़ या ग्राफ़। हालाँकि, NoSQL डेटाबेस में SQL की समृद्ध क्वेरी क्षमता नहीं होती है, और यह संदर्भात्मक अखंडता को लागू नहीं कर सकता है, अर्थात डेटा को तालिकाओं में कैसे संरचित किया जाता है और तालिकाओं के बीच संबंधों को नियंत्रित करने के नियम।
  • +
  • डेटा लेक संग्रहण का उपयोग कच्चे, असंरचित रूप में डेटा के बड़े संग्रह के लिए किया जाता है। डेटा झीलों का उपयोग अक्सर बड़े डेटा के साथ किया जाता है, जहां सभी डेटा एक मशीन पर फिट नहीं हो सकते हैं, और सर्वरों के एक समूह द्वारा संग्रहीत और संसाधित किया जाना है। Parquet डेटा प्रारूप है जिसे अक्सर बड़े डेटा के संयोजन में उपयोग किया जाता है।
  • +
+
+
3) डाटा प्रोसेसिंग
+
+यह डेटा यात्रा का सबसे रोमांचक हिस्सा है, जिसमें डेटा को उसके मूल रूप से एक ऐसे रूप में परिवर्तित करना शामिल है जिसका उपयोग विज़ुअलाइज़ेशन/मॉडल प्रशिक्षण के लिए किया जा सकता है। टेक्स्ट या इमेज जैसे असंरचित डेटा के साथ काम करते समय, हमें डेटा से **फीचर्स** निकालने के लिए कुछ एआई तकनीकों का उपयोग करने की आवश्यकता हो सकती है, इस प्रकार इसे संरचित रूप में परिवर्तित किया जा सकता है। +
+
4) विज़ुअलाइज़ेशन / मानव अंतर्दृष्टि
+
+अक्सर, डेटा को समझने के लिए, हमें इसकी कल्पना करने की आवश्यकता होती है। हमारे टूलबॉक्स में कई अलग-अलग विज़ुअलाइज़ेशन तकनीकें होने से, हम एक अंतर्दृष्टि बनाने के लिए सही दृश्य ढूंढ सकते हैं। अक्सर, एक डेटा वैज्ञानिक को "डेटा के साथ खेलने" की आवश्यकता होती है, इसे कई बार विज़ुअलाइज़ करना और कुछ रिश्तों की तलाश करना। इसके अलावा, हम एक परिकल्पना का परीक्षण करने या डेटा के विभिन्न टुकड़ों के बीच संबंध साबित करने के लिए सांख्यिकीय तकनीकों का उपयोग कर सकते हैं। +
+
5) एक भविष्य कहनेवाला मॉडल प्रशिक्षण
+
+चूंकि डेटा विज्ञान का अंतिम लक्ष्य डेटा के आधार पर निर्णय लेने में सक्षम होना है, इसलिए हम मशीन लर्निंग की तकनीकों का उपयोग करना चाह सकते हैं। एक भविष्य कहनेवाला मॉडल बनाने के लिए। इसके बाद हम समान संरचनाओं वाले नए डेटा सेट का उपयोग करके भविष्यवाणियां करने के लिए इसका उपयोग कर सकते हैं। +
+
+ +बेशक, वास्तविक डेटा के आधार पर, कुछ चरण गायब हो सकते हैं (उदाहरण के लिए, जब हमारे पास पहले से ही डेटाबेस में डेटा है, या जब हमें मॉडल प्रशिक्षण की आवश्यकता नहीं है), या कुछ चरणों को कई बार दोहराया जा सकता है (जैसे डेटा प्रोसेसिंग ) + +## डिजिटलीकरण और डिजिटल परिवर्तन + +पिछले दशक में, कई व्यवसायों ने व्यावसायिक निर्णय लेते समय डेटा के महत्व को समझना शुरू कर दिया। व्यवसाय चलाने के लिए डेटा विज्ञान सिद्धांतों को लागू करने के लिए, पहले कुछ डेटा एकत्र करने की आवश्यकता होती है, अर्थात व्यावसायिक प्रक्रियाओं का डिजिटल रूप में अनुवाद करना। इसे **डिजिटलाइजेशन** के नाम से जाना जाता है। निर्णयों को निर्देशित करने के लिए इस डेटा में डेटा विज्ञान तकनीकों को लागू करने से उत्पादकता (या यहां तक ​​कि व्यावसायिक धुरी) में उल्लेखनीय वृद्धि हो सकती है, जिसे **डिजिटल परिवर्तन** कहा जाता है। + +आइए एक उदाहरण पर विचार करें। मान लीजिए कि हमारे पास एक डेटा विज्ञान पाठ्यक्रम है (जैसे यह एक) जिसे हम छात्रों को ऑनलाइन वितरित करते हैं, और हम इसे सुधारने के लिए डेटा विज्ञान का उपयोग करना चाहते हैं। हम यह कैसे कर सकते हैं? + +हम "क्या डिजीटल किया जा सकता है?" पूछकर शुरू कर सकते हैं। सबसे आसान तरीका यह होगा कि प्रत्येक छात्र को प्रत्येक मॉड्यूल को पूरा करने में लगने वाले समय को मापें, और प्रत्येक मॉड्यूल के अंत में एक बहुविकल्पीय परीक्षा देकर प्राप्त ज्ञान को मापें। सभी छात्रों में औसत समय-से-पूरा करके, हम यह पता लगा सकते हैं कि कौन से मॉड्यूल छात्रों के लिए सबसे अधिक कठिनाइयों का कारण बनते हैं, और उन्हें सरल बनाने पर काम करते हैं। + +> आप तर्क दे सकते हैं कि यह दृष्टिकोण आदर्श नहीं है, क्योंकि मॉड्यूल अलग-अलग लंबाई के हो सकते हैं। मॉड्यूल की लंबाई (वर्णों की संख्या में) से समय को विभाजित करना शायद अधिक उचित है, और इसके बजाय उन मानों की तुलना करें। + +जब हम बहुविकल्पीय परीक्षणों के परिणामों का विश्लेषण करना शुरू करते हैं, तो हम यह निर्धारित करने का प्रयास कर सकते हैं कि छात्रों को किन अवधारणाओं को समझने में कठिनाई होती है, और उस जानकारी का उपयोग सामग्री को बेहतर बनाने के लिए कर सकते हैं। ऐसा करने के लिए, हमें परीक्षणों को इस तरह से डिजाइन करने की आवश्यकता है कि प्रत्येक प्रश्न एक निश्चित अवधारणा या ज्ञान के हिस्से से मेल खाता हो। + +यदि हम और अधिक जटिल होना चाहते हैं, तो हम छात्रों की आयु वर्ग के विरुद्ध प्रत्येक मॉड्यूल के लिए लिए गए समय को प्लॉट कर सकते हैं। हमें पता चल सकता है कि कुछ आयु वर्गों के लिए मॉड्यूल को पूरा करने में अनुचित रूप से लंबा समय लगता है, या छात्र इसे पूरा करने से पहले छोड़ देते हैं। यह हमें मॉड्यूल के लिए उम्र की सिफारिशें प्रदान करने में मदद कर सकता है, और गलत उम्मीदों से लोगों के असंतोष को कम कर सकता है। + +## 🚀 चुनौती + +इस चुनौती में, हम ग्रंथों को देखकर डेटा विज्ञान के क्षेत्र से प्रासंगिक अवधारणाओं को खोजने का प्रयास करेंगे। हम डेटा विज्ञान पर एक विकिपीडिया लेख लेंगे, पाठ को डाउनलोड और संसाधित करेंगे, और फिर इस तरह एक शब्द क्लाउड का निर्माण करेंगे: + +![डेटा साइंस के लिए वर्ड क्लाउड](images/ds_wordcloud.png) + +Visit [`notebook.ipynb`](/1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') कोड के माध्यम से पढ़ने के लिए। आप कोड भी चला सकते हैं, और देख सकते हैं कि यह वास्तविक समय में सभी डेटा परिवर्तन कैसे करता है। + +> यदि आप नहीं जानते कि जुपिटर नोटबुक में कोड कैसे चलाना है, तो एक नज़र डालें [this article](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). + + + +## [Post-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/1) + +## कार्य (Assignments) + +* **कार्य 1**: **बिग डेटा** और **मशीन लर्निंग** के क्षेत्रों के लिए संबंधित अवधारणाओं का पता लगाने के लिए ऊपर दिए गए कोड को संशोधित करें +* **कार्य 2**: [डेटा विज्ञान परिदृश्यों के बारे में सोचें](assignment.md) + +## क्रेडिट + +यह पाठ ♥️ के साथ [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा लिखा गया है। और इस्का हिंदी अनुवाद [सचिन दाभाड़े](https://www.github.com/SachinDabhade) ने किया है \ No newline at end of file From abf5a7321985520142ba229a908bc615e1c1d203 Mon Sep 17 00:00:00 2001 From: Sachin Date: Thu, 10 Mar 2022 09:07:29 +0530 Subject: [PATCH 03/35] Add translation of Defining Data Science in Hindi --- .../01-defining-data-science/translations}/README.hi.md | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename {translations => 1-Introduction/01-defining-data-science/translations}/README.hi.md (100%) diff --git a/translations/README.hi.md b/1-Introduction/01-defining-data-science/translations/README.hi.md similarity index 100% rename from translations/README.hi.md rename to 1-Introduction/01-defining-data-science/translations/README.hi.md From ecb96e0f828276ded910b76016f1f9b68992fc3b Mon Sep 17 00:00:00 2001 From: Sachin Date: Thu, 10 Mar 2022 09:43:22 +0530 Subject: [PATCH 04/35] Add translation of 1-Introduction/02-ethics/translation/assignment.hi.md --- .../02-ethics/translations/assignment.hi.md | 19 +++++++++++++++++++ 1 file changed, 19 insertions(+) create mode 100644 1-Introduction/02-ethics/translations/assignment.hi.md diff --git a/1-Introduction/02-ethics/translations/assignment.hi.md b/1-Introduction/02-ethics/translations/assignment.hi.md new file mode 100644 index 00000000..bd960bd8 --- /dev/null +++ b/1-Introduction/02-ethics/translations/assignment.hi.md @@ -0,0 +1,19 @@ +## डेटा एथिक्स केस स्टडी लिखें + +## निर्देश + +आपने विभिन्न [डेटा नैतिकता चुनौतियों](README?id=_2-ethics-challenges) के बारे में सीखा है और [केस स्टडीज](README?id=_3-case-studies) के कुछ उदाहरण देखे हैं जो वास्तविक दुनिया में डेटा नैतिकता चुनौतियों को दर्शाते हैं। संदर्भ + +इस असाइनमेंट में, आप अपना खुद का केस स्टडी लिखेंगे, जो आपके अपने अनुभव से, या एक प्रासंगिक वास्तविक दुनिया के संदर्भ से डेटा नैतिकता चुनौती को दर्शाता है जिससे आप परिचित हैं। बस इन चरणों का पालन करें: + +1. `एक डेटा नैतिकता चुनौती चुनें'। प्रेरणा पाने के लिए [पाठ के उदाहरण](README?id=_2-ethics-challenges) देखें या [डीऑन चेकलिस्ट](https://deon.drivedata.org/examples/) जैसे ऑनलाइन उदाहरण देखें। + +2. `एक वास्तविक विश्व उदाहरण का वर्णन करें`। ऐसी स्थिति के बारे में सोचें जिसके बारे में आपने सुना है (शीर्षक, शोध अध्ययन इत्यादि) या अनुभवी (स्थानीय समुदाय), जहां यह विशिष्ट चुनौती हुई। चुनौती से संबंधित डेटा नैतिकता के सवालों के बारे में सोचें - और इस मुद्दे के कारण उत्पन्न होने वाले संभावित नुकसान या अनपेक्षित परिणामों पर चर्चा करें। बोनस अंक: संभावित समाधानों या प्रक्रियाओं के बारे में सोचें जिन्हें इस चुनौती के प्रतिकूल प्रभाव को खत्म करने या कम करने में मदद के लिए यहां लागू किया जा सकता है। + +3. `संबंधित संसाधन सूची प्रदान करें`। यह साबित करने के लिए कि यह एक वास्तविक दुनिया की घटना थी, एक या अधिक संसाधन (एक लेख, एक व्यक्तिगत ब्लॉग पोस्ट या छवि, ऑनलाइन शोध पत्र आदि के लिंक) साझा करें। बोनस अंक: संसाधनों को साझा करें जो घटना से संभावित नुकसान और परिणामों को भी प्रदर्शित करते हैं, या इसकी पुनरावृत्ति को रोकने के लिए उठाए गए सकारात्मक कदमों को उजागर करते हैं। + +## सरनामा + +अनुकरणीय | पर्याप्त | सुधार की जरूरत +--- | --- | -- | +एक या अधिक डेटा नैतिकता चुनौतियों की पहचान की जाती है।

केस स्टडी स्पष्ट रूप से एक वास्तविक दुनिया की घटना का वर्णन करती है जो उस चुनौती को दर्शाती है, और अवांछनीय परिणामों या इससे होने वाले नुकसान को उजागर करती है।

यह साबित करने के लिए कम से कम एक लिंक किया गया संसाधन है। | एक डेटा नैतिकता चुनौती की पहचान की गई है।

कम से कम एक प्रासंगिक नुकसान या परिणाम पर संक्षेप में चर्चा की गई है।

हालांकि चर्चा सीमित है या वास्तविक दुनिया की घटना के प्रमाण का अभाव है। | एक डेटा चुनौती की पहचान की जाती है।

हालांकि विवरण या संसाधन चुनौती को पर्याप्त रूप से प्रतिबिंबित नहीं करते हैं या यह साबित नहीं करते हैं कि यह वास्तविक दुनिया की घटना है। | \ No newline at end of file From 59a7fa86143748e62b6bc468a274298c0f0bb466 Mon Sep 17 00:00:00 2001 From: Sachin Date: Thu, 10 Mar 2022 09:57:54 +0530 Subject: [PATCH 05/35] Add hindi translation of 1-Introduction/04-stats-and-probability/translations/assignment.hi.md --- .../translations/assignment.hi.md | 25 +++++++++++++++++++ 1 file changed, 25 insertions(+) create mode 100644 1-Introduction/04-stats-and-probability/translations/assignment.hi.md diff --git a/1-Introduction/04-stats-and-probability/translations/assignment.hi.md b/1-Introduction/04-stats-and-probability/translations/assignment.hi.md new file mode 100644 index 00000000..244ae56b --- /dev/null +++ b/1-Introduction/04-stats-and-probability/translations/assignment.hi.md @@ -0,0 +1,25 @@ +# लघु मधुमेह अध्ययन +इस असाइनमेंट में, हम [यहाँ](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html) से लिए गए मधुमेह रोगियों के एक छोटे डेटासेट के साथ काम करेंगे। + +| | AGE | SEX | BMI | BP | S1 | S2 | S3 | S4 | S5 | S6 | Y | +|---|-----|-----|-----|----|----|----|----|----|----|----|----| +| 0 | 59 | 2 | 32.1 | 101. | 157 | 93.2 | 38.0 | 4. | 4.8598 | 87 | 151 | +| 1 | 48 | 1 | 21.6 | 87.0 | 183 | 103.2 | 70. | 3. | 3.8918 | 69 | 75 | +| 2 | 72 | 2 | 30.5 | 93.0 | 156 | 93.6 | 41.0 | 4.0 | 4. | 85 | 141 | +| ... | ... | ... | ... | ...| ...| ...| ...| ...| ...| ...| ... | + +## निर्देश + +* ज्यूपिटर नोटबुक वातावरण में [असाइनमेंट नोटबुक] (असाइनमेंट.आईपीएनबी) खोलें +* नोटबुक में सूचीबद्ध सभी कार्यों को पूरा करें, अर्थात्: + * [] सभी मूल्यों के लिए माध्य मान और विचरण की गणना करें + * [ ] लिंग के आधार पर बीएमआई, बीपी और वाई के लिए प्लॉट बॉक्सप्लॉट + * [ ] आयु, लिंग, बीएमआई और वाई चर का वितरण क्या है? + * [ ] विभिन्न चर और रोग प्रगति के बीच सहसंबंध का परीक्षण करें (Y) + * [ ] इस परिकल्पना का परीक्षण करें कि पुरुषों और महिलाओं के बीच मधुमेह की प्रगति की डिग्री अलग है + +## सरनामा + +अनुकरणीय | पर्याप्त | सुधार की जरूरत +--- | --- | -- | +सभी आवश्यक कार्य पूर्ण, ग्राफिक रूप से सचित्र और समझाया गया है | अधिकांश कार्य पूर्ण हैं, ग्राफ़ और/या प्राप्त मूल्यों से स्पष्टीकरण या टेकअवे गायब हैं | केवल मूल कार्य जैसे माध्य/विचरण की गणना और मूल प्लॉट पूरे होते हैं, डेटा से कोई निष्कर्ष नहीं निकाला जाता है \ No newline at end of file From bab244140b42c0c552ed59cd60812a5a58f0be68 Mon Sep 17 00:00:00 2001 From: Sachin Date: Thu, 10 Mar 2022 10:43:17 +0530 Subject: [PATCH 06/35] Added hindi translation 1-Introduction/04-stats-and-probability/translations/README.md --- .../translations/README.hi.md | 268 ++++++++++++++++++ 1 file changed, 268 insertions(+) create mode 100644 1-Introduction/04-stats-and-probability/translations/README.hi.md diff --git a/1-Introduction/04-stats-and-probability/translations/README.hi.md b/1-Introduction/04-stats-and-probability/translations/README.hi.md new file mode 100644 index 00000000..245dfb15 --- /dev/null +++ b/1-Introduction/04-stats-and-probability/translations/README.hi.md @@ -0,0 +1,268 @@ +# सांख्यिकी और संभाव्यता का संक्षिप्त परिचय + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/04-Statistics-Probability.png)| +|:---:| +| सांख्यिकी और संभावना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +सांख्यिकी और संभाव्यता सिद्धांत गणित के दो अत्यधिक संबंधित क्षेत्र हैं जो डेटा विज्ञान के लिए अत्यधिक प्रासंगिक हैं। गणित के गहन ज्ञान के बिना डेटा के साथ काम करना संभव है, लेकिन कम से कम कुछ बुनियादी अवधारणाओं को जानना अभी भी बेहतर है। यहां हम एक संक्षिप्त परिचय प्रस्तुत करेंगे जो आपको आरंभ करने में मदद करेगा। + +[![Intro Video](images/video-prob-and-stats.png)](https://youtu.be/Z5Zy85g4Yjw) + + +## [Pre-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/6) + +## प्रायिकता और यादृच्छिक चर + +**प्रायिकता** 0 और 1 के बीच की एक संख्या है जो यह व्यक्त करती है कि **ईवेंट** कितनी संभावित है। इसे कई सकारात्मक परिणामों के रूप में परिभाषित किया गया है (जो घटना की ओर ले जाते हैं), परिणामों की कुल संख्या से विभाजित, यह देखते हुए कि सभी परिणाम समान रूप से संभावित हैं। उदाहरण के लिए, जब हम एक पासे को उछालते हैं, तो हमें एक सम संख्या प्राप्त होने की प्रायिकता 3/6 = 0.5 होती है। + +जब हम घटनाओं के बारे में बात करते हैं, तो हम **यादृच्छिक चर** का उपयोग करते हैं। उदाहरण के लिए, यादृच्छिक चर जो एक पासे को घुमाते समय प्राप्त संख्या का प्रतिनिधित्व करता है, 1 से 6 तक मान लेगा। 1 से 6 तक की संख्याओं के सेट को **नमूना स्थान** कहा जाता है। हम एक निश्चित मान लेने वाले यादृच्छिक चर की संभावना के बारे में बात कर सकते हैं, उदाहरण के लिए पी (एक्स = 3) = 1/6। + +पिछले उदाहरण में यादृच्छिक चर को **असतत** कहा जाता है, क्योंकि इसमें एक गणनीय नमूना स्थान होता है, अर्थात अलग-अलग मान होते हैं जिन्हें गिना जा सकता है। ऐसे मामले हैं जब नमूना स्थान वास्तविक संख्याओं की एक श्रृंखला है, या वास्तविक संख्याओं का पूरा सेट है। ऐसे चरों को **सतत** कहा जाता है। एक अच्छा उदाहरण वह समय है जब बस आती है। + +## प्रायिकता वितरण + +असतत यादृच्छिक चर के मामले में, फ़ंक्शन P(X) द्वारा प्रत्येक घटना की प्रायिकता का वर्णन करना आसान है। नमूना स्थान *S* से प्रत्येक मान *s* के लिए यह 0 से 1 तक की संख्या देगा, जैसे कि सभी घटनाओं के लिए P(X=s) के सभी मानों का योग 1 होगा। + +सबसे प्रसिद्ध असतत वितरण **समान वितरण** है, जिसमें N तत्वों का एक नमूना स्थान होता है, जिनमें से प्रत्येक के लिए 1/N की समान संभावना होती है। + +एक सतत चर के संभाव्यता वितरण का वर्णन करना अधिक कठिन है, कुछ अंतराल [ए, बी], या वास्तविक संख्याओं के पूरे सेट से लिए गए मानों के साथ ℝ। बस आगमन समय के मामले पर विचार करें। वास्तव में, प्रत्येक सटीक आगमन समय *t* के लिए, ठीक उसी समय पर बस के आने की प्रायिकता 0 है! + +> अब आप जानते हैं कि 0 प्रायिकता वाली घटनाएँ होती हैं, और बहुत बार! कम से कम हर बार जब बस आती है! + +हम केवल दिए गए मानों के अंतराल में एक चर के गिरने की प्रायिकता के बारे में बात कर सकते हैं, उदाहरण के लिए। P(t1≤X<t2)। इस मामले में, प्रायिकता बंटन को **प्रायिकता घनत्व फलन** p(x) द्वारा वर्णित किया जाता है, जैसे कि + +![P(t_1\le X1, x2, ..., xn। हम पारंपरिक तरीके से अनुक्रम के **माध्य** (या **अंकगणित औसत**) मान को परिभाषित कर सकते हैं (x1+x2+xएन)/एन। जैसे-जैसे हम नमूने का आकार बढ़ाते हैं (अर्थात n&rr;∞ के साथ सीमा लेते हैं), हम वितरण का माध्य (जिसे **अपेक्षा** भी कहते हैं) प्राप्त करेंगे। हम उम्मीद को **E**(x) से निरूपित करेंगे। +> यह प्रदर्शित किया जा सकता है कि मूल्यों के साथ किसी भी असतत वितरण के लिए {x1, x2, ..., xN} and corresponding probabilities p1, p2, ..., pN, the expectation would equal to E(X)=x1p1+x2p2+...+xNpN. + +यह पहचानने के लिए कि मान कितनी दूर तक फैले हुए हैं, हम प्रसरण की गणना कर सकते हैं σ2 = ∑(xi - μ)2/ एन, जहां & एमयू; अनुक्रम का माध्य है। मूल्य &सिग्मा; इसे **मानक विचलन** कहा जाता है, और σ2 को **विचरण** कहा जाता है। + +## बहुलक, माध्यिका और चतुर्थक + +कभी-कभी, माध्य डेटा के लिए "विशिष्ट" मान का पर्याप्त रूप से प्रतिनिधित्व नहीं करता है। उदाहरण के लिए, जब कुछ चरम मान पूरी तरह से सीमा से बाहर होते हैं, तो वे माध्य को प्रभावित कर सकते हैं। एक और अच्छा संकेत एक **माध्य** है, एक मान ऐसा है कि आधा डेटा बिंदु इससे कम है, और दूसरा आधा - अधिक है। + +डेटा के वितरण को समझने में हमारी मदद करने के लिए, **चतुर्थक** के बारे में बात करना मददगार होगा: + +* प्रथम चतुर्थक, या Q1, एक मान है, जैसे कि 25% डेटा इससे नीचे आता है +* तीसरा चतुर्थक, या Q3, एक मान है कि 75% डेटा इससे नीचे आता है + +ग्राफिक रूप से हम **बॉक्स प्लॉट** नामक आरेख में माध्यिका और चतुर्थक के बीच संबंध का प्रतिनिधित्व कर सकते हैं: + + + +यहां हम **अंतर-चतुर्थक श्रेणी** IQR=Q3-Q1, और तथाकथित **आउटलेयर** - मानों की भी गणना करते हैं, जो सीमाओं के बाहर होते हैं [Q1-1.5*IQR,Q3+1.5*IQR]। + +परिमित वितरण के लिए जिसमें कम संख्या में संभावित मान होते हैं, एक अच्छा "विशिष्ट" मान वह होता है जो सबसे अधिक बार प्रकट होता है, जिसे **मोड** कहा जाता है। इसे अक्सर रंग जैसे श्रेणीबद्ध डेटा पर लागू किया जाता है। एक ऐसी स्थिति पर विचार करें जब हमारे पास लोगों के दो समूह हों - कुछ जो लाल रंग को अधिक पसंद करते हैं, और अन्य जो नीले रंग को पसंद करते हैं। यदि हम रंगों को संख्याओं के आधार पर कोडित करते हैं, तो पसंदीदा रंग का माध्य मान नारंगी-हरे रंग के स्पेक्ट्रम में कहीं होगा, जो किसी भी समूह पर वास्तविक वरीयता को इंगित नहीं करता है। हालांकि, मोड या तो रंगों में से एक होगा, या दोनों रंग, यदि उनके लिए मतदान करने वाले लोगों की संख्या बराबर है (इस मामले में हम नमूने को **मल्टीमॉडल** कहते हैं)। + +## वास्तविक दुनिया का डेटा + +जब हम वास्तविक जीवन से डेटा का विश्लेषण करते हैं, तो वे अक्सर यादृच्छिक चर नहीं होते हैं, इस अर्थ में कि हम अज्ञात परिणाम के साथ प्रयोग नहीं करते हैं। उदाहरण के लिए, बेसबॉल खिलाड़ियों की एक टीम और उनके शरीर के डेटा, जैसे ऊंचाई, वजन और उम्र पर विचार करें। वे संख्याएँ बिल्कुल यादृच्छिक नहीं हैं, लेकिन हम अभी भी उन्हीं गणितीय अवधारणाओं को लागू कर सकते हैं। उदाहरण के लिए, लोगों के वजन के अनुक्रम को कुछ यादृच्छिक चर से निकाले गए मानों का अनुक्रम माना जा सकता है। [इस डेटासेट] (http://wiki.stat.ucla.edu) से लिए गए [मेजर लीग बेसबॉल](http://mlb.mlb.com/index.jsp) से वास्तविक बेसबॉल खिलाड़ियों के वज़न का क्रम नीचे दिया गया है /socr/index.php/SOCR_Data_MLB_HeightsWeights) (आपकी सुविधा के लिए, केवल पहले 20 मान दिखाए गए हैं): + + +``` +[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0] +``` + +> **नोट**: इस डेटासेट के साथ काम करने का उदाहरण देखने के लिए, [साथ वाली नोटबुक](notebook.ipynb) पर एक नज़र डालें। इस पूरे पाठ में कई चुनौतियाँ भी हैं, और आप उस नोटबुक में कुछ कोड जोड़कर उन्हें पूरा कर सकते हैं। यदि आप सुनिश्चित नहीं हैं कि डेटा पर कैसे काम करना है, तो चिंता न करें - हम बाद में पायथन का उपयोग करके डेटा के साथ काम करने के लिए वापस आएंगे। यदि आप जुपिटर नोटबुक में कोड चलाना नहीं जानते हैं, तो [इस लेख] (https://soshnikov.com/education/how-to-execute-notebooks-from-github/) पर एक नज़र डालें। + +हमारे डेटा के लिए माध्य, माध्यिका और चतुर्थक दिखाने वाला बॉक्स प्लॉट यहां दिया गया है: + +![वेट बॉक्स प्लॉट](images/weight-boxplot.png) + +चूंकि हमारे डेटा में अलग-अलग खिलाड़ी **भूमिकाएं** के बारे में जानकारी है, इसलिए हम भूमिका के आधार पर बॉक्स प्लॉट भी कर सकते हैं - यह हमें यह विचार प्राप्त करने की अनुमति देगा कि कैसे पैरामीटर मान भूमिकाओं में भिन्न होते हैं। इस बार हम ऊंचाई पर विचार करेंगे: + +![भूमिका के अनुसार बॉक्स प्लॉट](images/boxplot_byrole.png) + +यह आरेख बताता है कि, औसतन, पहले बेसमेन की ऊंचाई दूसरे बेसमेन की ऊंचाई से अधिक होती है। बाद में इस पाठ में हम सीखेंगे कि हम इस परिकल्पना का अधिक औपचारिक रूप से परीक्षण कैसे कर सकते हैं, और यह कैसे प्रदर्शित करें कि हमारा डेटा सांख्यिकीय रूप से महत्वपूर्ण है। + +> वास्तविक दुनिया के डेटा के साथ काम करते समय, हम मानते हैं कि सभी डेटा बिंदु कुछ संभाव्यता वितरण से लिए गए नमूने हैं। यह धारणा हमें मशीन लर्निंग तकनीकों को लागू करने और कार्यशील भविष्य कहनेवाला मॉडल बनाने की अनुमति देती है। + +यह देखने के लिए कि हमारे डेटा का वितरण क्या है, हम एक ग्राफ बना सकते हैं जिसे **हिस्टोग्राम** कहा जाता है। एक्स-अक्ष में कई अलग-अलग वज़न अंतराल (तथाकथित **बिन्स**) होंगे, और ऊर्ध्वाधर अक्ष दिखाएगा कि हमारा यादृच्छिक चर नमूना किसी दिए गए अंतराल के अंदर कितनी बार था। + +![वास्तविक विश्व डेटा का हिस्टोग्राम](images/weight-histogram.png) + +इस हिस्टोग्राम से आप देख सकते हैं कि सभी मान निश्चित औसत वजन के आसपास केंद्रित होते हैं, और हम उस वजन से जितना आगे जाते हैं - उस मान के कम वजन का सामना करना पड़ता है। यानी, यह बहुत ही असंभव है कि बेसबॉल खिलाड़ी का वजन औसत वजन से बहुत अलग होगा। भार में भिन्नता यह दर्शाती है कि भार किस हद तक माध्य से भिन्न होने की संभावना है। + +> अगर हम बेसबॉल लीग से नहीं, बल्कि अन्य लोगों का वजन लेते हैं, तो वितरण अलग होने की संभावना है। हालाँकि, वितरण का आकार समान होगा, लेकिन माध्य और विचरण बदल जाएगा। इसलिए, यदि हम अपने मॉडल को बेसबॉल खिलाड़ियों पर प्रशिक्षित करते हैं, तो विश्वविद्यालय के छात्रों पर लागू होने पर यह गलत परिणाम देने की संभावना है, क्योंकि अंतर्निहित वितरण अलग है। + +## सामान्य वितरण + +वजन का वितरण जो हमने ऊपर देखा है वह बहुत विशिष्ट है, और वास्तविक दुनिया से कई माप एक ही प्रकार के वितरण का पालन करते हैं, लेकिन अलग-अलग माध्य और भिन्नता के साथ। इस वितरण को **सामान्य वितरण** कहा जाता है, और यह आंकड़ों में बहुत महत्वपूर्ण भूमिका निभाता है। + +सामान्य वितरण का उपयोग करना संभावित बेसबॉल खिलाड़ियों के यादृच्छिक भार उत्पन्न करने का एक सही तरीका है। एक बार जब हम माध्य वजन `माध्य` और मानक विचलन `एसटीडी` जान लेते हैं, तो हम निम्नलिखित तरीके से 1000 वजन के नमूने तैयार कर सकते हैं: +```python +samples = np.random.normal(mean,std,1000) +``` + +यदि हम उत्पन्न नमूनों के हिस्टोग्राम की साजिश करते हैं तो हम ऊपर दिखाए गए चित्र के समान ही चित्र देखेंगे। और अगर हम नमूनों की संख्या और डिब्बे की संख्या में वृद्धि करते हैं, तो हम एक सामान्य वितरण की एक तस्वीर उत्पन्न कर सकते हैं जो आदर्श के अधिक करीब है: + +![माध्य = 0 और एसटीडी.देव = 1 के साथ सामान्य वितरण](images/normal-histogram.png) + + +*माध्य = 0 और std.dev=1* के साथ सामान्य वितरण + +## विश्वास अंतराल + +जब हम बेसबॉल खिलाड़ियों के वजन के बारे में बात करते हैं, तो हम मानते हैं कि कुछ निश्चित **यादृच्छिक चर W** है जो सभी बेसबॉल खिलाड़ियों (तथाकथित **जनसंख्या**) के वजन के आदर्श संभाव्यता वितरण से मेल खाती है। वजन का हमारा क्रम सभी बेसबॉल खिलाड़ियों के एक उपसमुच्चय से मेल खाता है जिसे हम **नमूना** कहते हैं। एक दिलचस्प सवाल यह है कि क्या हम डब्ल्यू के वितरण के मापदंडों को जान सकते हैं, यानी जनसंख्या का माध्य और विचरण? + +सबसे आसान उत्तर हमारे नमूने के माध्य और विचरण की गणना करना होगा। हालाँकि, ऐसा हो सकता है कि हमारा यादृच्छिक नमूना पूर्ण जनसंख्या का सटीक रूप से प्रतिनिधित्व नहीं करता है। इस प्रकार **कॉन्फिडेंस इंटरवल** के बारे में बात करना समझ में आता है। + +> **विश्वास अंतराल** हमारे नमूने को देखते हुए जनसंख्या के वास्तविक माध्य का अनुमान है, जो एक निश्चित प्रायिकता (या **विश्वास का स्तर**) सटीक है। + +मान लीजिए हमारे पास हमारे वितरण से एक नमूना X1, ..., Xn है। हर बार जब हम अपने वितरण से एक नमूना लेते हैं, तो हम अलग-अलग माध्य मान के साथ समाप्त होते हैं। इस प्रकार μ एक यादृच्छिक चर माना जा सकता है। एक **विश्वास अंतराल** विश्वास के साथ p मानों की एक जोड़ी है (Lp,Rp), जैसे कि **P**(Lp ≤μ≤Rp) = p, यानी अंतराल के भीतर मापे गए माध्य मान के गिरने की प्रायिकता p के बराबर होती है। + +यह विस्तार से चर्चा करने के लिए हमारे संक्षिप्त परिचय से परे है कि उन आत्मविश्वास अंतराल की गणना कैसे की जाती है। कुछ और विवरण [विकिपीडिया पर](https://en.wikipedia.org/wiki/Confidence_interval) देखे जा सकते हैं। संक्षेप में, हम जनसंख्या के वास्तविक माध्य के सापेक्ष परिकलित नमूना माध्य के वितरण को परिभाषित करते हैं, जिसे **छात्र वितरण** कहा जाता है। + +> **दिलचस्प तथ्य**: छात्र वितरण का नाम गणितज्ञ विलियम सीली गॉसेट के नाम पर रखा गया है, जिन्होंने छद्म नाम "स्टूडेंट" के तहत अपना पेपर प्रकाशित किया था। उन्होंने गिनीज शराब की भठ्ठी में काम किया, और, एक संस्करण के अनुसार, उनके नियोक्ता नहीं चाहते थे कि आम जनता को पता चले कि वे कच्चे माल की गुणवत्ता निर्धारित करने के लिए सांख्यिकीय परीक्षणों का उपयोग कर रहे थे। + +If we want to estimate the mean μ of our population with confidence p, we need to take *(1-p)/2-th percentile* of a Student distribution A, which can either be taken from tables, or computer using some built-in functions of statistical software (eg. Python, R, etc.). Then the interval for μ would be given by X±A*D/√n, where X is the obtained mean of the sample, D is the standard deviation. + +> **Note**: We also omit the discussion of an important concept of [degrees of freedom](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)), which is important in relation to Student distribution. You can refer to more complete books on statistics to understand this concept deeper. + +An example of calculating confidence interval for weights and heights is given in the [accompanying notebooks](notebook.ipynb). + +| p | Weight mean | +|-----|-----------| +| 0.85 | 201.73±0.94 | +| 0.90 | 201.73±1.08 | +| 0.95 | 201.73±1.28 | + +ध्यान दें कि आत्मविश्वास की संभावना जितनी अधिक होगी, विश्वास अंतराल उतना ही व्यापक होगा। + +## परिकल्पना परीक्षण + +हमारे बेसबॉल खिलाड़ियों के डेटासेट में, अलग-अलग खिलाड़ी भूमिकाएँ होती हैं, जिन्हें नीचे संक्षेप में प्रस्तुत किया जा सकता है (इस तालिका की गणना कैसे की जा सकती है, यह देखने के लिए [साथ वाली नोटबुक](notebook.ipynb) देखें): + +| Role | Height | Weight | Count | +|------|--------|--------|-------| +| Catcher | 72.723684 | 204.328947 | 76 | +| Designated_Hitter | 74.222222 | 220.888889 | 18 | +| First_Baseman | 74.000000 | 213.109091 | 55 | +| Outfielder | 73.010309 | 199.113402 | 194 | +| Relief_Pitcher | 74.374603 | 203.517460 | 315 | +| Second_Baseman | 71.362069 | 184.344828 | 58 | +| Shortstop | 71.903846 | 182.923077 | 52 | +| Starting_Pitcher | 74.719457 | 205.163636 | 221 | +| Third_Baseman | 73.044444 | 200.955556 | 45 | + +हम देख सकते हैं कि पहले बेसमेन की औसत ऊंचाई दूसरे बेसमेन की तुलना में अधिक है। इस प्रकार, हम यह निष्कर्ष निकालने के लिए ललचा सकते हैं कि **पहले बेसमेन दूसरे बेसमेन से अधिक हैं**। + +> इस कथन को **एक परिकल्पना** कहा जाता है, क्योंकि हम नहीं जानते कि तथ्य वास्तव में सत्य है या नहीं। + +हालांकि, यह हमेशा स्पष्ट नहीं होता है कि क्या हम यह निष्कर्ष निकाल सकते हैं। ऊपर की चर्चा से हम जानते हैं कि प्रत्येक माध्य का एक संबद्ध विश्वास अंतराल होता है, और इस प्रकार यह अंतर केवल एक सांख्यिकीय त्रुटि हो सकता है। हमें अपनी परिकल्पना का परीक्षण करने के लिए कुछ और औपचारिक तरीके की आवश्यकता है। + +आइए पहले और दूसरे बेसमेन की ऊंचाई के लिए अलग-अलग आत्मविश्वास अंतराल की गणना करें: + +| Confidence | First Basemen | Second Basemen | +|------------|---------------|----------------| +| 0.85 | 73.62..74.38 | 71.04..71.69 | +| 0.90 | 73.56..74.44 | 70.99..71.73 | +| 0.95 | 73.47..74.53 | 70.92..71.81 | + +हम देख सकते हैं कि बिना किसी विश्वास के अंतराल ओवरलैप हो जाते हैं। इससे हमारी परिकल्पना सिद्ध होती है कि पहले बेसमेन दूसरे बेसमेन से ऊंचे होते हैं। + +अधिक औपचारिक रूप से, हम जिस समस्या को हल कर रहे हैं वह यह देखना है कि क्या **दो संभाव्यता वितरण समान हैं**, या कम से कम समान पैरामीटर हैं। वितरण के आधार पर, हमें उसके लिए विभिन्न परीक्षणों का उपयोग करने की आवश्यकता है। यदि हम जानते हैं कि हमारे वितरण सामान्य हैं, तो हम **[स्टूडेंट टी-टेस्ट](https://en.wikipedia.org/wiki/Student%27s_t-test)** लागू कर सकते हैं। + +स्टूडेंट टी-टेस्ट में, हम तथाकथित **टी-वैल्यू** की गणना करते हैं, जो भिन्नता को ध्यान में रखते हुए, साधनों के बीच अंतर को इंगित करता है। यह प्रदर्शित किया जाता है कि टी-मान **छात्र वितरण** का अनुसरण करता है, जो हमें दिए गए आत्मविश्वास स्तर **p** के लिए थ्रेशोल्ड मान प्राप्त करने की अनुमति देता है (इसकी गणना की जा सकती है, या संख्यात्मक तालिकाओं में देखा जा सकता है)। फिर हम परिकल्पना को स्वीकृत या अस्वीकार करने के लिए टी-मान की तुलना इस सीमा से करते हैं। + +पायथन में, हम **SciPy** पैकेज का उपयोग कर सकते हैं, जिसमें `ttest_ind` फ़ंक्शन शामिल है (कई अन्य उपयोगी सांख्यिकीय कार्यों के अलावा!)। यह हमारे लिए टी-वैल्यू की गणना करता है, और कॉन्फिडेंस पी-वैल्यू की रिवर्स लुकअप भी करता है, ताकि हम निष्कर्ष निकालने के लिए कॉन्फिडेंस को देख सकें। + +उदाहरण के लिए, पहले और दूसरे बेसमेन की ऊंचाई के बीच हमारी तुलना हमें निम्नलिखित परिणाम देती है: + +```python +from scipy.stats import ttest_ind + +tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False) +print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}") +``` +``` +T-value = 7.65 +P-value: 9.137321189738925e-12 +``` + +हमारे मामले में, पी-वैल्यू बहुत कम है, जिसका अर्थ है कि इस बात का समर्थन करने वाले मजबूत सबूत हैं कि पहले बेसमेन लम्बे होते हैं। + +अन्य विभिन्न प्रकार की परिकल्पनाएँ भी हैं जिनका हम परीक्षण करना चाहते हैं, उदाहरण के लिए: +* यह साबित करने के लिए कि दिया गया नमूना कुछ वितरण का अनुसरण करता है। हमारे मामले में हमने मान लिया है कि ऊंचाई सामान्य रूप से वितरित की जाती है, लेकिन इसके लिए औपचारिक सांख्यिकीय सत्यापन की आवश्यकता होती है। +* यह सिद्ध करने के लिए कि नमूने का माध्य मान कुछ पूर्वनिर्धारित मान से मेल खाता है +* कई नमूनों के साधनों की तुलना करना (उदाहरण के लिए विभिन्न आयु समूहों में खुशी के स्तर में क्या अंतर है) + +## बड़ी संख्या का नियम और केंद्रीय सीमा प्रमेय + +सामान्य वितरण के इतना महत्वपूर्ण होने का एक कारण तथाकथित **केंद्रीय सीमा प्रमेय** है। मान लीजिए कि हमारे पास स्वतंत्र N मानों X1, ..., XN का एक बड़ा नमूना है, जिसे माध्य μ और विचरण &सिग्मा;2. फिर, पर्याप्त रूप से बड़े N के लिए (दूसरे शब्दों में, जब N→∞), माध्य ΣiXi को सामान्य रूप से माध्य &mu के साथ वितरित किया जाएगा; और विचरण σ2/N. + +> केंद्रीय सीमा प्रमेय की व्याख्या करने का एक अन्य तरीका यह कहना है कि वितरण की परवाह किए बिना, जब आप किसी भी यादृच्छिक चर मानों के योग के माध्य की गणना करते हैं तो आप सामान्य वितरण के साथ समाप्त होते हैं। + +केंद्रीय सीमा प्रमेय से यह भी पता चलता है कि, जब N&rar;∞, नमूने के माध्य की प्रायिकता μ बन जाता है 1. इसे **बड़ी संख्या का नियम** कहते हैं। + +## सहप्रसरण और सहसंबंध + +डेटा साइंस द्वारा की जाने वाली चीजों में से एक डेटा के बीच संबंध ढूंढ रहा है। हम कहते हैं कि दो अनुक्रम **सहसम्बन्ध** तब होते हैं जब वे एक ही समय में समान व्यवहार प्रदर्शित करते हैं, अर्थात वे या तो एक साथ उठते/गिरते हैं, या एक क्रम ऊपर उठता है जब दूसरा गिरता है और इसके विपरीत। दूसरे शब्दों में, दो अनुक्रमों के बीच कुछ संबंध प्रतीत होता है। + +> सहसंबंध आवश्यक रूप से दो अनुक्रमों के बीच कारण संबंध को इंगित नहीं करता है; कभी-कभी दोनों चर किसी बाहरी कारण पर निर्भर हो सकते हैं, या यह विशुद्ध रूप से संयोग से दो अनुक्रम सहसंबद्ध हो सकते हैं। हालांकि, मजबूत गणितीय सहसंबंध एक अच्छा संकेत है कि दो चर किसी न किसी तरह से जुड़े हुए हैं। + +गणितीय रूप से, मुख्य अवधारणा जो दो यादृच्छिक चर के बीच संबंध दिखाती है, वह है **सहप्रसरण**, जिसकी गणना इस प्रकार की जाती है: Cov(X,Y) = **E**\[(X-**E**(X) ))(वाई-**ई**(वाई))\]। हम दोनों चरों के विचलन की गणना उनके माध्य मानों से करते हैं, और फिर उन विचलनों के गुणनफल की गणना करते हैं। यदि दोनों चर एक साथ विचलित होते हैं, तो उत्पाद हमेशा एक सकारात्मक मूल्य होगा, जो कि सकारात्मक सहप्रसरण को जोड़ देगा। यदि दोनों चर आउट-ऑफ-सिंक विचलित हो जाते हैं (अर्थात एक औसत से नीचे गिर जाता है जब दूसरा औसत से ऊपर उठता है), तो हमें हमेशा ऋणात्मक संख्याएँ मिलेंगी, जो कि ऋणात्मक सहप्रसरण को जोड़ देंगी। यदि विचलन निर्भर नहीं हैं, तो वे लगभग शून्य तक जोड़ देंगे। + +सहप्रसरण का निरपेक्ष मान हमें यह नहीं बताता कि सहसंबंध कितना बड़ा है, क्योंकि यह वास्तविक मूल्यों के परिमाण पर निर्भर करता है। इसे सामान्य करने के लिए, हम **सहसंबंध** प्राप्त करने के लिए, दोनों चरों के मानक विचलन द्वारा सहप्रसरण को विभाजित कर सकते हैं। अच्छी बात यह है कि सहसंबंध हमेशा [-1,1] की सीमा में होता है, जहां 1 मूल्यों के बीच मजबूत सकारात्मक सहसंबंध को इंगित करता है, -1 - मजबूत नकारात्मक सहसंबंध, और 0 - बिल्कुल भी कोई संबंध नहीं (चर स्वतंत्र हैं)। + +**उदाहरण**: हम ऊपर बताए गए डेटासेट से बेसबॉल खिलाड़ियों के वज़न और ऊंचाई के बीच सहसंबंध की गणना कर सकते हैं: + +```python +print(np.corrcoef(weights,heights)) +``` +As a result, we get **correlation matrix** like this one: +``` +array([[1. , 0.52959196], + [0.52959196, 1. ]]) +``` + +> सहसंबंध मैट्रिक्स C की गणना किसी भी इनपुट अनुक्रम S1, ..., Sn के लिए की जा सकती है। Cij का मान Si और Sj के बीच सहसंबंध है, और विकर्ण तत्व हमेशा 1 होते हैं (जो कि स्व-सहसंबंध भी है एस<उप>मैं)। + +हमारे मामले में, मान 0.53 इंगित करता है कि किसी व्यक्ति के वजन और ऊंचाई के बीच कुछ संबंध है। हम रिश्ते को देखने के लिए दूसरे के खिलाफ एक मूल्य का स्कैटर प्लॉट भी बना सकते हैं: + +![वजन और ऊंचाई के बीच संबंध](images/weight-height-relationship.png) + +> सहसंबंध और सहप्रसरण के अधिक उदाहरण [साथ वाली नोटबुक](notebook.ipynb) में पाए जा सकते हैं। + +## निष्कर्ष + +इस भाग में हमने सीखा है: + +* डेटा के बुनियादी सांख्यिकीय गुण, जैसे माध्य, विचरण, मोड और चतुर्थक +* सामान्य वितरण सहित यादृच्छिक चर के विभिन्न वितरण +* विभिन्न गुणों के बीच सहसंबंध कैसे खोजें +* कुछ परिकल्पनाओं को सिद्ध करने के लिए गणित और सांख्यिकी के ध्वनि उपकरण का उपयोग कैसे करें, +* यादृच्छिक चर दिए गए डेटा नमूने के लिए विश्वास अंतराल की गणना कैसे करें + +हालांकि यह निश्चित रूप से उन विषयों की संपूर्ण सूची नहीं है जो संभाव्यता और आंकड़ों के भीतर मौजूद हैं, यह आपको इस पाठ्यक्रम में एक अच्छी शुरुआत देने के लिए पर्याप्त होना चाहिए। + +## चुनौती + +अन्य परिकल्पना का परीक्षण करने के लिए नोटबुक में नमूना कोड का उपयोग करें जो: +1. पहले बेसमेन दूसरे बेसमेन से बड़े होते हैं +2. पहले बेसमेन तीसरे बेसमेन से लम्बे होते हैं +3. शॉर्टस्टॉप दूसरे बेसमेन से लम्बे होते हैं + +## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/7) + +## समीक्षा और आत्म अध्ययन + +संभाव्यता और सांख्यिकी इतना व्यापक विषय है कि यह अपने पाठ्यक्रम के योग्य है। यदि आप सिद्धांत में गहराई तक जाने में रुचि रखते हैं, तो आप निम्नलिखित में से कुछ पुस्तकों को पढ़ना जारी रख सकते हैं: + +1. [Carlos Fernandez-Granda](https://cims.nyu.edu/~cfgranda/) from New York University has great lecture notes [Probability and Statistics for Data Science](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (available online) +1. [Peter and Andrew Bruce. Practical Statistics for Data Scientists.](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[sample code in R](https://github.com/andrewgbruce/statistics-for-data-scientists)]. +1. [James D. Miller. Statistics for Data Science](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[sample code in R](https://github.com/PacktPublishing/Statistics-for-Data-Science)] + +## कार्यभार + +[लघु मधुमेह अध्ययन] (असाइनमेंट.एमडी) + +## क्रेडिट + +यह पाठ ♥️ के साथ [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा लिखा गया है। \ No newline at end of file From 3e98e06ef20ffe2adb5c0e32b12a9f707639334c Mon Sep 17 00:00:00 2001 From: Sachin Date: Thu, 10 Mar 2022 11:07:56 +0530 Subject: [PATCH 07/35] Add hindi translation 2-Working-With-Data/05-relational-database/translations/README.hi.md --- .../translations/README.hi.md | 181 ++++++++++++++++++ 1 file changed, 181 insertions(+) create mode 100644 2-Working-With-Data/05-relational-databases/translations/README.hi.md diff --git a/2-Working-With-Data/05-relational-databases/translations/README.hi.md b/2-Working-With-Data/05-relational-databases/translations/README.hi.md new file mode 100644 index 00000000..cc7eb885 --- /dev/null +++ b/2-Working-With-Data/05-relational-databases/translations/README.hi.md @@ -0,0 +1,181 @@ +# डेटा के साथ कार्य करना: संबंधपरक डेटाबेस + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/05-RelationalData.png)| +|:---:| +| डेटा के साथ कार्य करना: संबंधपरक डेटाबेस - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +संभावना है कि आपने जानकारी संग्रहीत करने के लिए अतीत में एक स्प्रेडशीट का उपयोग किया है। आपके पास पंक्तियों और स्तंभों का एक सेट था, जहाँ पंक्तियों में जानकारी (या डेटा) होती थी, और स्तंभों में जानकारी (कभी-कभी मेटाडेटा कहा जाता है) का वर्णन होता था। तालिकाओं में स्तंभों और पंक्तियों के इस मूल सिद्धांत पर एक संबंधपरक डेटाबेस बनाया गया है, जिससे आप कई तालिकाओं में जानकारी फैला सकते हैं। इससे आप अधिक जटिल डेटा के साथ काम कर सकते हैं, दोहराव से बच सकते हैं, और डेटा को एक्सप्लोर करने के तरीके में लचीलापन रख सकते हैं। आइए एक रिलेशनल डेटाबेस की अवधारणाओं का पता लगाएं। + +## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/8) + +## यह सब टेबल से शुरू होता है + +एक रिलेशनल डेटाबेस में इसकी कोर टेबल होती है। स्प्रैडशीट की तरह ही, तालिका स्तंभों और पंक्तियों का एक संग्रह है। पंक्ति में वह डेटा या जानकारी होती है जिसके साथ हम काम करना चाहते हैं, जैसे किसी शहर का नाम या वर्षा की मात्रा। कॉलम उनके द्वारा संग्रहीत डेटा का वर्णन करते हैं। + +आइए शहरों के बारे में जानकारी संग्रहीत करने के लिए एक तालिका शुरू करके अपनी खोज शुरू करें। हम उनके नाम और देश से शुरुआत कर सकते हैं। आप इसे एक टेबल में इस प्रकार स्टोर कर सकते हैं: + +| City | Country | +| -------- | ------------- | +| Tokyo | Japan | +| Atlanta | United States | +| Auckland | New Zealand | + +ध्यान दें कि **शहर**, **देश** और **जनसंख्या** के कॉलम नाम संग्रहीत किए जा रहे डेटा का वर्णन करते हैं, और प्रत्येक पंक्ति में एक शहर के बारे में जानकारी होती है। + +## सिंगल टेबल अप्रोच की कमियां + +संभावना है, ऊपर दी गई तालिका आपको अपेक्षाकृत परिचित लगती है। आइए अपने बढ़ते डेटाबेस में कुछ अतिरिक्त डेटा जोड़ना शुरू करें - वार्षिक वर्षा (मिलीमीटर में)। हम वर्ष 2018, 2019 और 2020 पर ध्यान केंद्रित करेंगे। अगर हम इसे टोक्यो के लिए जोड़ते हैं, तो यह कुछ इस तरह दिख सकता है: + +| City | Country | Year | Amount | +| ----- | ------- | ---- | ------ | +| Tokyo | Japan | 2020 | 1690 | +| Tokyo | Japan | 2019 | 1874 | +| Tokyo | Japan | 2018 | 1445 | + +आप हमारी तालिका के बारे में क्या देखते हैं? आप देख सकते हैं कि हम शहर के नाम और देश को बार-बार दोहरा रहे हैं। इसमें काफी स्टोरेज लग सकता है, और इसकी कई प्रतियां रखने के लिए काफी हद तक अनावश्यक है। आखिरकार, टोक्यो का केवल एक ही नाम है जिसमें हम रुचि रखते हैं। + +ठीक है, चलो कुछ और कोशिश करते हैं। आइए प्रत्येक वर्ष के लिए नए कॉलम जोड़ें: + +| City | Country | 2018 | 2019 | 2020 | +| -------- | ------------- | ---- | ---- | ---- | +| Tokyo | Japan | 1445 | 1874 | 1690 | +| Atlanta | United States | 1779 | 1111 | 1683 | +| Auckland | New Zealand | 1386 | 942 | 1176 | + +हालांकि यह पंक्ति दोहराव से बचा जाता है, लेकिन यह कुछ अन्य चुनौतियों को भी जोड़ता है। हर बार नया साल आने पर हमें अपनी तालिका की संरचना को संशोधित करने की आवश्यकता होगी। इसके अतिरिक्त, जैसे-जैसे हमारा डेटा बढ़ता है, वैसे-वैसे हमारे वर्षों में कॉलम के रूप में मूल्यों को पुनः प्राप्त करना और गणना करना मुश्किल हो जाएगा। + +यही कारण है कि हमें कई तालिकाओं और संबंधों की आवश्यकता है। अपने डेटा को अलग करके हम दोहराव से बच सकते हैं और हम अपने डेटा के साथ काम करने के तरीके में अधिक लचीलापन रखते हैं। + +## रिश्तों की अवधारणा + +आइए अपने डेटा पर वापस लौटें और निर्धारित करें कि हम चीजों को कैसे विभाजित करना चाहते हैं। हम जानते हैं कि हम अपने शहरों के लिए नाम और देश को संग्रहित करना चाहते हैं, इसलिए यह शायद एक टेबल में सबसे अच्छा काम करेगा। + +| City | Country | +| -------- | ------------- | +| Tokyo | Japan | +| Atlanta | United States | +| Auckland | New Zealand | + +लेकिन इससे पहले कि हम अगली तालिका बनाएं, हमें यह पता लगाना होगा कि प्रत्येक शहर को कैसे संदर्भित किया जाए। हमें किसी पहचानकर्ता, आईडी या (तकनीकी डेटाबेस के संदर्भ में) प्राथमिक कुंजी की आवश्यकता है। प्राथमिक कुंजी एक मान है जिसका उपयोग किसी तालिका में एक विशिष्ट पंक्ति की पहचान करने के लिए किया जाता है। हालांकि यह स्वयं एक मूल्य पर आधारित हो सकता है (उदाहरण के लिए, हम शहर के नाम का उपयोग कर सकते हैं), यह लगभग हमेशा एक संख्या या अन्य पहचानकर्ता होना चाहिए। हम नहीं चाहते कि आईडी कभी बदले क्योंकि इससे रिश्ता टूट जाएगा। आप ज्यादातर मामलों में पाएंगे कि प्राथमिक कुंजी या आईडी एक स्वतः उत्पन्न संख्या होगी। + +> प्राथमिक कुंजी को अक्सर पीके के रूप में संक्षिप्त किया जाता है + +### शहरों + +| city_id | City | Country | +| ------- | -------- | ------------- | +| 1 | Tokyo | Japan | +| 2 | Atlanta | United States | +| 3 | Auckland | New Zealand | + +> ✅ आप देखेंगे कि हम इस पाठ के दौरान "आईडी" और "प्राथमिक कुंजी" शब्दों का परस्पर उपयोग करते हैं। यहाँ की अवधारणाएँ DataFrames पर लागू होती हैं, जिन्हें आप बाद में एक्सप्लोर करेंगे। डेटाफ़्रेम "प्राथमिक कुंजी" की शब्दावली का उपयोग नहीं करते हैं, हालांकि आप देखेंगे कि वे उसी तरह से बहुत अधिक व्यवहार करते हैं। + +हमारे शहरों की तालिका बनाने के साथ, आइए वर्षा को संग्रहित करें। हम शहर के बारे में पूरी जानकारी की नकल करने के बजाय आईडी का उपयोग कर सकते हैं। हमें यह भी सुनिश्चित करना चाहिए कि नई बनाई गई तालिका में एक *id* कॉलम भी हो, क्योंकि सभी तालिकाओं में एक आईडी या प्राथमिक कुंजी होनी चाहिए। + +### बारिश + +| rainfall_id | city_id | Year | Amount | +| ----------- | ------- | ---- | ------ | +| 1 | 1 | 2018 | 1445 | +| 2 | 1 | 2019 | 1874 | +| 3 | 1 | 2020 | 1690 | +| 4 | 2 | 2018 | 1779 | +| 5 | 2 | 2019 | 1111 | +| 6 | 2 | 2020 | 1683 | +| 7 | 3 | 2018 | 1386 | +| 8 | 3 | 2019 | 942 | +| 9 | 3 | 2020 | 1176 | + +नव निर्मित **वर्षा** तालिका के अंदर **city_id** कॉलम पर ध्यान दें। इस कॉलम में वे मान हैं जो **शहरों** तालिका में आईडी का संदर्भ देते हैं। तकनीकी संबंधपरक डेटा के संदर्भ में, इसे **विदेशी कुंजी** कहा जाता है; यह किसी अन्य तालिका से प्राथमिक कुंजी है। आप इसे केवल एक संदर्भ या सूचक के रूप में सोच सकते हैं। **सिटी_आईडी** 1 संदर्भ टोक्यो। + +> [!नोट] विदेशी कुंजी को अक्सर FK . के रूप में संक्षिप्त किया जाता है + +## डेटा पुनर्प्राप्त करना + +हमारे डेटा को दो तालिकाओं में विभाजित करके, आप सोच रहे होंगे कि हम इसे कैसे पुनः प्राप्त करते हैं। यदि हम एक रिलेशनल डेटाबेस जैसे MySQL, SQL सर्वर या Oracle का उपयोग कर रहे हैं, तो हम स्ट्रक्चर्ड क्वेरी लैंग्वेज या SQL नामक भाषा का उपयोग कर सकते हैं। SQL (कभी-कभी उच्चारित अगली कड़ी) एक मानक भाषा है जिसका उपयोग रिलेशनल डेटाबेस में डेटा को पुनः प्राप्त करने और संशोधित करने के लिए किया जाता है। + +डेटा पुनर्प्राप्त करने के लिए आप `SELECT` कमांड का उपयोग करते हैं। इसके मूल में, आप उन स्तंभों को **चुनते हैं जिन्हें आप देखना चाहते हैं **से** उस तालिका में जिसमें वे शामिल हैं। यदि आप केवल शहरों के नाम प्रदर्शित करना चाहते हैं, तो आप निम्न का उपयोग कर सकते हैं: + +```sql +SELECT city +FROM cities; + +-- Output: +-- Tokyo +-- Atlanta +-- Auckland +``` + +`चयन` वह जगह है जहां आप कॉलम सूचीबद्ध करते हैं, और `से` वह जगह है जहां आप टेबल सूचीबद्ध करते हैं। + +> [नोट] SQL सिंटैक्स केस-असंवेदनशील है, जिसका अर्थ है `चुनें` और `चयन` का मतलब एक ही है। हालाँकि, आप जिस प्रकार के डेटाबेस का उपयोग कर रहे हैं उसके आधार पर कॉलम और टेबल केस संवेदनशील हो सकते हैं। नतीजतन, प्रोग्रामिंग में हर चीज को हमेशा केस संवेदी की तरह व्यवहार करना सबसे अच्छा अभ्यास है। SQL क्वेरी लिखते समय सामान्य परंपरा यह है कि कीवर्ड को सभी अपर-केस अक्षरों में रखा जाए। + +उपरोक्त क्वेरी सभी शहरों को प्रदर्शित करेगी। आइए कल्पना करें कि हम केवल न्यूजीलैंड में शहरों को प्रदर्शित करना चाहते थे। हमें किसी प्रकार के फ़िल्टर की आवश्यकता है। इसके लिए SQL कीवर्ड `WHERE` या "जहां कुछ सच है" है। + +```sql +SELECT city +FROM cities +WHERE country = 'New Zealand'; + +-- Output: +-- Auckland +``` + +## डेटा में शामिल होना + +अब तक हमने एक ही टेबल से डेटा रिकवर किया है। अब हम **शहरों** और **वर्षा** दोनों के डेटा को एक साथ लाना चाहते हैं। यह उन्हें एक साथ *शामिल करके* किया जाता है। आप प्रभावी रूप से दो तालिकाओं के बीच एक सीम बनाएंगे, और प्रत्येक तालिका से एक कॉलम के मानों का मिलान करेंगे। + +हमारे उदाहरण में, हम **वर्षा** में **शहर_आईडी** कॉलम का मिलान **शहरों** में **शहर_आईडी** कॉलम से करेंगे। यह अपने संबंधित शहर के साथ वर्षा मूल्य से मेल खाएगा। हम जिस प्रकार के जॉइन करेंगे, उसे *इनर* जॉइन कहा जाता है, जिसका अर्थ है कि यदि कोई पंक्तियाँ दूसरी टेबल की किसी भी चीज़ से मेल नहीं खाती हैं तो वे प्रदर्शित नहीं होंगी। हमारे मामले में हर शहर में बारिश होती है, इसलिए सब कुछ प्रदर्शित किया जाएगा। + +आइए हमारे सभी शहरों के लिए 2019 की वर्षा को पुनः प्राप्त करें। + +हम इसे चरणों में करने जा रहे हैं। पहला कदम सीम के लिए कॉलम को इंगित करके डेटा को एक साथ जोड़ना है - **city_id** जैसा कि पहले हाइलाइट किया गया था। + +```sql +SELECT cities.city + rainfall.amount +FROM cities + INNER JOIN rainfall ON cities.city_id = rainfall.city_id +``` + +हमने उन दो कॉलमों को हाइलाइट किया है जो हम चाहते हैं, और तथ्य यह है कि हम टेबल्स को **city_id** द्वारा एक साथ जोड़ना चाहते हैं। अब हम केवल वर्ष 2019 को फ़िल्टर करने के लिए `WHERE` स्टेटमेंट जोड़ सकते हैं। + +```sql +SELECT cities.city + rainfall.amount +FROM cities + INNER JOIN rainfall ON cities.city_id = rainfall.city_id +WHERE rainfall.year = 2019 + +-- Output + +-- city | amount +-- -------- | ------ +-- Tokyo | 1874 +-- Atlanta | 1111 +-- Auckland | 942 +``` + +## सारांश + +रिलेशनल डेटाबेस कई तालिकाओं के बीच सूचनाओं को विभाजित करने के आसपास केंद्रित होते हैं जिन्हें बाद में प्रदर्शन और विश्लेषण के लिए एक साथ लाया जाता है। यह गणना करने और अन्यथा डेटा में हेरफेर करने के लिए उच्च स्तर की लचीलापन प्रदान करता है। आपने रिलेशनल डेटाबेस की मूल अवधारणाओं को देखा है, और दो तालिकाओं के बीच जुड़ने का तरीका देखा है। + +## चुनौती + +इंटरनेट पर कई रिलेशनल डेटाबेस उपलब्ध हैं। आप ऊपर सीखे गए कौशल का उपयोग करके डेटा का पता लगा सकते हैं। + +## व्याख्यान के बाद प्रश्नोत्तरी + +## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/9) + +## समीक्षा और आत्म अध्ययन + +आपके लिए SQL और रिलेशनल डेटाबेस अवधारणाओं की खोज जारी रखने के लिए [Microsoft Learn](https://docs.microsoft.com/learn?WT.mc_id=academic-40229-cxa) पर कई संसाधन उपलब्ध हैं + +- [संबंधपरक डेटा की अवधारणाओं का वर्णन करें](https://docs.microsoft.com//learn/modules/describe-concepts-of-relational-data?WT.mc_id=academic-40229-cxa) +- [Transact-SQL के साथ क्वेरी करना प्रारंभ करें](https://docs.microsoft.com//learn/paths/get-started-querying-with-transact-sql?WT.mc_id=academic-40229-cxa) (ट्रांजैक्ट-एसक्यूएल एसक्यूएल का एक संस्करण है) +- [Microsoft पर SQL सामग्री जानें](https://docs.microsoft.com/learn/browse/?products=azure-sql-database%2Csql-server&expanded=azure&WT.mc_id=academic-40229-cxa) + +## कार्यभार + +[असाइनमेंट शीर्षक](assignment.md) \ No newline at end of file From d5e2fcfe52ae033b9813f1e90f3145415aabe4ce Mon Sep 17 00:00:00 2001 From: Sachin Date: Thu, 10 Mar 2022 11:25:17 +0530 Subject: [PATCH 08/35] Add hindi translation 2-Working-With-Data/05-relational-databases/translations/assignment.hi.md --- .../translations/assignment.hi.md | 59 +++++++++++++++++++ 1 file changed, 59 insertions(+) create mode 100644 2-Working-With-Data/05-relational-databases/translations/assignment.hi.md diff --git a/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md b/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md new file mode 100644 index 00000000..4818bc52 --- /dev/null +++ b/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md @@ -0,0 +1,59 @@ +# हवाईअड्डा डेटा प्रदर्शित करना + +आपको एक [डेटाबेस](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db)प्रदान किया जायेगा। बनाया गया है [SQLite](https://sqlite.org/index.html) पर जिसमें हवाई अड्डों के बारे में जानकारी होती है। स्कीमा नीचे प्रदर्शित किया गया है। आप [विजुअल स्टूडियो कोड](https://code.) में [SQLite एक्सटेंशन](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-40229-cxa) का इस्तेमाल करेंगे। Visualstudio.com?WT.mc_id=academic-40229-cxa) विभिन्न शहरों के हवाई अड्डों के बारे में जानकारी प्रदर्शित करने के लिए। + +## निर्देश + +असाइनमेंट के साथ आरंभ करने के लिए, आपको कुछ चरणों का पालन करना होगा। आपको कुछ टूलींग स्थापित करने और नमूना डेटाबेस डाउनलोड करने की आवश्यकता होगी। + +### अपना सिस्टम सेटअप करें + +आप डेटाबेस के साथ इंटरैक्ट करने के लिए विजुअल स्टूडियो कोड और SQLite एक्सटेंशन का उपयोग कर सकते हैं। + +1. [code.visualstudio.com](https://code.visualstudio.com?WT.mc_id=academic-40229-cxa) पर नेविगेट करें और विजुअल स्टूडियो कोड इंस्टॉल करने के लिए निर्देशों का पालन करें +1. मार्केटप्लेस पेज पर दिए निर्देशों के अनुसार [SQLite एक्सटेंशन](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-40229-cxa) एक्सटेंशन इंस्टॉल करें + +### डेटाबेस डाउनलोड करें और खोलें + +इसके बाद आप एक ओपन डेटाबेस डाउनलोड करेंगे। + +1. [GitHub से डेटाबेस फ़ाइल](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db) डाउनलोड करें और इसे एक निर्देशिका में सहेजें +1. विजुअल स्टूडियो कोड खोलें +1. SQLite एक्सटेंशन में डेटाबेस को **Ctl-Shift-P** (या मैक पर **Cmd-Shift-P**) चुनकर और `SQLite: Open database` टाइप करके खोलें। +1. **फ़ाइल से डेटाबेस चुनें** चुनें और **airports.db** फ़ाइल खोलें जिसे आपने पहले डाउनलोड किया था +1. डेटाबेस खोलने के बाद (आप स्क्रीन पर अपडेट नहीं देखेंगे), **Ctl-Shift-P** (या मैक पर **Cmd-Shift-P**) का चयन करके एक नई क्वेरी विंडो बनाएं। और `SQLite: new query` टाइप करना + +एक बार खुलने के बाद, नई क्वेरी विंडो का उपयोग डेटाबेस के विरुद्ध SQL कथन चलाने के लिए किया जा सकता है। डेटाबेस के विरुद्ध क्वेरी चलाने के लिए आप **Ctl-Shift-Q** (या मैक पर **Cmd-Shift-Q**) कमांड का उपयोग कर सकते हैं। + +> [!नोट] SQLite एक्सटेंशन के बारे में अधिक जानकारी के लिए, आप [दस्तावेज़ीकरण](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-40229-cxa) से परामर्श कर सकते हैं। + +## डेटाबेस स्कीमा + +एक डेटाबेस की स्कीमा इसकी टेबल डिजाइन और संरचना है। **airports** डेटाबेस दो तालिकाओं के रूप में, `cities`, जिसमें यूनाइटेड किंगडम और आयरलैंड के शहरों की सूची है, और `airports`, जिसमें सभी हवाई अड्डों की सूची है। क्योंकि कुछ शहरों में कई हवाई अड्डे हो सकते हैं, जानकारी संग्रहीत करने के लिए दो टेबल बनाए गए थे। इस अभ्यास में आप विभिन्न शहरों की जानकारी प्रदर्शित करने के लिए जॉइन का उपयोग करेंगे। + +| Cities | +| ---------------- | +| id (PK, integer) | +| city (text) | +| country (text) | + +| Airports | +| -------------------------------- | +| id (PK, integer) | +| name (text) | +| code (text) | +| city_id (FK to id in **Cities**) | + +## कार्यभार + +निम्नलिखित जानकारी वापस करने के लिए प्रश्न बनाएं: + +1. `Cities` तालिका में सभी शहर के नाम +1. आयरलैंड के सभी शहर `Cities` तालिका . में +1. सभी हवाई अड्डों के नाम उनके शहर और देश के साथ +1. लंदन, यूनाइटेड किंगडम में सभी हवाई अड्डे + +## रूब्रिक + +| Exemplary | Adequate | Needs Improvement | +| --------- | -------- | ----------------- | \ No newline at end of file From 2b5572a0796e9e38bd4c0044d46481456748dcd5 Mon Sep 17 00:00:00 2001 From: Sachin Date: Thu, 10 Mar 2022 11:43:53 +0530 Subject: [PATCH 09/35] Add hindi translation 2-Working-With-Data/06-non-relational/translations/README.hi.md --- .../translations/README.hi.md | 148 ++++++++++++++++++ 1 file changed, 148 insertions(+) create mode 100644 2-Working-With-Data/06-non-relational/translations/README.hi.md diff --git a/2-Working-With-Data/06-non-relational/translations/README.hi.md b/2-Working-With-Data/06-non-relational/translations/README.hi.md new file mode 100644 index 00000000..e4a59374 --- /dev/null +++ b/2-Working-With-Data/06-non-relational/translations/README.hi.md @@ -0,0 +1,148 @@ +# डेटा के साथ कार्य करना: गैर-संबंधपरक डेटा + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/06-NoSQL.png)| +|:---:| +|NoSQL डेटा के साथ काम करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/10) + +डेटा रिलेशनल डेटाबेस तक सीमित नहीं है। यह पाठ गैर-संबंधपरक डेटा पर केंद्रित है और इसमें स्प्रेडशीट और NoSQL की मूल बातें शामिल होंगी। + +## स्प्रेडशीट + +स्प्रेडशीट डेटा को स्टोर और एक्सप्लोर करने का एक लोकप्रिय तरीका है क्योंकि इसे सेटअप करने और आरंभ करने के लिए कम काम की आवश्यकता होती है। इस पाठ में आप स्प्रेडशीट के बुनियादी घटकों के साथ-साथ सूत्रों और कार्यों के बारे में जानेंगे। उदाहरणों को Microsoft Excel के साथ चित्रित किया जाएगा, लेकिन अधिकांश भागों और विषयों में अन्य स्प्रेडशीट सॉफ़्टवेयर की तुलना में समान नाम और चरण होंगे। + +![दो वर्कशीट के साथ एक खाली माइक्रोसॉफ्ट एक्सेल वर्कबुक](इमेज/पार्ट्स-ऑफ-स्प्रेडशीट.पीएनजी) + +स्प्रैडशीट एक फ़ाइल है और इसे कंप्यूटर, डिवाइस या क्लाउड आधारित फ़ाइल सिस्टम के फ़ाइल सिस्टम में एक्सेस किया जा सकता है। सॉफ़्टवेयर स्वयं ब्राउज़र आधारित या एक एप्लिकेशन हो सकता है जिसे कंप्यूटर पर इंस्टॉल किया जाना चाहिए या ऐप के रूप में डाउनलोड किया जाना चाहिए। Excel में इन फ़ाइलों को **कार्यपुस्तिका** के रूप में भी परिभाषित किया जाता है और इस शब्दावली का उपयोग इस पाठ के शेष भाग में किया जाएगा। + +किसी कार्यपुस्तिका में एक या अधिक **कार्यपत्रक** होते हैं, जहां प्रत्येक कार्यपत्रक को टैब द्वारा लेबल किया जाता है। वर्कशीट के भीतर **सेल्स** नामक आयत होते हैं, जिनमें वास्तविक डेटा होगा। एक सेल एक पंक्ति और स्तंभ का प्रतिच्छेदन है, जहां स्तंभों को वर्णानुक्रमिक वर्णों और पंक्तियों को संख्यात्मक रूप से लेबल किया जाता है। कुछ स्प्रैडशीट्स में सेल में डेटा का वर्णन करने के लिए पहली कुछ पंक्तियों में हेडर होंगे। + +Excel कार्यपुस्तिका के इन बुनियादी तत्वों के साथ, हम उपयोग करेंगे और [Microsoft Templates](https://templates.office.com/) के एक उदाहरण का उपयोग एक स्प्रैडशीट के कुछ अतिरिक्त भागों के माध्यम से चलने के लिए एक इन्वेंट्री पर केंद्रित होगा। + +### एक सूची का प्रबंधन + +"InventoryExample" नाम की स्प्रैडशीट फ़ाइल एक इन्वेंट्री के भीतर आइटम्स की एक स्वरूपित स्प्रेडशीट है जिसमें तीन वर्कशीट होते हैं, जहां टैब को "इन्वेंटरी लिस्ट", "इन्वेंटरी पिक लिस्ट" और "बिन लुकअप" के रूप में लेबल किया जाता है। इन्वेंटरी लिस्ट वर्कशीट की पंक्ति 4 हेडर है, जो हेडर कॉलम में प्रत्येक सेल के मूल्य का वर्णन करता है। + +![Microsoft Excel में एक उदाहरण सूची सूची से एक हाइलाइट किया गया सूत्र](images/formula-excel.png) + +ऐसे उदाहरण हैं जहां एक सेल अपना मूल्य उत्पन्न करने के लिए अन्य कोशिकाओं के मूल्यों पर निर्भर है। इन्वेंटरी लिस्ट स्प्रैडशीट अपनी इन्वेंट्री में प्रत्येक आइटम की लागत का ट्रैक रखती है, लेकिन क्या होगा यदि हमें इन्वेंट्री में हर चीज का मूल्य जानने की आवश्यकता है? [**सूत्र**](https://support.microsoft.com/en-us/office/overview-of-formulas-34519a4e-1e8d-4f4b-84d4-d642c4f63263) सेल डेटा पर कार्रवाई करते हैं और इसका उपयोग गणना करने के लिए किया जाता है इस उदाहरण में सूची की लागत। इस स्प्रैडशीट ने प्रत्येक आइटम के मूल्य की गणना करने के लिए इन्वेंटरी वैल्यू कॉलम में एक सूत्र का उपयोग किया है, जो कि QTY हेडर के तहत मात्रा को गुणा करके और इसकी लागत को COST हेडर के तहत सेल द्वारा गुणा करके किया जाता है। किसी सेल पर डबल क्लिक या हाईलाइट करना फॉर्मूला दिखाएगा। आप देखेंगे कि सूत्र बराबर चिह्न से शुरू होते हैं, उसके बाद गणना या संचालन होता है। + +![Microsoft Excel में एक उदाहरण सूची सूची से एक हाइलाइट किया गया फ़ंक्शन](images/function-excel.png) + +हम इसका कुल मूल्य प्राप्त करने के लिए इन्वेंटरी वैल्यू के सभी मूल्यों को एक साथ जोड़ने के लिए एक अन्य सूत्र का उपयोग कर सकते हैं। योग उत्पन्न करने के लिए प्रत्येक सेल को जोड़कर इसकी गणना की जा सकती है, लेकिन यह एक कठिन काम हो सकता है। Excel में [**functions**](https://support.microsoft.com/en-us/office/sum-function-043e1c7d-7726-4e80-8f32-07b23e057f89), या सेल मानों पर गणना करने के लिए पूर्वनिर्धारित सूत्र हैं . फ़ंक्शंस के लिए तर्कों की आवश्यकता होती है, जो इन गणनाओं को करने के लिए उपयोग किए जाने वाले आवश्यक मान हैं। जब फ़ंक्शंस को एक से अधिक तर्क की आवश्यकता होती है, तो उन्हें किसी विशेष क्रम में सूचीबद्ध करने की आवश्यकता होगी या फ़ंक्शन सही मान की गणना नहीं कर सकता है। यह उदाहरण SUM फ़ंक्शन का उपयोग करता है, और पंक्ति 3, कॉलम B (जिसे B3 भी कहा जाता है) के तहत सूचीबद्ध कुल जोड़ने के तर्क के रूप में इन्वेंट्री वैल्यू के मानों का उपयोग करता है। + +## नोएसक्यूएल (NoSQL) + +NoSQL गैर-संबंधपरक डेटा को संग्रहीत करने के विभिन्न तरीकों के लिए एक छत्र शब्द है और इसे "गैर-एसक्यूएल", "गैर-संबंधपरक" या "न केवल एसक्यूएल" के रूप में व्याख्या किया जा सकता है। इस प्रकार के डेटाबेस सिस्टम को 4 प्रकारों में वर्गीकृत किया जा सकता है। + +![एक की-वैल्यू डेटा स्टोर का ग्राफिकल प्रतिनिधित्व 4 अद्वितीय संख्यात्मक कुंजियाँ दिखा रहा है जो 4 विभिन्न मानों से जुड़ी हैं](images/kv-db.png) +> [माइकल बियालेकी ब्लॉग](https://www.michalbialecki.com/2018/03/18/azure-cosmos-db-key-value-database-cloud/) से स्रोत + +[मौलिक मूल्य](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) डेटाबेस अद्वितीय कुंजी जोड़ते हैं, जो एक मूल्य से जुड़े एक अद्वितीय पहचानकर्ता हैं। इन जोड़ियों को एक उपयुक्त हैशिंग फ़ंक्शन के साथ [हैश टेबल](https://www.hackerearth.com/practice/data-structs/hash-tables/basics-of-hash-tables/tutorial/) का उपयोग करके संग्रहीत किया जाता है। + +![लोगों, उनकी रुचियों और स्थानों के बीच संबंधों को दर्शाने वाले ग्राफ़ डेटा स्टोर का चित्रमय प्रतिनिधित्व](images/graph-db.png) +> [माइक्रोसॉफ्ट](https://docs.microsoft.com/en-us/azure/cosmos-db/graph/graph-introduction#graph-database-by-example) से स्रोत + +[ग्राफ](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#graph-data-stores) डेटाबेस डेटा में संबंधों का वर्णन करते हैं और उनका प्रतिनिधित्व करते हैं नोड्स और किनारों के संग्रह के रूप में। एक नोड एक इकाई का प्रतिनिधित्व करता है, कुछ ऐसा जो वास्तविक दुनिया में मौजूद है जैसे कि छात्र या बैंक स्टेटमेंट। किनारे दो संस्थाओं के बीच संबंध का प्रतिनिधित्व करते हैं प्रत्येक नोड और किनारे में ऐसे गुण होते हैं जो प्रत्येक नोड और किनारों के बारे में अतिरिक्त जानकारी प्रदान करते हैं। + +![पहचान और संपर्क जानकारी नामक दो स्तंभ परिवारों के साथ एक ग्राहक डेटाबेस दिखाते हुए एक स्तंभ डेटा स्टोर का चित्रमय प्रतिनिधित्व](images/columnar-db.png) + +[Columnar](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#columnar-data-stores) डेटा स्टोर डेटा को कॉलम और पंक्तियों में व्यवस्थित करता है एक संबंधपरक डेटा संरचना की तरह लेकिन प्रत्येक कॉलम को एक कॉलम परिवार नामक समूहों में विभाजित किया जाता है, जहां एक कॉलम के तहत सभी डेटा संबंधित होते हैं और एक इकाई में पुनर्प्राप्त और बदला जा सकता है। + +### Azure Cosmos DB के साथ दस्तावेज़ डेटा स्टोर + +[दस्तावेज़](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#document-data-stores) डेटा स्टोर एक की अवधारणा पर निर्मित होते हैं कुंजी-मूल्य डेटा स्टोर और फ़ील्ड और ऑब्जेक्ट्स की एक श्रृंखला से बना है। यह खंड कॉसमॉस डीबी एमुलेटर के साथ दस्तावेज़ डेटाबेस का पता लगाएगा। + +एक Cosmos DB डेटाबेस "न केवल SQL" की परिभाषा में फिट बैठता है, जहाँ Cosmos DB का दस्तावेज़ डेटाबेस डेटा को क्वेरी करने के लिए SQL पर निर्भर करता है। SQL पर [पिछला पाठ](../05-relational-databases/README.md) भाषा की मूल बातें शामिल करता है, और हम यहां दस्तावेज़ डेटाबेस में कुछ समान प्रश्नों को लागू करने में सक्षम होंगे। हम Cosmos DB Emulator का उपयोग करेंगे, जो हमें कंप्यूटर पर स्थानीय रूप से एक दस्तावेज़ डेटाबेस बनाने और एक्सप्लोर करने की अनुमति देता है। एमुलेटर के बारे में और पढ़ें [यहां](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21)। + +एक दस्तावेज़ फ़ील्ड और ऑब्जेक्ट मानों का संग्रह है, जहां फ़ील्ड वर्णन करते हैं कि ऑब्जेक्ट मान क्या दर्शाता है। नीचे एक दस्तावेज़ का एक उदाहरण है। + +```json +{ + "firstname": "Eva", + "age": 44, + "id": "8c74a315-aebf-4a16-bb38-2430a9896ce5", + "_rid": "bHwDAPQz8s0BAAAAAAAAAA==", + "_self": "dbs/bHwDAA==/colls/bHwDAPQz8s0=/docs/bHwDAPQz8s0BAAAAAAAAAA==/", + "_etag": "\"00000000-0000-0000-9f95-010a691e01d7\"", + "_attachments": "attachments/", + "_ts": 1630544034 +} +``` + +इस दस्तावेज़ में रुचि के क्षेत्र हैं: `firstname`, `id`, और `age`। अंडरस्कोर के साथ बाकी फ़ील्ड कॉसमॉस डीबी द्वारा उत्पन्न किए गए थे। + +#### कॉसमॉस डीबी एम्यूलेटर के साथ डेटा एक्सप्लोर करना + +आप एमुलेटर [यहां विंडोज के लिए](https://aka.ms/cosmosdb-emulator) डाउनलोड और इंस्टॉल कर सकते हैं। इस [दस्तावेज़ीकरण](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21#run-on-linux-macos) को देखें। macOS और Linux के लिए एमुलेटर चलाएँ। + +एमुलेटर एक ब्राउज़र विंडो लॉन्च करता है, जहां एक्सप्लोरर व्यू आपको दस्तावेजों का पता लगाने की अनुमति देता है। + +![कॉसमॉस डीबी एम्यूलेटर का एक्सप्लोरर व्यू](images/cosmosdb-emulator-explorer.png) + +यदि आप साथ चल रहे हैं, तो नमूना डीबी नामक नमूना डेटाबेस उत्पन्न करने के लिए "नमूना के साथ प्रारंभ करें" पर क्लिक करें। यदि आप तीर पर क्लिक करके नमूना डीबी का विस्तार करते हैं तो आपको `Persons` नामक एक कंटेनर मिलेगा, एक कंटेनर में वस्तुओं का संग्रह होता है, जो कंटेनर के भीतर दस्तावेज होते हैं। आप `Items` के तहत चार अलग-अलग दस्तावेजों का पता लगा सकते हैं। + +![कॉसमॉस डीबी एमुलेटर में नमूना डेटा की खोज](images/cosmosdb-emulator-persons.png) + +#### कॉसमॉस डीबी एमुलेटर के साथ दस्तावेज़ डेटा को क्वेरी करना + +हम नए SQL क्वेरी बटन (बाएं से दूसरा बटन) पर क्लिक करके नमूना डेटा को क्वेरी कर सकते हैं। + +`SELECT * FROM c` कंटेनर में सभी दस्तावेज लौटाता है। आइए एक क्लॉज जोड़ें और 40 से कम उम्र के सभी लोगों को खोजें। + +`SELECT * FROM c where c.age < 40` + + ![40 से कम आयु फ़ील्ड मान वाले दस्तावेज़ों को खोजने के लिए Cosmos DB एमुलेटर में नमूना डेटा पर एक चयन क्वेरी चला रहा है](images/cosmosdb-emulator-persons-query.png) + +क्वेरी दो दस्तावेज़ लौटाती है, ध्यान दें कि प्रत्येक दस्तावेज़ के लिए आयु मान 40 . से कम है. + +#### JSON और दस्तावेज़ + +यदि आप जावास्क्रिप्ट ऑब्जेक्ट नोटेशन (JSON) से परिचित हैं, तो आप देखेंगे कि दस्तावेज़ JSON के समान दिखते हैं। इस निर्देशिका में अधिक डेटा वाली एक `PersonsData.json` फ़ाइल है जिसे आप `Upload Item` बटन के माध्यम से एम्यूलेटर में व्यक्ति कंटेनर में अपलोड कर सकते हैं। + +ज्यादातर मामलों में, JSON डेटा लौटाने वाले API को सीधे दस्तावेज़ डेटाबेस में स्थानांतरित और संग्रहीत किया जा सकता है। नीचे एक और दस्तावेज है, यह माइक्रोसॉफ्ट ट्विटर अकाउंट से ट्वीट्स का प्रतिनिधित्व करता है जिसे ट्विटर एपीआई (API) का उपयोग करके पुनर्प्राप्त किया गया था, फिर कॉसमॉस डीबी में डाला गया था। + +```json +{ + "created_at": "2021-08-31T19:03:01.000Z", + "id": "1432780985872142341", + "text": "Blank slate. Like this tweet if you’ve ever painted in Microsoft Paint before. https://t.co/cFeEs8eOPK", + "_rid": "dhAmAIUsA4oHAAAAAAAAAA==", + "_self": "dbs/dhAmAA==/colls/dhAmAIUsA4o=/docs/dhAmAIUsA4oHAAAAAAAAAA==/", + "_etag": "\"00000000-0000-0000-9f84-a0958ad901d7\"", + "_attachments": "attachments/", + "_ts": 1630537000 +} +``` + +इस दस्तावेज़ में रुचि के क्षेत्र हैं: `created_at`, `id`, और `text`। + +## चुनौती + + +एक `TwitterData.json` फ़ाइल है जिसे आप नमूना डीबी डेटाबेस पर अपलोड कर सकते हैं। यह अनुशंसा की जाती है कि आप इसे एक अलग कंटेनर में जोड़ें। इसके द्वारा किया जा सकता है: + +1. ऊपर दाईं ओर नए कंटेनर बटन पर क्लिक करना +1. कंटेनर के लिए एक कंटेनर आईडी बनाने के लिए मौजूदा डेटाबेस (SampleDB) का चयन करना +1. विभाजन कुंजी को `/id` . पर सेट करना +1. ओके पर क्लिक करना (आप इस दृश्य में शेष जानकारी को अनदेखा कर सकते हैं क्योंकि यह आपकी मशीन पर स्थानीय रूप से चलने वाला एक छोटा डेटासेट है) +1. अपना नया कंटेनर खोलें और 'आइटम अपलोड करें' बटन के साथ Twitter डेटा फ़ाइल अपलोड करें + +टेक्स्ट फ़ील्ड में Microsoft वाले दस्तावेज़ ढूँढने के लिए कुछ चुनिंदा क्वेरीज़ चलाने का प्रयास करें। संकेत: [LIKE कीवर्ड](https://docs.microsoft.com/en-us/azure/cosmos-db/sql/sql-query-keywords#using-like-with-the--wildcard-character) का उपयोग करने का प्रयास करें + +## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/11) + + + +## समीक्षा और आत्म अध्ययन + +- इस स्प्रैडशीट में कुछ अतिरिक्त स्वरूपण और विशेषताएं जोड़ी गई हैं जिन्हें इस पाठ में शामिल नहीं किया गया है। यदि आप अधिक सीखने में रुचि रखते हैं, तो Microsoft के पास एक्सेल पर [दस्तावेज़ीकरण और वीडियो की बड़ी लाइब्रेरी](https://support.microsoft.com/excel) है। + +- यह वास्तु दस्तावेज विभिन्न प्रकार के गैर-संबंधपरक डेटा में विशेषताओं का विवरण देता है: [गैर-संबंधपरक डेटा और NoSQL](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data)) + +- कॉसमॉस डीबी एक क्लाउड आधारित गैर-संबंधपरक डेटाबेस है जो इस पाठ में उल्लिखित विभिन्न नोएसक्यूएल प्रकारों को भी संग्रहीत कर सकता है। इस [कॉसमॉस डीबी माइक्रोसॉफ्ट लर्न मॉड्यूल](https://docs.microsoft.com/en-us/learn/paths/work-with-nosql-data-in-azure-cosmos-db/) में इन प्रकारों के बारे में और जानें + +## कार्यभार + +[सोडा लाभ](assignment.md) \ No newline at end of file From 98b74bffa367c006fa8b7110e1076431d2c07fe5 Mon Sep 17 00:00:00 2001 From: Sachin Date: Thu, 10 Mar 2022 20:44:42 +0530 Subject: [PATCH 10/35] Make 1st necessary changes according to Jlooper Mam, change links of different files that are giving 404 errors --- 1-Introduction/01-defining-data-science/README.md | 6 +++++- .../01-defining-data-science/translations/README.hi.md | 2 +- 1-Introduction/02-ethics/translations/README.hi.md | 2 +- 3 files changed, 7 insertions(+), 3 deletions(-) diff --git a/1-Introduction/01-defining-data-science/README.md b/1-Introduction/01-defining-data-science/README.md index 32734a52..a375a200 100644 --- a/1-Introduction/01-defining-data-science/README.md +++ b/1-Introduction/01-defining-data-science/README.md @@ -162,4 +162,8 @@ Visit [`notebook.ipynb`](/1-Introduction/01-defining-data-science/notebook.ipynb ## Credits -This lesson has been authored with ♥️ by [Dmitry Soshnikov](http://soshnikov.com) \ No newline at end of file +<<<<<<< HEAD +This lesson has been authored with ♥️ by [Dmitry Soshnikov](http://soshnikov.com) +======= +This lesson has been authored with ♥️ by [Dmitry Soshnikov](http://soshnikov.com) +>>>>>>> parent of 0954651 (Hindi Translation of Defining Data Science README.md) diff --git a/1-Introduction/01-defining-data-science/translations/README.hi.md b/1-Introduction/01-defining-data-science/translations/README.hi.md index d8525e73..aaaa7881 100644 --- a/1-Introduction/01-defining-data-science/translations/README.hi.md +++ b/1-Introduction/01-defining-data-science/translations/README.hi.md @@ -2,7 +2,7 @@ | ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | | :----------------------------------------------------------------------------------------------------: | -| डेटा विज्ञान को परिभाषित करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | +| डेटा विज्ञान को परिभाषित करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | --- diff --git a/1-Introduction/02-ethics/translations/README.hi.md b/1-Introduction/02-ethics/translations/README.hi.md index a83a7e03..673f8330 100644 --- a/1-Introduction/02-ethics/translations/README.hi.md +++ b/1-Introduction/02-ethics/translations/README.hi.md @@ -207,7 +207,7 @@ > 🚨 क्या आप एक पेशेवर इंजीनियरिंग या डेटा विज्ञान संगठन से संबंधित हैं ? यह देखने के लिए कि क्या वे पेशेवर आचार संहिता को परिभाषित करते हैं, उनकी साइट का अन्वेषण करें । यह उनके नैतिक सिद्धांतों के बारे में क्या कहता है ? वे सदस्यों को कोड का पालन करने के लिए "प्रोत्साहित" कैसे कर रहे हैं ? -### 2. Ethics Checklists +### 2. नैतिकता जाँच सूची जबकि पेशेवर कोड चिकित्सकों से आवश्यक _नैतिक व्यवहार_ को परिभाषित करते हैं, वे प्रवर्तन में [विशेष रूप से बड़े पैमाने पर परियोजनाओं में](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) [ज्ञात सीमाएं हैं] । इसके बजाय, कई डेटा विज्ञान विशेषज्ञ [चेकलिस्ट के वकील](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), जो **सिद्धांतों को अभ्यासों से जोड़ सकते हैं** अधिक नियतात्मक और कार्रवाई योग्य तरीके । From 69b76354d850cb7639fe76974cee13b04c63faf5 Mon Sep 17 00:00:00 2001 From: Sachin Date: Fri, 11 Mar 2022 08:50:43 +0530 Subject: [PATCH 11/35] Change 1-Introduction/01-defining-data-science/README.md to its original form --- 1-Introduction/01-defining-data-science/README.md | 4 ---- 1 file changed, 4 deletions(-) diff --git a/1-Introduction/01-defining-data-science/README.md b/1-Introduction/01-defining-data-science/README.md index a375a200..b24e6069 100644 --- a/1-Introduction/01-defining-data-science/README.md +++ b/1-Introduction/01-defining-data-science/README.md @@ -162,8 +162,4 @@ Visit [`notebook.ipynb`](/1-Introduction/01-defining-data-science/notebook.ipynb ## Credits -<<<<<<< HEAD This lesson has been authored with ♥️ by [Dmitry Soshnikov](http://soshnikov.com) -======= -This lesson has been authored with ♥️ by [Dmitry Soshnikov](http://soshnikov.com) ->>>>>>> parent of 0954651 (Hindi Translation of Defining Data Science README.md) From 0e76d9c9d40734ee02a9564d1e0fd81166661848 Mon Sep 17 00:00:00 2001 From: Sachin Date: Fri, 11 Mar 2022 08:57:43 +0530 Subject: [PATCH 12/35] Fixed 404 errors of ethics assignment hindi translation --- 1-Introduction/02-ethics/translations/assignment.hi.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/1-Introduction/02-ethics/translations/assignment.hi.md b/1-Introduction/02-ethics/translations/assignment.hi.md index bd960bd8..301fab52 100644 --- a/1-Introduction/02-ethics/translations/assignment.hi.md +++ b/1-Introduction/02-ethics/translations/assignment.hi.md @@ -2,11 +2,11 @@ ## निर्देश -आपने विभिन्न [डेटा नैतिकता चुनौतियों](README?id=_2-ethics-challenges) के बारे में सीखा है और [केस स्टडीज](README?id=_3-case-studies) के कुछ उदाहरण देखे हैं जो वास्तविक दुनिया में डेटा नैतिकता चुनौतियों को दर्शाते हैं। संदर्भ +आपने विभिन्न [डेटा नैतिकता चुनौतियों](README.md#2-ethics-challenges) के बारे में सीखा है और [केस स्टडीज](README.md#3-case-studies) के कुछ उदाहरण देखे हैं जो वास्तविक दुनिया में डेटा नैतिकता चुनौतियों को दर्शाते हैं। संदर्भ इस असाइनमेंट में, आप अपना खुद का केस स्टडी लिखेंगे, जो आपके अपने अनुभव से, या एक प्रासंगिक वास्तविक दुनिया के संदर्भ से डेटा नैतिकता चुनौती को दर्शाता है जिससे आप परिचित हैं। बस इन चरणों का पालन करें: -1. `एक डेटा नैतिकता चुनौती चुनें'। प्रेरणा पाने के लिए [पाठ के उदाहरण](README?id=_2-ethics-challenges) देखें या [डीऑन चेकलिस्ट](https://deon.drivedata.org/examples/) जैसे ऑनलाइन उदाहरण देखें। +1. `एक डेटा नैतिकता चुनौती चुनें'। प्रेरणा पाने के लिए [पाठ के उदाहरण](README.md#2-ethics-challenges) देखें या [डीऑन चेकलिस्ट](https://deon.drivedata.org/examples/) जैसे ऑनलाइन उदाहरण देखें। 2. `एक वास्तविक विश्व उदाहरण का वर्णन करें`। ऐसी स्थिति के बारे में सोचें जिसके बारे में आपने सुना है (शीर्षक, शोध अध्ययन इत्यादि) या अनुभवी (स्थानीय समुदाय), जहां यह विशिष्ट चुनौती हुई। चुनौती से संबंधित डेटा नैतिकता के सवालों के बारे में सोचें - और इस मुद्दे के कारण उत्पन्न होने वाले संभावित नुकसान या अनपेक्षित परिणामों पर चर्चा करें। बोनस अंक: संभावित समाधानों या प्रक्रियाओं के बारे में सोचें जिन्हें इस चुनौती के प्रतिकूल प्रभाव को खत्म करने या कम करने में मदद के लिए यहां लागू किया जा सकता है। From 60c07083fe5241527465143b7ca6115b73c43605 Mon Sep 17 00:00:00 2001 From: Sachin Date: Fri, 11 Mar 2022 09:04:51 +0530 Subject: [PATCH 13/35] Fixed the 404 error of defining Data Science README.md hindi translation --- .../01-defining-data-science/translations/README.hi.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/1-Introduction/01-defining-data-science/translations/README.hi.md b/1-Introduction/01-defining-data-science/translations/README.hi.md index aaaa7881..6ec5f822 100644 --- a/1-Introduction/01-defining-data-science/translations/README.hi.md +++ b/1-Introduction/01-defining-data-science/translations/README.hi.md @@ -1,6 +1,6 @@ # डेटा विज्ञान को परिभाषित करना -| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | +| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev)](../../sketchnotes/01-Definitions.png) | | :----------------------------------------------------------------------------------------------------: | | डेटा विज्ञान को परिभाषित करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | From 9a25549b9c3d30de63fd0e0dbf97f52d1c432f40 Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Fri, 11 Mar 2022 09:20:02 +0530 Subject: [PATCH 14/35] Fixed 404 Errors in "README.hi.md" --- .../01-defining-data-science/translations/README.hi.md | 10 +++++----- 1 file changed, 5 insertions(+), 5 deletions(-) diff --git a/1-Introduction/01-defining-data-science/translations/README.hi.md b/1-Introduction/01-defining-data-science/translations/README.hi.md index 6ec5f822..7a004d0f 100644 --- a/1-Introduction/01-defining-data-science/translations/README.hi.md +++ b/1-Introduction/01-defining-data-science/translations/README.hi.md @@ -1,14 +1,14 @@ # डेटा विज्ञान को परिभाषित करना -| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev)](../../sketchnotes/01-Definitions.png) | +| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev)](/sketchnotes/01-Definitions.png) | | :----------------------------------------------------------------------------------------------------: | -| डेटा विज्ञान को परिभाषित करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | +| डेटा विज्ञान को परिभाषित करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | --- -[![डेटा विज्ञान वीडियो को परिभाषित करना](images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) +[![Defining Data Science Video](/1-Introduction/01-defining-data-science/images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) -## [Pre-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/0) +## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/0) ## डेटा क्या है? अपने दैनिक जीवन में हम लगातार डेटा से घिरे रहते हैं। अभी आप जो पाठ पढ़ रहे हैं वह डेटा है। आपके स्मार्टफ़ोन में आपके मित्रों के फ़ोन नंबरों की सूची डेटा है, साथ ही आपकी घड़ी पर प्रदर्शित वर्तमान समय भी है। मनुष्य के रूप में, हम स्वाभाविक रूप से हमारे पास मौजूद धन की गणना करके या अपने मित्रों को पत्र लिखकर डेटा के साथ काम करते हैं। @@ -161,4 +161,4 @@ Visit [`notebook.ipynb`](/1-Introduction/01-defining-data-science/notebook.ipynb ## क्रेडिट -यह पाठ ♥️ के साथ [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा लिखा गया है। और इस्का हिंदी अनुवाद [सचिन दाभाड़े](https://www.github.com/SachinDabhade) ने किया है \ No newline at end of file +यह पाठ ♥️ के साथ [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा लिखा गया है। और इस्का हिंदी अनुवाद [सचिन दाभाड़े](https://www.github.com/SachinDabhade) ने किया है From 0e3a9db4b3a612a9f883353d8e127ea76700e59d Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Fri, 11 Mar 2022 09:25:28 +0530 Subject: [PATCH 15/35] Fixed 404 error of last image --- .../01-defining-data-science/translations/README.hi.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/1-Introduction/01-defining-data-science/translations/README.hi.md b/1-Introduction/01-defining-data-science/translations/README.hi.md index 7a004d0f..2a579f88 100644 --- a/1-Introduction/01-defining-data-science/translations/README.hi.md +++ b/1-Introduction/01-defining-data-science/translations/README.hi.md @@ -144,7 +144,7 @@ In [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **डेटा स इस चुनौती में, हम ग्रंथों को देखकर डेटा विज्ञान के क्षेत्र से प्रासंगिक अवधारणाओं को खोजने का प्रयास करेंगे। हम डेटा विज्ञान पर एक विकिपीडिया लेख लेंगे, पाठ को डाउनलोड और संसाधित करेंगे, और फिर इस तरह एक शब्द क्लाउड का निर्माण करेंगे: -![डेटा साइंस के लिए वर्ड क्लाउड](images/ds_wordcloud.png) +![डेटा साइंस के लिए वर्ड क्लाउड](/1-Introduction/01-defining-data-science/images/ds_wordcloud.png) Visit [`notebook.ipynb`](/1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') कोड के माध्यम से पढ़ने के लिए। आप कोड भी चला सकते हैं, और देख सकते हैं कि यह वास्तविक समय में सभी डेटा परिवर्तन कैसे करता है। From df634a113102d9ec75d24fba08be7653318dbacb Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Fri, 11 Mar 2022 09:33:54 +0530 Subject: [PATCH 16/35] Translate remaining text in hindi --- .../05-relational-databases/translations/assignment.hi.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md b/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md index 4818bc52..7da44b67 100644 --- a/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md +++ b/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md @@ -55,5 +55,5 @@ ## रूब्रिक -| Exemplary | Adequate | Needs Improvement | -| --------- | -------- | ----------------- | \ No newline at end of file +| अनुकरणीय | पर्याप्त | सुधार की जरूरत | +| --------- | -------- | ----------------- | From f4e77e1ac2e8785dd807505d4e6e3e301772c394 Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Fri, 11 Mar 2022 20:56:54 +0530 Subject: [PATCH 17/35] Fixed all 404 error in this file --- 1-Introduction/02-ethics/translations/assignment.hi.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/1-Introduction/02-ethics/translations/assignment.hi.md b/1-Introduction/02-ethics/translations/assignment.hi.md index 301fab52..40ca448a 100644 --- a/1-Introduction/02-ethics/translations/assignment.hi.md +++ b/1-Introduction/02-ethics/translations/assignment.hi.md @@ -2,11 +2,11 @@ ## निर्देश -आपने विभिन्न [डेटा नैतिकता चुनौतियों](README.md#2-ethics-challenges) के बारे में सीखा है और [केस स्टडीज](README.md#3-case-studies) के कुछ उदाहरण देखे हैं जो वास्तविक दुनिया में डेटा नैतिकता चुनौतियों को दर्शाते हैं। संदर्भ +आपने विभिन्न [डेटा नैतिकता चुनौतियों](README.hi.md#2-ethics-challenges) के बारे में सीखा है और [केस स्टडीज](README.hi.md#3-case-studies) के कुछ उदाहरण देखे हैं जो वास्तविक दुनिया में डेटा नैतिकता चुनौतियों को दर्शाते हैं। संदर्भ इस असाइनमेंट में, आप अपना खुद का केस स्टडी लिखेंगे, जो आपके अपने अनुभव से, या एक प्रासंगिक वास्तविक दुनिया के संदर्भ से डेटा नैतिकता चुनौती को दर्शाता है जिससे आप परिचित हैं। बस इन चरणों का पालन करें: -1. `एक डेटा नैतिकता चुनौती चुनें'। प्रेरणा पाने के लिए [पाठ के उदाहरण](README.md#2-ethics-challenges) देखें या [डीऑन चेकलिस्ट](https://deon.drivedata.org/examples/) जैसे ऑनलाइन उदाहरण देखें। +1. `एक डेटा नैतिकता चुनौती चुनें'। प्रेरणा पाने के लिए [पाठ के उदाहरण](README.hi.md#2-ethics-challenges) देखें या [डीऑन चेकलिस्ट](https://deon.drivendata.org/examples/) जैसे ऑनलाइन उदाहरण देखें। 2. `एक वास्तविक विश्व उदाहरण का वर्णन करें`। ऐसी स्थिति के बारे में सोचें जिसके बारे में आपने सुना है (शीर्षक, शोध अध्ययन इत्यादि) या अनुभवी (स्थानीय समुदाय), जहां यह विशिष्ट चुनौती हुई। चुनौती से संबंधित डेटा नैतिकता के सवालों के बारे में सोचें - और इस मुद्दे के कारण उत्पन्न होने वाले संभावित नुकसान या अनपेक्षित परिणामों पर चर्चा करें। बोनस अंक: संभावित समाधानों या प्रक्रियाओं के बारे में सोचें जिन्हें इस चुनौती के प्रतिकूल प्रभाव को खत्म करने या कम करने में मदद के लिए यहां लागू किया जा सकता है। @@ -16,4 +16,4 @@ अनुकरणीय | पर्याप्त | सुधार की जरूरत --- | --- | -- | -एक या अधिक डेटा नैतिकता चुनौतियों की पहचान की जाती है।

केस स्टडी स्पष्ट रूप से एक वास्तविक दुनिया की घटना का वर्णन करती है जो उस चुनौती को दर्शाती है, और अवांछनीय परिणामों या इससे होने वाले नुकसान को उजागर करती है।

यह साबित करने के लिए कम से कम एक लिंक किया गया संसाधन है। | एक डेटा नैतिकता चुनौती की पहचान की गई है।

कम से कम एक प्रासंगिक नुकसान या परिणाम पर संक्षेप में चर्चा की गई है।

हालांकि चर्चा सीमित है या वास्तविक दुनिया की घटना के प्रमाण का अभाव है। | एक डेटा चुनौती की पहचान की जाती है।

हालांकि विवरण या संसाधन चुनौती को पर्याप्त रूप से प्रतिबिंबित नहीं करते हैं या यह साबित नहीं करते हैं कि यह वास्तविक दुनिया की घटना है। | \ No newline at end of file +एक या अधिक डेटा नैतिकता चुनौतियों की पहचान की जाती है।

केस स्टडी स्पष्ट रूप से एक वास्तविक दुनिया की घटना का वर्णन करती है जो उस चुनौती को दर्शाती है, और अवांछनीय परिणामों या इससे होने वाले नुकसान को उजागर करती है।

यह साबित करने के लिए कम से कम एक लिंक किया गया संसाधन है। | एक डेटा नैतिकता चुनौती की पहचान की गई है।

कम से कम एक प्रासंगिक नुकसान या परिणाम पर संक्षेप में चर्चा की गई है।

हालांकि चर्चा सीमित है या वास्तविक दुनिया की घटना के प्रमाण का अभाव है। | एक डेटा चुनौती की पहचान की जाती है।

हालांकि विवरण या संसाधन चुनौती को पर्याप्त रूप से प्रतिबिंबित नहीं करते हैं या यह साबित नहीं करते हैं कि यह वास्तविक दुनिया की घटना है। | From 798cf83219d18a7f2edd416956c055aa33c1ad3e Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Fri, 11 Mar 2022 21:37:57 +0530 Subject: [PATCH 18/35] Fixed all 404 errors in README.md Hindi translate --- .../translations/README.hi.md | 40 +++++++++---------- 1 file changed, 20 insertions(+), 20 deletions(-) diff --git a/1-Introduction/04-stats-and-probability/translations/README.hi.md b/1-Introduction/04-stats-and-probability/translations/README.hi.md index 245dfb15..02ef72b7 100644 --- a/1-Introduction/04-stats-and-probability/translations/README.hi.md +++ b/1-Introduction/04-stats-and-probability/translations/README.hi.md @@ -1,12 +1,12 @@ # सांख्यिकी और संभाव्यता का संक्षिप्त परिचय -|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/04-Statistics-Probability.png)| +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev)](/sketchnotes/04-Statistics-Probability.png)| |:---:| | सांख्यिकी और संभावना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | सांख्यिकी और संभाव्यता सिद्धांत गणित के दो अत्यधिक संबंधित क्षेत्र हैं जो डेटा विज्ञान के लिए अत्यधिक प्रासंगिक हैं। गणित के गहन ज्ञान के बिना डेटा के साथ काम करना संभव है, लेकिन कम से कम कुछ बुनियादी अवधारणाओं को जानना अभी भी बेहतर है। यहां हम एक संक्षिप्त परिचय प्रस्तुत करेंगे जो आपको आरंभ करने में मदद करेगा। -[![Intro Video](images/video-prob-and-stats.png)](https://youtu.be/Z5Zy85g4Yjw) +[![Intro Video](/1-Introduction/04-stats-and-probability/images/video-prob-and-stats.png)](https://youtu.be/Z5Zy85g4Yjw) ## [Pre-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/6) @@ -31,7 +31,7 @@ हम केवल दिए गए मानों के अंतराल में एक चर के गिरने की प्रायिकता के बारे में बात कर सकते हैं, उदाहरण के लिए। P(t1≤X<t2)। इस मामले में, प्रायिकता बंटन को **प्रायिकता घनत्व फलन** p(x) द्वारा वर्णित किया जाता है, जैसे कि -![P(t_1\le X + यहां हम **अंतर-चतुर्थक श्रेणी** IQR=Q3-Q1, और तथाकथित **आउटलेयर** - मानों की भी गणना करते हैं, जो सीमाओं के बाहर होते हैं [Q1-1.5*IQR,Q3+1.5*IQR]। @@ -62,22 +62,22 @@ ## वास्तविक दुनिया का डेटा -जब हम वास्तविक जीवन से डेटा का विश्लेषण करते हैं, तो वे अक्सर यादृच्छिक चर नहीं होते हैं, इस अर्थ में कि हम अज्ञात परिणाम के साथ प्रयोग नहीं करते हैं। उदाहरण के लिए, बेसबॉल खिलाड़ियों की एक टीम और उनके शरीर के डेटा, जैसे ऊंचाई, वजन और उम्र पर विचार करें। वे संख्याएँ बिल्कुल यादृच्छिक नहीं हैं, लेकिन हम अभी भी उन्हीं गणितीय अवधारणाओं को लागू कर सकते हैं। उदाहरण के लिए, लोगों के वजन के अनुक्रम को कुछ यादृच्छिक चर से निकाले गए मानों का अनुक्रम माना जा सकता है। [इस डेटासेट] (http://wiki.stat.ucla.edu) से लिए गए [मेजर लीग बेसबॉल](http://mlb.mlb.com/index.jsp) से वास्तविक बेसबॉल खिलाड़ियों के वज़न का क्रम नीचे दिया गया है /socr/index.php/SOCR_Data_MLB_HeightsWeights) (आपकी सुविधा के लिए, केवल पहले 20 मान दिखाए गए हैं): +जब हम वास्तविक जीवन से डेटा का विश्लेषण करते हैं, तो वे अक्सर यादृच्छिक चर नहीं होते हैं, इस अर्थ में कि हम अज्ञात परिणाम के साथ प्रयोग नहीं करते हैं। उदाहरण के लिए, बेसबॉल खिलाड़ियों की एक टीम और उनके शरीर के डेटा, जैसे ऊंचाई, वजन और उम्र पर विचार करें। वे संख्याएँ बिल्कुल यादृच्छिक नहीं हैं, लेकिन हम अभी भी उन्हीं गणितीय अवधारणाओं को लागू कर सकते हैं। उदाहरण के लिए, लोगों के वजन के अनुक्रम को कुछ यादृच्छिक चर से निकाले गए मानों का अनुक्रम माना जा सकता है। [इस डेटासेट](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) से लिए गए [मेजर लीग बेसबॉल](http://mlb.mlb.com/index.jsp) से वास्तविक बेसबॉल खिलाड़ियों के वज़न का क्रम नीचे दिया गया ह। (आपकी सुविधा के लिए, केवल पहले 20 मान दिखाए गए हैं): ``` [180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0] ``` -> **नोट**: इस डेटासेट के साथ काम करने का उदाहरण देखने के लिए, [साथ वाली नोटबुक](notebook.ipynb) पर एक नज़र डालें। इस पूरे पाठ में कई चुनौतियाँ भी हैं, और आप उस नोटबुक में कुछ कोड जोड़कर उन्हें पूरा कर सकते हैं। यदि आप सुनिश्चित नहीं हैं कि डेटा पर कैसे काम करना है, तो चिंता न करें - हम बाद में पायथन का उपयोग करके डेटा के साथ काम करने के लिए वापस आएंगे। यदि आप जुपिटर नोटबुक में कोड चलाना नहीं जानते हैं, तो [इस लेख] (https://soshnikov.com/education/how-to-execute-notebooks-from-github/) पर एक नज़र डालें। +> **नोट**: इस डेटासेट के साथ काम करने का उदाहरण देखने के लिए, [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) पर एक नज़र डालें। इस पूरे पाठ में कई चुनौतियाँ भी हैं, और आप उस नोटबुक में कुछ कोड जोड़कर उन्हें पूरा कर सकते हैं। यदि आप सुनिश्चित नहीं हैं कि डेटा पर कैसे काम करना है, तो चिंता न करें - हम बाद में पायथन का उपयोग करके डेटा के साथ काम करने के लिए वापस आएंगे। यदि आप जुपिटर नोटबुक में कोड चलाना नहीं जानते हैं, तो [इस लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) पर एक नज़र डालें। हमारे डेटा के लिए माध्य, माध्यिका और चतुर्थक दिखाने वाला बॉक्स प्लॉट यहां दिया गया है: -![वेट बॉक्स प्लॉट](images/weight-boxplot.png) +![वेट बॉक्स प्लॉट](/1-Introduction/04-stats-and-probability/images/weight-boxplot.png) चूंकि हमारे डेटा में अलग-अलग खिलाड़ी **भूमिकाएं** के बारे में जानकारी है, इसलिए हम भूमिका के आधार पर बॉक्स प्लॉट भी कर सकते हैं - यह हमें यह विचार प्राप्त करने की अनुमति देगा कि कैसे पैरामीटर मान भूमिकाओं में भिन्न होते हैं। इस बार हम ऊंचाई पर विचार करेंगे: -![भूमिका के अनुसार बॉक्स प्लॉट](images/boxplot_byrole.png) +![भूमिका के अनुसार बॉक्स प्लॉट](/1-Introduction/04-stats-and-probability/images/boxplot_byrole.png) यह आरेख बताता है कि, औसतन, पहले बेसमेन की ऊंचाई दूसरे बेसमेन की ऊंचाई से अधिक होती है। बाद में इस पाठ में हम सीखेंगे कि हम इस परिकल्पना का अधिक औपचारिक रूप से परीक्षण कैसे कर सकते हैं, और यह कैसे प्रदर्शित करें कि हमारा डेटा सांख्यिकीय रूप से महत्वपूर्ण है। @@ -85,7 +85,7 @@ यह देखने के लिए कि हमारे डेटा का वितरण क्या है, हम एक ग्राफ बना सकते हैं जिसे **हिस्टोग्राम** कहा जाता है। एक्स-अक्ष में कई अलग-अलग वज़न अंतराल (तथाकथित **बिन्स**) होंगे, और ऊर्ध्वाधर अक्ष दिखाएगा कि हमारा यादृच्छिक चर नमूना किसी दिए गए अंतराल के अंदर कितनी बार था। -![वास्तविक विश्व डेटा का हिस्टोग्राम](images/weight-histogram.png) +![वास्तविक विश्व डेटा का हिस्टोग्राम](/1-Introduction/04-stats-and-probability/images/weight-histogram.png) इस हिस्टोग्राम से आप देख सकते हैं कि सभी मान निश्चित औसत वजन के आसपास केंद्रित होते हैं, और हम उस वजन से जितना आगे जाते हैं - उस मान के कम वजन का सामना करना पड़ता है। यानी, यह बहुत ही असंभव है कि बेसबॉल खिलाड़ी का वजन औसत वजन से बहुत अलग होगा। भार में भिन्नता यह दर्शाती है कि भार किस हद तक माध्य से भिन्न होने की संभावना है। @@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000) यदि हम उत्पन्न नमूनों के हिस्टोग्राम की साजिश करते हैं तो हम ऊपर दिखाए गए चित्र के समान ही चित्र देखेंगे। और अगर हम नमूनों की संख्या और डिब्बे की संख्या में वृद्धि करते हैं, तो हम एक सामान्य वितरण की एक तस्वीर उत्पन्न कर सकते हैं जो आदर्श के अधिक करीब है: -![माध्य = 0 और एसटीडी.देव = 1 के साथ सामान्य वितरण](images/normal-histogram.png) +![माध्य = 0 और एसटीडी.देव = 1 के साथ सामान्य वितरण](/1-Introduction/04-stats-and-probability/images/normal-histogram.png) *माध्य = 0 और std.dev=1* के साथ सामान्य वितरण @@ -121,11 +121,11 @@ samples = np.random.normal(mean,std,1000) > **दिलचस्प तथ्य**: छात्र वितरण का नाम गणितज्ञ विलियम सीली गॉसेट के नाम पर रखा गया है, जिन्होंने छद्म नाम "स्टूडेंट" के तहत अपना पेपर प्रकाशित किया था। उन्होंने गिनीज शराब की भठ्ठी में काम किया, और, एक संस्करण के अनुसार, उनके नियोक्ता नहीं चाहते थे कि आम जनता को पता चले कि वे कच्चे माल की गुणवत्ता निर्धारित करने के लिए सांख्यिकीय परीक्षणों का उपयोग कर रहे थे। -If we want to estimate the mean μ of our population with confidence p, we need to take *(1-p)/2-th percentile* of a Student distribution A, which can either be taken from tables, or computer using some built-in functions of statistical software (eg. Python, R, etc.). Then the interval for μ would be given by X±A*D/√n, where X is the obtained mean of the sample, D is the standard deviation. +यदि हम माध्य का अनुमान लगाना चाहते हैं μ हमारी जनसंख्या का विश्वास p के साथ, हमें छात्र वितरण A का *(1-p)/2-th प्रतिशत* लेने की आवश्यकता है, जिसे या तो तालिकाओं से लिया जा सकता है, या कंप्यूटर सांख्यिकीय सॉफ़्टवेयर के कुछ अंतर्निहित कार्यों का उपयोग करके (उदाहरण के लिए पायथन, आर, आदि)। फिर अंतराल के लिए μ X±A*D/√n द्वारा दिया जाएगा, जहां X नमूने का प्राप्त माध्य है, D मानक विचलन है। -> **Note**: We also omit the discussion of an important concept of [degrees of freedom](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)), which is important in relation to Student distribution. You can refer to more complete books on statistics to understand this concept deeper. +> **नोट**: हम [स्वतंत्रता की डिग्री](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)) की एक महत्वपूर्ण अवधारणा की चर्चा को भी छोड़ देते हैं, जो छात्र वितरण के संबंध में महत्वपूर्ण है। इस अवधारणा को गहराई से समझने के लिए आप सांख्यिकी पर अधिक संपूर्ण पुस्तकों का उल्लेख कर सकते हैं। -An example of calculating confidence interval for weights and heights is given in the [accompanying notebooks](notebook.ipynb). +वजन और ऊंचाई के लिए आत्मविश्वास अंतराल की गणना का एक उदाहरण [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) में दिया गया है। | p | Weight mean | |-----|-----------| @@ -137,7 +137,7 @@ An example of calculating confidence interval for weights and heights is given i ## परिकल्पना परीक्षण -हमारे बेसबॉल खिलाड़ियों के डेटासेट में, अलग-अलग खिलाड़ी भूमिकाएँ होती हैं, जिन्हें नीचे संक्षेप में प्रस्तुत किया जा सकता है (इस तालिका की गणना कैसे की जा सकती है, यह देखने के लिए [साथ वाली नोटबुक](notebook.ipynb) देखें): +हमारे बेसबॉल खिलाड़ियों के डेटासेट में, अलग-अलग खिलाड़ी भूमिकाएँ होती हैं, जिन्हें नीचे संक्षेप में प्रस्तुत किया जा सकता है (इस तालिका की गणना कैसे की जा सकती है, यह देखने के लिए [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) देखें): | Role | Height | Weight | Count | |------|--------|--------|-------| @@ -226,9 +226,9 @@ array([[1. , 0.52959196], हमारे मामले में, मान 0.53 इंगित करता है कि किसी व्यक्ति के वजन और ऊंचाई के बीच कुछ संबंध है। हम रिश्ते को देखने के लिए दूसरे के खिलाफ एक मूल्य का स्कैटर प्लॉट भी बना सकते हैं: -![वजन और ऊंचाई के बीच संबंध](images/weight-height-relationship.png) +![वजन और ऊंचाई के बीच संबंध](/1-Introduction/04-stats-and-probability/images/weight-height-relationship.png) -> सहसंबंध और सहप्रसरण के अधिक उदाहरण [साथ वाली नोटबुक](notebook.ipynb) में पाए जा सकते हैं। +> सहसंबंध और सहप्रसरण के अधिक उदाहरण [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) में पाए जा सकते हैं। ## निष्कर्ष @@ -255,9 +255,9 @@ array([[1. , 0.52959196], संभाव्यता और सांख्यिकी इतना व्यापक विषय है कि यह अपने पाठ्यक्रम के योग्य है। यदि आप सिद्धांत में गहराई तक जाने में रुचि रखते हैं, तो आप निम्नलिखित में से कुछ पुस्तकों को पढ़ना जारी रख सकते हैं: -1. [Carlos Fernandez-Granda](https://cims.nyu.edu/~cfgranda/) from New York University has great lecture notes [Probability and Statistics for Data Science](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (available online) -1. [Peter and Andrew Bruce. Practical Statistics for Data Scientists.](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[sample code in R](https://github.com/andrewgbruce/statistics-for-data-scientists)]. -1. [James D. Miller. Statistics for Data Science](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[sample code in R](https://github.com/PacktPublishing/Statistics-for-Data-Science)] +1. न्यूयॉर्क विश्वविद्यालय के [कार्लोस फर्नांडीज-ग्रांडा](https://cims.nyu.edu/~cfgranda/) के पास डेटा साइंस के लिए [संभाव्यता और सांख्यिकी](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (ऑनलाइन उपलब्ध) के लिए महान व्याख्यान नोट्स हैं। +1. [पीटर और एंड्रयू ब्रूस। डेटा वैज्ञानिकों के लिए व्यावहारिक सांख्यिकी](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) । [[आर . में नमूना कोड](https://github.com/PacktPublishing/Statistics-for-Data-Science)] +1. [जेम्स डी. मिलर। डेटा विज्ञान के लिए सांख्यिकी](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[आर . में नमूना कोड](https://github.com/PacktPublishing/Statistics-for-Data-Science)] ## कार्यभार @@ -265,4 +265,4 @@ array([[1. , 0.52959196], ## क्रेडिट -यह पाठ ♥️ के साथ [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा लिखा गया है। \ No newline at end of file +यह पाठ ♥️ के साथ [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा लिखा गया है। From 3650b21bad2bc721ac81153625fc02f35652ce9a Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Fri, 11 Mar 2022 21:45:57 +0530 Subject: [PATCH 19/35] Fixed the small bracket mistake in assignment.hi.md --- .../04-stats-and-probability/translations/assignment.hi.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/1-Introduction/04-stats-and-probability/translations/assignment.hi.md b/1-Introduction/04-stats-and-probability/translations/assignment.hi.md index 244ae56b..f65156d4 100644 --- a/1-Introduction/04-stats-and-probability/translations/assignment.hi.md +++ b/1-Introduction/04-stats-and-probability/translations/assignment.hi.md @@ -12,7 +12,7 @@ * ज्यूपिटर नोटबुक वातावरण में [असाइनमेंट नोटबुक] (असाइनमेंट.आईपीएनबी) खोलें * नोटबुक में सूचीबद्ध सभी कार्यों को पूरा करें, अर्थात्: - * [] सभी मूल्यों के लिए माध्य मान और विचरण की गणना करें + * [ ] सभी मूल्यों के लिए माध्य मान और विचरण की गणना करें * [ ] लिंग के आधार पर बीएमआई, बीपी और वाई के लिए प्लॉट बॉक्सप्लॉट * [ ] आयु, लिंग, बीएमआई और वाई चर का वितरण क्या है? * [ ] विभिन्न चर और रोग प्रगति के बीच सहसंबंध का परीक्षण करें (Y) @@ -22,4 +22,4 @@ अनुकरणीय | पर्याप्त | सुधार की जरूरत --- | --- | -- | -सभी आवश्यक कार्य पूर्ण, ग्राफिक रूप से सचित्र और समझाया गया है | अधिकांश कार्य पूर्ण हैं, ग्राफ़ और/या प्राप्त मूल्यों से स्पष्टीकरण या टेकअवे गायब हैं | केवल मूल कार्य जैसे माध्य/विचरण की गणना और मूल प्लॉट पूरे होते हैं, डेटा से कोई निष्कर्ष नहीं निकाला जाता है \ No newline at end of file +सभी आवश्यक कार्य पूर्ण, ग्राफिक रूप से सचित्र और समझाया गया है | अधिकांश कार्य पूर्ण हैं, ग्राफ़ और/या प्राप्त मूल्यों से स्पष्टीकरण या टेकअवे गायब हैं | केवल मूल कार्य जैसे माध्य/विचरण की गणना और मूल प्लॉट पूरे होते हैं, डेटा से कोई निष्कर्ष नहीं निकाला जाता है From 31dde2a8b3ac5e46e801e006784c9903fbd9f7f8 Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Fri, 11 Mar 2022 23:28:20 +0530 Subject: [PATCH 20/35] Fixed all possible 404 errors from README.md I have fixed all the image linking errors which are from the Github status --- .../05-relational-databases/translations/README.hi.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/2-Working-With-Data/05-relational-databases/translations/README.hi.md b/2-Working-With-Data/05-relational-databases/translations/README.hi.md index cc7eb885..0a41f40a 100644 --- a/2-Working-With-Data/05-relational-databases/translations/README.hi.md +++ b/2-Working-With-Data/05-relational-databases/translations/README.hi.md @@ -1,6 +1,6 @@ # डेटा के साथ कार्य करना: संबंधपरक डेटाबेस -|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/05-RelationalData.png)| +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](/sketchnotes/05-RelationalData.png)| |:---:| | डेटा के साथ कार्य करना: संबंधपरक डेटाबेस - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | @@ -178,4 +178,4 @@ WHERE rainfall.year = 2019 ## कार्यभार -[असाइनमेंट शीर्षक](assignment.md) \ No newline at end of file +[असाइनमेंट शीर्षक](assignment.md) From 171b905bc0b340da1428a00152e9bfcc12477028 Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Sat, 12 Mar 2022 08:11:25 +0530 Subject: [PATCH 21/35] Fixed and edited errors --- .../05-relational-databases/translations/README.hi.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/2-Working-With-Data/05-relational-databases/translations/README.hi.md b/2-Working-With-Data/05-relational-databases/translations/README.hi.md index 0a41f40a..4d684b52 100644 --- a/2-Working-With-Data/05-relational-databases/translations/README.hi.md +++ b/2-Working-With-Data/05-relational-databases/translations/README.hi.md @@ -178,4 +178,4 @@ WHERE rainfall.year = 2019 ## कार्यभार -[असाइनमेंट शीर्षक](assignment.md) +[असाइनमेंट शीर्षक](/2-Working-With-Data/05-relational-databases/assignment.md) From a0082b562c718d1f858f3f7100e2020daf110609 Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Sat, 12 Mar 2022 08:14:32 +0530 Subject: [PATCH 22/35] Fixed 404 errors in Hindi translation of assignment --- .../05-relational-databases/translations/assignment.hi.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md b/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md index 7da44b67..fef55d35 100644 --- a/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md +++ b/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md @@ -1,6 +1,6 @@ # हवाईअड्डा डेटा प्रदर्शित करना -आपको एक [डेटाबेस](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db)प्रदान किया जायेगा। बनाया गया है [SQLite](https://sqlite.org/index.html) पर जिसमें हवाई अड्डों के बारे में जानकारी होती है। स्कीमा नीचे प्रदर्शित किया गया है। आप [विजुअल स्टूडियो कोड](https://code.) में [SQLite एक्सटेंशन](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-40229-cxa) का इस्तेमाल करेंगे। Visualstudio.com?WT.mc_id=academic-40229-cxa) विभिन्न शहरों के हवाई अड्डों के बारे में जानकारी प्रदर्शित करने के लिए। +आपको एक [डेटाबेस](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db) प्रदान किया जायेगा। बनाया गया है [SQLite](https://sqlite.org/index.html) पर जिसमें हवाई अड्डों के बारे में जानकारी होती है। स्कीमा नीचे प्रदर्शित किया गया है। आप [विजुअल स्टूडियो कोड](https://code.visualstudio.com/) में [SQLite एक्सटेंशन](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-40229-cxa) का इस्तेमाल करेंगे। Visualstudio.com?WT.mc_id=academic-40229-cxa) विभिन्न शहरों के हवाई अड्डों के बारे में जानकारी प्रदर्शित करने के लिए। ## निर्देश From f70835b534a30b01b4eafdf80a7bd56e7e8e5304 Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Sat, 12 Mar 2022 08:29:43 +0530 Subject: [PATCH 23/35] Resolve all 404 errors in assignment.hi.md of 06-non-relational --- .../translations/README.hi.md | 26 +++++++++---------- 1 file changed, 13 insertions(+), 13 deletions(-) diff --git a/2-Working-With-Data/06-non-relational/translations/README.hi.md b/2-Working-With-Data/06-non-relational/translations/README.hi.md index e4a59374..d72eb11a 100644 --- a/2-Working-With-Data/06-non-relational/translations/README.hi.md +++ b/2-Working-With-Data/06-non-relational/translations/README.hi.md @@ -1,6 +1,6 @@ # डेटा के साथ कार्य करना: गैर-संबंधपरक डेटा -|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/06-NoSQL.png)| +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/06-NoSQL.png)| |:---:| |NoSQL डेटा के साथ काम करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | @@ -12,7 +12,7 @@ स्प्रेडशीट डेटा को स्टोर और एक्सप्लोर करने का एक लोकप्रिय तरीका है क्योंकि इसे सेटअप करने और आरंभ करने के लिए कम काम की आवश्यकता होती है। इस पाठ में आप स्प्रेडशीट के बुनियादी घटकों के साथ-साथ सूत्रों और कार्यों के बारे में जानेंगे। उदाहरणों को Microsoft Excel के साथ चित्रित किया जाएगा, लेकिन अधिकांश भागों और विषयों में अन्य स्प्रेडशीट सॉफ़्टवेयर की तुलना में समान नाम और चरण होंगे। -![दो वर्कशीट के साथ एक खाली माइक्रोसॉफ्ट एक्सेल वर्कबुक](इमेज/पार्ट्स-ऑफ-स्प्रेडशीट.पीएनजी) +![दो वर्कशीट के साथ एक खाली माइक्रोसॉफ्ट एक्सेल वर्कबुक](../images/parts-of-spreadsheet.png) स्प्रैडशीट एक फ़ाइल है और इसे कंप्यूटर, डिवाइस या क्लाउड आधारित फ़ाइल सिस्टम के फ़ाइल सिस्टम में एक्सेस किया जा सकता है। सॉफ़्टवेयर स्वयं ब्राउज़र आधारित या एक एप्लिकेशन हो सकता है जिसे कंप्यूटर पर इंस्टॉल किया जाना चाहिए या ऐप के रूप में डाउनलोड किया जाना चाहिए। Excel में इन फ़ाइलों को **कार्यपुस्तिका** के रूप में भी परिभाषित किया जाता है और इस शब्दावली का उपयोग इस पाठ के शेष भाग में किया जाएगा। @@ -24,11 +24,11 @@ Excel कार्यपुस्तिका के इन बुनिया "InventoryExample" नाम की स्प्रैडशीट फ़ाइल एक इन्वेंट्री के भीतर आइटम्स की एक स्वरूपित स्प्रेडशीट है जिसमें तीन वर्कशीट होते हैं, जहां टैब को "इन्वेंटरी लिस्ट", "इन्वेंटरी पिक लिस्ट" और "बिन लुकअप" के रूप में लेबल किया जाता है। इन्वेंटरी लिस्ट वर्कशीट की पंक्ति 4 हेडर है, जो हेडर कॉलम में प्रत्येक सेल के मूल्य का वर्णन करता है। -![Microsoft Excel में एक उदाहरण सूची सूची से एक हाइलाइट किया गया सूत्र](images/formula-excel.png) +![Microsoft Excel में एक उदाहरण सूची सूची से एक हाइलाइट किया गया सूत्र](../images/formula-excel.png) ऐसे उदाहरण हैं जहां एक सेल अपना मूल्य उत्पन्न करने के लिए अन्य कोशिकाओं के मूल्यों पर निर्भर है। इन्वेंटरी लिस्ट स्प्रैडशीट अपनी इन्वेंट्री में प्रत्येक आइटम की लागत का ट्रैक रखती है, लेकिन क्या होगा यदि हमें इन्वेंट्री में हर चीज का मूल्य जानने की आवश्यकता है? [**सूत्र**](https://support.microsoft.com/en-us/office/overview-of-formulas-34519a4e-1e8d-4f4b-84d4-d642c4f63263) सेल डेटा पर कार्रवाई करते हैं और इसका उपयोग गणना करने के लिए किया जाता है इस उदाहरण में सूची की लागत। इस स्प्रैडशीट ने प्रत्येक आइटम के मूल्य की गणना करने के लिए इन्वेंटरी वैल्यू कॉलम में एक सूत्र का उपयोग किया है, जो कि QTY हेडर के तहत मात्रा को गुणा करके और इसकी लागत को COST हेडर के तहत सेल द्वारा गुणा करके किया जाता है। किसी सेल पर डबल क्लिक या हाईलाइट करना फॉर्मूला दिखाएगा। आप देखेंगे कि सूत्र बराबर चिह्न से शुरू होते हैं, उसके बाद गणना या संचालन होता है। -![Microsoft Excel में एक उदाहरण सूची सूची से एक हाइलाइट किया गया फ़ंक्शन](images/function-excel.png) +![Microsoft Excel में एक उदाहरण सूची सूची से एक हाइलाइट किया गया फ़ंक्शन](../images/function-excel.png) हम इसका कुल मूल्य प्राप्त करने के लिए इन्वेंटरी वैल्यू के सभी मूल्यों को एक साथ जोड़ने के लिए एक अन्य सूत्र का उपयोग कर सकते हैं। योग उत्पन्न करने के लिए प्रत्येक सेल को जोड़कर इसकी गणना की जा सकती है, लेकिन यह एक कठिन काम हो सकता है। Excel में [**functions**](https://support.microsoft.com/en-us/office/sum-function-043e1c7d-7726-4e80-8f32-07b23e057f89), या सेल मानों पर गणना करने के लिए पूर्वनिर्धारित सूत्र हैं . फ़ंक्शंस के लिए तर्कों की आवश्यकता होती है, जो इन गणनाओं को करने के लिए उपयोग किए जाने वाले आवश्यक मान हैं। जब फ़ंक्शंस को एक से अधिक तर्क की आवश्यकता होती है, तो उन्हें किसी विशेष क्रम में सूचीबद्ध करने की आवश्यकता होगी या फ़ंक्शन सही मान की गणना नहीं कर सकता है। यह उदाहरण SUM फ़ंक्शन का उपयोग करता है, और पंक्ति 3, कॉलम B (जिसे B3 भी कहा जाता है) के तहत सूचीबद्ध कुल जोड़ने के तर्क के रूप में इन्वेंट्री वैल्यू के मानों का उपयोग करता है। @@ -36,17 +36,17 @@ Excel कार्यपुस्तिका के इन बुनिया NoSQL गैर-संबंधपरक डेटा को संग्रहीत करने के विभिन्न तरीकों के लिए एक छत्र शब्द है और इसे "गैर-एसक्यूएल", "गैर-संबंधपरक" या "न केवल एसक्यूएल" के रूप में व्याख्या किया जा सकता है। इस प्रकार के डेटाबेस सिस्टम को 4 प्रकारों में वर्गीकृत किया जा सकता है। -![एक की-वैल्यू डेटा स्टोर का ग्राफिकल प्रतिनिधित्व 4 अद्वितीय संख्यात्मक कुंजियाँ दिखा रहा है जो 4 विभिन्न मानों से जुड़ी हैं](images/kv-db.png) +![एक की-वैल्यू डेटा स्टोर का ग्राफिकल प्रतिनिधित्व 4 अद्वितीय संख्यात्मक कुंजियाँ दिखा रहा है जो 4 विभिन्न मानों से जुड़ी हैं](../images/kv-db.png) > [माइकल बियालेकी ब्लॉग](https://www.michalbialecki.com/2018/03/18/azure-cosmos-db-key-value-database-cloud/) से स्रोत -[मौलिक मूल्य](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) डेटाबेस अद्वितीय कुंजी जोड़ते हैं, जो एक मूल्य से जुड़े एक अद्वितीय पहचानकर्ता हैं। इन जोड़ियों को एक उपयुक्त हैशिंग फ़ंक्शन के साथ [हैश टेबल](https://www.hackerearth.com/practice/data-structs/hash-tables/basics-of-hash-tables/tutorial/) का उपयोग करके संग्रहीत किया जाता है। +[मौलिक मूल्य](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) डेटाबेस अद्वितीय कुंजी जोड़ते हैं, जो एक मूल्य से जुड़े एक अद्वितीय पहचानकर्ता हैं। इन जोड़ियों को एक उपयुक्त हैशिंग फ़ंक्शन के साथ [हैश टेबल](https://www.hackerearth.com/practice/data-structures/hash-tables/basics-of-hash-tables/tutorial/) का उपयोग करके संग्रहीत किया जाता है। -![लोगों, उनकी रुचियों और स्थानों के बीच संबंधों को दर्शाने वाले ग्राफ़ डेटा स्टोर का चित्रमय प्रतिनिधित्व](images/graph-db.png) +![लोगों, उनकी रुचियों और स्थानों के बीच संबंधों को दर्शाने वाले ग्राफ़ डेटा स्टोर का चित्रमय प्रतिनिधित्व](../images/graph-db.png) > [माइक्रोसॉफ्ट](https://docs.microsoft.com/en-us/azure/cosmos-db/graph/graph-introduction#graph-database-by-example) से स्रोत [ग्राफ](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#graph-data-stores) डेटाबेस डेटा में संबंधों का वर्णन करते हैं और उनका प्रतिनिधित्व करते हैं नोड्स और किनारों के संग्रह के रूप में। एक नोड एक इकाई का प्रतिनिधित्व करता है, कुछ ऐसा जो वास्तविक दुनिया में मौजूद है जैसे कि छात्र या बैंक स्टेटमेंट। किनारे दो संस्थाओं के बीच संबंध का प्रतिनिधित्व करते हैं प्रत्येक नोड और किनारे में ऐसे गुण होते हैं जो प्रत्येक नोड और किनारों के बारे में अतिरिक्त जानकारी प्रदान करते हैं। -![पहचान और संपर्क जानकारी नामक दो स्तंभ परिवारों के साथ एक ग्राहक डेटाबेस दिखाते हुए एक स्तंभ डेटा स्टोर का चित्रमय प्रतिनिधित्व](images/columnar-db.png) +![पहचान और संपर्क जानकारी नामक दो स्तंभ परिवारों के साथ एक ग्राहक डेटाबेस दिखाते हुए एक स्तंभ डेटा स्टोर का चित्रमय प्रतिनिधित्व](../images/columnar-db.png) [Columnar](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#columnar-data-stores) डेटा स्टोर डेटा को कॉलम और पंक्तियों में व्यवस्थित करता है एक संबंधपरक डेटा संरचना की तरह लेकिन प्रत्येक कॉलम को एक कॉलम परिवार नामक समूहों में विभाजित किया जाता है, जहां एक कॉलम के तहत सभी डेटा संबंधित होते हैं और एक इकाई में पुनर्प्राप्त और बदला जा सकता है। @@ -54,7 +54,7 @@ NoSQL गैर-संबंधपरक डेटा को संग्रह [दस्तावेज़](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#document-data-stores) डेटा स्टोर एक की अवधारणा पर निर्मित होते हैं कुंजी-मूल्य डेटा स्टोर और फ़ील्ड और ऑब्जेक्ट्स की एक श्रृंखला से बना है। यह खंड कॉसमॉस डीबी एमुलेटर के साथ दस्तावेज़ डेटाबेस का पता लगाएगा। -एक Cosmos DB डेटाबेस "न केवल SQL" की परिभाषा में फिट बैठता है, जहाँ Cosmos DB का दस्तावेज़ डेटाबेस डेटा को क्वेरी करने के लिए SQL पर निर्भर करता है। SQL पर [पिछला पाठ](../05-relational-databases/README.md) भाषा की मूल बातें शामिल करता है, और हम यहां दस्तावेज़ डेटाबेस में कुछ समान प्रश्नों को लागू करने में सक्षम होंगे। हम Cosmos DB Emulator का उपयोग करेंगे, जो हमें कंप्यूटर पर स्थानीय रूप से एक दस्तावेज़ डेटाबेस बनाने और एक्सप्लोर करने की अनुमति देता है। एमुलेटर के बारे में और पढ़ें [यहां](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21)। +एक Cosmos DB डेटाबेस "न केवल SQL" की परिभाषा में फिट बैठता है, जहाँ Cosmos DB का दस्तावेज़ डेटाबेस डेटा को क्वेरी करने के लिए SQL पर निर्भर करता है। SQL पर [पिछला पाठ](../../05-relational-databases/README.md) भाषा की मूल बातें शामिल करता है, और हम यहां दस्तावेज़ डेटाबेस में कुछ समान प्रश्नों को लागू करने में सक्षम होंगे। हम Cosmos DB Emulator का उपयोग करेंगे, जो हमें कंप्यूटर पर स्थानीय रूप से एक दस्तावेज़ डेटाबेस बनाने और एक्सप्लोर करने की अनुमति देता है। एमुलेटर के बारे में और पढ़ें [यहां](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21)। एक दस्तावेज़ फ़ील्ड और ऑब्जेक्ट मानों का संग्रह है, जहां फ़ील्ड वर्णन करते हैं कि ऑब्जेक्ट मान क्या दर्शाता है। नीचे एक दस्तावेज़ का एक उदाहरण है। @@ -79,11 +79,11 @@ NoSQL गैर-संबंधपरक डेटा को संग्रह एमुलेटर एक ब्राउज़र विंडो लॉन्च करता है, जहां एक्सप्लोरर व्यू आपको दस्तावेजों का पता लगाने की अनुमति देता है। -![कॉसमॉस डीबी एम्यूलेटर का एक्सप्लोरर व्यू](images/cosmosdb-emulator-explorer.png) +![कॉसमॉस डीबी एम्यूलेटर का एक्सप्लोरर व्यू](../images/cosmosdb-emulator-explorer.png) यदि आप साथ चल रहे हैं, तो नमूना डीबी नामक नमूना डेटाबेस उत्पन्न करने के लिए "नमूना के साथ प्रारंभ करें" पर क्लिक करें। यदि आप तीर पर क्लिक करके नमूना डीबी का विस्तार करते हैं तो आपको `Persons` नामक एक कंटेनर मिलेगा, एक कंटेनर में वस्तुओं का संग्रह होता है, जो कंटेनर के भीतर दस्तावेज होते हैं। आप `Items` के तहत चार अलग-अलग दस्तावेजों का पता लगा सकते हैं। -![कॉसमॉस डीबी एमुलेटर में नमूना डेटा की खोज](images/cosmosdb-emulator-persons.png) +![कॉसमॉस डीबी एमुलेटर में नमूना डेटा की खोज](../images/cosmosdb-emulator-persons.png) #### कॉसमॉस डीबी एमुलेटर के साथ दस्तावेज़ डेटा को क्वेरी करना @@ -93,7 +93,7 @@ NoSQL गैर-संबंधपरक डेटा को संग्रह `SELECT * FROM c where c.age < 40` - ![40 से कम आयु फ़ील्ड मान वाले दस्तावेज़ों को खोजने के लिए Cosmos DB एमुलेटर में नमूना डेटा पर एक चयन क्वेरी चला रहा है](images/cosmosdb-emulator-persons-query.png) + ![40 से कम आयु फ़ील्ड मान वाले दस्तावेज़ों को खोजने के लिए Cosmos DB एमुलेटर में नमूना डेटा पर एक चयन क्वेरी चला रहा है](../images/cosmosdb-emulator-persons-query.png) क्वेरी दो दस्तावेज़ लौटाती है, ध्यान दें कि प्रत्येक दस्तावेज़ के लिए आयु मान 40 . से कम है. @@ -145,4 +145,4 @@ NoSQL गैर-संबंधपरक डेटा को संग्रह ## कार्यभार -[सोडा लाभ](assignment.md) \ No newline at end of file +[सोडा लाभ](assignment.hi.md) From f91cf521fd06622bd51a47bc884c94cdddcba7db Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Sat, 12 Mar 2022 08:32:21 +0530 Subject: [PATCH 24/35] Resolve 404 errors in assignment.hi.md of 06-non-relational --- .../06-non-relational/translations/assignment.hi.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/2-Working-With-Data/06-non-relational/translations/assignment.hi.md b/2-Working-With-Data/06-non-relational/translations/assignment.hi.md index d4a8f86e..7f5ab759 100644 --- a/2-Working-With-Data/06-non-relational/translations/assignment.hi.md +++ b/2-Working-With-Data/06-non-relational/translations/assignment.hi.md @@ -2,13 +2,13 @@ ## निर्देश -[कोका कोला कंपनी स्प्रेडशीट](CocaColaCo.xlsx) में कुछ गणनाएं नहीं हैं। आपका कार्य है: +[कोका कोला कंपनी स्प्रेडशीट](../CocaColaCo.xlsx) में कुछ गणनाएं नहीं हैं। आपका कार्य है: 1. वित्त वर्ष '15, '16, '17, और '18' के सकल लाभ की गणना करें - सकल लाभ = शुद्ध परिचालन राजस्व - बेची गई वस्तुओं की लागत 1. सभी सकल लाभ के औसत की गणना करें। इसे एक फ़ंक्शन के साथ करने का प्रयास करें। - औसत = वित्तीय वर्षों की संख्या से विभाजित सकल लाभ का योग (10) - - [औसत फ़ंक्शन] पर दस्तावेज़ीकरण(https://support.microsoft.com/en-us/office/average-function-047bac88-d466-426c-a32b-8f33eb960cf6) + - [औसत फ़ंक्शन](https://support.microsoft.com/en-us/office/average-function-047bac88-d466-426c-a32b-8f33eb960cf6) पर दस्तावेज़ीकरण 1. यह एक एक्सेल फाइल है, लेकिन इसे किसी भी स्प्रेडशीट प्लेटफॉर्म में संपादित किया जा सकता है [यीयी वांग को डेटा स्रोत क्रेडिट](https://www.kaggle.com/yiyiwang0826/cocacola-excel) From 0150dddc6bae504f0727f0211dd808614994acc4 Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Mon, 14 Mar 2022 09:23:56 +0530 Subject: [PATCH 25/35] Remove duplicate line --- .../05-relational-databases/translations/README.hi.md | 2 -- 1 file changed, 2 deletions(-) diff --git a/2-Working-With-Data/05-relational-databases/translations/README.hi.md b/2-Working-With-Data/05-relational-databases/translations/README.hi.md index 4d684b52..70610ae1 100644 --- a/2-Working-With-Data/05-relational-databases/translations/README.hi.md +++ b/2-Working-With-Data/05-relational-databases/translations/README.hi.md @@ -164,8 +164,6 @@ WHERE rainfall.year = 2019 इंटरनेट पर कई रिलेशनल डेटाबेस उपलब्ध हैं। आप ऊपर सीखे गए कौशल का उपयोग करके डेटा का पता लगा सकते हैं। -## व्याख्यान के बाद प्रश्नोत्तरी - ## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/9) ## समीक्षा और आत्म अध्ययन From 25790c5c7d6743ce05b8ea534132a63bfed7c68c Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Mon, 14 Mar 2022 09:27:19 +0530 Subject: [PATCH 26/35] Fixed Link malformed error of assignment.hi.md --- .../04-stats-and-probability/translations/README.hi.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/1-Introduction/04-stats-and-probability/translations/README.hi.md b/1-Introduction/04-stats-and-probability/translations/README.hi.md index 02ef72b7..07c61552 100644 --- a/1-Introduction/04-stats-and-probability/translations/README.hi.md +++ b/1-Introduction/04-stats-and-probability/translations/README.hi.md @@ -261,7 +261,7 @@ array([[1. , 0.52959196], ## कार्यभार -[लघु मधुमेह अध्ययन] (असाइनमेंट.एमडी) +[लघु मधुमेह अध्ययन](assignment.hi.md) ## क्रेडिट From 0efe5538357ce9d8516c05ad82bff718ed9b7a4d Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Mon, 14 Mar 2022 09:29:27 +0530 Subject: [PATCH 27/35] Translate some missing words --- .../04-stats-and-probability/translations/README.hi.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/1-Introduction/04-stats-and-probability/translations/README.hi.md b/1-Introduction/04-stats-and-probability/translations/README.hi.md index 07c61552..7d983d82 100644 --- a/1-Introduction/04-stats-and-probability/translations/README.hi.md +++ b/1-Introduction/04-stats-and-probability/translations/README.hi.md @@ -216,7 +216,7 @@ P-value: 9.137321189738925e-12 ```python print(np.corrcoef(weights,heights)) ``` -As a result, we get **correlation matrix** like this one: +नतीजतन, हमें इस तरह **सहसंबंध मैट्रिक्स** मिलता है: ``` array([[1. , 0.52959196], [0.52959196, 1. ]]) From 1b73a0e94a9dab6d06219320a447fb7adf13d58a Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Mon, 14 Mar 2022 09:33:26 +0530 Subject: [PATCH 28/35] Hindi translation of some missing sentence and fixed link error of assignment --- .../01-defining-data-science/translations/README.hi.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/1-Introduction/01-defining-data-science/translations/README.hi.md b/1-Introduction/01-defining-data-science/translations/README.hi.md index 2a579f88..1c93602a 100644 --- a/1-Introduction/01-defining-data-science/translations/README.hi.md +++ b/1-Introduction/01-defining-data-science/translations/README.hi.md @@ -6,7 +6,7 @@ --- -[![Defining Data Science Video](/1-Introduction/01-defining-data-science/images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) +[![डेटा विज्ञान वीडियो को परिभाषित करना](/1-Introduction/01-defining-data-science/images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) ## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/0) @@ -152,12 +152,12 @@ Visit [`notebook.ipynb`](/1-Introduction/01-defining-data-science/notebook.ipynb -## [Post-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/1) +## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/1) ## कार्य (Assignments) * **कार्य 1**: **बिग डेटा** और **मशीन लर्निंग** के क्षेत्रों के लिए संबंधित अवधारणाओं का पता लगाने के लिए ऊपर दिए गए कोड को संशोधित करें -* **कार्य 2**: [डेटा विज्ञान परिदृश्यों के बारे में सोचें](assignment.md) +* **कार्य 2**: [डेटा विज्ञान परिदृश्यों के बारे में सोचें](assignment.hi.md) ## क्रेडिट From f769ec441b475d771a9082aeef4a266a953b0f32 Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Mon, 14 Mar 2022 09:35:43 +0530 Subject: [PATCH 29/35] Translate some missing words --- .../01-defining-data-science/translations/README.hi.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/1-Introduction/01-defining-data-science/translations/README.hi.md b/1-Introduction/01-defining-data-science/translations/README.hi.md index 1c93602a..caaf0c50 100644 --- a/1-Introduction/01-defining-data-science/translations/README.hi.md +++ b/1-Introduction/01-defining-data-science/translations/README.hi.md @@ -20,7 +20,7 @@ ## डेटा साइंस क्या है? -In [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **डेटा साइंस** *एक वैज्ञानिक क्षेत्र के रूप में परिभाषित किया गया है जो संरचित और असंरचित डेटा से ज्ञान और अंतर्दृष्टि निकालने के लिए वैज्ञानिक तरीकों का उपयोग करता है, और आवेदन डोमेन की एक विस्तृत श्रृंखला में डेटा से ज्ञान और कार्रवाई योग्य अंतर्दृष्टि लागू करता है।*. +[विकिपीडिया](https://en.wikipedia.org/wiki/Data_science) में, **डेटा साइंस** *एक वैज्ञानिक क्षेत्र के रूप में परिभाषित किया गया है जो संरचित और असंरचित डेटा से ज्ञान और अंतर्दृष्टि निकालने के लिए वैज्ञानिक तरीकों का उपयोग करता है, और आवेदन डोमेन की एक विस्तृत श्रृंखला में डेटा से ज्ञान और कार्रवाई योग्य अंतर्दृष्टि लागू करता है।*. यह परिभाषा डेटा विज्ञान के निम्नलिखित महत्वपूर्ण पहलुओं पर प्रकाश डालती है:: @@ -148,7 +148,7 @@ In [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **डेटा स Visit [`notebook.ipynb`](/1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') कोड के माध्यम से पढ़ने के लिए। आप कोड भी चला सकते हैं, और देख सकते हैं कि यह वास्तविक समय में सभी डेटा परिवर्तन कैसे करता है। -> यदि आप नहीं जानते कि जुपिटर नोटबुक में कोड कैसे चलाना है, तो एक नज़र डालें [this article](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). +> यदि आप नहीं जानते कि जुपिटर नोटबुक में कोड कैसे चलाना है, तो एक नज़र डालें [यह लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). From 100becd753f396286f29ef3037c5853b2710560e Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Mon, 14 Mar 2022 09:50:03 +0530 Subject: [PATCH 30/35] Done some translation and fixed link errors --- .../02-ethics/translations/README.hi.md | 49 +++++++++---------- 1 file changed, 24 insertions(+), 25 deletions(-) diff --git a/1-Introduction/02-ethics/translations/README.hi.md b/1-Introduction/02-ethics/translations/README.hi.md index 673f8330..238ed3b7 100644 --- a/1-Introduction/02-ethics/translations/README.hi.md +++ b/1-Introduction/02-ethics/translations/README.hi.md @@ -10,7 +10,7 @@ बाजार के रुझान यह दर्शाते हैं कि २०२२ तक, तीन में से एक बड़ी संस्था अपना डाटा कि खरीद और बेचना ऑनलाइन [दुकानों](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/) द्वारा करेंगी | **ऐप डेवलपर** के रूप में, हम डेटा-संचालित अंतर्दृष्टि और एल्गोरिथम-चालित स्वचालन को दैनिक उपयोगकर्ता अनुभवों में एकीकृत करना आसान और सस्ता पाएंगे। लेकिन जैसे-जैसे AI व्यापक होता जाएगा, हमें इस तरह के एल्गोरिदम के [हथियारीकरण](https://www.youtube.com/watch?v=TQHs8SA1qpk) से होने वाले संभावित नुकसान को भी समझना होगा । -रुझान यह भी संकेत देते हैं कि हम २०२५ तक [180 zettabytes](https://www.statista.com/statistics/871513/worldwide-data-created/) डेटा का निर्माण और उपभोग करेंगे । **डेटा वैज्ञानिक** के रूप में, यह हमें व्यक्तिगत डेटा तक पहुंचने के लिये अभूतपूर्व स्तर प्रदान करता है । इसका मतलब है कि हम उपयोगकर्ताओं के व्यवहार संबंधी प्रोफाइल बना सकते हैं और निर्णय लेने को इस तरह से प्रभावित कर सकते हैं जो संभावित रूप से एक [मुक्त इच्छा का भ्रम](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) पैदा करता है जब्कि वह उपयोगकर्ताओं को हमारे द्वारा पसंद किए जाने वाले परिणामों की ओर आकर्षित करना । यह डेटा गोपनीयता और उपयोगकर्ता की सुरक्षा पर भी व्यापक प्रश्न उठाता है । +रुझान यह भी संकेत देते हैं कि हम २०२५ तक [180 ज़ेटाबाइट्स](https://www.statista.com/statistics/871513/worldwide-data-created/) डेटा का निर्माण और उपभोग करेंगे । **डेटा वैज्ञानिक** के रूप में, यह हमें व्यक्तिगत डेटा तक पहुंचने के लिये अभूतपूर्व स्तर प्रदान करता है । इसका मतलब है कि हम उपयोगकर्ताओं के व्यवहार संबंधी प्रोफाइल बना सकते हैं और निर्णय लेने को इस तरह से प्रभावित कर सकते हैं जो संभावित रूप से एक [मुक्त इच्छा का भ्रम](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) पैदा करता है जब्कि वह उपयोगकर्ताओं को हमारे द्वारा पसंद किए जाने वाले परिणामों की ओर आकर्षित करना । यह डेटा गोपनीयता और उपयोगकर्ता की सुरक्षा पर भी व्यापक प्रश्न उठाता है । डेटा नैतिकता अब डेटा विज्ञान और इंजीनियरिंग का _आवश्यक रक्षक_ हैं, जिससे हमें अपने डेटा-संचालित कार्यों से संभावित नुकसान और अनपेक्षित परिणामों को नीचे रखने में मदद मिलती है । [AI के लिए गार्टनर हाइप साइकिल](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) डिजिटल नैतिकता में उचित रुझानों की पहचान करता है AI के _democratization_ और _industrialization_ के आसपास बड़े मेगाट्रेंड के लिए प्रमुख ड्राइवर के रूप में जिम्मेदार AI की ज़िम्मेदारी और AI शासन । @@ -44,9 +44,9 @@ प्रत्येक डेटा नैतिकता रणनीति _नैतिक सिद्धांतों_ को परिभाषित करके शुरू होती है - "साझा मूल्य" जो स्वीकार्य व्यवहारों का वर्णन करते हैं, और हमारे डेटा और AI परियोजनाओं में अनुपालन कार्यों का मार्गदर्शन करते हैं । लेकिन, अधिकांश बड़े संगठन इन्हें एक _नैतिक AI_ मिशन स्टेटमेंट या फ्रेमवर्क में रेखांकित करते हैं जो कॉर्पोरेट स्तर पर परिभाषित होता है और सभी टीमों में लगातार लागू होता है । -**उदाहरण:** माइक्रोसॉफ्ट की [Responsible AI](https://www.microsoft.com/en-us/ai/responsible-ai) मिशन स्टेटमेंट कहती है : _"हम नैतिक सिद्धांतों द्वारा संचालित AI की उन्नति के लिए प्रतिबद्ध हैं जो लोगों को सबसे पहले रखते हैं |"_ - नीचे दिए गए ढांचे में 6 नैतिक सिद्धांतों की वार्ना की गयी है : +**उदाहरण:** माइक्रोसॉफ्ट की [जिम्मेदार एआई](https://www.microsoft.com/en-us/ai/responsible-ai) मिशन स्टेटमेंट कहती है : _"हम नैतिक सिद्धांतों द्वारा संचालित AI की उन्नति के लिए प्रतिबद्ध हैं जो लोगों को सबसे पहले रखते हैं |"_ - नीचे दिए गए ढांचे में 6 नैतिक सिद्धांतों की वार्ना की गयी है : -![माइक्रोसॉफ्ट की Responsible AI](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png) +![माइक्रोसॉफ्ट की जिम्मेदार एआई](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png) आइए संक्षेप में इन सिद्धांतों के बारे में सीखे | _पारदर्शिता_ और _जवाबदेही_ वह मूलभूत मूल्य हैं जिन पर अन्य सिद्धांतों का निर्माण किया गया है - तो चलिए वहां शुरु करते हैं : @@ -57,7 +57,7 @@ * [**निजता एवं सुरक्षा**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - डेटा वंश को समझने, और उपयोगकर्ताओं को _डेटा गोपनीयता और संबंधित सुरक्षा_ प्रदान करने के बारे में है । * [**समग्रता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - AI समाधानों को इरादे से डिजाइन करना एवं उन्हें _मानवीय आवश्यकताओं की एक विस्तृत श्रृंखला_ और क्षमताओं को पूरा करने के लिए अनुकूलित करने के बारे में है । -> 🚨 अपने डेटा नैतिकता मिशन वक्तव्य के बारे में सोचें | अन्य संगठनों से नैतिक AI ढांचों का अन्वेषण करें - ये हैं कुछ उदाहरण [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) ,एवं [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/) | इनके बीच क्या साझा मूल्य हैं? ये सिद्धांत उनके द्वारा संचालित AI उत्पाद या उद्योग से कैसे संबंधित हैं ? +> 🚨 अपने डेटा नैतिकता मिशन वक्तव्य के बारे में सोचें | अन्य संगठनों से नैतिक AI ढांचों का अन्वेषण करें - ये हैं कुछ उदाहरण [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) ,एवं [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/) | इनके बीच क्या साझा मूल्य हैं? ये सिद्धांत उनके द्वारा संचालित एआई उत्पाद या उद्योग से कैसे संबंधित हैं ? ### 2. नैतिकता से जुडी चुनौतियां @@ -108,7 +108,6 @@ * क्या डेटा साझा या प्रसारित होने पर उपयोगकर्ताओं की गोपनीयता बनी रहती है ? * क्या किसी उपयोगकर्ता की पहचान अज्ञात डेटासेट से की जा सकती है ? - #### 2.5 भूला दिया जाने का अधिकार [भूला दिया जाने का अधिकार](https://en.wikipedia.org/wiki/Right_to_be_forgotten) अतिरिक्त सुविधाएं प्रदान करता है उपयोगकर्ताओं के लिए व्यक्तिगत डेटा सुरक्षा। विशेष रूप से, यह उपयोगकर्ताओं को इंटरनेट खोजों और अन्य स्थानों से व्यक्तिगत डेटा को हटाने या हटाने का अनुरोध करने का अधिकार देता है, _विशिष्ट परिस्थितियों में_ - उन्हें उनके खिलाफ पिछली कार्रवाई किए बिना ऑनलाइन एक नई शुरुआत करने की अनुमति देता है । @@ -185,9 +184,9 @@ | **डेटा गोपनीयता और उपयोगकर्ता अधिकार** | २०२१ - फेसबुक [डेटा ब्रीच](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) 530M उपयोगकर्ताओं के डेटा को उजागर किया, जिसके परिणामस्वरूप FTC को $ 5B का समझौता हुआ । हालांकि इसने डेटा पारदर्शिता और पहुंच के आसपास उपयोगकर्ता अधिकारों का उल्लंघन करने वाले उल्लंघन के उपयोगकर्ताओं को सूचित करने से इनकार कर दिया । | अधिक केस स्टडी के बारे में चाहते हैं ? इन संसाधनों की जाँच करें : -* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - विविध उद्योगों में नैतिकता की दुविधा । -* [Data Science Ethics course](https://www.coursera.org/learn/data-science-ethics#syllabus) - ऐतिहासिक मामले का अध्ययन । -* [Where things have gone wrong](https://deon.drivendata.org/examples/) - उदाहरण के साथ डीओन चेकलिस्ट | +* [नैतिकता अलिखित](https://ethicsunwrapped.utexas.edu/case-studies) - विविध उद्योगों में नैतिकता की दुविधा । +* [डेटा साइंस एथिक्स कोर्स](https://www.coursera.org/learn/data-science-ethics#syllabus) - ऐतिहासिक मामले का अध्ययन । +* [जहां चीजें गलत हो गई हैं](https://deon.drivendata.org/examples/) - उदाहरण के साथ डीओन चेकलिस्ट | > 🚨 आपके द्वारा देखी गई केस स्टडी के बारे में सोचें - क्या आपने अपने जीवन में इसी तरह की नैतिक चुनौती का अनुभव किया है, या इससे प्रभावित हुए हैं ? क्या आप कम से कम एक अन्य केस स्टडी के बारे में सोच सकते हैं जो इस खंड में चर्चा की गई नैतिक चुनौतियों में से एक को दर्शाती है ? @@ -214,10 +213,10 @@ चेकलिस्ट प्रश्नों को "हां/नहीं" कार्यों में परिवर्तित करते हैं जिन्हें संचालित किया जा सकता है, जिससे उन्हें मानक उत्पाद रिलीज वर्कफ़्लो के हिस्से के रूप में ट्रैक किया जा सकता है । उदाहरणों में शामिल : - * [Deon](https://deon.drivendata.org/) - आसान एकीकरण के लिए कमांड-लाइन टूल के साथ [उद्योग अनुशंसाओं](https://deon.drivedata.org/#checklist-citations) से बनाई गई एक सामान्य-उद्देश्य डेटा नैतिकता चेकलिस्ट । - * [Privacy Audit Checklist](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - कानूनी और सामाजिक जोखिम के दृष्टिकोण से सूचना प्रबंधन प्रथाओं के लिए सामान्य मार्गदर्शन प्रदान करता है । - * [AI Fairness Checklist](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - एआई विकास चक्रों में निष्पक्षता जांच को अपनाने और एकीकरण का समर्थन करने के लिए एआई चिकित्सकों द्वारा बनाया गया । - * [22 questions for ethics in data and AI](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - डिजाइन, कार्यान्वयन, और संगठनात्मक, संदर्भों में नैतिक मुद्दों की प्रारंभिक खोज के लिए संरचित, अधिक खुला ढांचा । + * [डियोन](https://deon.drivendata.org/) - आसान एकीकरण के लिए कमांड-लाइन टूल के साथ [उद्योग अनुशंसाओं](https://deon.drivedata.org/#checklist-citations) से बनाई गई एक सामान्य-उद्देश्य डेटा नैतिकता चेकलिस्ट । + * [गोपनीयता ऑडिट चेकलिस्ट](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - कानूनी और सामाजिक जोखिम के दृष्टिकोण से सूचना प्रबंधन प्रथाओं के लिए सामान्य मार्गदर्शन प्रदान करता है । + * [एआई फेयरनेस चेकलिस्ट](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - एआई विकास चक्रों में निष्पक्षता जांच को अपनाने और एकीकरण का समर्थन करने के लिए एआई चिकित्सकों द्वारा बनाया गया । + * [डेटा और एआई में नैतिकता के लिए 22 प्रश्न](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - डिजाइन, कार्यान्वयन, और संगठनात्मक, संदर्भों में नैतिक मुद्दों की प्रारंभिक खोज के लिए संरचित, अधिक खुला ढांचा । ### 3. नैतिकता विनियम @@ -227,12 +226,12 @@ डेटा सुरक्षा और गोपनीयता नियमों के उदाहरण : - * `१९७४`, [US Privacy Act](https://www.justice.gov/opcl/privacy-act-1974) - व्यक्तिगत जानकारी के संग्रह, उपयोग और प्रकटीकरण को नियंत्रित करता है । - * `१९९६`, [US Health Insurance Portability & Accountability Act (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - व्यक्तिगत स्वास्थ्य डेटा की सुरक्षा करता है । - * `१९९८`, [US Children's Online Privacy Protection Act (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - 13 साल से कम उम्र के बच्चों की डेटा गोपनीयता की रक्षा करता है । - * `२०१८`, [General Data Protection Regulation (GDPR)](https://gdpr-info.eu/) - उपयोगकर्ता अधिकार, डेटा सुरक्षा और गोपनीयता प्रदान करता है । - * `२०१८`, [California Consumer Privacy Act (CCPA)](https://www.oag.ca.gov/privacy/ccpa) उपभोक्ताओं को उनके (व्यक्तिगत) डेटा पर अधिक _अधिकार_ देता है । - * `२०२१`, चीन का [Personal Information Protection Law](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) अभी-अभी पारित हुआ, दुनिया भर में सबसे मजबूत ऑनलाइन डेटा गोपनीयता नियमों में से एक बना । + * `१९७४`, [यूएस गोपनीयता अधिनियम](https://www.justice.gov/opcl/privacy-act-1974) - व्यक्तिगत जानकारी के संग्रह, उपयोग और प्रकटीकरण को नियंत्रित करता है । + * `१९९६`, [अमेरिकी स्वास्थ्य बीमा सुवाह्यता और जवाबदेही अधिनियम (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - व्यक्तिगत स्वास्थ्य डेटा की सुरक्षा करता है । + * `१९९८`, [यूएस चिल्ड्रन ऑनलाइन प्राइवेसी प्रोटेक्शन एक्ट (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - 13 साल से कम उम्र के बच्चों की डेटा गोपनीयता की रक्षा करता है । + * `२०१८`, [सामान्य डेटा संरक्षण विनियमन (GDPR)](https://gdpr-info.eu/) - उपयोगकर्ता अधिकार, डेटा सुरक्षा और गोपनीयता प्रदान करता है । + * `२०१८`, [कैलिफोर्निया उपभोक्ता गोपनीयता अधिनियम (CCPA)](https://www.oag.ca.gov/privacy/ccpa) उपभोक्ताओं को उनके (व्यक्तिगत) डेटा पर अधिक _अधिकार_ देता है । + * `२०२१`, चीन का [व्यक्तिगत सूचना संरक्षण कानून](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) अभी-अभी पारित हुआ, दुनिया भर में सबसे मजबूत ऑनलाइन डेटा गोपनीयता नियमों में से एक बना । > 🚨 यूरोपीय संघ परिभाषित GDPR (जनरल डेटा प्रोटेक्शन रेगुलेशन) आज सबसे प्रभावशाली डेटा गोपनीयता नियमों में से एक है । क्या आप जानते हैं कि यह नागरिकों की डिजिटल गोपनीयता और व्यक्तिगत डेटा की सुरक्षा के लिए [8 उपयोगकर्ता अधिकार](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) को भी परिभाषित करता है ? जानें कि ये क्या हैं, और क्यों मायने रखते हैं । @@ -241,7 +240,7 @@ ध्यान दें कि _अनुपालन_ ("कानून के पत्र को पूरा करने के लिए पर्याप्त प्रयास करना") और [प्रणालीगत मुद्दों](https://www.coursera.org/learn/data-science-ethics/home/week) को संबोधित करने के बीच एक अमूर्त अंतर है । / 4) (जैसे ossification, सूचना विषमता, और वितरण संबंधी अनुचितता) जो AI के शस्त्रीकरण को गति दे सकता है । -बाद वाले को [नैतिक संस्कृतियों को परिभाषित करने के लिए सहयोगात्मक दृष्टिकोण](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-drive-approach-26f451afa29f) की आवश्यकता होती है, जो पूरे संगठनों में भावनात्मक संबंध और सुसंगत साझा मूल्यों का निर्माण करते हैं । यह संगठनों में अधिक [औपचारिक डेटा नैतिकता संस्कृतियों](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) की मांग करता है - _किसी_ को [एंडोन कॉर्ड को खींचने] की अनुमति देता है (https:/ /en.wikipedia.org/wiki/Andon_(manufacturing)) (इस प्रक्रिया में नैतिकता संबंधी चिंताओं को जल्दी उठाने के लिए) और एआई परियोजनाओं में _नैतिक मूल्यांकन_ (उदाहरण के लिए, भर्ती में) एक मुख्य मानदंड टीम गठन करना । +बाद वाले को [नैतिक संस्कृतियों को परिभाषित करने के लिए सहयोगात्मक दृष्टिकोण](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-drive-approach-26f451afa29f) की आवश्यकता होती है, जो पूरे संगठनों में भावनात्मक संबंध और सुसंगत साझा मूल्यों का निर्माण करते हैं । यह संगठनों में अधिक [औपचारिक डेटा नैतिकता संस्कृतियों](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) की मांग करता है - _किसी_ को [एंडोन कॉर्ड को खींचने](https://en.wikipedia.org/wiki/Andon_(manufacturing)) की अनुमति देता है (इस प्रक्रिया में नैतिकता संबंधी चिंताओं को जल्दी उठाने के लिए) और एआई परियोजनाओं में _नैतिक मूल्यांकन_ (उदाहरण के लिए, भर्ती में) एक मुख्य मानदंड टीम गठन करना । --- ## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/3) 🎯 @@ -249,12 +248,12 @@ पाठ्यक्रम और पुस्तकें मूल नैतिकता अवधारणाओं और चुनौतियों को समझने में मदद करती हैं, जबकि केस स्टडी और उपकरण वास्तविक दुनिया के संदर्भों में लागू नैतिकता प्रथाओं के साथ मदद करते हैं। शुरू करने के लिए यहां कुछ संसाधन दिए गए हैं। -* [Machine Learning For Beginners](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - Microsoft से निष्पक्षता पर पाठ । -* [Principles of Responsible AI](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - माइक्रोसॉफ्ट लर्न की ओर से फ्री लर्निंग पाथ । -* [Ethics and Data Science](https://resources.oreilly.com/examples/0636920203964) - O'Reilly EBook (M. Loukides, H. Mason et. al) -* [Data Science Ethics](https://www.coursera.org/learn/data-science-ethics#syllabus) - मिशिगन विश्वविद्यालय से ऑनलाइन पाठ्यक्रम । -* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - टेक्सास विश्वविद्यालय से केस स्टडीज । +* [शुरुआती के लिए मशीन लर्निंग](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - Microsoft से निष्पक्षता पर पाठ । +* [जिम्मेदार एआई के सिद्धांत](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - माइक्रोसॉफ्ट लर्न की ओर से फ्री लर्निंग पाथ । +* [नैतिकता और डेटा विज्ञान](https://resources.oreilly.com/examples/0636920203964) - O'Reilly EBook (M. Loukides, H. Mason et. al) +* [डेटा विज्ञान नैतिकता](https://www.coursera.org/learn/data-science-ethics#syllabus) - मिशिगन विश्वविद्यालय से ऑनलाइन पाठ्यक्रम । +* [नैतिकता अलिखित](https://ethicsunwrapped.utexas.edu/case-studies) - टेक्सास विश्वविद्यालय से केस स्टडीज । # कार्यभार -[डेटा एथिक्स केस स्टडी लिखें](assignment.md) +[डेटा एथिक्स केस स्टडी लिखें](assignment.hi.md) From 9650f54eafa02c2a6ab2b3f736f9f47f152f7e63 Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Mon, 14 Mar 2022 09:52:47 +0530 Subject: [PATCH 31/35] Update 1 link error --- 1-Introduction/02-ethics/translations/README.hi.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/1-Introduction/02-ethics/translations/README.hi.md b/1-Introduction/02-ethics/translations/README.hi.md index 238ed3b7..65f2aa39 100644 --- a/1-Introduction/02-ethics/translations/README.hi.md +++ b/1-Introduction/02-ethics/translations/README.hi.md @@ -72,7 +72,7 @@ #### 2.1 डेटा स्वामित्व -डेटा संग्रह में अक्सर व्यक्तिगत डेटा शामिल होता है जो डेटा विषयों की पहचान कर सकता है । [डेटा स्वामित्व](https://permission.io/blog/data-ownership) _नियंत्रण_ के बारे में और उन [_उपयोगकर्ता अधिकारो_](https://permission.io/blog/data-ownership)के सम्भंदित है जो निर्माण , प्रसंस्करण और से संबंधित है । +डेटा संग्रह में अक्सर व्यक्तिगत डेटा शामिल होता है जो डेटा विषयों की पहचान कर सकता है । [डेटा स्वामित्व](https://permission.io/blog/data-ownership) _नियंत्रण_ के बारे में और उन [उपयोगकर्ता अधिकारो(https://permission.io/blog/data-ownership) के सम्भंदित है जो निर्माण , प्रसंस्करण और से संबंधित है । हमें जो नैतिक प्रश्न पूछने चाहिए, वे हैं : * डेटा का मालिक कौन है ? (उपयोगकर्ता या संगठन) @@ -178,7 +178,7 @@ | **सूचित सहमति** | १९७२ - [टस्केगी सिफलिस अध्ययन](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - अध्ययन में भाग लेने वाले अफ्रीकी अमेरिकी पुरुषों को उन शोधकर्ताओं द्वारा मुफ्त चिकित्सा देखभाल का वादा किया गया था जो उनके निदान या उपचार की उपलब्धता के बारे में विषयों को सूचित करने में विफल रहे। कई विषयों की मृत्यु हो गई और साथी या बच्चे प्रभावित हुए; अध्ययन 40 साल तक चला । | | **डाटा प्राइवेसी** | २००७ - [नेटफ्लिक्स डेटा प्राइज](https://www.wired.com/2007/12/why-anonymous-data-only-isnt/) ने शोधकर्ताओं को सिफारिश एल्गोरिदम को बेहतर बनाने में मदद करने के लिए 50K ग्राहकों_ से _10M अनाम मूवी रैंकिंग प्रदान की। हालांकि, शोधकर्ता अज्ञात डेटा को व्यक्तिगत रूप से पहचाने जाने योग्य डेटा के साथ _बाहरी डेटासेट_ (उदाहरण के लिए, IMDb टिप्पणियों) में सहसंबंधित करने में सक्षम थे - कुछ नेटफ्लिक्स ग्राहकों को प्रभावी रूप से "डी-अनामीकरण" ।| | **संग्रह पूर्वाग्रह** | २०१३ - द सिटी ऑफ़ बोस्टन [विकसित स्ट्रीट बम्प](https://www.boston.gov/transportation/street-bump), एक ऐप जो नागरिकों को गड्ढों की रिपोर्ट करने देता है, जिससे शहर को समस्याओं को खोजने और ठीक करने के लिए बेहतर रोडवे डेटा मिलता है । हालांकि, [निम्न आय वर्ग के लोगों के पास कारों और फोन तक कम पहुंच थी](https://hbr.org/2013/04/the-hidden-biases-in-big-data), जिससे इस ऐप में उनके सड़क संबंधी मुद्दे अदृश्य हो गए थे। . डेवलपर्स ने शिक्षाविदों के साथ निष्पक्षता के लिए _न्यायसंगत पहुंच और डिजिटल विभाजन_ मुद्दों पर काम किया । | -| **एल्गोरिथम निष्पक्षता** | २०१८ - एमआईटी [जेंडर शेड्स स्टडी] (http://gendershades.org/overview.html) ने लिंग वर्गीकरण एआई उत्पादों की सटीकता का मूल्यांकन किया, महिलाओं और रंग के व्यक्तियों के लिए सटीकता में अंतराल को उजागर किया । एक [2019 ऐप्पल कार्ड](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) पुरुषों की तुलना में महिलाओं को कम क्रेडिट प्रदान करता है। दोनों ने एल्गोरिथम पूर्वाग्रह में सचित्र मुद्दों को सामाजिक-आर्थिक नुकसान की ओर अग्रसर किया ।| +| **एल्गोरिथम निष्पक्षता** | २०१८ - एमआईटी [जेंडर शेड्स स्टडी](http://gendershades.org/overview.html) ने लिंग वर्गीकरण एआई उत्पादों की सटीकता का मूल्यांकन किया, महिलाओं और रंग के व्यक्तियों के लिए सटीकता में अंतराल को उजागर किया । एक [2019 ऐप्पल कार्ड](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) पुरुषों की तुलना में महिलाओं को कम क्रेडिट प्रदान करता है। दोनों ने एल्गोरिथम पूर्वाग्रह में सचित्र मुद्दों को सामाजिक-आर्थिक नुकसान की ओर अग्रसर किया ।| | **डेटा गलत बयानी** | २०२० - [जॉर्जिया डिपार्टमेंट ऑफ पब्लिक हेल्थ ने जारी किया COVID-19 चार्ट](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening) जो एक्स-अक्ष पर गैर-कालानुक्रमिक क्रम के साथ पुष्टि किए गए मामलों में रुझानों के बारे में नागरिकों को गुमराह करने के लिए प्रकट हुए। यह विज़ुअलाइज़ेशन ट्रिक्स के माध्यम से गलत बयानी दिखाता है । | | **स्वतंत्र चुनाव का भ्रम** | २०२० - लर्निंग ऐप [एबीसीमाउस ने एफटीसी शिकायत को निपटाने के लिए 10 मिलियन डॉलर का भुगतान किया](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/) जहां माता-पिता भुगतान करने में फंस गए थे सदस्यता वे रद्द नहीं कर सके । यह पसंद वास्तुकला में काले पैटर्न को दिखाता है, जहां उपयोगकर्ता संभावित रूप से हानिकारक विकल्पों की ओर झुकाव कर रहे थे । | | **डेटा गोपनीयता और उपयोगकर्ता अधिकार** | २०२१ - फेसबुक [डेटा ब्रीच](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) 530M उपयोगकर्ताओं के डेटा को उजागर किया, जिसके परिणामस्वरूप FTC को $ 5B का समझौता हुआ । हालांकि इसने डेटा पारदर्शिता और पहुंच के आसपास उपयोगकर्ता अधिकारों का उल्लंघन करने वाले उल्लंघन के उपयोगकर्ताओं को सूचित करने से इनकार कर दिया । | From e447ff3da6488a2cc6d0b4cbd128085ccb969aa3 Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Mon, 14 Mar 2022 09:55:15 +0530 Subject: [PATCH 32/35] Fixed some link errors --- 1-Introduction/03-defining-data/translations/README.hi.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/1-Introduction/03-defining-data/translations/README.hi.md b/1-Introduction/03-defining-data/translations/README.hi.md index 146ef592..e81f7d7f 100644 --- a/1-Introduction/03-defining-data/translations/README.hi.md +++ b/1-Introduction/03-defining-data/translations/README.hi.md @@ -57,7 +57,7 @@ Kaggle यह के मुक्त डेटाबेस का बहुत ## [पाठ के पश्चात परीक्षा](https://red-water-0103e7a0f.azurestaticapps.net/quiz/5) ## समीक्षा और स्वअध्ययन -- माइक्रोसॉफ्ट लर्न का [Classify your data](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) पाठ संरचित, असंरचित और मिश्र संरचित डेटा के बारे में और अच्छे से बताता है। +- माइक्रोसॉफ्ट लर्न का [अपना डेटा वर्गीकृत करें](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) पाठ संरचित, असंरचित और मिश्र संरचित डेटा के बारे में और अच्छे से बताता है। ## अभ्यास -[डेटा का वर्गीकरण](../assignment.md) +[डेटा का वर्गीकरण](assignment.hi.md) From 686ada94de6237294970101606cca28455727392 Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Mon, 14 Mar 2022 09:59:56 +0530 Subject: [PATCH 33/35] Translate some missed words --- .../04-stats-and-probability/translations/README.hi.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/1-Introduction/04-stats-and-probability/translations/README.hi.md b/1-Introduction/04-stats-and-probability/translations/README.hi.md index 7d983d82..ff7331cf 100644 --- a/1-Introduction/04-stats-and-probability/translations/README.hi.md +++ b/1-Introduction/04-stats-and-probability/translations/README.hi.md @@ -9,7 +9,7 @@ [![Intro Video](/1-Introduction/04-stats-and-probability/images/video-prob-and-stats.png)](https://youtu.be/Z5Zy85g4Yjw) -## [Pre-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/6) +## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/6) ## प्रायिकता और यादृच्छिक चर @@ -39,7 +39,7 @@ ## माध्य, प्रसरण और मानक विचलन मान लीजिए कि हम एक यादृच्छिक चर X के n नमूनों का एक क्रम बनाते हैं: x1, x2, ..., xn। हम पारंपरिक तरीके से अनुक्रम के **माध्य** (या **अंकगणित औसत**) मान को परिभाषित कर सकते हैं (x1+x2+xएन)/एन। जैसे-जैसे हम नमूने का आकार बढ़ाते हैं (अर्थात n&rr;∞ के साथ सीमा लेते हैं), हम वितरण का माध्य (जिसे **अपेक्षा** भी कहते हैं) प्राप्त करेंगे। हम उम्मीद को **E**(x) से निरूपित करेंगे। -> यह प्रदर्शित किया जा सकता है कि मूल्यों के साथ किसी भी असतत वितरण के लिए {x1, x2, ..., xN} and corresponding probabilities p1, p2, ..., pN, the expectation would equal to E(X)=x1p1+x2p2+...+xNpN. +> यह प्रदर्शित किया जा सकता है कि मूल्यों के साथ किसी भी असतत वितरण के लिए {x1, x2, ..., xN} और संबंधित संभावनाएं p1, p2, ..., pN, उम्मीद के बराबर होगा E(X)=x1p1+x2p2+...+xNpN. यह पहचानने के लिए कि मान कितनी दूर तक फैले हुए हैं, हम प्रसरण की गणना कर सकते हैं σ2 = ∑(xi - μ)2/ एन, जहां & एमयू; अनुक्रम का माध्य है। मूल्य &सिग्मा; इसे **मानक विचलन** कहा जाता है, और σ2 को **विचरण** कहा जाता है। From b1006a8554ae5c26601aa2411bef9eda05e400fa Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Mon, 14 Mar 2022 10:02:13 +0530 Subject: [PATCH 34/35] Fixed assignment link --- .../05-relational-databases/translations/README.hi.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/2-Working-With-Data/05-relational-databases/translations/README.hi.md b/2-Working-With-Data/05-relational-databases/translations/README.hi.md index 70610ae1..9a4eb85f 100644 --- a/2-Working-With-Data/05-relational-databases/translations/README.hi.md +++ b/2-Working-With-Data/05-relational-databases/translations/README.hi.md @@ -176,4 +176,4 @@ WHERE rainfall.year = 2019 ## कार्यभार -[असाइनमेंट शीर्षक](/2-Working-With-Data/05-relational-databases/assignment.md) +[असाइनमेंट शीर्षक](assignment.hi.md) From cf9a7955b3d74e61c5b5d7d808b9dd46a2d6f906 Mon Sep 17 00:00:00 2001 From: Sachin Vinayak Dabhade <78628027+SachinDabhade@users.noreply.github.com> Date: Mon, 14 Mar 2022 10:05:45 +0530 Subject: [PATCH 35/35] Hindi Translate some missed words --- .../06-non-relational/translations/README.hi.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/2-Working-With-Data/06-non-relational/translations/README.hi.md b/2-Working-With-Data/06-non-relational/translations/README.hi.md index d72eb11a..648120d8 100644 --- a/2-Working-With-Data/06-non-relational/translations/README.hi.md +++ b/2-Working-With-Data/06-non-relational/translations/README.hi.md @@ -18,11 +18,11 @@ किसी कार्यपुस्तिका में एक या अधिक **कार्यपत्रक** होते हैं, जहां प्रत्येक कार्यपत्रक को टैब द्वारा लेबल किया जाता है। वर्कशीट के भीतर **सेल्स** नामक आयत होते हैं, जिनमें वास्तविक डेटा होगा। एक सेल एक पंक्ति और स्तंभ का प्रतिच्छेदन है, जहां स्तंभों को वर्णानुक्रमिक वर्णों और पंक्तियों को संख्यात्मक रूप से लेबल किया जाता है। कुछ स्प्रैडशीट्स में सेल में डेटा का वर्णन करने के लिए पहली कुछ पंक्तियों में हेडर होंगे। -Excel कार्यपुस्तिका के इन बुनियादी तत्वों के साथ, हम उपयोग करेंगे और [Microsoft Templates](https://templates.office.com/) के एक उदाहरण का उपयोग एक स्प्रैडशीट के कुछ अतिरिक्त भागों के माध्यम से चलने के लिए एक इन्वेंट्री पर केंद्रित होगा। +Excel कार्यपुस्तिका के इन बुनियादी तत्वों के साथ, हम उपयोग करेंगे और [माइक्रोसॉफ्ट टेम्पलेट्स](https://templates.office.com/) के एक उदाहरण का उपयोग एक स्प्रैडशीट के कुछ अतिरिक्त भागों के माध्यम से चलने के लिए एक इन्वेंट्री पर केंद्रित होगा। ### एक सूची का प्रबंधन -"InventoryExample" नाम की स्प्रैडशीट फ़ाइल एक इन्वेंट्री के भीतर आइटम्स की एक स्वरूपित स्प्रेडशीट है जिसमें तीन वर्कशीट होते हैं, जहां टैब को "इन्वेंटरी लिस्ट", "इन्वेंटरी पिक लिस्ट" और "बिन लुकअप" के रूप में लेबल किया जाता है। इन्वेंटरी लिस्ट वर्कशीट की पंक्ति 4 हेडर है, जो हेडर कॉलम में प्रत्येक सेल के मूल्य का वर्णन करता है। +"इन्वेंटरी उदाहरण" नाम की स्प्रैडशीट फ़ाइल एक इन्वेंट्री के भीतर आइटम्स की एक स्वरूपित स्प्रेडशीट है जिसमें तीन वर्कशीट होते हैं, जहां टैब को "इन्वेंटरी लिस्ट", "इन्वेंटरी पिक लिस्ट" और "बिन लुकअप" के रूप में लेबल किया जाता है। इन्वेंटरी लिस्ट वर्कशीट की पंक्ति 4 हेडर है, जो हेडर कॉलम में प्रत्येक सेल के मूल्य का वर्णन करता है। ![Microsoft Excel में एक उदाहरण सूची सूची से एक हाइलाइट किया गया सूत्र](../images/formula-excel.png)