commit
4d9f3c8173
@ -0,0 +1,260 @@
|
||||
# डेटा नैतिकता का परिचय
|
||||
|
||||
| ](../../../sketchnotes/02-Ethics.png)|
|
||||
|:---:|
|
||||
| डेटा विज्ञान नैतिकता - _[@nitya](https://twitter.com/nitya) द्वारा स्केचनोट_ |
|
||||
|
||||
---
|
||||
|
||||
हम सब इस डाटा-फाइड दुनिया में रहने वाले डाटा-नागरिक है |
|
||||
|
||||
बाजार के रुझान यह दर्शाते हैं कि २०२२ तक, तीन में से एक बड़ी संस्था अपना डाटा कि खरीद और बेचना ऑनलाइन [दुकानों](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/) द्वारा करेंगी | **ऐप डेवलपर** के रूप में, हम डेटा-संचालित अंतर्दृष्टि और एल्गोरिथम-चालित स्वचालन को दैनिक उपयोगकर्ता अनुभवों में एकीकृत करना आसान और सस्ता पाएंगे। लेकिन जैसे-जैसे AI व्यापक होता जाएगा, हमें इस तरह के एल्गोरिदम के [हथियारीकरण](https://www.youtube.com/watch?v=TQHs8SA1qpk) से होने वाले संभावित नुकसान को भी समझना होगा ।
|
||||
|
||||
रुझान यह भी संकेत देते हैं कि हम २०२५ तक [180 zettabytes](https://www.statista.com/statistics/871513/worldwide-data-created/) डेटा का निर्माण और उपभोग करेंगे । **डेटा वैज्ञानिक** के रूप में, यह हमें व्यक्तिगत डेटा तक पहुंचने के लिये अभूतपूर्व स्तर प्रदान करता है । इसका मतलब है कि हम उपयोगकर्ताओं के व्यवहार संबंधी प्रोफाइल बना सकते हैं और निर्णय लेने को इस तरह से प्रभावित कर सकते हैं जो संभावित रूप से एक [मुक्त इच्छा का भ्रम](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) पैदा करता है जब्कि वह उपयोगकर्ताओं को हमारे द्वारा पसंद किए जाने वाले परिणामों की ओर आकर्षित करना । यह डेटा गोपनीयता और उपयोगकर्ता की सुरक्षा पर भी व्यापक प्रश्न उठाता है ।
|
||||
|
||||
डेटा नैतिकता अब डेटा विज्ञान और इंजीनियरिंग का _आवश्यक रक्षक_ हैं, जिससे हमें अपने डेटा-संचालित कार्यों से संभावित नुकसान और अनपेक्षित परिणामों को नीचे रखने में मदद मिलती है । [AI के लिए गार्टनर हाइप साइकिल](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) डिजिटल नैतिकता में उचित रुझानों की पहचान करता है AI के _democratization_ और _industrialization_ के आसपास बड़े मेगाट्रेंड के लिए प्रमुख ड्राइवर के रूप में जिम्मेदार AI की ज़िम्मेदारी और AI शासन ।
|
||||
|
||||
|
||||

|
||||
|
||||
इस पाठ में, हम डेटा नैतिकता के आकर्षक क्षेत्र के बारे में सीखेंगे - मूल अवधारणाओं और चुनौतियों से लेकर केस-स्टडी और शासन जैसी एप्लाइड AI अवधारणाओं तक - जो डेटा और AI के साथ काम करने वाली समूह और संगठनों में नैतिकता संस्कृति स्थापित करने में मदद करते हैं ।
|
||||
|
||||
## [पाठ से पहले की प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/2) 🎯
|
||||
|
||||
## मूल परिभाषाएं
|
||||
|
||||
आइए बुनियादी शब्दावली को समझना शुरू करें ।
|
||||
|
||||
"नैतिकता" [ग्रीक शब्द "एथिकोस"](https://en.wikipedia.org/wiki/Ethics) (और इसकी जड़ "एथोस") से आया है जिसका अर्थ _चरित्र या नैतिक प्रकृति_ होता है ।
|
||||
|
||||
**नैतिकता** उन साझा मूल्यों और नैतिक सिद्धांतों के बारे में है जो समाज में हमारे व्यवहार को नियंत्रित करते हैं । नैतिकता कानूनों पर नहीं बल्कि "सही बनाम गलत" के व्यापक रूप से स्वीकृत मानदंड पर आधारित है । लेकिन , नैतिक विचार कॉर्पोरेट प्रशासन की पहल और अनुपालन के लिए अधिक प्रोत्साहन पैदा करने वाले सरकारी नियमों को प्रभावित कर सकते हैं ।
|
||||
|
||||
**डेटा नैतिकता** एक [नैतिकता की नई शाखा](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1) है जो "_डेटा, एल्गोरिदम और से संबंधित नैतिक समस्याओं का अध्ययन और मूल्यांकन करती है_" । यहां, **"डेटा"** - निर्माण, रिकॉर्डिंग, अवधि, प्रसंस्करण प्रसार, साझाकरण और उपयोग से संबंधित कार्यों पर केंद्रित है, **"एल्गोरिदम"** AI , एजेंटों, मशीन लर्निंग और रोबोटो पर केंद्रित है, और ** "अभ्यास"** जिम्मेदार नवाचार, प्रोग्रामिंग, हैकिंग और नैतिकता कोड जैसे विषयों पर केंद्रित है ।
|
||||
|
||||
**एप्लाइड नैतिकता** [नैतिक विचारों का व्यावहारिक अनुप्रयोग](https://en.wikipedia.org/wiki/Applied_ethics) है । यह _वास्तविक दुनिया की कार्रवाइयों, उत्पादों और प्रक्रियाओं_ के संदर्भ में नैतिक मुद्दों की सक्रिय रूप से जांच करने और सुधारात्मक उपाय करने की प्रक्रिया है ताकि ये हमारे परिभाषित नैतिक मूल्यों के साथ संरेखित रहें ।
|
||||
|
||||
**नैतिकता संस्कृति** यह सुनिश्चित करने के लिए [_operationalizing_ एप्लाइड नैतिकता](https://hbr.org/2019/05/how-to-design-an-ethical-organization) के बारे में है कि हमारे नैतिक सिद्धांतों और प्रथाओं को पूरे संगठन में एक सुसंगत और मापनीय तरीके से अपनाया जाए । सफल नैतिक संस्कृतियाँ संगठन-व्यापी नैतिक सिद्धांतों को परिभाषित करती हैं, अनुपालन के लिए सार्थक प्रोत्साहन प्रदान करती हैं, और संगठन के हर स्तर पर वांछित व्यवहारों को प्रोत्साहित और प्रवर्धित करके नैतिक मानदंडों को सुदृढ़ करती हैं ।
|
||||
|
||||
|
||||
## नैतिकता की अवधारणाएं
|
||||
|
||||
इस खंड में, हम डेटा नैतिकता के लिए साझा मूल्यों (सिद्धांतों) और नैतिक चुनौतियों (समस्याओं) जैसी अवधारणाओं पर चर्चा करेंगे - और मामले के अध्ययन का पता लगाएंगे जो आपको वास्तविक दुनिया के संदर्भों में इन अवधारणाओं को समझने में मदद करते हैं ।
|
||||
|
||||
### 1. नैतिक सिद्धांत
|
||||
|
||||
प्रत्येक डेटा नैतिकता रणनीति _नैतिक सिद्धांतों_ को परिभाषित करके शुरू होती है - "साझा मूल्य" जो स्वीकार्य व्यवहारों का वर्णन करते हैं, और हमारे डेटा और AI परियोजनाओं में अनुपालन कार्यों का मार्गदर्शन करते हैं । लेकिन, अधिकांश बड़े संगठन इन्हें एक _नैतिक AI_ मिशन स्टेटमेंट या फ्रेमवर्क में रेखांकित करते हैं जो कॉर्पोरेट स्तर पर परिभाषित होता है और सभी टीमों में लगातार लागू होता है ।
|
||||
|
||||
**उदाहरण:** माइक्रोसॉफ्ट की [Responsible AI](https://www.microsoft.com/en-us/ai/responsible-ai) मिशन स्टेटमेंट कहती है : _"हम नैतिक सिद्धांतों द्वारा संचालित AI की उन्नति के लिए प्रतिबद्ध हैं जो लोगों को सबसे पहले रखते हैं |"_ - नीचे दिए गए ढांचे में 6 नैतिक सिद्धांतों की वार्ना की गयी है :
|
||||
|
||||

|
||||
|
||||
आइए संक्षेप में इन सिद्धांतों के बारे में सीखे | _पारदर्शिता_ और _जवाबदेही_ वह मूलभूत मूल्य हैं जिन पर अन्य सिद्धांतों का निर्माण किया गया है - तो चलिए वहां शुरु करते हैं :
|
||||
|
||||
* [**जवाबदेही**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) उपयोगकर्ताओं को उनके डेटा और AI संचालन, और इन नैतिक सिद्धांतों के अनुपालन के लिए _जिम्मेदार_ बनाती है ।
|
||||
* [**पारदर्शिता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) सुनिश्चित करती है कि डेटा और AI क्रियाएं उपयोगकर्ताओं के लिए _समझने योग्य_ (व्याख्या योग्य) हैं, यह बताते हुए कि निर्णयों के पीछे क्या और क्यों है ।
|
||||
* [**निष्पक्षता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) - यह सुनिश्चित करने पर ध्यान केंद्रित करती है कि AI डेटा और सिस्टम में किसी भी प्रणालीगत या निहित सामाजिक-तकनीकी पूर्वाग्रहों को संबोधित करते हुए _सभी लोगों_ के साथ उचित व्यवहार करता है ।
|
||||
* [**विश्वसनीयता और अहनिकारकता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - सुनिश्चित करती है कि AI- संभावित नुकसान या अनपेक्षित परिणामों को कम करते हुए परिभाषित मूल्यों के साथ _लगातार_ काम करता है ।
|
||||
* [**निजता एवं सुरक्षा**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - डेटा वंश को समझने, और उपयोगकर्ताओं को _डेटा गोपनीयता और संबंधित सुरक्षा_ प्रदान करने के बारे में है ।
|
||||
* [**समग्रता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - AI समाधानों को इरादे से डिजाइन करना एवं उन्हें _मानवीय आवश्यकताओं की एक विस्तृत श्रृंखला_ और क्षमताओं को पूरा करने के लिए अनुकूलित करने के बारे में है ।
|
||||
|
||||
> 🚨 अपने डेटा नैतिकता मिशन वक्तव्य के बारे में सोचें | अन्य संगठनों से नैतिक AI ढांचों का अन्वेषण करें - ये हैं कुछ उदाहरण [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) ,एवं [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/) | इनके बीच क्या साझा मूल्य हैं? ये सिद्धांत उनके द्वारा संचालित AI उत्पाद या उद्योग से कैसे संबंधित हैं ?
|
||||
|
||||
### 2. नैतिकता से जुडी चुनौतियां
|
||||
|
||||
एक बार जब हमारे पास नैतिक सिद्धांत परिभाषित हो जाते हैं, तो अगला कदम यह देखने के लिए हमारे डेटा और एआई कार्यों का मूल्यांकन करना है कि क्या वे उन साझा मूल्यों के साथ संरेखित हैं । अपने कार्यों के बारे में दो श्रेणियों में सोचें: _डेटा संग्रह_ और _एल्गोरिदम डिज़ाइन_ |
|
||||
|
||||
डेटा संग्रह के साथ, कार्रवाइयों में संभवतः पहचान योग्य जीवित व्यक्तियों के लिए **व्यक्तिगत डेटा** या व्यक्तिगत रूप से पहचान योग्य जानकारी शामिल होगी । इसमें [गैर-व्यक्तिगत डेटा के विविध आइटम](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en) शामिल हैं, जो _collectively_ किसी व्यक्ति की पहचान करते हैं । नैतिक चुनौतियां _डेटा गोपनीयता_, _डेटा स्वामित्व_, और उपयोगकर्ताओं के लिए _सूचित सहमति_ और _बौद्धिक संपदा अधिकार_ जैसे संबंधित विषयों से संबंधित हो सकती हैं ।
|
||||
|
||||
एल्गोरिथम डिज़ाइन के साथ, क्रियाओं में **डेटासेट** एकत्र करना और क्यूरेट करना शामिल होगा, फिर उनका उपयोग **डेटा मॉडल** को प्रशिक्षित और तैनात करने के लिए किया जाएगा जो वास्तविक दुनिया के संदर्भों में परिणामों की भविष्यवाणी या स्वचालित निर्णय लेते हैं । एल्गोरिथम डिज़ाइन के साथ, क्रियाओं में **डेटासेट** एकत्र करना और क्यूरेट करना शामिल होगा, फिर उनका उपयोग **डेटा मॉडल** को प्रशिक्षित और तैनात करने के लिए किया जाएगा जो वास्तविक दुनिया के संदर्भों में परिणामों की भविष्यवाणी या स्वचालित निर्णय लेते हैं ।
|
||||
|
||||
दोनों ही मामलों में, नैतिकता की चुनौतियाँ उन क्षेत्रों को उजागर करती हैं जहाँ हमारे कार्यों का हमारे साझा मूल्यों के साथ टकराव हो सकता है । इन चिंताओं का पता लगाने, सामना करने, कम करने या समाप्त करने के लिए - हमें अपने कार्यों से संबंधित नैतिक "हां या नहीं" प्रश्न पूछने की जरूरत है, फिर आवश्यकतानुसार सुधारात्मक कार्रवाई करें । आइए कुछ नैतिक चुनौतियों और उनके द्वारा उठाए गए नैतिक प्रश्नों पर एक नज़र डालें :
|
||||
|
||||
|
||||
#### 2.1 डेटा स्वामित्व
|
||||
|
||||
डेटा संग्रह में अक्सर व्यक्तिगत डेटा शामिल होता है जो डेटा विषयों की पहचान कर सकता है । [डेटा स्वामित्व](https://permission.io/blog/data-ownership) _नियंत्रण_ के बारे में और उन [_उपयोगकर्ता अधिकारो_](https://permission.io/blog/data-ownership)के सम्भंदित है जो निर्माण , प्रसंस्करण और से संबंधित है ।
|
||||
|
||||
हमें जो नैतिक प्रश्न पूछने चाहिए, वे हैं :
|
||||
* डेटा का मालिक कौन है ? (उपयोगकर्ता या संगठन)
|
||||
* डेटा विषयों के पास क्या अधिकार हैं ? (उदा: पहुंच, मिटाना, सुवाह्यता)
|
||||
* संगठनों के पास क्या अधिकार हैं ? (उदा: दुर्भावनापूर्ण उपयोगकर्ता समीक्षाओं का सुधार)
|
||||
|
||||
#### 2.2 सूचित सहमति
|
||||
|
||||
[सूचित सहमति](https://legaldictionary.net/informed-consent/) उद्देश्य, संभावित जोखिमों और विकल्पों सहित प्रासंगिक तथ्यों की _पूर्ण समझ_ के साथ कार्रवाई (जैसे डेटा संग्रह) के लिए सहमत होने वाले उपयोगकर्ताओं के कार्य को परिभाषित करता है ।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या उपयोगकर्ता (डेटा विषय) ने डेटा कैप्चर और उपयोग के लिए अनुमति दी थी ?
|
||||
* क्या उपयोगकर्ता को वह उद्देश्य समझ में आया जिसके लिए उस डेटा को कैप्चर किया गया था ?
|
||||
* क्या उपयोगकर्ता ने उनकी भागीदारी से संभावित जोखिमों को समझा ?
|
||||
|
||||
#### 2.3 बौद्धिक संपदा
|
||||
|
||||
[बौद्धिक संपदा](https://en.wikipedia.org/wiki/Intellectual_property) मानव पहल से उत्पन्न अमूर्त कृतियों को संदर्भित करता है, जिनका व्यक्तियों या व्यवसायों के लिए _आर्थिक_ महत्व हो सकता है ।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या जमा किए गए डेटा का किसी उपयोगकर्ता या व्यवसाय के लिए आर्थिक महत्व है ?
|
||||
* क्या **उपयोगकर्ता** के पास यहां बौद्धिक संपदा है ?
|
||||
* क्या **संगठन** के पास यहां बौद्धिक संपदा है ?
|
||||
* अगर ये अधिकार मौजूद हैं, तो हम उनकी रक्षा कैसे कर रहे हैं ?
|
||||
|
||||
#### 2.4 डाटा गोपनीयता
|
||||
|
||||
[डेटा गोपनीयता](https://www.northeaster.edu/graduate/blog/what-is-data-privacy/) या सूचना गोपनीयता व्यक्तिगत रूप से पहचान योग्य जानकारी के संबंध में उपयोगकर्ता की गोपनीयता के संरक्षण और उपयोगकर्ता की पहचान की सुरक्षा को संदर्भित करता है ।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या उपयोगकर्ताओं का (व्यक्तिगत) डेटा हैक और लीक से सुरक्षित है ?
|
||||
* क्या उपयोगकर्ताओं का डेटा केवल अधिकृत उपयोगकर्ताओं और संदर्भों के लिए सुलभ है ?
|
||||
* क्या डेटा साझा या प्रसारित होने पर उपयोगकर्ताओं की गोपनीयता बनी रहती है ?
|
||||
* क्या किसी उपयोगकर्ता की पहचान अज्ञात डेटासेट से की जा सकती है ?
|
||||
|
||||
|
||||
#### 2.5 भूला दिया जाने का अधिकार
|
||||
|
||||
[भूला दिया जाने का अधिकार](https://en.wikipedia.org/wiki/Right_to_be_forgotten) अतिरिक्त सुविधाएं प्रदान करता है उपयोगकर्ताओं के लिए व्यक्तिगत डेटा सुरक्षा। विशेष रूप से, यह उपयोगकर्ताओं को इंटरनेट खोजों और अन्य स्थानों से व्यक्तिगत डेटा को हटाने या हटाने का अनुरोध करने का अधिकार देता है, _विशिष्ट परिस्थितियों में_ - उन्हें उनके खिलाफ पिछली कार्रवाई किए बिना ऑनलाइन एक नई शुरुआत करने की अनुमति देता है ।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या सिस्टम डेटा विषयों को अपना डेटा मिटाने का अनुरोध करने की अनुमति देता है ?
|
||||
* क्या उपयोगकर्ता की सहमति वापस लेने से स्वचालित डेटा मिटाना शुरू हो जाएगा ?
|
||||
* क्या डेटा सहमति के बिना या गैरकानूनी तरीके से एकत्र किया गया था ?
|
||||
* क्या हम डेटा गोपनीयता के लिए सरकारी नियमों का अनुपालन करते हैं ?
|
||||
|
||||
|
||||
#### 2.6 डेटासेट पूर्वाग्रह
|
||||
|
||||
डेटासेट या [संग्रह पूर्वाग्रह](http://researcharticles.com/index.php/bias-in-data-collection-in-research/) एल्गोरिथम विकास के लिए डेटा के _गैर-प्रतिनिधि_ सबसेट का चयन करने के बारे में है, जिसमें संभावित अनुचितता पैदा होती है विभिन्न समूहों के लिए भेदभाव । पूर्वाग्रह के प्रकारों में चयन या नमूना पूर्वाग्रह, स्वयंसेवी पूर्वाग्रह और साधन पूर्वाग्रह शामिल हैं ।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या हमने डेटा विषयों के प्रतिनिधि सेट की भर्ती की ?
|
||||
* क्या हमने विभिन्न पूर्वाग्रहों के लिए अपने एकत्रित या क्यूरेट किए गए डेटासेट का परीक्षण किय ा?
|
||||
* क्या हम खोजे गए पूर्वाग्रहों को कम कर सकते हैं या हटा सकते हैं ?
|
||||
|
||||
#### 2.7 डेटा की गुणवत्ता
|
||||
|
||||
[डेटा गुणवत्ता](https://lakefs.io/data-quality-testing/) जो हमारे एल्गोरिदम को विकसित करने के लिए उपयोग किए गए क्यूरेट किए गए डेटासेट की वैधता को देखता है, यह देखने के लिए जाँच करता है कि सुविधाएँ और रिकॉर्ड सटीकता और स्थिरता के स्तर की आवश्यकताओं को पूरा करते हैं या नहीं हमारे AI उद्देश्य के लिए आवश्यक है ।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या हमने अपने उपयोग के मामले में मान्य _features_ को कैप्चर किया ?
|
||||
* क्या डेटा विविध डेटा स्रोतों से _लगातार_ कैप्चर किया गया था ?
|
||||
* क्या विविध स्थितियों या परिदृश्यों के लिए डेटासेट _पूर्ण_ है ?
|
||||
* क्या वास्तविकता को प्रतिबिंबित करने में जानकारी _सटीक_ रूप से कैप्चर की गई है ?
|
||||
|
||||
#### 2.8 एल्गोरिथम की निष्पक्षता
|
||||
|
||||
[एल्गोरिदम निष्पक्षता](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) यह देखने के लिए जांच करता है कि क्या एल्गोरिथम डिज़ाइन व्यवस्थित रूप से डेटा विषयों के विशिष्ट उपसमूहों के साथ भेदभाव करता है जिससे [संभावित नुकसान](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) होते हैं में _allocation_ (जहां संसाधनों को अस्वीकार कर दिया जाता है या उस समूह से रोक दिया जाता है) और _सेवा की गुणवत्ता_ (जहां AI कुछ उपसमूहों के लिए उतना सटीक नहीं है जितना कि यह दूसरों के लिए है) ।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या हमने विविध उपसमूहों और स्थितियों के लिए मॉडल सटीकता का मूल्यांकन किया ?
|
||||
* क्या हमने संभावित नुकसान (जैसे, स्टीरियोटाइपिंग) के लिए सिस्टम की जांच की ?
|
||||
* क्या हम पहचाने गए नुकसान को कम करने के लिए डेटा को संशोधित कर सकते हैं या मॉडल को फिर से प्रशिक्षित कर सकते हैं ?
|
||||
|
||||
अधिक जानने के लिए [AI फेयरनेस चेकलिस्ट](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA) जैसे संसाधनों का अन्वेषण करें ।
|
||||
|
||||
#### 2.9 मिथ्या निरूपण
|
||||
|
||||
[डेटा मिसरिप्रेजेंटेशन](https://www.sciencedirect.com/topics/computer-science/misrepresentation) यह पूछने के बारे में है कि क्या हम एक वांछित कथा का समर्थन करने के लिए भ्रामक तरीके से ईमानदारी से रिपोर्ट किए गए डेटा से अंतर्दृष्टि का संचार कर रहे हैं ।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या हम अपूर्ण या गलत डेटा की रिपोर्ट कर रहे हैं ?
|
||||
* क्या हम डेटा को इस तरह से देख रहे हैं जिससे भ्रामक निष्कर्ष निकलते हैं ?
|
||||
* क्या हम परिणामों में हेरफेर करने के लिए चुनिंदा सांख्यिकीय तकनीकों का उपयोग कर रहे हैं ?
|
||||
* क्या ऐसे वैकल्पिक स्पष्टीकरण हैं जो एक अलग निष्कर्ष प्रस्तुत कर सकते हैं ?
|
||||
|
||||
#### 2.10 मुक्त चयन
|
||||
[इल्यूज़न ऑफ़ फ्री चॉइस](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) तब होता है जब सिस्टम "चॉइस आर्किटेक्चर" लोगों को पसंदीदा परिणाम लेने के लिए प्रेरित करने के लिए निर्णय लेने वाले एल्गोरिदम का उपयोग करता है। जबकि उन्हें विकल्प और नियंत्रण देना प्रतीत होता है। ये [डार्क पैटर्न](https://www.darkpatterns.org/) उपयोगकर्ताओं को सामाजिक और आर्थिक नुकसान पहुंचा सकते हैं। चूंकि उपयोगकर्ता निर्णय व्यवहार प्रोफाइल को प्रभावित करते हैं, इसलिए ये कार्रवाइयां संभावित रूप से भविष्य के विकल्पों को प्रेरित करती हैं जो इन नुकसानों के प्रभाव को बढ़ा या बढ़ा सकते हैं।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या उपयोगकर्ता ने उस विकल्प को बनाने के निहितार्थों को समझा ?
|
||||
* क्या उपयोगकर्ता (वैकल्पिक) विकल्पों और प्रत्येक के पेशेवरों और विपक्षों से अवगत था ?
|
||||
* क्या उपयोगकर्ता किसी स्वचालित या प्रभावित विकल्प को बाद में उलट सकता है ?
|
||||
|
||||
### 3. केस स्टडी
|
||||
|
||||
इन नैतिक चुनौतियों को वास्तविक दुनिया के संदर्भों में रखने के लिए, ऐसे मामलों के अध्ययन को देखने में मदद मिलती है जो व्यक्तियों और समाज को संभावित नुकसान और परिणामों को उजागर करते हैं, जब ऐसे नैतिकता उल्लंघनों की अनदेखी की जाती है ।
|
||||
|
||||
कुछ उदाहरण निम्नलिखित हैं :
|
||||
|
||||
| नैतिकता चुनौती | मामले का अध्ययन |
|
||||
|--- |--- |
|
||||
| **सूचित सहमति** | १९७२ - [टस्केगी सिफलिस अध्ययन](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - अध्ययन में भाग लेने वाले अफ्रीकी अमेरिकी पुरुषों को उन शोधकर्ताओं द्वारा मुफ्त चिकित्सा देखभाल का वादा किया गया था जो उनके निदान या उपचार की उपलब्धता के बारे में विषयों को सूचित करने में विफल रहे। कई विषयों की मृत्यु हो गई और साथी या बच्चे प्रभावित हुए; अध्ययन 40 साल तक चला । |
|
||||
| **डाटा प्राइवेसी** | २००७ - [नेटफ्लिक्स डेटा प्राइज](https://www.wired.com/2007/12/why-anonymous-data-only-isnt/) ने शोधकर्ताओं को सिफारिश एल्गोरिदम को बेहतर बनाने में मदद करने के लिए 50K ग्राहकों_ से _10M अनाम मूवी रैंकिंग प्रदान की। हालांकि, शोधकर्ता अज्ञात डेटा को व्यक्तिगत रूप से पहचाने जाने योग्य डेटा के साथ _बाहरी डेटासेट_ (उदाहरण के लिए, IMDb टिप्पणियों) में सहसंबंधित करने में सक्षम थे - कुछ नेटफ्लिक्स ग्राहकों को प्रभावी रूप से "डी-अनामीकरण" ।|
|
||||
| **संग्रह पूर्वाग्रह** | २०१३ - द सिटी ऑफ़ बोस्टन [विकसित स्ट्रीट बम्प](https://www.boston.gov/transportation/street-bump), एक ऐप जो नागरिकों को गड्ढों की रिपोर्ट करने देता है, जिससे शहर को समस्याओं को खोजने और ठीक करने के लिए बेहतर रोडवे डेटा मिलता है । हालांकि, [निम्न आय वर्ग के लोगों के पास कारों और फोन तक कम पहुंच थी](https://hbr.org/2013/04/the-hidden-biases-in-big-data), जिससे इस ऐप में उनके सड़क संबंधी मुद्दे अदृश्य हो गए थे। . डेवलपर्स ने शिक्षाविदों के साथ निष्पक्षता के लिए _न्यायसंगत पहुंच और डिजिटल विभाजन_ मुद्दों पर काम किया । |
|
||||
| **एल्गोरिथम निष्पक्षता** | २०१८ - एमआईटी [जेंडर शेड्स स्टडी] (http://gendershades.org/overview.html) ने लिंग वर्गीकरण एआई उत्पादों की सटीकता का मूल्यांकन किया, महिलाओं और रंग के व्यक्तियों के लिए सटीकता में अंतराल को उजागर किया । एक [2019 ऐप्पल कार्ड](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) पुरुषों की तुलना में महिलाओं को कम क्रेडिट प्रदान करता है। दोनों ने एल्गोरिथम पूर्वाग्रह में सचित्र मुद्दों को सामाजिक-आर्थिक नुकसान की ओर अग्रसर किया ।|
|
||||
| **डेटा गलत बयानी** | २०२० - [जॉर्जिया डिपार्टमेंट ऑफ पब्लिक हेल्थ ने जारी किया COVID-19 चार्ट](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening) जो एक्स-अक्ष पर गैर-कालानुक्रमिक क्रम के साथ पुष्टि किए गए मामलों में रुझानों के बारे में नागरिकों को गुमराह करने के लिए प्रकट हुए। यह विज़ुअलाइज़ेशन ट्रिक्स के माध्यम से गलत बयानी दिखाता है । |
|
||||
| **स्वतंत्र चुनाव का भ्रम** | २०२० - लर्निंग ऐप [एबीसीमाउस ने एफटीसी शिकायत को निपटाने के लिए 10 मिलियन डॉलर का भुगतान किया](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/) जहां माता-पिता भुगतान करने में फंस गए थे सदस्यता वे रद्द नहीं कर सके । यह पसंद वास्तुकला में काले पैटर्न को दिखाता है, जहां उपयोगकर्ता संभावित रूप से हानिकारक विकल्पों की ओर झुकाव कर रहे थे । |
|
||||
| **डेटा गोपनीयता और उपयोगकर्ता अधिकार** | २०२१ - फेसबुक [डेटा ब्रीच](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) 530M उपयोगकर्ताओं के डेटा को उजागर किया, जिसके परिणामस्वरूप FTC को $ 5B का समझौता हुआ । हालांकि इसने डेटा पारदर्शिता और पहुंच के आसपास उपयोगकर्ता अधिकारों का उल्लंघन करने वाले उल्लंघन के उपयोगकर्ताओं को सूचित करने से इनकार कर दिया । |
|
||||
|
||||
अधिक केस स्टडी के बारे में चाहते हैं ? इन संसाधनों की जाँच करें :
|
||||
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - विविध उद्योगों में नैतिकता की दुविधा ।
|
||||
* [Data Science Ethics course](https://www.coursera.org/learn/data-science-ethics#syllabus) - ऐतिहासिक मामले का अध्ययन ।
|
||||
* [Where things have gone wrong](https://deon.drivendata.org/examples/) - उदाहरण के साथ डीओन चेकलिस्ट |
|
||||
|
||||
> 🚨 आपके द्वारा देखी गई केस स्टडी के बारे में सोचें - क्या आपने अपने जीवन में इसी तरह की नैतिक चुनौती का अनुभव किया है, या इससे प्रभावित हुए हैं ? क्या आप कम से कम एक अन्य केस स्टडी के बारे में सोच सकते हैं जो इस खंड में चर्चा की गई नैतिक चुनौतियों में से एक को दर्शाती है ?
|
||||
|
||||
## एप्लाइड नैतिकता
|
||||
|
||||
हमने वास्तविक दुनिया के संदर्भों में नैतिक अवधारणाओं, चुनौतियों और केस स्टडी के बारे में बात की है। लेकिन हम अपनी परियोजनाओं में नैतिक सिद्धांतों और प्रथाओं को _लागू करना_ कैसे शुरू करते हैं ? और हम बेहतर शासन के लिए इन प्रथाओं को कैसे _संचालन_कृत करते हैं ? आइए कुछ वास्तविक दुनिया के समाधान देखें :
|
||||
|
||||
### 1. व्यावसायिक कोड
|
||||
|
||||
व्यावसायिक कोड संगठनों के लिए सदस्यों को उनके नैतिक सिद्धांतों और मिशन वक्तव्य का समर्थन करने के लिए "प्रोत्साहित" करने के लिए एक विकल्प प्रदान करते हैं । पेशेवर व्यवहार के लिए कोड _नैतिक दिशानिर्देश_ हैं, जो कर्मचारियों या सदस्यों को उनके संगठन के सिद्धांतों के अनुरूप निर्णय लेने में मदद करते हैं । वे केवल उतने ही अच्छे हैं जितने सदस्यों से स्वैच्छिक अनुपालन; हालांकि, कई संगठन सदस्यों से अनुपालन को प्रेरित करने के लिए अतिरिक्त पुरस्कार और दंड प्रदान करते हैं ।
|
||||
|
||||
उदाहरणों में शामिल :
|
||||
|
||||
* [ऑक्सफोर्ड म्यूनिख](http://www.code-of-ethics.org/code-of-conduct/) आचार संहिता
|
||||
* [डेटा साइंस एसोसिएशन](http://datascienceassn.org/code-of-conduct.html) आचार संहिता (2013 में बनाया गया)
|
||||
* [एसीएम आचार संहिता और व्यावसायिक आचरण](https://www.acm.org/code-of-ethics) (1993 से)
|
||||
|
||||
> 🚨 क्या आप एक पेशेवर इंजीनियरिंग या डेटा विज्ञान संगठन से संबंधित हैं ? यह देखने के लिए कि क्या वे पेशेवर आचार संहिता को परिभाषित करते हैं, उनकी साइट का अन्वेषण करें । यह उनके नैतिक सिद्धांतों के बारे में क्या कहता है ? वे सदस्यों को कोड का पालन करने के लिए "प्रोत्साहित" कैसे कर रहे हैं ?
|
||||
|
||||
### 2. Ethics Checklists
|
||||
|
||||
जबकि पेशेवर कोड चिकित्सकों से आवश्यक _नैतिक व्यवहार_ को परिभाषित करते हैं, वे प्रवर्तन में [विशेष रूप से बड़े पैमाने पर परियोजनाओं में](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) [ज्ञात सीमाएं हैं] । इसके बजाय, कई डेटा विज्ञान विशेषज्ञ [चेकलिस्ट के वकील](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), जो **सिद्धांतों को अभ्यासों से जोड़ सकते हैं** अधिक नियतात्मक और कार्रवाई योग्य तरीके ।
|
||||
|
||||
चेकलिस्ट प्रश्नों को "हां/नहीं" कार्यों में परिवर्तित करते हैं जिन्हें संचालित किया जा सकता है, जिससे उन्हें मानक उत्पाद रिलीज वर्कफ़्लो के हिस्से के रूप में ट्रैक किया जा सकता है ।
|
||||
|
||||
उदाहरणों में शामिल :
|
||||
* [Deon](https://deon.drivendata.org/) - आसान एकीकरण के लिए कमांड-लाइन टूल के साथ [उद्योग अनुशंसाओं](https://deon.drivedata.org/#checklist-citations) से बनाई गई एक सामान्य-उद्देश्य डेटा नैतिकता चेकलिस्ट ।
|
||||
* [Privacy Audit Checklist](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - कानूनी और सामाजिक जोखिम के दृष्टिकोण से सूचना प्रबंधन प्रथाओं के लिए सामान्य मार्गदर्शन प्रदान करता है ।
|
||||
* [AI Fairness Checklist](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - एआई विकास चक्रों में निष्पक्षता जांच को अपनाने और एकीकरण का समर्थन करने के लिए एआई चिकित्सकों द्वारा बनाया गया ।
|
||||
* [22 questions for ethics in data and AI](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - डिजाइन, कार्यान्वयन, और संगठनात्मक, संदर्भों में नैतिक मुद्दों की प्रारंभिक खोज के लिए संरचित, अधिक खुला ढांचा ।
|
||||
|
||||
### 3. नैतिकता विनियम
|
||||
|
||||
नैतिकता साझा मूल्यों को परिभाषित करने और _स्वेच्छा_ से सही काम करने के बारे में है । **अनुपालन** _कानून का पालन करने के बारे में है_ यदि और जहां परिभाषित किया गया है । **शासन** मोटे तौर पर उन सभी तरीकों को शामिल करता है जिनमें संगठन नैतिक सिद्धांतों को लागू करने और स्थापित कानूनों का पालन करने के लिए काम करते हैं ।
|
||||
|
||||
आज, संगठनों के भीतर शासन दो रूप लेता है । सबसे पहले, यह **नैतिक एआई** सिद्धांतों को परिभाषित करने और संगठन में सभी एआई-संबंधित परियोजनाओं में गोद लेने के संचालन के लिए प्रथाओं को स्थापित करने के बारे में है । दूसरा, यह उन क्षेत्रों के लिए सरकार द्वारा अनिवार्य सभी **डेटा सुरक्षा नियमों** का अनुपालन करने के बारे में है जहां यह संचालित होता है ।
|
||||
|
||||
डेटा सुरक्षा और गोपनीयता नियमों के उदाहरण :
|
||||
|
||||
* `१९७४`, [US Privacy Act](https://www.justice.gov/opcl/privacy-act-1974) - व्यक्तिगत जानकारी के संग्रह, उपयोग और प्रकटीकरण को नियंत्रित करता है ।
|
||||
* `१९९६`, [US Health Insurance Portability & Accountability Act (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - व्यक्तिगत स्वास्थ्य डेटा की सुरक्षा करता है ।
|
||||
* `१९९८`, [US Children's Online Privacy Protection Act (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - 13 साल से कम उम्र के बच्चों की डेटा गोपनीयता की रक्षा करता है ।
|
||||
* `२०१८`, [General Data Protection Regulation (GDPR)](https://gdpr-info.eu/) - उपयोगकर्ता अधिकार, डेटा सुरक्षा और गोपनीयता प्रदान करता है ।
|
||||
* `२०१८`, [California Consumer Privacy Act (CCPA)](https://www.oag.ca.gov/privacy/ccpa) उपभोक्ताओं को उनके (व्यक्तिगत) डेटा पर अधिक _अधिकार_ देता है ।
|
||||
* `२०२१`, चीन का [Personal Information Protection Law](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) अभी-अभी पारित हुआ, दुनिया भर में सबसे मजबूत ऑनलाइन डेटा गोपनीयता नियमों में से एक बना ।
|
||||
|
||||
> 🚨 यूरोपीय संघ परिभाषित GDPR (जनरल डेटा प्रोटेक्शन रेगुलेशन) आज सबसे प्रभावशाली डेटा गोपनीयता नियमों में से एक है । क्या आप जानते हैं कि यह नागरिकों की डिजिटल गोपनीयता और व्यक्तिगत डेटा की सुरक्षा के लिए [8 उपयोगकर्ता अधिकार](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) को भी परिभाषित करता है ? जानें कि ये क्या हैं, और क्यों मायने रखते हैं ।
|
||||
|
||||
|
||||
### 4. नैतिकता संस्कृति
|
||||
|
||||
ध्यान दें कि _अनुपालन_ ("कानून के पत्र को पूरा करने के लिए पर्याप्त प्रयास करना") और [प्रणालीगत मुद्दों](https://www.coursera.org/learn/data-science-ethics/home/week) को संबोधित करने के बीच एक अमूर्त अंतर है । / 4) (जैसे ossification, सूचना विषमता, और वितरण संबंधी अनुचितता) जो AI के शस्त्रीकरण को गति दे सकता है ।
|
||||
|
||||
बाद वाले को [नैतिक संस्कृतियों को परिभाषित करने के लिए सहयोगात्मक दृष्टिकोण](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-drive-approach-26f451afa29f) की आवश्यकता होती है, जो पूरे संगठनों में भावनात्मक संबंध और सुसंगत साझा मूल्यों का निर्माण करते हैं । यह संगठनों में अधिक [औपचारिक डेटा नैतिकता संस्कृतियों](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) की मांग करता है - _किसी_ को [एंडोन कॉर्ड को खींचने] की अनुमति देता है (https:/ /en.wikipedia.org/wiki/Andon_(manufacturing)) (इस प्रक्रिया में नैतिकता संबंधी चिंताओं को जल्दी उठाने के लिए) और एआई परियोजनाओं में _नैतिक मूल्यांकन_ (उदाहरण के लिए, भर्ती में) एक मुख्य मानदंड टीम गठन करना ।
|
||||
|
||||
---
|
||||
## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/3) 🎯
|
||||
## समीक्षा और स्व अध्ययन
|
||||
|
||||
पाठ्यक्रम और पुस्तकें मूल नैतिकता अवधारणाओं और चुनौतियों को समझने में मदद करती हैं, जबकि केस स्टडी और उपकरण वास्तविक दुनिया के संदर्भों में लागू नैतिकता प्रथाओं के साथ मदद करते हैं। शुरू करने के लिए यहां कुछ संसाधन दिए गए हैं।
|
||||
|
||||
* [Machine Learning For Beginners](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - Microsoft से निष्पक्षता पर पाठ ।
|
||||
* [Principles of Responsible AI](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - माइक्रोसॉफ्ट लर्न की ओर से फ्री लर्निंग पाथ ।
|
||||
* [Ethics and Data Science](https://resources.oreilly.com/examples/0636920203964) - O'Reilly EBook (M. Loukides, H. Mason et. al)
|
||||
* [Data Science Ethics](https://www.coursera.org/learn/data-science-ethics#syllabus) - मिशिगन विश्वविद्यालय से ऑनलाइन पाठ्यक्रम ।
|
||||
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - टेक्सास विश्वविद्यालय से केस स्टडीज ।
|
||||
|
||||
# कार्यभार
|
||||
<!-- need to change the link once assignment is translated -->
|
||||
[डेटा एथिक्स केस स्टडी लिखें](assignment.md)
|
@ -0,0 +1,69 @@
|
||||
# Definiendo los datos
|
||||
|
||||
| ](../../../sketchnotes/03-DefiningData.png)|
|
||||
|:---:|
|
||||
|Definiendo los datos - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
Los datos son hechos, información, observaciones y mediciones que son usados para realizar descubrimientos y soportar decisiones informadas. Un punto de datos es una unidad simple de datos dentro de un conjunto de datos, lo cual es una colección de puntos de datos. Los conjuntos de datos pueden venir en distintos formatos y estructuras, y comúnmente se basan en su fuente, o de donde provienen los datos. Por ejemplo, las ganancias mensuales de una compañía pueden estar en una hoja de cálculo, pero los datos del ritmo cardiaco por hora de un reloj inteligente pueden estar en un formato [JSON](https://stackoverflow.com/a/383699). Es algo común para los científicos de datos el trabajar con distintos tipos de datos dentro de un conjunto de datos.
|
||||
|
||||
Esta lección se enfoca en la identificación y clasificación de datos por sus características y sus fuentes.
|
||||
|
||||
## [Examen previo a la lección](https://red-water-0103e7a0f.azurestaticapps.net/quiz/4)
|
||||
## Cómo se describen los datos
|
||||
Los **datos en crudo** son datos que provienen de su fuente en su estado inicial y estos no han sido analizados u organizados. Con el fin de que tenga sentido lo que sucede con un conjunto de datos, es necesario organizarlos en un formato que pueda ser entendido tanto por humanos como por la tecnología usada para analizarla a mayor detalle. La estructura de un conjunto de datos describe como está organizado y puede ser clasificado de forma estructurada, no estructurada y semi-estructurada. Estos tipos de estructuras podrían variar, dependiendo de la fuente pero finalmente caerá en una de estas categorías.
|
||||
### Datos cuantitativos
|
||||
Los datos cuantitativos son observaciones numéricas en un conjunto de datos que puede ser típicamente analizados, medidos y usados matemáticamente. Algunos ejemplos de datos cuantitativos son: la población de un país, la altura de una persona o las ganancias trimestrales de una compañía. Con algo de análisis adicional, los datos cuantitativos podrían ser usados para descubrir tendencias de temporada en el índice de calidad del aire (AQI) o estimar la probabilidad la hora pico de embotellamiento vial en un día laboral típico.
|
||||
|
||||
### Datos cualitativos
|
||||
Los datos cualitativos, también conocidos como datos categóricos son datos que no pueden ser medidos de forma objetiva en comparación con los datos cuantitativos. Comúnmente son formatos de datos subjetivos que capturan la calidad de algo, como un producto o un proceso. Algunas veces, los datos cuantitativos son numéricos y no pudiesen ser usados matemáticamente, como números telefónicos o marcas de tiempo. Algunos ejemplos de datos cualitativos son: comentarios en los videos, la marca y modelo de un automóvil o el color favorito de tus amigos más cercanos. Los datos cualitativos pueden ser usados para entender qué productos le gustan más a los usuarios o el identificar las palabras clave populares en solicitudes de empleo.
|
||||
|
||||
### Datos estructurados
|
||||
Los datos estructurados son datos que están organizados en filas y columnas, donde cada fila tendrá el mismo conjunto de columnas. Las columnas representan un valor de un tipo particular y serán identificadas con un nombre que describa el valor que representa, mientras que las filas contienen los valores en cuestión. Las columnas usualmente tendrán un conjunto específico de reglas o restricciones en sus valores, para asegurar que los valores presentan a la columna de forma precisa. Por ejemplo, imagina una hoja de cálculo de clientes donde cada fila debe tener un número telefónico y los números telefónicos nunca contienen caracteres alfabéticos. Habrá que aplicar reglas a la columna de número telefónico para asegurar éste nunca está vacío y contiene únicamente números.
|
||||
|
||||
Un beneficio de los datos estructurados es que estos pueden ser organizados de tal forma que pueden relacionarse con otros datos estructurados. Sin embargo, ya que los datos están diseñados para ser organizados de forma específica, el realizar cambios a su estructura en general puede conllevar un gran esfuerzo. Por ejemplo, agregar una columna de correo a la hoja de cálculo de clientes para que no permita esté vacía significa que necesitas descubrir como agregar estos valores a las filas existentes de clientes en el conjunto de datos.
|
||||
|
||||
Ejemplos de datos estructurados: hojas de cálculo, bases de datos relacionales, número de teléfono, estados de cuenta del banco.
|
||||
|
||||
### Datos no estructurados
|
||||
Los datos no estructurados no pueden ser típicamente categorizados en filas o columnas y no contienen un formato o conjunto de reglas a seguir. Ya que los datos no estructurados tienen menos restricciones en su estructura es más fácil agregar nueva información en comparación con los conjuntos de datos estructurados. Si un sensor captura datos de presión barométrica cada 2 minutos y ha recibido una actualización que ahora permite medir y granar la temperatura, no se requiere la modificación de los datos existentes si estos son no estructurados. Sin embargo, esto puede hacer que el análisis o la investigación de este tipo de datos tomará más tiempo. Por ejemplo, un científico quiere encontrar la temperatura promedio del mes previo desde los sensores de datos, pero descubre que los sensores grabaron una "e" en algunos de sus datos grabados para puntualizar que éste está averiado en lugar de grabar un número, lo cual significa que los datos están incompletos.
|
||||
|
||||
Ejemplos de datos no estructurados: archivos de texto, mensajes de texto, archivos de video.
|
||||
|
||||
### Datos semi-estructurados
|
||||
Los datos semi-estructurados combinan características tanto de datos estructurados como no estructurados. Generalmente no se ajustan a un formato de filas y columnas pero están organizados de tal forma que son considerados estructurados y pueden seguir un formato fijo o conjunto de reglas. La estructura cambiará entre las fuentes, así como también la jerarquía definida para algo más flexible que permite la fácil integración de información nueva. Los metadatos son indicadores que facilitan el decidir como se organizan y almacenan los datos y tendrán varios nombres, basados en los tipos de datos. Algunos nombres comunes para los metadatos son etiquetas, elementos, entidades y atributos. Por ejemplo, un mensaje de correo típico tendrá un asunto, un cuerpo y un conjunto de destinatarios y puede ser organizado por quién o cuando fue enviado.
|
||||
|
||||
Ejemplos de datos no estructurados: HTML, archivos CSV, objetos JSON.
|
||||
|
||||
## Fuentes de datos
|
||||
|
||||
Una fuente de datos es la ubicación inicial en donde los datos son generados, o donde estos "viven" y varían basados en cómo y cuándo fueron recolectados. Los datos generados por sus usuarios con conocidos como información primaria mientras que la información secundaria proviene de una fuente que ha recolectado datos para uso general. Por ejemplo, un grupo de científicos recolectó observaciones en la selva tropical, dicha información es considerada como primaria, pero si deciden compartirla con otros científicos sería considerada como secundaria para aquellos que la usen.
|
||||
|
||||
Las bases de datos son una fuente común y recaen en sistemas de gestión de bases de datos para albergar y mantener los datos donde los usuarios usan comandos llamados consultas (queries) para explorar los datos. Los archivos como fuentes de datos pueden ser archivos de audio, imagen y video también como hojas de cálculo como Excel. Las fuentes de Internet son una ubicación común para albergar datos, donde se pueden encontrar tanto bases de datos como archivos. Las interfaces de programación de aplicaciones, también conocidas como APIs, le permiten a los programadores crear formas para compartir los datos con usuarios externos a través de internet, mientras que los procesos de "web scraping" extraen datos desde una página web. Las [lecciones de trabajando con datos](/2-Working-With-Data) se enfocan en como usar las distintas fuentes de datos.
|
||||
|
||||
## Conclusiones
|
||||
|
||||
En esta lección has aprendido:
|
||||
|
||||
- Qué son los datos
|
||||
- Cómo se describen los datos
|
||||
- Cómo se clasifican y categorizan los datos
|
||||
- Dónde se pueden encontrar los datos
|
||||
|
||||
## 🚀 Desafío
|
||||
|
||||
Kaggle es una fuente excelente de conjuntos de datos abiertos. Usa los [conjuntos de datos de la herramienta de búsqueda](https://www.kaggle.com/datasets) para encontrar algunos conjuntos de datos interesantes y clasifica de 3 a 5 conjuntos de datos con los siguientes criterios:
|
||||
|
||||
- ¿Los datos son cuantitativos o cualitativos?
|
||||
- ¿Los datos son estruturados, no estructurados o semi-estructurados?
|
||||
|
||||
## [Examen posterior a la lección](https://red-water-0103e7a0f.azurestaticapps.net/quiz/5)
|
||||
|
||||
|
||||
|
||||
## Revisión y auto-estudio
|
||||
|
||||
- Esta unidad de Microsoft Learn, titulada [clasifica tus datos](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) tiene un desglose detallado de datos estructurados, semi-estructurados y no estructurados.
|
||||
|
||||
## Assignación
|
||||
|
||||
[Clasificación de los conjuntos de datos](../assignment.md)
|
@ -0,0 +1,19 @@
|
||||
# Introducción a la Ciencia de Datos
|
||||
|
||||

|
||||
> Fotografía de <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> en <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
|
||||
|
||||
En estas lecciones descubrirás cómo se define la Ciencia de Datos y aprenderás acerca de
|
||||
las cosideraciones éticas que deben ser tomadas por un científico de datos. También aprenderás
|
||||
cómo se definen los datos y un poco de probabilidad y estadística, el núcleo académico de la Ciencia de Datos.
|
||||
|
||||
### Temas
|
||||
|
||||
1. [Definiendo la Ciencia de Datos](../01-defining-data-science/README.md)
|
||||
2. [Ética de la Ciencia de Datos](../02-ethics/README.md)
|
||||
3. [Definición de Datos](../03-defining-data/translations/README.es.md)
|
||||
4. [introducción a la probabilidad y estadística](../04-stats-and-probability/README.md)
|
||||
|
||||
### Créditos
|
||||
|
||||
Éstas lecciones fueron escritas con ❤️ por [Nitya Narasimhan](https://twitter.com/nitya) y [Dmitry Soshnikov](https://twitter.com/shwars).
|
File diff suppressed because one or more lines are too long
File diff suppressed because it is too large
Load Diff
@ -0,0 +1,33 @@
|
||||
# विज़ुअलाइज़ेशन
|
||||
|
||||

|
||||
> <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">
|
||||
जेना ली</a> द्वारा फोटो <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash
|
||||
पर </a>
|
||||
|
||||
|
||||
डेटा को विज़ुअलाइज़ करना डेटा साइंटिस्ट के सबसे महत्वपूर्ण कार्यों में से एक है। छवियां 1000 शब्दों के लायक हैं, और एक विज़ुअलाइज़ेशन आपको अपने डेटा के सभी प्रकार के दिलचस्प हिस्सों जैसे कि स्पाइक्स, आउटलेयर, ग्रुपिंग, प्रवृत्ति, और बहुत कुछ की पहचान करने में मदद कर सकता है, जो आपको उस कहानी को समझने में मदद कर सकता है जिसे आपका डेटा बताने की कोशिश कर रहा है।
|
||||
|
||||
इन पांच पाठों में, आप प्रकृति से प्राप्त डेटा का पता लगाएंगे और विभिन्न तकनीकों का उपयोग करके दिलचस्प और सुंदर विज़ुअलाइज़ेशन बनाएंगे।
|
||||
### Topics
|
||||
|
||||
1. [विज़ुअलाइज़िंग मात्रा](09-visualization-quantities/README.md)
|
||||
1. [विज़ुअलाइज़िंग वितरण](10-visualization-distributions/README.md)
|
||||
1. [विज़ुअलाइज़िंग अनुपात](11-visualization-proportions/README.md)
|
||||
1. [रिश्तों की कल्पना](12-visualization-relationships/README.md)
|
||||
1. [सार्थक विज़ुअलाइज़ेशन बनाना](13-meaningful-visualizations/README.md)
|
||||
|
||||
### Credits
|
||||
|
||||
ये विज़ुअलाइज़ेशन पाठ 🌸 [Jen Looper](https://twitter.com/jenlooper) के साथ लिखे गए थे
|
||||
|
||||
🍯 यूएस हनी प्रोडक्शन के लिए डेटा [कागल](https://www.kaggle.com/jessicali9530/honey-production) पर जेसिका ली के प्रोजेक्ट से लिया गया है। [डेटा](https://usda.library.cornell.edu/concern/publications/rn301137d) [यूनाइटेड स्टेट्स डिपार्टमेंट ऑफ़ एग्रीकल्चर](https://www.nass.usda.gov/About_NASS/index.php) से लिया गया है।
|
||||
|
||||
🍄 मशरूम के लिए डेटा भी हैटरस डनटन द्वारा संशोधित [कागल](https://www.kaggle.com/hatterasdunton/mushroom-classification-updated-dataset) से प्राप्त किया जाता है। इस डेटासेट में एगारिकस और लेपियोटा परिवार में ग्रील्ड मशरूम की 23 प्रजातियों के अनुरूप काल्पनिक नमूनों का विवरण शामिल है। द ऑडबोन सोसाइटी फील्ड गाइड टू नॉर्थ अमेरिकन मशरूम (1981) से लिया गया मशरूम। यह डेटासेट 1987 में UCI ML 27 को दान किया गया था।
|
||||
|
||||
🦆 मिनेसोटा बर्ड्स के लिए डेटा [कागल](https://www.kaggle.com/hannahcollins/minnesota-birds) से है, जिसे हन्ना कॉलिन्स द्वारा [विकिपीडिया](https://en.wikipedia.org/wiki/List_of_birds_of_Minnesota) से स्क्रैप किया गया है।
|
||||
|
||||
ये सभी डेटासेट [CC0: Creative Commons](https://creativecommons.org/publicdomain/zero/1.0/) के रूप में लाइसेंसीकृत हैं।
|
||||
|
||||
|
||||
|
@ -0,0 +1,211 @@
|
||||
# डेटा विज्ञान के जीवनचक्र: संचार
|
||||
|
||||
|](https://github.com/Heril18/Data-Science-For-Beginners/raw/main/sketchnotes/16-Communicating.png)|
|
||||
|:---:|
|
||||
| डेटा विज्ञान के जीवनचक्र: संचार - _[@nitya](https://twitter.com/nitya) द्वारा स्केचनोट_|
|
||||
|
||||
## [प्री-लेक्चर क्विज ](https://red-water-0103e7a0f.azurestaticapps.net/quiz/30)
|
||||
ऊपर दिए गए प्री-लेक्चर क्विज़ के साथ क्या करना है, इसके बारे में अपने ज्ञान का परीक्षण करें!
|
||||
### संचार क्या है?
|
||||
आइए इस पाठ की शुरुआत यह परिभाषित करते हुए करें कि संचार के साधन क्या हैं। **संचार करना सूचनाओं को संप्रेषित करना या उनका आदान-प्रदान करना है।** सूचना विचार, विचार, भावनाएं, संदेश, गुप्त संकेत, डेटा हो सकती है - कुछ भी जो एक **_प्रेषक_** (सूचना भेजने वाला) एक **_रिसीवर_** चाहता है ( जानकारी प्राप्त करने वाला कोई व्यक्ति) समझने के लिए। इस पाठ में, हम प्रेषकों को संचारक के रूप में और रिसीवर को श्रोता के रूप में संदर्भित करेंगे।
|
||||
|
||||
### डेटा संचार और कहानी सुनाना
|
||||
हम समझते हैं कि संचार करते समय, उद्देश्य सूचना देना या आदान-प्रदान करना है। लेकिन डेटा का संचार करते समय, आपका उद्देश्य केवल अपने दर्शकों तक संख्या पहुँचाना नहीं होना चाहिए। आपका उद्देश्य एक ऐसी कहानी को संप्रेषित करना होना चाहिए जो आपके डेटा द्वारा सूचित हो - प्रभावी डेटा संचार और कहानी सुनाना साथ-साथ चलते हैं। आपके दर्शकों को आपके द्वारा दी गई संख्या की तुलना में आपके द्वारा बताई गई कहानी को याद रखने की अधिक संभावना है। इस पाठ में बाद में, हम कुछ ऐसे तरीकों के बारे में जानेंगे जिनसे आप अपने डेटा को अधिक प्रभावी ढंग से संप्रेषित करने के लिए कहानी कहने का उपयोग कर सकते हैं।
|
||||
|
||||
### संचार के प्रकार
|
||||
इस पूरे पाठ में दो अलग-अलग प्रकार के संचार पर चर्चा की जाएगी, वन-वे कम्युनिकेशन और टू-वे कम्युनिकेशन।
|
||||
|
||||
**एक तरफा संचार** तब होता है जब कोई प्रेषक बिना किसी प्रतिक्रिया या प्रतिक्रिया के किसी प्राप्तकर्ता को सूचना भेजता है। हम हर दिन एक-तरफ़ा संचार के उदाहरण देखते हैं - बल्क/मास ईमेल में, जब समाचार सबसे हाल की कहानियाँ देता है, या यहाँ तक कि जब कोई टेलीविज़न विज्ञापन आता है और आपको सूचित करता है कि उनका उत्पाद बढ़िया क्यों है। इनमें से प्रत्येक उदाहरण में, प्रेषक सूचनाओं के आदान-प्रदान की मांग नहीं कर रहा है। वे केवल सूचना देना या देना चाहते हैं।
|
||||
|
||||
**दोतरफा संचार** तब होता है जब सभी शामिल पक्ष प्रेषक और प्राप्तकर्ता दोनों के रूप में कार्य करते हैं। एक प्रेषक एक रिसीवर से संचार करके शुरू करेगा, और रिसीवर प्रतिक्रिया या प्रतिक्रिया प्रदान करेगा। जब हम संचार के बारे में बात करते हैं तो हम परंपरागत रूप से दोतरफा संचार के बारे में सोचते हैं। हम आम तौर पर बातचीत में लगे लोगों के बारे में सोचते हैं - या तो व्यक्तिगत रूप से, या फोन कॉल, सोशल मीडिया या टेक्स्ट संदेश पर।
|
||||
|
||||
डेटा संचार करते समय, ऐसे मामले होंगे जहां आप एकतरफा संचार का उपयोग कर रहे होंगे (एक सम्मेलन में प्रस्तुत करने के बारे में सोचें, या एक बड़े समूह के लिए जहां सीधे प्रश्न नहीं पूछे जाएंगे) और ऐसे मामले होंगे जहां आप दो का उपयोग करेंगे -वे संचार (खरीद-इन के लिए कुछ हितधारकों को मनाने के लिए डेटा का उपयोग करने के बारे में सोचें, या किसी टीम के साथी को यह समझाने के लिए कि कुछ नया बनाने में समय और प्रयास खर्च किया जाना चाहिए)।
|
||||
|
||||
# प्रभावी संचार
|
||||
|
||||
### एक संचारक के रूप में आपकी जिम्मेदारियां
|
||||
संचार करते समय, यह सुनिश्चित करना आपका काम है कि आपका रिसीवर वह जानकारी ले रहा है जिसे आप चाहते हैं कि वह ले जाए। जब आप डेटा का संचार कर रहे होते हैं, तो आप नहीं चाहते कि आपके रिसीवर नंबर ले लें, आप चाहते हैं कि आपके रिसीवर आपके डेटा द्वारा सूचित एक कहानी ले लें। एक अच्छा डेटा कम्युनिकेटर एक अच्छा कहानीकार होता है।
|
||||
|
||||
आप डेटा के साथ कहानी कैसे सुनाते हैं? अनंत तरीके हैं - लेकिन नीचे 6 हैं जिनके बारे में हम इस पाठ में बात करेंगे।
|
||||
1. अपने दर्शकों, अपने माध्यम और अपनी संचार पद्धति को समझें
|
||||
2. मन में अंत के साथ शुरू करें
|
||||
3. इसे एक वास्तविक कहानी की तरह देखें
|
||||
4. सार्थक शब्दों और वाक्यांशों का प्रयोग करें
|
||||
5. भावना का प्रयोग करें
|
||||
|
||||
इनमें से प्रत्येक रणनीति को नीचे अधिक विस्तार से समझाया गया है।
|
||||
|
||||
### 1. अपने दर्शकों, अपने चैनल और अपनी संचार पद्धति को समझें
|
||||
जिस तरह से आप परिवार के सदस्यों के साथ संवाद करते हैं, वह आपके दोस्तों के साथ संवाद करने के तरीके से अलग होने की संभावना है। आप शायद अलग-अलग शब्दों और वाक्यांशों का उपयोग करते हैं जिन्हें आप जिन लोगों से बात कर रहे हैं, उनके समझने की अधिक संभावना है। डेटा संचार करते समय आपको वही दृष्टिकोण अपनाना चाहिए। इस बारे में सोचें कि आप किससे संवाद कर रहे हैं। उनके लक्ष्यों और उस संदर्भ के बारे में सोचें जो उनके पास उस स्थिति के आसपास है जो आप उन्हें समझा रहे हैं।
|
||||
|
||||
आप संभावित रूप से अपने अधिकांश दर्शकों को एक श्रेणी में समूहित कर सकते हैं। एक _Harvard Business Review_ लेख में, “[डेटा के साथ कहानी कैसे बताएं](http://blogs.hbr.org/2013/04/how-to-tell-a-story-with-data/),” डेल कार्यकारी रणनीतिकार जिम स्टिकलेदर दर्शकों की पांच श्रेणियों की पहचान करता है।
|
||||
|
||||
- **नौसिखिया**: विषय के लिए पहला प्रदर्शन, लेकिन नहीं चाहता
|
||||
अति सरलीकरण
|
||||
- **सामान्यवादी**: विषय से अवगत हैं, लेकिन एक सिंहावलोकन की तलाश में हैं
|
||||
समझ और प्रमुख विषय
|
||||
- **प्रबंधकीय**: पेचीदगियों की गहन, कार्रवाई योग्य समझ और
|
||||
विस्तार तक पहुंच के साथ अंतर्संबंध
|
||||
- **विशेषज्ञ**: अधिक अन्वेषण और खोज और कम कहानी कहने के साथ
|
||||
बहुत अच्छी जानकारी
|
||||
- **कार्यकारी**: के पास केवल के महत्व और निष्कर्ष निकालने का समय है
|
||||
भारित संभावनाएं
|
||||
|
||||
ये श्रेणियां आपके दर्शकों को डेटा प्रस्तुत करने के तरीके की जानकारी दे सकती हैं।
|
||||
|
||||
अपने दर्शकों की श्रेणी के बारे में सोचने के अलावा, आपको उस चैनल पर भी विचार करना चाहिए जिसका उपयोग आप अपने दर्शकों के साथ संवाद करने के लिए कर रहे हैं। यदि आप एक मेमो या ईमेल लिख रहे हैं या एक बैठक कर रहे हैं या एक सम्मेलन में प्रस्तुत कर रहे हैं तो आपका दृष्टिकोण थोड़ा अलग होना चाहिए।
|
||||
|
||||
अपने दर्शकों को समझने के शीर्ष पर, यह जानना कि आप उनके साथ कैसे संवाद करेंगे (वन-वे कम्युनिकेशन या टू-वे का उपयोग करना) भी महत्वपूर्ण है।
|
||||
|
||||
यदि आप अधिकांश नौसिखिए दर्शकों के साथ संवाद कर रहे हैं और आप एकतरफा संचार का उपयोग कर रहे हैं, तो आपको पहले दर्शकों को शिक्षित करना होगा और उन्हें उचित संदर्भ देना होगा। फिर आपको अपना डेटा उनके सामने पेश करना चाहिए और उन्हें बताना चाहिए कि आपके डेटा का क्या मतलब है और आपका डेटा क्यों मायने रखता है। इस उदाहरण में, आप स्पष्टता ड्राइविंग पर केंद्रित लेजर होना चाह सकते हैं, क्योंकि आपके दर्शक आपसे कोई सीधा प्रश्न नहीं पूछ पाएंगे।
|
||||
|
||||
यदि आप बहुसंख्यक प्रबंधकीय दर्शकों के साथ संवाद कर रहे हैं और आप दो-तरफ़ा संचार का उपयोग कर रहे हैं, तो संभवतः आपको अपने दर्शकों को शिक्षित करने या उन्हें अधिक संदर्भ प्रदान करने की आवश्यकता नहीं होगी। आप सीधे उस डेटा पर चर्चा करने में सक्षम हो सकते हैं जिसे आपने एकत्र किया है और यह क्यों मायने रखता है। हालांकि इस परिदृश्य में, आपको समय और अपनी प्रस्तुति को नियंत्रित करने पर ध्यान केंद्रित करना चाहिए। दो-तरफा संचार का उपयोग करते समय (विशेषकर एक प्रबंधकीय दर्शकों के साथ जो "विस्तार तक पहुंच के साथ पेचीदगियों और अंतर्संबंधों की कार्रवाई योग्य समझ" की तलाश कर रहे हैं) प्रश्न आपकी बातचीत के दौरान पॉप अप हो सकते हैं जो चर्चा को उस दिशा में ले जा सकते हैं जो संबंधित नहीं है वह कहानी जिसे आप बताने की कोशिश कर रहे हैं। जब ऐसा होता है, तो आप कार्रवाई कर सकते हैं और अपनी कहानी के साथ चर्चा को वापस ट्रैक पर ले जा सकते हैं।
|
||||
|
||||
|
||||
### 2. अंत को ध्यान में रखकर शुरू करें
|
||||
अंत को ध्यान में रखकर शुरू करने का मतलब है कि आप अपने दर्शकों के साथ संवाद शुरू करने से पहले अपने इच्छित टेकअवे को समझना। आप अपने दर्शकों को समय से पहले क्या लेना चाहते हैं, इस बारे में विचारशील होने से आपको एक ऐसी कहानी तैयार करने में मदद मिल सकती है जिसका आपके दर्शक अनुसरण कर सकें। अंत को ध्यान में रखकर शुरू करना एकतरफा संचार और दोतरफा संचार दोनों के लिए उपयुक्त है।
|
||||
|
||||
आप अंत को ध्यान में रखकर कैसे शुरू करते हैं? अपने डेटा को संप्रेषित करने से पहले, अपने मुख्य निष्कर्ष लिख लें। फिर, जिस तरह से आप कहानी तैयार कर रहे हैं, जिस तरह से आप अपने डेटा के साथ बताना चाहते हैं, अपने आप से पूछें, "यह मेरे द्वारा बताई जा रही कहानी में कैसे एकीकृत होता है?"
|
||||
|
||||
सावधान रहें - अंत को ध्यान में रखते हुए शुरुआत करना आदर्श है, आप केवल उस डेटा को संप्रेषित नहीं करना चाहते जो आपके इच्छित टेकअवे का समर्थन करता है। ऐसा करने को चेरी-पिकिंग कहा जाता है, जो तब होता है जब एक संचारक केवल उस डेटा का संचार करता है जो उस बिंदु का समर्थन करता है जिसे वे बनाने के लिए बांध रहे हैं और अन्य सभी डेटा को अनदेखा करते हैं।
|
||||
|
||||
यदि आपके द्वारा एकत्र किया गया सभी डेटा स्पष्ट रूप से आपके इच्छित टेकअवे का समर्थन करता है, तो बढ़िया। लेकिन अगर आपके द्वारा एकत्र किया गया डेटा है जो आपके टेकअवे का समर्थन नहीं करता है, या यहां तक कि आपके प्रमुख टेकअवे के खिलाफ तर्क का समर्थन करता है, तो आपको उस डेटा को भी संप्रेषित करना चाहिए। अगर ऐसा होता है, तो अपने दर्शकों के साथ खुलकर बात करें और उन्हें बताएं कि आप अपनी कहानी के साथ बने रहने का विकल्प क्यों चुन रहे हैं, भले ही सभी डेटा इसका समर्थन न करें।
|
||||
|
||||
|
||||
### 3. इसे एक वास्तविक कहानी की तरह देखें
|
||||
एक पारंपरिक कहानी 5 चरणों में होती है। आपने इन चरणों को एक्सपोज़िशन, राइज़िंग एक्शन, क्लाइमेक्स, फॉलिंग एक्शन और डिनाउंसमेंट के रूप में व्यक्त किया होगा। या संदर्भ, संघर्ष, चरमोत्कर्ष, समापन, निष्कर्ष को याद रखना आसान है। अपने डेटा और अपनी कहानी को संप्रेषित करते समय, आप एक समान दृष्टिकोण अपना सकते हैं।
|
||||
|
||||
आप संदर्भ के साथ शुरू कर सकते हैं, मंच सेट कर सकते हैं और सुनिश्चित कर सकते हैं कि आपके दर्शक एक ही पृष्ठ पर हैं। फिर संघर्ष का परिचय दें। आपको यह डेटा एकत्र करने की आवश्यकता क्यों पड़ी? आप किन समस्याओं को हल करना चाह रहे थे? इसके बाद क्लाइमेक्स. डेटा क्या है? डेटा का क्या मतलब है? डेटा हमें कौन से समाधान बताता है जिसकी हमें आवश्यकता है? फिर आप समापन पर पहुंच जाते हैं, जहां आप समस्या को दोहरा सकते हैं, और प्रस्तावित समाधान। अंत में, हम इस निष्कर्ष पर पहुँचते हैं, जहाँ आप अपने मुख्य निष्कर्षों को संक्षेप में बता सकते हैं और अगले कदम जो आप टीम को सुझाते हैं।
|
||||
|
||||
### 4. सार्थक शब्दों और वाक्यांशों का प्रयोग करें
|
||||
यदि आप और मैं किसी उत्पाद पर एक साथ काम कर रहे थे, और मैंने आपसे कहा "हमारे उपयोगकर्ता हमारे प्लेटफ़ॉर्म पर आने में लंबा समय लेते हैं," तो आप कब तक उस "लंबे समय" का अनुमान लगाएंगे? एक घंटा? एक सप्ताह? यह जानना कठिन है। क्या होगा अगर मैंने इसे पूरे दर्शकों से कहा? दर्शकों में हर कोई इस बारे में एक अलग विचार के साथ समाप्त हो सकता है कि उपयोगकर्ता हमारे प्लेटफॉर्म पर कितना समय लेते हैं।
|
||||
|
||||
इसके बजाय, क्या होगा अगर मैंने कहा "बाहर के उपयोगकर्ताओं को साइन अप करने और हमारे प्लेटफॉर्म पर ऑनबोर्ड होने में औसतन 3 मिनट लगते हैं।"
|
||||
|
||||
वह संदेश अधिक स्पष्ट है। डेटा संचार करते समय, यह सोचना आसान हो सकता है कि आपके दर्शकों में हर कोई आपकी तरह ही सोच रहा है। लेकिन हमेशा ऐसा ही नहीं होता है। अपने डेटा के बारे में स्पष्टता लाना और इसका क्या अर्थ है, एक संचारक के रूप में आपकी जिम्मेदारियों में से एक है। यदि डेटा या आपकी कहानी स्पष्ट नहीं है, तो आपके दर्शकों के लिए कठिन समय होगा, और इस बात की संभावना कम है कि वे आपकी मुख्य बातों को समझेंगे।
|
||||
|
||||
जब आप अस्पष्ट शब्दों के बजाय अर्थपूर्ण शब्दों और वाक्यांशों का उपयोग करते हैं तो आप डेटा को अधिक स्पष्ट रूप से संप्रेषित कर सकते हैं। नीचे कुछ उदाहरण दिए गए हैं।
|
||||
|
||||
- हमारे पास एक *प्रभावशाली* वर्ष था!
|
||||
- एक व्यक्ति सोच सकता है कि एक प्रभावशाली मतलब राजस्व में 2% - 3% की वृद्धि है, और एक व्यक्ति सोच सकता है कि इसका मतलब 50% - 60% की वृद्धि है।
|
||||
- हमारे उपयोगकर्ताओं की सफलता दर *नाटकीय रूप से* बढ़ी।
|
||||
- नाटकीय वृद्धि कितनी बड़ी है?
|
||||
- इस उपक्रम के लिए *महत्वपूर्ण* प्रयास की आवश्यकता होगी।
|
||||
- कितना प्रयास महत्वपूर्ण है?
|
||||
|
||||
अस्पष्ट शब्दों का उपयोग आने वाले अधिक डेटा के परिचय के रूप में या आपके द्वारा अभी-अभी बताई गई कहानी के सारांश के रूप में उपयोगी हो सकता है। लेकिन यह सुनिश्चित करने पर विचार करें कि आपकी प्रस्तुति का प्रत्येक भाग आपके दर्शकों के लिए स्पष्ट है।
|
||||
|
||||
|
||||
### 5. भावना का प्रयोग करें
|
||||
कहानी कहने में भावना महत्वपूर्ण है। जब आप डेटा के साथ कहानी सुना रहे हों तो यह और भी महत्वपूर्ण हो जाता है। जब आप डेटा का संचार कर रहे होते हैं, तो सब कुछ उन टेकअवे पर केंद्रित होता है जो आप चाहते हैं कि आपके दर्शक हों। जब आप दर्शकों के लिए एक भावना पैदा करते हैं तो यह उन्हें सहानुभूति रखने में मदद करता है, और उन्हें कार्रवाई करने की अधिक संभावना बनाता है। भावना इस संभावना को भी बढ़ाती है कि एक दर्शक आपके संदेश को याद रखेगा।
|
||||
|
||||
इसका सामना आपने टीवी विज्ञापनों के साथ पहले भी किया होगा। कुछ विज्ञापन बहुत उदास होते हैं, और अपने दर्शकों से जुड़ने के लिए एक दुखद भावना का उपयोग करते हैं और जो डेटा वे प्रस्तुत कर रहे हैं उसे वास्तव में अलग बनाते हैं। या, कुछ विज्ञापन बहुत उत्साहित हैं और खुश हैं कि आप उनके डेटा को एक सुखद एहसास के साथ जोड़ सकते हैं।
|
||||
|
||||
डेटा संचार करते समय आप भावनाओं का उपयोग कैसे करते हैं? नीचे कुछ तरीके दिए गए हैं।
|
||||
|
||||
- प्रशंसापत्र और व्यक्तिगत कहानियों का प्रयोग करें
|
||||
- डेटा एकत्र करते समय, मात्रात्मक और गुणात्मक दोनों डेटा एकत्र करने का प्रयास करें, और संचार करते समय दोनों प्रकार के डेटा को एकीकृत करें। यदि आपका डेटा मुख्य रूप से मात्रात्मक है, तो आपका डेटा आपको जो कुछ भी बता रहा है, उसके अनुभव के बारे में अधिक जानने के लिए व्यक्तियों से कहानियों की तलाश करें।
|
||||
- इमेजरी का प्रयोग करें
|
||||
- छवियां दर्शकों को खुद को एक स्थिति में देखने में मदद करती हैं। जब आप उपयोग करते हैं
|
||||
छवियों, आप दर्शकों को उस भावना की ओर धकेल सकते हैं जो आप महसूस करते हैं
|
||||
उनके पास आपके डेटा के बारे में होना चाहिए।
|
||||
- रंग का प्रयोग करें
|
||||
- अलग-अलग रंग अलग-अलग भावनाएं पैदा करते हैं। लोकप्रिय रंग और उनमें जो भावनाएँ पैदा होती हैं, वे नीचे हैं। ध्यान रखें कि विभिन्न संस्कृतियों में रंगों के अलग-अलग अर्थ हो सकते हैं।
|
||||
- नीला आमतौर पर शांति और विश्वास की भावना पैदा करता है
|
||||
- हरा आमतौर पर प्रकृति और पर्यावरण से संबंधित होता है
|
||||
- लाल आमतौर पर जुनून और उत्साह होता है
|
||||
- पीला आमतौर पर आशावाद और खुशी है
|
||||
|
||||
# संचार केस स्टडी
|
||||
एमर्सन एक मोबाइल ऐप के लिए एक उत्पाद प्रबंधक है। एमर्सन ने देखा है कि ग्राहक सप्ताहांत में 42% अधिक शिकायतें और बग रिपोर्ट प्रस्तुत करते हैं। एमर्सन ने यह भी देखा कि जो ग्राहक 48 घंटों के बाद अनुत्तरित शिकायत सबमिट करते हैं, उनके ऐप स्टोर में ऐप को 1 या 2 की रेटिंग देने की संभावना 32% अधिक होती है।
|
||||
|
||||
शोध करने के बाद, इमर्सन के पास कुछ समाधान हैं जो इस मुद्दे का समाधान करेंगे। एमर्सन डेटा और प्रस्तावित समाधानों को संप्रेषित करने के लिए ३ कंपनी के साथ ३० मिनट की बैठक स्थापित करता है।
|
||||
|
||||
इस बैठक के दौरान, एमर्सन का लक्ष्य कंपनी के प्रमुखों को यह समझाना है कि नीचे दिए गए 2 समाधान ऐप की रेटिंग में सुधार कर सकते हैं, जो संभवतः उच्च राजस्व में तब्दील हो जाएगा।
|
||||
|
||||
**समाधान 1.** सप्ताहांत पर काम करने के लिए ग्राहक सेवा प्रतिनिधि को किराए पर लें
|
||||
|
||||
**समाधान 2.** एक नई ग्राहक सेवा टिकटिंग प्रणाली खरीदें जहां ग्राहक सेवा प्रतिनिधि आसानी से पहचान सकें कि कौन सी शिकायतें कतार में सबसे लंबी रही हैं - ताकि वे बता सकें कि किसको तुरंत संबोधित करना है।
|
||||
|
||||
मीटिंग में, एमर्सन 5 मिनट यह बताते हुए बिताते हैं कि ऐप स्टोर पर कम रेटिंग क्यों खराब है, 10 मिनट शोध प्रक्रिया की व्याख्या करते हैं और रुझानों की पहचान कैसे की जाती है, 10 मिनट हाल की कुछ ग्राहकों की शिकायतों के बारे में बताते हुए, और अंतिम 5 मिनट 2 संभावित समाधानों पर प्रकाश डालते हुए।
|
||||
|
||||
क्या यह इमर्सन के लिए इस बैठक के दौरान संवाद करने का एक प्रभावी तरीका था?
|
||||
|
||||
बैठक के दौरान, एक कंपनी लीड ने ग्राहकों की 10 मिनट की शिकायतों को ठीक किया, जिनसे इमर्सन गुजरा। बैठक के बाद, केवल यही शिकायतें इस टीम के नेतृत्व को याद रहीं। एक अन्य कंपनी लीड ने मुख्य रूप से एमर्सन पर शोध प्रक्रिया का वर्णन करने पर ध्यान केंद्रित किया। तीसरी कंपनी के नेतृत्व ने इमर्सन द्वारा प्रस्तावित समाधानों को याद किया लेकिन यह सुनिश्चित नहीं था कि उन समाधानों को कैसे लागू किया जा सकता है।
|
||||
|
||||
ऊपर की स्थिति में, आप देख सकते हैं कि इमर्सन जो चाहता था कि टीम लीड ले ले, और बैठक से दूर ले जाने के बीच एक महत्वपूर्ण अंतर था। नीचे एक और तरीका है जिस पर इमर्सन विचार कर सकता है।
|
||||
|
||||
इमर्सन इस दृष्टिकोण को कैसे सुधार सकता है?
|
||||
प्रसंग, संघर्ष, चरमोत्कर्ष, समापन, निष्कर्ष
|
||||
**संदर्भ** - इमर्सन पहले 5 मिनट पूरी स्थिति का परिचय देने और यह सुनिश्चित करने में बिता सकता है कि टीम लीड यह समझती है कि समस्याएं कंपनी के लिए महत्वपूर्ण मीट्रिक को कैसे प्रभावित करती हैं, जैसे राजस्व।
|
||||
|
||||
इसे इस तरह से रखा जा सकता है: "वर्तमान में, ऐप स्टोर में हमारे ऐप की रेटिंग 2.5 है। ऐप स्टोर में रेटिंग ऐप स्टोर ऑप्टिमाइज़ेशन के लिए महत्वपूर्ण हैं, जो यह प्रभावित करती है कि कितने उपयोगकर्ता हमारे ऐप को खोज में देखते हैं, xxxxx डी हमारे ऐप को परिप्रेक्ष्य उपयोगकर्ताओं के लिए कैसे देखा जाता है। और निश्चित रूप से, हमारे पास जितने उपयोगकर्ता हैं, वे सीधे राजस्व से जुड़े हैं।"
|
||||
|
||||
**संघर्ष** तब इमर्सन अगले 5 मिनट तक या संघर्ष के बारे में बात करने के लिए आगे बढ़ सकता है।
|
||||
|
||||
यह इस प्रकार हो सकता है: "उपयोगकर्ता सप्ताहांत पर 42% अधिक शिकायतें और बग रिपोर्ट जमा करते हैं। जो ग्राहक 48 घंटों के बाद अनुत्तरित शिकायत सबमिट करते हैं, उनके ऐप स्टोर में हमारे ऐप को 2 से अधिक रेटिंग देने की संभावना 32% कम होती है। ऐप स्टोर में हमारे ऐप की रेटिंग को 4 तक बढ़ाने से हमारी दृश्यता में 20-30% की वृद्धि होगी, जिसका मेरा अनुमान है कि राजस्व में 10% की वृद्धि होगी।" बेशक, इमर्सन को इन नंबरों को सही ठहराने के लिए तैयार रहना चाहिए।
|
||||
|
||||
**क्लाइमेक्स** आधार तैयार करने के बाद, इमर्सन 5 या इतने मिनट के लिए चरमोत्कर्ष पर जा सकता था।
|
||||
|
||||
इमर्सन प्रस्तावित समाधानों को पेश कर सकता है, यह बता सकता है कि वे समाधान कैसे उल्लिखित मुद्दों को संबोधित करेंगे, उन समाधानों को मौजूदा वर्कफ़्लो में कैसे लागू किया जा सकता है, समाधानों की लागत कितनी है, समाधानों का आरओआई क्या होगा, और शायद कुछ स्क्रीनशॉट भी दिखा सकते हैं या लागू होने पर समाधान कैसे दिखेंगे, इसके वायरफ्रेम। एमर्सन उन उपयोगकर्ताओं के प्रशंसापत्र भी साझा कर सकते हैं, जिन्होंने अपनी शिकायत को संबोधित करने में 48 घंटे से अधिक समय लिया, और यहां तक कि कंपनी के भीतर एक मौजूदा ग्राहक सेवा प्रतिनिधि से एक प्रशंसापत्र भी, जिसने वर्तमान टिकट प्रणाली पर टिप्पणी की है।
|
||||
|
||||
**क्लोजर** अब इमर्सन कंपनी के सामने आने वाली समस्याओं को दूर करने में 5 मिनट बिता सकता है, प्रस्तावित समाधानों पर फिर से विचार कर सकता है और समीक्षा कर सकता है कि वे समाधान सही क्यों हैं।
|
||||
|
||||
**निष्कर्ष** क्योंकि यह कुछ हितधारकों के साथ एक बैठक है जहां दो-तरफा संचार का उपयोग किया जाएगा, इमर्सन तब प्रश्नों के लिए 10 मिनट छोड़ने की योजना बना सकता है, यह सुनिश्चित करने के लिए कि जो कुछ भी टीम लीड को भ्रमित कर रहा था उसे पहले स्पष्ट किया जा सकता है बैठक समाप्त हो गई है।
|
||||
|
||||
यदि एमर्सन ने #2 दृष्टिकोण अपनाया, तो इस बात की बहुत अधिक संभावना है कि टीम लीड मीटिंग से ठीक उसी तरह दूर ले जाएगी, जिसे एमर्सन ने उनसे दूर करने का इरादा किया था - कि जिस तरह से शिकायतों और बगों को संभाला जा सकता है, उसमें सुधार किया जा सकता है, और 2 समाधान हैं। उस सुधार को लाने के लिए स्थापित किया जा सकता है। यह दृष्टिकोण डेटा और कहानी को संप्रेषित करने के लिए एक अधिक प्रभावी दृष्टिकोण होगा, जिसे इमर्सन संवाद करना चाहता है।
|
||||
# निष्कर्ष
|
||||
### मुख्य बिंदुओं का सारांश
|
||||
- संचार करने के लिए सूचना देना या आदान-प्रदान करना है।
|
||||
- डेटा संप्रेषित करते समय, आपका उद्देश्य केवल अपने दर्शकों तक संख्या पहुँचाना नहीं होना चाहिए। आपका उद्देश्य एक ऐसी कहानी को संप्रेषित करना होना चाहिए जो आपके डेटा द्वारा सूचित हो।
|
||||
- संचार 2 प्रकार के होते हैं, वन-वे कम्युनिकेशन (सूचना बिना किसी प्रतिक्रिया के संप्रेषित की जाती है) और टू-वे कम्युनिकेशन (सूचना को आगे और पीछे संप्रेषित किया जाता है।)
|
||||
- ऐसी कई रणनीतियाँ हैं जिनका उपयोग आप अपने डेटा के साथ कहानी कहने के लिए कर सकते हैं, 5 रणनीतियाँ जिनका हमने अध्ययन किया है:
|
||||
- अपने दर्शकों, अपने माध्यम और अपनी संचार पद्धति को समझें
|
||||
- मन में कार्य समाप्ति का विचार लेकर कार्य प्रारंभ करना
|
||||
- इसे एक वास्तविक कहानी की तरह देखें
|
||||
- सार्थक शब्दों और वाक्यांशों का प्रयोग करें
|
||||
- भावना का प्रयोग करें
|
||||
|
||||
## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/31)
|
||||
|
||||
### स्व अध्ययन के लिए अनुशंसित संसाधन
|
||||
[द फाइव सी ऑफ़ स्टोरीटेलिंग - आर्टिक्यूलेट पर्सुएशन](http://articulatepersuasion.com/the-five-cs-of-storytelling/)
|
||||
|
||||
[१.४ एक संचारक के रूप में आपकी जिम्मेदारियां - सफलता के लिए व्यावसायिक संचार (umn.edu)](https://open.lib.umn.edu/businesscommunication/chapter/1-4-your-responsibilities-as-a-communicator/)
|
||||
[डेटा के साथ कहानी कैसे सुनाएं (hbr.org)](https://hbr.org/2013/04/how-to-tell-a-story-with-data)
|
||||
|
||||
[टू-वे कम्युनिकेशन: अधिक व्यस्त कार्यस्थल के लिए 4 टिप्स (yourthoughtpartner.com)](https://www.yourthoughtpartner.com/blog/bid/59576/4-steps-to-increase-employee-engagement-through-two-way-communication)
|
||||
|
||||
[महान डेटा स्टोरीटेलिंग के लिए 6 संक्षिप्त चरण - बार्नराइज़र, एलएलसी (barnraisersllc.com)](https://barnraisersllc.com/2021/05/02/6-succinct-steps-to-great-data-storytelling/)
|
||||
|
||||
[डेटा के साथ कहानी कैसे सुनाएं | ल्यूसिडचार्ट ब्लॉग](https://www.lucidchart.com/blog/how-to-tell-a-story-with-data)
|
||||
|
||||
[6 Cs ऑफ़ इफेक्टिव स्टोरीटेलिंग ऑन सोशल मीडिया | कूलर इनसाइट्स](https://coolerinsights.com/2018/06/effective-storytelling-social-media/)
|
||||
|
||||
[प्रस्तुतिकरण में भावनाओं का महत्व | Ethos3 - एक प्रस्तुति प्रशिक्षण और डिजाइन एजेंसी](https://ethos3.com/2015/02/the-importance-of-emotions-in-presentations/)
|
||||
|
||||
[डेटा स्टोरीटेलिंग: भावनाओं और तर्कसंगत निर्णयों को जोड़ना (toucantoco.com)](https://www.toucantoco.com/en/blog/data-storytelling-dataviz)
|
||||
|
||||
[भावनात्मक विज्ञापन: कैसे ब्रांड लोगों को खरीदने के लिए भावनाओं का उपयोग करते हैं (hubspot.com)](https://blog.hubspot.com/marketing/emotions-in-advertising-examples)
|
||||
|
||||
[अपनी प्रस्तुति स्लाइड के लिए रंग चुनना | स्लाइड के बाहर सोचें](https://www.thinkoutsidetheslide.com/choosing-colors-for-your-presentation-slides/)
|
||||
|
||||
[डेटा कैसे प्रस्तुत करें [१० विशेषज्ञ युक्तियाँ] | ऑब्जर्वप्वाइंट](https://resources.observepoint.com/blog/10-tips-for-presenting-data)
|
||||
|
||||
[Microsoft Word - Persuasive Instructions.doc (tpsnva.org)](https://www.tpsnva.org/teach/lq/016/persinstr.pdf)
|
||||
|
||||
[द पावर ऑफ स्टोरी फॉर योर डेटा (थिंकहडी.कॉम)](https://www.thinkhdi.com/library/supportworld/2019/power-story-your-data.aspx)
|
||||
|
||||
[डेटा प्रस्तुति में सामान्य गलतियाँ (perceptualedge.com)](https://www.perceptualedge.com/articles/ie/data_presentation.pdf)
|
||||
|
||||
[इन्फोग्राफिक: यहां से बचने के लिए 15 सामान्य डेटा गलतियाँ हैं (visualcapitalist.com)](https://www.visualcapitalist.com/here-are-15-common-data-fallacies-to-avoid/)
|
||||
|
||||
[चेरी पिकिंग: जब लोग उन सबूतों को नज़रअंदाज़ करते हैं जो वे नापसंद करते हैं - प्रभाव विज्ञान](https://effectiviology.com/cherry-picking/#How_to_avoid_cherry_picking)
|
||||
|
||||
[डेटा के साथ कहानियां सुनाएं: डेटा साइंस में संचार | द्वारा सोनाली वर्गीज | टूवर्ड्स डेटा साइंस](https://towardsdatascience.com/tell-stories-with-data-communication-in-data-science-5266f7671d7)
|
||||
|
||||
[१. संचार डेटा - झांकी के साथ संचार डेटा [पुस्तक] (oreilly.com)](https://www.oreilly.com/library/view/communicating-data-with/9781449372019/ch01.html)
|
||||
|
||||
## कार्यभार
|
||||
|
||||
[एक कहानी बताओ](../assignment.md)
|
@ -0,0 +1,13 @@
|
||||
# डेटा विज्ञान के जीवनचक्र
|
||||

|
||||
>तस्वीर <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> द्वारा <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> पर
|
||||
|
||||
इन पाठों में, आप डेटा विज्ञान जीवनचक्र के कुछ पहलुओं का पता लगाएंगे, जिसमें डेटा के आसपास विश्लेषण और संचार शामिल है।
|
||||
|
||||
### विषय
|
||||
1. [परिचय](../14-Introduction/README.md)
|
||||
2. [विश्लेषण](../15-analyzing/README.md)
|
||||
3. [संचार](../16-communication/README.md)
|
||||
|
||||
### क्रेडिट
|
||||
ये पाठ [जालेन मैक्गी](https://twitter.com/JalenMCG) और [जैस्मीन ग्रीनवे](https://twitter.com/paladique) द्वारा ❤️ से लिखे गए हैं।
|
@ -0,0 +1,20 @@
|
||||
# क्लाउड में डेटा साइंस
|
||||
|
||||

|
||||
|
||||
> [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) से [जेलेके वनूटेघम](https://unsplash.com/@ilumire) द्वारा फोटो।
|
||||
|
||||
जब बड़े डेटा के साथ डेटा साइंस करने की बात आती है, तो क्लाउड गेम चेंजर हो सकता है। अगले तीन पाठों में हम यह देखने जा रहे हैं कि क्लाउड क्या है और यह इतना मददगार क्यों हो सकता है। हम हृद्पात (दिल की धड़कन रुकना) के डेटासेट का भी पता लगाने जा रहे हैं और किसी के हृद्पात की संभावना का आकलन करने में मदद करने के लिए एक मॉडल का निर्माण करने जा रहे हैं। हम दो अलग-अलग तरीकों से एक मॉडल को प्रशिक्षित करने, डिप्लॉय करने और उपभोग करने के लिए क्लाउड की शक्ति का उपयोग करेंगे। एक तरीका कम कोड/नो कोड फैशन में केवल यूजर इंटरफेस का उपयोग करके, दूसरा तरीका एज़ूर मशीन लर्निंग सॉफ्टवेयर डेवलपर किट (एज़ूर एमएल एस.डी.के) का उपयोग करके।
|
||||
|
||||

|
||||
|
||||
### विषय
|
||||
|
||||
1. [डेटा साइंस के लिए क्लाउड का उपयोग क्यों करें?](../17-Introduction/README.md)
|
||||
2. [क्लाउड में डेटा साइंस: "लो कोड/नो कोड" तरीका](../18-Low-Code/README.md)
|
||||
3. [क्लाउड में डेटा साइंस: "एज़ूर एमएल एस.डी.के" तरीका](../19-Azure/README.md)
|
||||
|
||||
### आभार सूची
|
||||
ये पाठ [मौड लेवी](https://twitter.com/maudstweets) और [टिफ़नी सॉटर्रे](https://twitter.com/TiffanySouterre) द्वारा ☁️ और 💕 के साथ लिखे गए थे।
|
||||
|
||||
हार्ट फेल्योर प्रेडिक्शन प्रोजेक्ट के लिए डेटा [कागल](https://www.kaggle.com/andrewmvd/heart-failure-clinical-data) पर [लारक्सेल](https://www.kaggle.com/andrewmvd) से प्राप्त किया गया है। इसे [एट्रिब्यूशन 4.0 इंटरनेशनल (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/) के तहत लाइसेंस दिया गया है।
|
After Width: | Height: | Size: 263 KiB |
@ -0,0 +1,106 @@
|
||||
# La Data Science pour les débutants - Curriculum
|
||||
|
||||
[](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
|
||||
[](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
|
||||
[](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
|
||||
[](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
|
||||
[](http://makeapullrequest.com)
|
||||
|
||||
[](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
|
||||
[](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
|
||||
[](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
|
||||
|
||||
L'équipe Azure Cloud Advocates de Microsoft a le plaisir de vous offrir un curriculum d'apprentissage de la Data Science, ou "science des données" en français, comprenant vingt cours à étudier sur une durée d'environ dix semaines. Chaque cours comprend un quiz préalable, un quiz à effectuer après le cours, ainsi que des instructions, un exercice et une solution. Notre pédagogie est basée vous permet d'apprendre tout en réalisant des projets, ce qui permet de bien intégrer les nouvelles compétences que vous allez acquérir.
|
||||
|
||||
**Un grand merci à nos auteurs :** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
|
||||
|
||||
**🙏 Nous remercions également particulièrement 🙏 les auteurs, correcteurs et contributeurs membres du programme Microsoft Learn Student Ambassadors**, notamment [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Rohit Yadav](https://www.linkedin.com/in/rty2423), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Sheena Narula](https://www.linkedin.com/in/sheena-narula-n/), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), Yogendrasingh Pawar, Max Blum, Samridhi Sharma, Tauqeer Ahmad, Aaryan Arora, ChhailBihari Dubey
|
||||
|
||||
| ](../sketchnotes/00-Title.png)|
|
||||
|:---:|
|
||||
| Data Science For Beginners - _Sketchnote réalisé par [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
|
||||
# Prise en main
|
||||
|
||||
> **Enseignants**, nous avons [inclus des suggestions](../for-teachers.md) concernant la manière dont vous pouvez utiliser ce curriculum. Nous aimerions beaucoup lire vos feedbacks [dans notre forum de discussion](https://github.com/microsoft/Data-Science-For-Beginners/discussions) !
|
||||
|
||||
> **Etudiants**, pour suivre ce curriculum, la première chose à faire est de forker ce repository en entier, vous pourrez ensuite réaliser les exercices de votre côté, en commençant un quiz préalable, en lisant le contenu des cours, et en complétant le reste des activités. Essayez de créer les projets en intégrant bien les cours, plutôt qu'en copiant les solutions. Vous verrez que chaque cours orientée projet contient un dossier dossier /solutions dans lequel vous trouverez la solution des exercices. Vous pouvez aussi former un groupe d'apprentissage avec des amis et vous former ensemble. Pour poursuivre votre apprentissage, nous recommandons d'aller consulter [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-40229-cxa).
|
||||
|
||||
<!--[]( "Promo video")
|
||||
|
||||
> 🎥 Cliquez sur l'image ci-dessus pour regarder la vidéo de présentation du projet réalisée par les auteurs du curriculum !-->
|
||||
|
||||
## Pédagogie
|
||||
|
||||
Nous avons choisi deux principes pédagogiques lors de la création de ce programme d'études : veiller à ce qu'il soit basé sur des projets et à ce qu'il comprenne des quiz fréquents. À la fin de cette série, les élèves auront appris les principes de base de la data science, notamment les concepts éthiques, la préparation des données, les différentes façons de travailler avec les données, la visualisation des données, l'analyse des données, des cas d'utilisation réels de data science, etc.
|
||||
|
||||
De plus, un quiz à faible enjeu à réaliser avant chaque cours permet de préparer l'étudiant à l'apprentissage du sujet, et un second quiz après le cours permet de fixer encore davantage le contenu dans l'esprit des apprenants. Ce curriculum se veut flexible et ammusant et il peut être suivi dans son intégralité ou en partie. Les premiers projets sont modestes et deviennent de plus en plus ardus.
|
||||
|
||||
> Qeulques liens utiles : [Code de conduite](../CODE_OF_CONDUCT.md), [Comment contribuer](../CONTRIBUTING.md), [Traductions](../TRANSLATIONS.md). Tout feedback constructif sera le bienvenu !
|
||||
|
||||
## Chaque cours comprend :
|
||||
|
||||
- Un sketchnote optionnel
|
||||
- Une vidéo complémentaire optionnelle
|
||||
- Un quiz préalable
|
||||
- Un cours écrit
|
||||
- Pour les cours basés sur des projets à réaliser : un guide de création du projet
|
||||
- Des vérifications de connaissances
|
||||
- Un challenge
|
||||
- De la lecture complémentaire
|
||||
- Un exercice
|
||||
- Un quiz de fin
|
||||
|
||||
> **Concernant les quiz** : Vous pourrez retrouver tous les quiz [dans cette application](https://red-water-0103e7a0f.azurestaticapps.net/). Il y a 40 quiz, avec trois questions chacun. Vous les retrouverez dans chaque cours correspondant, mais vous pouvez aussi utiliser l'application de quiz en local en suivant les instruction disponibles dans le dossier `quiz-app`. Les quiz sont en cours de localisation.
|
||||
|
||||
## Cours
|
||||
|
||||
|
||||
| ](../sketchnotes/00-Roadmap.png)|
|
||||
|:---:|
|
||||
| Data Science For Beginners: Roadmap - _Sketchnote réalisé par [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
|
||||
| Numéro du cours | Topic | Chapitre | Objectifs d'apprentissage | Liens vers les cours | Auteurs |
|
||||
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
|
||||
| 01 | Qu'est-ce que la Data Science ? | [Introduction](../1-Introduction/README.md) | Apprenez les concepts de base de la data science et le lien entre la data science, l'intelligence artificielle, le machine learning et la big data. | [cours](../1-Introduction/01-defining-data-science/README.md) [vidéo](https://youtu.be/pqqsm5reGvs) | [Dmitry](http://soshnikov.com) |
|
||||
| 02 | Data Science et éthique | [Introduction](../1-Introduction/README.md) | Les concepts d'éthique dans le domaine des données, les challenges et les principes d'encadrement. | [cours](../1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
|
||||
| 03 | Définition de la data | [Introduction](../1-Introduction/README.md) | Comment classifier les données et d'où viennent-elles principalement ? | [cours](../1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
|
||||
| 04 | Introduction aux statistiques et aux probabilités | [Introduction](../1-Introduction/README.md) | Techniques mathématiques de probabilités et de statistiques au service de la data. | [cours](../1-Introduction/04-stats-and-probability/README.md) [vidéo](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
|
||||
| 05 | Utilisation de données relationnelles | [Exploiter des données](../2-Working-With-Data/README.md) | Introduction aux données relationnelles et aux bases d'exploration et d'analyse des données relationnelles avec le Structured Query Language, alias SQL (pronouncé “sicouel”). | [cours](../2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
|
||||
| 06 | Utilisation de données NoSQL | [Exploiter des données](../2-Working-With-Data/README.md) | Présentation des données non relationelles, les types de données et les fondamentaux de l'exploration et de l'analyse de bases de données documentaires. | [cours](../2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
|
||||
| 07 | Utilisation de Python | [Exploiter des données](../2-Working-With-Data/README.md) | Les principes de base de Python pour l'exploration de données, et les librairies courantes telles que Pandas. Des connaissances de base de la programmation Python sont recommandées pour ce cours.| [cours](../2-Working-With-Data/07-python/README.md) [vidéo](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
|
||||
| 08 | Préparation des données | [Working With Data](../2-Working-With-Data/README.md) | Techniques de nettoyage et de transformation des données pour gérer des données manquantes, inexactesou incomplètes. | [cours](../2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
|
||||
| 09 | Visualisation des quantités | [Data Visualization](../3-Data-Visualization/README.md) | Apprendre à utiliser Matplotlib pour visualiser des données sur les oiseaux 🦆 | [cours](../3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
|
||||
| 10 | Visualisation de la distribution des données | [Data Visualization](../3-Data-Visualization/README.md) | Visualisation d'observations et de tendances dans un intervalle. | [cours](../3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
|
||||
| 11 | Visualiser des proportions | [Data Visualization](../3-Data-Visualization/README.md) | Visualisation de pourcentages discrets et groupés. | [cours](../3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
|
||||
| 12 | Visualisation de relations | [Data Visualization](../3-Data-Visualization/README.md) | Visualisation de connections et de corrélations entre différents sets de données et leurs variables. | [cours](../3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
|
||||
| 13 | Visualisations significatives | [Data Visualization](../3-Data-Visualization/README.md) | Techniques et conseils pour donner de la valeur à vos visualisations, les rendre utiles à la compréhension et à la résolution de problèmes. | [cours](../3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
|
||||
| 14 | Introduction au cycle de vie de la Data Science | [Cycle de vie](../4-Data-Science-Lifecycle/README.md) | Présentation du cycle de la data science et des premières étapes d'acquisition et d'extraction des données. | [cours](../4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
|
||||
| 15 | Analyse | [Cycle de vie](../4-Data-Science-Lifecycle/README.md) | Cette étape du cycle de vie de la data science se concentre sur les techniques d'analysation des données. | [cours](../4-Data-Science-Lifecycle/15-Analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
|
||||
| 16 | Communication | [Cycle de vie](../4-Data-Science-Lifecycle/README.md) | Cette étape du cycle de vie de la data science se concentre sur la présentation des informations tirées des données de manière à faciliter la compréhension d'une situation par des décisionnaires. | [cours](../4-Data-Science-Lifecycle/16-Communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
|
||||
| 17 | La Data Science dans le Cloud | [Cloud Data](../5-Data-Science-In-Cloud/README.md) | Ce cours présente le Cloud et l'intérêt du Cloud pour la Data Science. | [cours](../5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) et [Maud](https://twitter.com/maudstweets) |
|
||||
| 18 | La Data Science dans le Cloud | [Cloud Data](../5-Data-Science-In-Cloud/README.md) | Entraîner un modèle avec des outils de low code. |[cours](../5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) et [Maud](https://twitter.com/maudstweets) |
|
||||
| 19 | La Data Science dans le Cloud | [Cloud Data](../5-Data-Science-In-Cloud/README.md) | Déployer des modèles avec Azure Machine Learning Studio. | [cours](../5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) et [Maud](https://twitter.com/maudstweets) |
|
||||
| 20 | La Data Science dans la nature | [In the Wild](../6-Data-Science-In-Wild/README.md) | Des projets concrets de data science sur le terrain. | [cours](../6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
|
||||
## Accès hors ligne
|
||||
|
||||
Vous pouvez retrouver cette documentation hors ligne à l'aide de [Docsify](https://docsify.js.org/#/). Forkez ce repository, [installez Docsify](https://docsify.js.org/#/quickstart) sur votre machine locale, et tapez `docsify serve` dans le dossier racine de ce repository. Vous retrouverez le site web sur le port 3000 de votre localhost : `localhost:3000`.
|
||||
|
||||
> Remarque : vous ne pourrez pas utiliser de notebook avec Docsify. Si vous vouhaitez utilisr un notebook, vous pouvez le faire séparémmnt à l'aide d'un kernel Python dans VS Code.
|
||||
## PDF
|
||||
|
||||
Vous trouverez un PDF contenant tous les cours du curriculum [ici](https://microsoft.github.io/Data-Science-For-Beginners/pdf/readme.pdf).
|
||||
|
||||
## Appel à contribution
|
||||
|
||||
Si vous souhaitez traduire le curriculum entier ou en partie, veuillez suivre notre guide de [traduction](../TRANSLATIONS.md).
|
||||
|
||||
## Autres Curricula
|
||||
|
||||
Notre équipe a créé d'autres cours ! Ne manquez pas :
|
||||
|
||||
- [Le Machine Learning pour les débutants](https://aka.ms/ml-beginners)
|
||||
- [L'IoT pour les débutants](https://aka.ms/iot-beginners)
|
||||
- [Le développement Web pour les débutants](https://aka.ms/webdev-beginners)
|
Loading…
Reference in new issue