Merge branch 'main' of https://github.com/microsoft/Data-Science-For-Beginners into main
commit
4df2901fc2
@ -0,0 +1,260 @@
|
||||
# डेटा नैतिकता का परिचय
|
||||
|
||||
|![[(@sketchthedocs) द्वारा स्केचनोट](https://sketchthedocs.dev) ](../../../sketchnotes/02-Ethics.png)|
|
||||
|:---:|
|
||||
| डेटा विज्ञान नैतिकता - _[@nitya](https://twitter.com/nitya) द्वारा स्केचनोट_ |
|
||||
|
||||
---
|
||||
|
||||
हम सब इस डाटा-फाइड दुनिया में रहने वाले डाटा-नागरिक है |
|
||||
|
||||
बाजार के रुझान यह दर्शाते हैं कि २०२२ तक, तीन में से एक बड़ी संस्था अपना डाटा कि खरीद और बेचना ऑनलाइन [दुकानों](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/) द्वारा करेंगी | **ऐप डेवलपर** के रूप में, हम डेटा-संचालित अंतर्दृष्टि और एल्गोरिथम-चालित स्वचालन को दैनिक उपयोगकर्ता अनुभवों में एकीकृत करना आसान और सस्ता पाएंगे। लेकिन जैसे-जैसे AI व्यापक होता जाएगा, हमें इस तरह के एल्गोरिदम के [हथियारीकरण](https://www.youtube.com/watch?v=TQHs8SA1qpk) से होने वाले संभावित नुकसान को भी समझना होगा ।
|
||||
|
||||
रुझान यह भी संकेत देते हैं कि हम २०२५ तक [180 zettabytes](https://www.statista.com/statistics/871513/worldwide-data-created/) डेटा का निर्माण और उपभोग करेंगे । **डेटा वैज्ञानिक** के रूप में, यह हमें व्यक्तिगत डेटा तक पहुंचने के लिये अभूतपूर्व स्तर प्रदान करता है । इसका मतलब है कि हम उपयोगकर्ताओं के व्यवहार संबंधी प्रोफाइल बना सकते हैं और निर्णय लेने को इस तरह से प्रभावित कर सकते हैं जो संभावित रूप से एक [मुक्त इच्छा का भ्रम](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) पैदा करता है जब्कि वह उपयोगकर्ताओं को हमारे द्वारा पसंद किए जाने वाले परिणामों की ओर आकर्षित करना । यह डेटा गोपनीयता और उपयोगकर्ता की सुरक्षा पर भी व्यापक प्रश्न उठाता है ।
|
||||
|
||||
डेटा नैतिकता अब डेटा विज्ञान और इंजीनियरिंग का _आवश्यक रक्षक_ हैं, जिससे हमें अपने डेटा-संचालित कार्यों से संभावित नुकसान और अनपेक्षित परिणामों को नीचे रखने में मदद मिलती है । [AI के लिए गार्टनर हाइप साइकिल](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) डिजिटल नैतिकता में उचित रुझानों की पहचान करता है AI के _democratization_ और _industrialization_ के आसपास बड़े मेगाट्रेंड के लिए प्रमुख ड्राइवर के रूप में जिम्मेदार AI की ज़िम्मेदारी और AI शासन ।
|
||||
|
||||
|
||||
![AI के लिए गार्टनर का प्रचार चक्र - २०२०](https://images-cdn.newscred.com/Zz1mOWJhNzlkNDA2ZTMxMWViYjRiOGFiM2IyMjQ1YmMwZQ==)
|
||||
|
||||
इस पाठ में, हम डेटा नैतिकता के आकर्षक क्षेत्र के बारे में सीखेंगे - मूल अवधारणाओं और चुनौतियों से लेकर केस-स्टडी और शासन जैसी एप्लाइड AI अवधारणाओं तक - जो डेटा और AI के साथ काम करने वाली समूह और संगठनों में नैतिकता संस्कृति स्थापित करने में मदद करते हैं ।
|
||||
|
||||
## [पाठ से पहले की प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/2) 🎯
|
||||
|
||||
## मूल परिभाषाएं
|
||||
|
||||
आइए बुनियादी शब्दावली को समझना शुरू करें ।
|
||||
|
||||
"नैतिकता" [ग्रीक शब्द "एथिकोस"](https://en.wikipedia.org/wiki/Ethics) (और इसकी जड़ "एथोस") से आया है जिसका अर्थ _चरित्र या नैतिक प्रकृति_ होता है ।
|
||||
|
||||
**नैतिकता** उन साझा मूल्यों और नैतिक सिद्धांतों के बारे में है जो समाज में हमारे व्यवहार को नियंत्रित करते हैं । नैतिकता कानूनों पर नहीं बल्कि "सही बनाम गलत" के व्यापक रूप से स्वीकृत मानदंड पर आधारित है । लेकिन , नैतिक विचार कॉर्पोरेट प्रशासन की पहल और अनुपालन के लिए अधिक प्रोत्साहन पैदा करने वाले सरकारी नियमों को प्रभावित कर सकते हैं ।
|
||||
|
||||
**डेटा नैतिकता** एक [नैतिकता की नई शाखा](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1) है जो "_डेटा, एल्गोरिदम और से संबंधित नैतिक समस्याओं का अध्ययन और मूल्यांकन करती है_" । यहां, **"डेटा"** - निर्माण, रिकॉर्डिंग, अवधि, प्रसंस्करण प्रसार, साझाकरण और उपयोग से संबंधित कार्यों पर केंद्रित है, **"एल्गोरिदम"** AI , एजेंटों, मशीन लर्निंग और रोबोटो पर केंद्रित है, और ** "अभ्यास"** जिम्मेदार नवाचार, प्रोग्रामिंग, हैकिंग और नैतिकता कोड जैसे विषयों पर केंद्रित है ।
|
||||
|
||||
**एप्लाइड नैतिकता** [नैतिक विचारों का व्यावहारिक अनुप्रयोग](https://en.wikipedia.org/wiki/Applied_ethics) है । यह _वास्तविक दुनिया की कार्रवाइयों, उत्पादों और प्रक्रियाओं_ के संदर्भ में नैतिक मुद्दों की सक्रिय रूप से जांच करने और सुधारात्मक उपाय करने की प्रक्रिया है ताकि ये हमारे परिभाषित नैतिक मूल्यों के साथ संरेखित रहें ।
|
||||
|
||||
**नैतिकता संस्कृति** यह सुनिश्चित करने के लिए [_operationalizing_ एप्लाइड नैतिकता](https://hbr.org/2019/05/how-to-design-an-ethical-organization) के बारे में है कि हमारे नैतिक सिद्धांतों और प्रथाओं को पूरे संगठन में एक सुसंगत और मापनीय तरीके से अपनाया जाए । सफल नैतिक संस्कृतियाँ संगठन-व्यापी नैतिक सिद्धांतों को परिभाषित करती हैं, अनुपालन के लिए सार्थक प्रोत्साहन प्रदान करती हैं, और संगठन के हर स्तर पर वांछित व्यवहारों को प्रोत्साहित और प्रवर्धित करके नैतिक मानदंडों को सुदृढ़ करती हैं ।
|
||||
|
||||
|
||||
## नैतिकता की अवधारणाएं
|
||||
|
||||
इस खंड में, हम डेटा नैतिकता के लिए साझा मूल्यों (सिद्धांतों) और नैतिक चुनौतियों (समस्याओं) जैसी अवधारणाओं पर चर्चा करेंगे - और मामले के अध्ययन का पता लगाएंगे जो आपको वास्तविक दुनिया के संदर्भों में इन अवधारणाओं को समझने में मदद करते हैं ।
|
||||
|
||||
### 1. नैतिक सिद्धांत
|
||||
|
||||
प्रत्येक डेटा नैतिकता रणनीति _नैतिक सिद्धांतों_ को परिभाषित करके शुरू होती है - "साझा मूल्य" जो स्वीकार्य व्यवहारों का वर्णन करते हैं, और हमारे डेटा और AI परियोजनाओं में अनुपालन कार्यों का मार्गदर्शन करते हैं । लेकिन, अधिकांश बड़े संगठन इन्हें एक _नैतिक AI_ मिशन स्टेटमेंट या फ्रेमवर्क में रेखांकित करते हैं जो कॉर्पोरेट स्तर पर परिभाषित होता है और सभी टीमों में लगातार लागू होता है ।
|
||||
|
||||
**उदाहरण:** माइक्रोसॉफ्ट की [Responsible AI](https://www.microsoft.com/en-us/ai/responsible-ai) मिशन स्टेटमेंट कहती है : _"हम नैतिक सिद्धांतों द्वारा संचालित AI की उन्नति के लिए प्रतिबद्ध हैं जो लोगों को सबसे पहले रखते हैं |"_ - नीचे दिए गए ढांचे में 6 नैतिक सिद्धांतों की वार्ना की गयी है :
|
||||
|
||||
![माइक्रोसॉफ्ट की Responsible AI](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
|
||||
|
||||
आइए संक्षेप में इन सिद्धांतों के बारे में सीखे | _पारदर्शिता_ और _जवाबदेही_ वह मूलभूत मूल्य हैं जिन पर अन्य सिद्धांतों का निर्माण किया गया है - तो चलिए वहां शुरु करते हैं :
|
||||
|
||||
* [**जवाबदेही**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) उपयोगकर्ताओं को उनके डेटा और AI संचालन, और इन नैतिक सिद्धांतों के अनुपालन के लिए _जिम्मेदार_ बनाती है ।
|
||||
* [**पारदर्शिता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) सुनिश्चित करती है कि डेटा और AI क्रियाएं उपयोगकर्ताओं के लिए _समझने योग्य_ (व्याख्या योग्य) हैं, यह बताते हुए कि निर्णयों के पीछे क्या और क्यों है ।
|
||||
* [**निष्पक्षता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) - यह सुनिश्चित करने पर ध्यान केंद्रित करती है कि AI डेटा और सिस्टम में किसी भी प्रणालीगत या निहित सामाजिक-तकनीकी पूर्वाग्रहों को संबोधित करते हुए _सभी लोगों_ के साथ उचित व्यवहार करता है ।
|
||||
* [**विश्वसनीयता और अहनिकारकता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - सुनिश्चित करती है कि AI- संभावित नुकसान या अनपेक्षित परिणामों को कम करते हुए परिभाषित मूल्यों के साथ _लगातार_ काम करता है ।
|
||||
* [**निजता एवं सुरक्षा**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - डेटा वंश को समझने, और उपयोगकर्ताओं को _डेटा गोपनीयता और संबंधित सुरक्षा_ प्रदान करने के बारे में है ।
|
||||
* [**समग्रता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - AI समाधानों को इरादे से डिजाइन करना एवं उन्हें _मानवीय आवश्यकताओं की एक विस्तृत श्रृंखला_ और क्षमताओं को पूरा करने के लिए अनुकूलित करने के बारे में है ।
|
||||
|
||||
> 🚨 अपने डेटा नैतिकता मिशन वक्तव्य के बारे में सोचें | अन्य संगठनों से नैतिक AI ढांचों का अन्वेषण करें - ये हैं कुछ उदाहरण [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) ,एवं [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/) | इनके बीच क्या साझा मूल्य हैं? ये सिद्धांत उनके द्वारा संचालित AI उत्पाद या उद्योग से कैसे संबंधित हैं ?
|
||||
|
||||
### 2. नैतिकता से जुडी चुनौतियां
|
||||
|
||||
एक बार जब हमारे पास नैतिक सिद्धांत परिभाषित हो जाते हैं, तो अगला कदम यह देखने के लिए हमारे डेटा और एआई कार्यों का मूल्यांकन करना है कि क्या वे उन साझा मूल्यों के साथ संरेखित हैं । अपने कार्यों के बारे में दो श्रेणियों में सोचें: _डेटा संग्रह_ और _एल्गोरिदम डिज़ाइन_ |
|
||||
|
||||
डेटा संग्रह के साथ, कार्रवाइयों में संभवतः पहचान योग्य जीवित व्यक्तियों के लिए **व्यक्तिगत डेटा** या व्यक्तिगत रूप से पहचान योग्य जानकारी शामिल होगी । इसमें [गैर-व्यक्तिगत डेटा के विविध आइटम](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en) शामिल हैं, जो _collectively_ किसी व्यक्ति की पहचान करते हैं । नैतिक चुनौतियां _डेटा गोपनीयता_, _डेटा स्वामित्व_, और उपयोगकर्ताओं के लिए _सूचित सहमति_ और _बौद्धिक संपदा अधिकार_ जैसे संबंधित विषयों से संबंधित हो सकती हैं ।
|
||||
|
||||
एल्गोरिथम डिज़ाइन के साथ, क्रियाओं में **डेटासेट** एकत्र करना और क्यूरेट करना शामिल होगा, फिर उनका उपयोग **डेटा मॉडल** को प्रशिक्षित और तैनात करने के लिए किया जाएगा जो वास्तविक दुनिया के संदर्भों में परिणामों की भविष्यवाणी या स्वचालित निर्णय लेते हैं । एल्गोरिथम डिज़ाइन के साथ, क्रियाओं में **डेटासेट** एकत्र करना और क्यूरेट करना शामिल होगा, फिर उनका उपयोग **डेटा मॉडल** को प्रशिक्षित और तैनात करने के लिए किया जाएगा जो वास्तविक दुनिया के संदर्भों में परिणामों की भविष्यवाणी या स्वचालित निर्णय लेते हैं ।
|
||||
|
||||
दोनों ही मामलों में, नैतिकता की चुनौतियाँ उन क्षेत्रों को उजागर करती हैं जहाँ हमारे कार्यों का हमारे साझा मूल्यों के साथ टकराव हो सकता है । इन चिंताओं का पता लगाने, सामना करने, कम करने या समाप्त करने के लिए - हमें अपने कार्यों से संबंधित नैतिक "हां या नहीं" प्रश्न पूछने की जरूरत है, फिर आवश्यकतानुसार सुधारात्मक कार्रवाई करें । आइए कुछ नैतिक चुनौतियों और उनके द्वारा उठाए गए नैतिक प्रश्नों पर एक नज़र डालें :
|
||||
|
||||
|
||||
#### 2.1 डेटा स्वामित्व
|
||||
|
||||
डेटा संग्रह में अक्सर व्यक्तिगत डेटा शामिल होता है जो डेटा विषयों की पहचान कर सकता है । [डेटा स्वामित्व](https://permission.io/blog/data-ownership) _नियंत्रण_ के बारे में और उन [_उपयोगकर्ता अधिकारो_](https://permission.io/blog/data-ownership)के सम्भंदित है जो निर्माण , प्रसंस्करण और से संबंधित है ।
|
||||
|
||||
हमें जो नैतिक प्रश्न पूछने चाहिए, वे हैं :
|
||||
* डेटा का मालिक कौन है ? (उपयोगकर्ता या संगठन)
|
||||
* डेटा विषयों के पास क्या अधिकार हैं ? (उदा: पहुंच, मिटाना, सुवाह्यता)
|
||||
* संगठनों के पास क्या अधिकार हैं ? (उदा: दुर्भावनापूर्ण उपयोगकर्ता समीक्षाओं का सुधार)
|
||||
|
||||
#### 2.2 सूचित सहमति
|
||||
|
||||
[सूचित सहमति](https://legaldictionary.net/informed-consent/) उद्देश्य, संभावित जोखिमों और विकल्पों सहित प्रासंगिक तथ्यों की _पूर्ण समझ_ के साथ कार्रवाई (जैसे डेटा संग्रह) के लिए सहमत होने वाले उपयोगकर्ताओं के कार्य को परिभाषित करता है ।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या उपयोगकर्ता (डेटा विषय) ने डेटा कैप्चर और उपयोग के लिए अनुमति दी थी ?
|
||||
* क्या उपयोगकर्ता को वह उद्देश्य समझ में आया जिसके लिए उस डेटा को कैप्चर किया गया था ?
|
||||
* क्या उपयोगकर्ता ने उनकी भागीदारी से संभावित जोखिमों को समझा ?
|
||||
|
||||
#### 2.3 बौद्धिक संपदा
|
||||
|
||||
[बौद्धिक संपदा](https://en.wikipedia.org/wiki/Intellectual_property) मानव पहल से उत्पन्न अमूर्त कृतियों को संदर्भित करता है, जिनका व्यक्तियों या व्यवसायों के लिए _आर्थिक_ महत्व हो सकता है ।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या जमा किए गए डेटा का किसी उपयोगकर्ता या व्यवसाय के लिए आर्थिक महत्व है ?
|
||||
* क्या **उपयोगकर्ता** के पास यहां बौद्धिक संपदा है ?
|
||||
* क्या **संगठन** के पास यहां बौद्धिक संपदा है ?
|
||||
* अगर ये अधिकार मौजूद हैं, तो हम उनकी रक्षा कैसे कर रहे हैं ?
|
||||
|
||||
#### 2.4 डाटा गोपनीयता
|
||||
|
||||
[डेटा गोपनीयता](https://www.northeaster.edu/graduate/blog/what-is-data-privacy/) या सूचना गोपनीयता व्यक्तिगत रूप से पहचान योग्य जानकारी के संबंध में उपयोगकर्ता की गोपनीयता के संरक्षण और उपयोगकर्ता की पहचान की सुरक्षा को संदर्भित करता है ।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या उपयोगकर्ताओं का (व्यक्तिगत) डेटा हैक और लीक से सुरक्षित है ?
|
||||
* क्या उपयोगकर्ताओं का डेटा केवल अधिकृत उपयोगकर्ताओं और संदर्भों के लिए सुलभ है ?
|
||||
* क्या डेटा साझा या प्रसारित होने पर उपयोगकर्ताओं की गोपनीयता बनी रहती है ?
|
||||
* क्या किसी उपयोगकर्ता की पहचान अज्ञात डेटासेट से की जा सकती है ?
|
||||
|
||||
|
||||
#### 2.5 भूला दिया जाने का अधिकार
|
||||
|
||||
[भूला दिया जाने का अधिकार](https://en.wikipedia.org/wiki/Right_to_be_forgotten) अतिरिक्त सुविधाएं प्रदान करता है उपयोगकर्ताओं के लिए व्यक्तिगत डेटा सुरक्षा। विशेष रूप से, यह उपयोगकर्ताओं को इंटरनेट खोजों और अन्य स्थानों से व्यक्तिगत डेटा को हटाने या हटाने का अनुरोध करने का अधिकार देता है, _विशिष्ट परिस्थितियों में_ - उन्हें उनके खिलाफ पिछली कार्रवाई किए बिना ऑनलाइन एक नई शुरुआत करने की अनुमति देता है ।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या सिस्टम डेटा विषयों को अपना डेटा मिटाने का अनुरोध करने की अनुमति देता है ?
|
||||
* क्या उपयोगकर्ता की सहमति वापस लेने से स्वचालित डेटा मिटाना शुरू हो जाएगा ?
|
||||
* क्या डेटा सहमति के बिना या गैरकानूनी तरीके से एकत्र किया गया था ?
|
||||
* क्या हम डेटा गोपनीयता के लिए सरकारी नियमों का अनुपालन करते हैं ?
|
||||
|
||||
|
||||
#### 2.6 डेटासेट पूर्वाग्रह
|
||||
|
||||
डेटासेट या [संग्रह पूर्वाग्रह](http://researcharticles.com/index.php/bias-in-data-collection-in-research/) एल्गोरिथम विकास के लिए डेटा के _गैर-प्रतिनिधि_ सबसेट का चयन करने के बारे में है, जिसमें संभावित अनुचितता पैदा होती है विभिन्न समूहों के लिए भेदभाव । पूर्वाग्रह के प्रकारों में चयन या नमूना पूर्वाग्रह, स्वयंसेवी पूर्वाग्रह और साधन पूर्वाग्रह शामिल हैं ।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या हमने डेटा विषयों के प्रतिनिधि सेट की भर्ती की ?
|
||||
* क्या हमने विभिन्न पूर्वाग्रहों के लिए अपने एकत्रित या क्यूरेट किए गए डेटासेट का परीक्षण किय ा?
|
||||
* क्या हम खोजे गए पूर्वाग्रहों को कम कर सकते हैं या हटा सकते हैं ?
|
||||
|
||||
#### 2.7 डेटा की गुणवत्ता
|
||||
|
||||
[डेटा गुणवत्ता](https://lakefs.io/data-quality-testing/) जो हमारे एल्गोरिदम को विकसित करने के लिए उपयोग किए गए क्यूरेट किए गए डेटासेट की वैधता को देखता है, यह देखने के लिए जाँच करता है कि सुविधाएँ और रिकॉर्ड सटीकता और स्थिरता के स्तर की आवश्यकताओं को पूरा करते हैं या नहीं हमारे AI उद्देश्य के लिए आवश्यक है ।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या हमने अपने उपयोग के मामले में मान्य _features_ को कैप्चर किया ?
|
||||
* क्या डेटा विविध डेटा स्रोतों से _लगातार_ कैप्चर किया गया था ?
|
||||
* क्या विविध स्थितियों या परिदृश्यों के लिए डेटासेट _पूर्ण_ है ?
|
||||
* क्या वास्तविकता को प्रतिबिंबित करने में जानकारी _सटीक_ रूप से कैप्चर की गई है ?
|
||||
|
||||
#### 2.8 एल्गोरिथम की निष्पक्षता
|
||||
|
||||
[एल्गोरिदम निष्पक्षता](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) यह देखने के लिए जांच करता है कि क्या एल्गोरिथम डिज़ाइन व्यवस्थित रूप से डेटा विषयों के विशिष्ट उपसमूहों के साथ भेदभाव करता है जिससे [संभावित नुकसान](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) होते हैं में _allocation_ (जहां संसाधनों को अस्वीकार कर दिया जाता है या उस समूह से रोक दिया जाता है) और _सेवा की गुणवत्ता_ (जहां AI कुछ उपसमूहों के लिए उतना सटीक नहीं है जितना कि यह दूसरों के लिए है) ।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या हमने विविध उपसमूहों और स्थितियों के लिए मॉडल सटीकता का मूल्यांकन किया ?
|
||||
* क्या हमने संभावित नुकसान (जैसे, स्टीरियोटाइपिंग) के लिए सिस्टम की जांच की ?
|
||||
* क्या हम पहचाने गए नुकसान को कम करने के लिए डेटा को संशोधित कर सकते हैं या मॉडल को फिर से प्रशिक्षित कर सकते हैं ?
|
||||
|
||||
अधिक जानने के लिए [AI फेयरनेस चेकलिस्ट](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA) जैसे संसाधनों का अन्वेषण करें ।
|
||||
|
||||
#### 2.9 मिथ्या निरूपण
|
||||
|
||||
[डेटा मिसरिप्रेजेंटेशन](https://www.sciencedirect.com/topics/computer-science/misrepresentation) यह पूछने के बारे में है कि क्या हम एक वांछित कथा का समर्थन करने के लिए भ्रामक तरीके से ईमानदारी से रिपोर्ट किए गए डेटा से अंतर्दृष्टि का संचार कर रहे हैं ।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या हम अपूर्ण या गलत डेटा की रिपोर्ट कर रहे हैं ?
|
||||
* क्या हम डेटा को इस तरह से देख रहे हैं जिससे भ्रामक निष्कर्ष निकलते हैं ?
|
||||
* क्या हम परिणामों में हेरफेर करने के लिए चुनिंदा सांख्यिकीय तकनीकों का उपयोग कर रहे हैं ?
|
||||
* क्या ऐसे वैकल्पिक स्पष्टीकरण हैं जो एक अलग निष्कर्ष प्रस्तुत कर सकते हैं ?
|
||||
|
||||
#### 2.10 मुक्त चयन
|
||||
[इल्यूज़न ऑफ़ फ्री चॉइस](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) तब होता है जब सिस्टम "चॉइस आर्किटेक्चर" लोगों को पसंदीदा परिणाम लेने के लिए प्रेरित करने के लिए निर्णय लेने वाले एल्गोरिदम का उपयोग करता है। जबकि उन्हें विकल्प और नियंत्रण देना प्रतीत होता है। ये [डार्क पैटर्न](https://www.darkpatterns.org/) उपयोगकर्ताओं को सामाजिक और आर्थिक नुकसान पहुंचा सकते हैं। चूंकि उपयोगकर्ता निर्णय व्यवहार प्रोफाइल को प्रभावित करते हैं, इसलिए ये कार्रवाइयां संभावित रूप से भविष्य के विकल्पों को प्रेरित करती हैं जो इन नुकसानों के प्रभाव को बढ़ा या बढ़ा सकते हैं।
|
||||
|
||||
यहां देखने लायक प्रश्न हैं :
|
||||
* क्या उपयोगकर्ता ने उस विकल्प को बनाने के निहितार्थों को समझा ?
|
||||
* क्या उपयोगकर्ता (वैकल्पिक) विकल्पों और प्रत्येक के पेशेवरों और विपक्षों से अवगत था ?
|
||||
* क्या उपयोगकर्ता किसी स्वचालित या प्रभावित विकल्प को बाद में उलट सकता है ?
|
||||
|
||||
### 3. केस स्टडी
|
||||
|
||||
इन नैतिक चुनौतियों को वास्तविक दुनिया के संदर्भों में रखने के लिए, ऐसे मामलों के अध्ययन को देखने में मदद मिलती है जो व्यक्तियों और समाज को संभावित नुकसान और परिणामों को उजागर करते हैं, जब ऐसे नैतिकता उल्लंघनों की अनदेखी की जाती है ।
|
||||
|
||||
कुछ उदाहरण निम्नलिखित हैं :
|
||||
|
||||
| नैतिकता चुनौती | मामले का अध्ययन |
|
||||
|--- |--- |
|
||||
| **सूचित सहमति** | १९७२ - [टस्केगी सिफलिस अध्ययन](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - अध्ययन में भाग लेने वाले अफ्रीकी अमेरिकी पुरुषों को उन शोधकर्ताओं द्वारा मुफ्त चिकित्सा देखभाल का वादा किया गया था जो उनके निदान या उपचार की उपलब्धता के बारे में विषयों को सूचित करने में विफल रहे। कई विषयों की मृत्यु हो गई और साथी या बच्चे प्रभावित हुए; अध्ययन 40 साल तक चला । |
|
||||
| **डाटा प्राइवेसी** | २००७ - [नेटफ्लिक्स डेटा प्राइज](https://www.wired.com/2007/12/why-anonymous-data-only-isnt/) ने शोधकर्ताओं को सिफारिश एल्गोरिदम को बेहतर बनाने में मदद करने के लिए 50K ग्राहकों_ से _10M अनाम मूवी रैंकिंग प्रदान की। हालांकि, शोधकर्ता अज्ञात डेटा को व्यक्तिगत रूप से पहचाने जाने योग्य डेटा के साथ _बाहरी डेटासेट_ (उदाहरण के लिए, IMDb टिप्पणियों) में सहसंबंधित करने में सक्षम थे - कुछ नेटफ्लिक्स ग्राहकों को प्रभावी रूप से "डी-अनामीकरण" ।|
|
||||
| **संग्रह पूर्वाग्रह** | २०१३ - द सिटी ऑफ़ बोस्टन [विकसित स्ट्रीट बम्प](https://www.boston.gov/transportation/street-bump), एक ऐप जो नागरिकों को गड्ढों की रिपोर्ट करने देता है, जिससे शहर को समस्याओं को खोजने और ठीक करने के लिए बेहतर रोडवे डेटा मिलता है । हालांकि, [निम्न आय वर्ग के लोगों के पास कारों और फोन तक कम पहुंच थी](https://hbr.org/2013/04/the-hidden-biases-in-big-data), जिससे इस ऐप में उनके सड़क संबंधी मुद्दे अदृश्य हो गए थे। . डेवलपर्स ने शिक्षाविदों के साथ निष्पक्षता के लिए _न्यायसंगत पहुंच और डिजिटल विभाजन_ मुद्दों पर काम किया । |
|
||||
| **एल्गोरिथम निष्पक्षता** | २०१८ - एमआईटी [जेंडर शेड्स स्टडी] (http://gendershades.org/overview.html) ने लिंग वर्गीकरण एआई उत्पादों की सटीकता का मूल्यांकन किया, महिलाओं और रंग के व्यक्तियों के लिए सटीकता में अंतराल को उजागर किया । एक [2019 ऐप्पल कार्ड](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) पुरुषों की तुलना में महिलाओं को कम क्रेडिट प्रदान करता है। दोनों ने एल्गोरिथम पूर्वाग्रह में सचित्र मुद्दों को सामाजिक-आर्थिक नुकसान की ओर अग्रसर किया ।|
|
||||
| **डेटा गलत बयानी** | २०२० - [जॉर्जिया डिपार्टमेंट ऑफ पब्लिक हेल्थ ने जारी किया COVID-19 चार्ट](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening) जो एक्स-अक्ष पर गैर-कालानुक्रमिक क्रम के साथ पुष्टि किए गए मामलों में रुझानों के बारे में नागरिकों को गुमराह करने के लिए प्रकट हुए। यह विज़ुअलाइज़ेशन ट्रिक्स के माध्यम से गलत बयानी दिखाता है । |
|
||||
| **स्वतंत्र चुनाव का भ्रम** | २०२० - लर्निंग ऐप [एबीसीमाउस ने एफटीसी शिकायत को निपटाने के लिए 10 मिलियन डॉलर का भुगतान किया](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/) जहां माता-पिता भुगतान करने में फंस गए थे सदस्यता वे रद्द नहीं कर सके । यह पसंद वास्तुकला में काले पैटर्न को दिखाता है, जहां उपयोगकर्ता संभावित रूप से हानिकारक विकल्पों की ओर झुकाव कर रहे थे । |
|
||||
| **डेटा गोपनीयता और उपयोगकर्ता अधिकार** | २०२१ - फेसबुक [डेटा ब्रीच](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) 530M उपयोगकर्ताओं के डेटा को उजागर किया, जिसके परिणामस्वरूप FTC को $ 5B का समझौता हुआ । हालांकि इसने डेटा पारदर्शिता और पहुंच के आसपास उपयोगकर्ता अधिकारों का उल्लंघन करने वाले उल्लंघन के उपयोगकर्ताओं को सूचित करने से इनकार कर दिया । |
|
||||
|
||||
अधिक केस स्टडी के बारे में चाहते हैं ? इन संसाधनों की जाँच करें :
|
||||
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - विविध उद्योगों में नैतिकता की दुविधा ।
|
||||
* [Data Science Ethics course](https://www.coursera.org/learn/data-science-ethics#syllabus) - ऐतिहासिक मामले का अध्ययन ।
|
||||
* [Where things have gone wrong](https://deon.drivendata.org/examples/) - उदाहरण के साथ डीओन चेकलिस्ट |
|
||||
|
||||
> 🚨 आपके द्वारा देखी गई केस स्टडी के बारे में सोचें - क्या आपने अपने जीवन में इसी तरह की नैतिक चुनौती का अनुभव किया है, या इससे प्रभावित हुए हैं ? क्या आप कम से कम एक अन्य केस स्टडी के बारे में सोच सकते हैं जो इस खंड में चर्चा की गई नैतिक चुनौतियों में से एक को दर्शाती है ?
|
||||
|
||||
## एप्लाइड नैतिकता
|
||||
|
||||
हमने वास्तविक दुनिया के संदर्भों में नैतिक अवधारणाओं, चुनौतियों और केस स्टडी के बारे में बात की है। लेकिन हम अपनी परियोजनाओं में नैतिक सिद्धांतों और प्रथाओं को _लागू करना_ कैसे शुरू करते हैं ? और हम बेहतर शासन के लिए इन प्रथाओं को कैसे _संचालन_कृत करते हैं ? आइए कुछ वास्तविक दुनिया के समाधान देखें :
|
||||
|
||||
### 1. व्यावसायिक कोड
|
||||
|
||||
व्यावसायिक कोड संगठनों के लिए सदस्यों को उनके नैतिक सिद्धांतों और मिशन वक्तव्य का समर्थन करने के लिए "प्रोत्साहित" करने के लिए एक विकल्प प्रदान करते हैं । पेशेवर व्यवहार के लिए कोड _नैतिक दिशानिर्देश_ हैं, जो कर्मचारियों या सदस्यों को उनके संगठन के सिद्धांतों के अनुरूप निर्णय लेने में मदद करते हैं । वे केवल उतने ही अच्छे हैं जितने सदस्यों से स्वैच्छिक अनुपालन; हालांकि, कई संगठन सदस्यों से अनुपालन को प्रेरित करने के लिए अतिरिक्त पुरस्कार और दंड प्रदान करते हैं ।
|
||||
|
||||
उदाहरणों में शामिल :
|
||||
|
||||
* [ऑक्सफोर्ड म्यूनिख](http://www.code-of-ethics.org/code-of-conduct/) आचार संहिता
|
||||
* [डेटा साइंस एसोसिएशन](http://datascienceassn.org/code-of-conduct.html) आचार संहिता (2013 में बनाया गया)
|
||||
* [एसीएम आचार संहिता और व्यावसायिक आचरण](https://www.acm.org/code-of-ethics) (1993 से)
|
||||
|
||||
> 🚨 क्या आप एक पेशेवर इंजीनियरिंग या डेटा विज्ञान संगठन से संबंधित हैं ? यह देखने के लिए कि क्या वे पेशेवर आचार संहिता को परिभाषित करते हैं, उनकी साइट का अन्वेषण करें । यह उनके नैतिक सिद्धांतों के बारे में क्या कहता है ? वे सदस्यों को कोड का पालन करने के लिए "प्रोत्साहित" कैसे कर रहे हैं ?
|
||||
|
||||
### 2. Ethics Checklists
|
||||
|
||||
जबकि पेशेवर कोड चिकित्सकों से आवश्यक _नैतिक व्यवहार_ को परिभाषित करते हैं, वे प्रवर्तन में [विशेष रूप से बड़े पैमाने पर परियोजनाओं में](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) [ज्ञात सीमाएं हैं] । इसके बजाय, कई डेटा विज्ञान विशेषज्ञ [चेकलिस्ट के वकील](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), जो **सिद्धांतों को अभ्यासों से जोड़ सकते हैं** अधिक नियतात्मक और कार्रवाई योग्य तरीके ।
|
||||
|
||||
चेकलिस्ट प्रश्नों को "हां/नहीं" कार्यों में परिवर्तित करते हैं जिन्हें संचालित किया जा सकता है, जिससे उन्हें मानक उत्पाद रिलीज वर्कफ़्लो के हिस्से के रूप में ट्रैक किया जा सकता है ।
|
||||
|
||||
उदाहरणों में शामिल :
|
||||
* [Deon](https://deon.drivendata.org/) - आसान एकीकरण के लिए कमांड-लाइन टूल के साथ [उद्योग अनुशंसाओं](https://deon.drivedata.org/#checklist-citations) से बनाई गई एक सामान्य-उद्देश्य डेटा नैतिकता चेकलिस्ट ।
|
||||
* [Privacy Audit Checklist](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - कानूनी और सामाजिक जोखिम के दृष्टिकोण से सूचना प्रबंधन प्रथाओं के लिए सामान्य मार्गदर्शन प्रदान करता है ।
|
||||
* [AI Fairness Checklist](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - एआई विकास चक्रों में निष्पक्षता जांच को अपनाने और एकीकरण का समर्थन करने के लिए एआई चिकित्सकों द्वारा बनाया गया ।
|
||||
* [22 questions for ethics in data and AI](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - डिजाइन, कार्यान्वयन, और संगठनात्मक, संदर्भों में नैतिक मुद्दों की प्रारंभिक खोज के लिए संरचित, अधिक खुला ढांचा ।
|
||||
|
||||
### 3. नैतिकता विनियम
|
||||
|
||||
नैतिकता साझा मूल्यों को परिभाषित करने और _स्वेच्छा_ से सही काम करने के बारे में है । **अनुपालन** _कानून का पालन करने के बारे में है_ यदि और जहां परिभाषित किया गया है । **शासन** मोटे तौर पर उन सभी तरीकों को शामिल करता है जिनमें संगठन नैतिक सिद्धांतों को लागू करने और स्थापित कानूनों का पालन करने के लिए काम करते हैं ।
|
||||
|
||||
आज, संगठनों के भीतर शासन दो रूप लेता है । सबसे पहले, यह **नैतिक एआई** सिद्धांतों को परिभाषित करने और संगठन में सभी एआई-संबंधित परियोजनाओं में गोद लेने के संचालन के लिए प्रथाओं को स्थापित करने के बारे में है । दूसरा, यह उन क्षेत्रों के लिए सरकार द्वारा अनिवार्य सभी **डेटा सुरक्षा नियमों** का अनुपालन करने के बारे में है जहां यह संचालित होता है ।
|
||||
|
||||
डेटा सुरक्षा और गोपनीयता नियमों के उदाहरण :
|
||||
|
||||
* `१९७४`, [US Privacy Act](https://www.justice.gov/opcl/privacy-act-1974) - व्यक्तिगत जानकारी के संग्रह, उपयोग और प्रकटीकरण को नियंत्रित करता है ।
|
||||
* `१९९६`, [US Health Insurance Portability & Accountability Act (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - व्यक्तिगत स्वास्थ्य डेटा की सुरक्षा करता है ।
|
||||
* `१९९८`, [US Children's Online Privacy Protection Act (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - 13 साल से कम उम्र के बच्चों की डेटा गोपनीयता की रक्षा करता है ।
|
||||
* `२०१८`, [General Data Protection Regulation (GDPR)](https://gdpr-info.eu/) - उपयोगकर्ता अधिकार, डेटा सुरक्षा और गोपनीयता प्रदान करता है ।
|
||||
* `२०१८`, [California Consumer Privacy Act (CCPA)](https://www.oag.ca.gov/privacy/ccpa) उपभोक्ताओं को उनके (व्यक्तिगत) डेटा पर अधिक _अधिकार_ देता है ।
|
||||
* `२०२१`, चीन का [Personal Information Protection Law](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) अभी-अभी पारित हुआ, दुनिया भर में सबसे मजबूत ऑनलाइन डेटा गोपनीयता नियमों में से एक बना ।
|
||||
|
||||
> 🚨 यूरोपीय संघ परिभाषित GDPR (जनरल डेटा प्रोटेक्शन रेगुलेशन) आज सबसे प्रभावशाली डेटा गोपनीयता नियमों में से एक है । क्या आप जानते हैं कि यह नागरिकों की डिजिटल गोपनीयता और व्यक्तिगत डेटा की सुरक्षा के लिए [8 उपयोगकर्ता अधिकार](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) को भी परिभाषित करता है ? जानें कि ये क्या हैं, और क्यों मायने रखते हैं ।
|
||||
|
||||
|
||||
### 4. नैतिकता संस्कृति
|
||||
|
||||
ध्यान दें कि _अनुपालन_ ("कानून के पत्र को पूरा करने के लिए पर्याप्त प्रयास करना") और [प्रणालीगत मुद्दों](https://www.coursera.org/learn/data-science-ethics/home/week) को संबोधित करने के बीच एक अमूर्त अंतर है । / 4) (जैसे ossification, सूचना विषमता, और वितरण संबंधी अनुचितता) जो AI के शस्त्रीकरण को गति दे सकता है ।
|
||||
|
||||
बाद वाले को [नैतिक संस्कृतियों को परिभाषित करने के लिए सहयोगात्मक दृष्टिकोण](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-drive-approach-26f451afa29f) की आवश्यकता होती है, जो पूरे संगठनों में भावनात्मक संबंध और सुसंगत साझा मूल्यों का निर्माण करते हैं । यह संगठनों में अधिक [औपचारिक डेटा नैतिकता संस्कृतियों](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) की मांग करता है - _किसी_ को [एंडोन कॉर्ड को खींचने] की अनुमति देता है (https:/ /en.wikipedia.org/wiki/Andon_(manufacturing)) (इस प्रक्रिया में नैतिकता संबंधी चिंताओं को जल्दी उठाने के लिए) और एआई परियोजनाओं में _नैतिक मूल्यांकन_ (उदाहरण के लिए, भर्ती में) एक मुख्य मानदंड टीम गठन करना ।
|
||||
|
||||
---
|
||||
## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/3) 🎯
|
||||
## समीक्षा और स्व अध्ययन
|
||||
|
||||
पाठ्यक्रम और पुस्तकें मूल नैतिकता अवधारणाओं और चुनौतियों को समझने में मदद करती हैं, जबकि केस स्टडी और उपकरण वास्तविक दुनिया के संदर्भों में लागू नैतिकता प्रथाओं के साथ मदद करते हैं। शुरू करने के लिए यहां कुछ संसाधन दिए गए हैं।
|
||||
|
||||
* [Machine Learning For Beginners](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - Microsoft से निष्पक्षता पर पाठ ।
|
||||
* [Principles of Responsible AI](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - माइक्रोसॉफ्ट लर्न की ओर से फ्री लर्निंग पाथ ।
|
||||
* [Ethics and Data Science](https://resources.oreilly.com/examples/0636920203964) - O'Reilly EBook (M. Loukides, H. Mason et. al)
|
||||
* [Data Science Ethics](https://www.coursera.org/learn/data-science-ethics#syllabus) - मिशिगन विश्वविद्यालय से ऑनलाइन पाठ्यक्रम ।
|
||||
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - टेक्सास विश्वविद्यालय से केस स्टडीज ।
|
||||
|
||||
# कार्यभार
|
||||
<!-- need to change the link once assignment is translated -->
|
||||
[डेटा एथिक्स केस स्टडी लिखें](assignment.md)
|
@ -0,0 +1,69 @@
|
||||
# Definiendo los datos
|
||||
|
||||
|![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/03-DefiningData.png)|
|
||||
|:---:|
|
||||
|Definiendo los datos - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
Los datos son hechos, información, observaciones y mediciones que son usados para realizar descubrimientos y soportar decisiones informadas. Un punto de datos es una unidad simple de datos dentro de un conjunto de datos, lo cual es una colección de puntos de datos. Los conjuntos de datos pueden venir en distintos formatos y estructuras, y comúnmente se basan en su fuente, o de donde provienen los datos. Por ejemplo, las ganancias mensuales de una compañía pueden estar en una hoja de cálculo, pero los datos del ritmo cardiaco por hora de un reloj inteligente pueden estar en un formato [JSON](https://stackoverflow.com/a/383699). Es algo común para los científicos de datos el trabajar con distintos tipos de datos dentro de un conjunto de datos.
|
||||
|
||||
Esta lección se enfoca en la identificación y clasificación de datos por sus características y sus fuentes.
|
||||
|
||||
## [Examen previo a la lección](https://red-water-0103e7a0f.azurestaticapps.net/quiz/4)
|
||||
## Cómo se describen los datos
|
||||
Los **datos en crudo** son datos que provienen de su fuente en su estado inicial y estos no han sido analizados u organizados. Con el fin de que tenga sentido lo que sucede con un conjunto de datos, es necesario organizarlos en un formato que pueda ser entendido tanto por humanos como por la tecnología usada para analizarla a mayor detalle. La estructura de un conjunto de datos describe como está organizado y puede ser clasificado de forma estructurada, no estructurada y semi-estructurada. Estos tipos de estructuras podrían variar, dependiendo de la fuente pero finalmente caerá en una de estas categorías.
|
||||
### Datos cuantitativos
|
||||
Los datos cuantitativos son observaciones numéricas en un conjunto de datos que puede ser típicamente analizados, medidos y usados matemáticamente. Algunos ejemplos de datos cuantitativos son: la población de un país, la altura de una persona o las ganancias trimestrales de una compañía. Con algo de análisis adicional, los datos cuantitativos podrían ser usados para descubrir tendencias de temporada en el índice de calidad del aire (AQI) o estimar la probabilidad la hora pico de embotellamiento vial en un día laboral típico.
|
||||
|
||||
### Datos cualitativos
|
||||
Los datos cualitativos, también conocidos como datos categóricos son datos que no pueden ser medidos de forma objetiva en comparación con los datos cuantitativos. Comúnmente son formatos de datos subjetivos que capturan la calidad de algo, como un producto o un proceso. Algunas veces, los datos cuantitativos son numéricos y no pudiesen ser usados matemáticamente, como números telefónicos o marcas de tiempo. Algunos ejemplos de datos cualitativos son: comentarios en los videos, la marca y modelo de un automóvil o el color favorito de tus amigos más cercanos. Los datos cualitativos pueden ser usados para entender qué productos le gustan más a los usuarios o el identificar las palabras clave populares en solicitudes de empleo.
|
||||
|
||||
### Datos estructurados
|
||||
Los datos estructurados son datos que están organizados en filas y columnas, donde cada fila tendrá el mismo conjunto de columnas. Las columnas representan un valor de un tipo particular y serán identificadas con un nombre que describa el valor que representa, mientras que las filas contienen los valores en cuestión. Las columnas usualmente tendrán un conjunto específico de reglas o restricciones en sus valores, para asegurar que los valores presentan a la columna de forma precisa. Por ejemplo, imagina una hoja de cálculo de clientes donde cada fila debe tener un número telefónico y los números telefónicos nunca contienen caracteres alfabéticos. Habrá que aplicar reglas a la columna de número telefónico para asegurar éste nunca está vacío y contiene únicamente números.
|
||||
|
||||
Un beneficio de los datos estructurados es que estos pueden ser organizados de tal forma que pueden relacionarse con otros datos estructurados. Sin embargo, ya que los datos están diseñados para ser organizados de forma específica, el realizar cambios a su estructura en general puede conllevar un gran esfuerzo. Por ejemplo, agregar una columna de correo a la hoja de cálculo de clientes para que no permita esté vacía significa que necesitas descubrir como agregar estos valores a las filas existentes de clientes en el conjunto de datos.
|
||||
|
||||
Ejemplos de datos estructurados: hojas de cálculo, bases de datos relacionales, número de teléfono, estados de cuenta del banco.
|
||||
|
||||
### Datos no estructurados
|
||||
Los datos no estructurados no pueden ser típicamente categorizados en filas o columnas y no contienen un formato o conjunto de reglas a seguir. Ya que los datos no estructurados tienen menos restricciones en su estructura es más fácil agregar nueva información en comparación con los conjuntos de datos estructurados. Si un sensor captura datos de presión barométrica cada 2 minutos y ha recibido una actualización que ahora permite medir y granar la temperatura, no se requiere la modificación de los datos existentes si estos son no estructurados. Sin embargo, esto puede hacer que el análisis o la investigación de este tipo de datos tomará más tiempo. Por ejemplo, un científico quiere encontrar la temperatura promedio del mes previo desde los sensores de datos, pero descubre que los sensores grabaron una "e" en algunos de sus datos grabados para puntualizar que éste está averiado en lugar de grabar un número, lo cual significa que los datos están incompletos.
|
||||
|
||||
Ejemplos de datos no estructurados: archivos de texto, mensajes de texto, archivos de video.
|
||||
|
||||
### Datos semi-estructurados
|
||||
Los datos semi-estructurados combinan características tanto de datos estructurados como no estructurados. Generalmente no se ajustan a un formato de filas y columnas pero están organizados de tal forma que son considerados estructurados y pueden seguir un formato fijo o conjunto de reglas. La estructura cambiará entre las fuentes, así como también la jerarquía definida para algo más flexible que permite la fácil integración de información nueva. Los metadatos son indicadores que facilitan el decidir como se organizan y almacenan los datos y tendrán varios nombres, basados en los tipos de datos. Algunos nombres comunes para los metadatos son etiquetas, elementos, entidades y atributos. Por ejemplo, un mensaje de correo típico tendrá un asunto, un cuerpo y un conjunto de destinatarios y puede ser organizado por quién o cuando fue enviado.
|
||||
|
||||
Ejemplos de datos no estructurados: HTML, archivos CSV, objetos JSON.
|
||||
|
||||
## Fuentes de datos
|
||||
|
||||
Una fuente de datos es la ubicación inicial en donde los datos son generados, o donde estos "viven" y varían basados en cómo y cuándo fueron recolectados. Los datos generados por sus usuarios con conocidos como información primaria mientras que la información secundaria proviene de una fuente que ha recolectado datos para uso general. Por ejemplo, un grupo de científicos recolectó observaciones en la selva tropical, dicha información es considerada como primaria, pero si deciden compartirla con otros científicos sería considerada como secundaria para aquellos que la usen.
|
||||
|
||||
Las bases de datos son una fuente común y recaen en sistemas de gestión de bases de datos para albergar y mantener los datos donde los usuarios usan comandos llamados consultas (queries) para explorar los datos. Los archivos como fuentes de datos pueden ser archivos de audio, imagen y video también como hojas de cálculo como Excel. Las fuentes de Internet son una ubicación común para albergar datos, donde se pueden encontrar tanto bases de datos como archivos. Las interfaces de programación de aplicaciones, también conocidas como APIs, le permiten a los programadores crear formas para compartir los datos con usuarios externos a través de internet, mientras que los procesos de "web scraping" extraen datos desde una página web. Las [lecciones de trabajando con datos](/2-Working-With-Data) se enfocan en como usar las distintas fuentes de datos.
|
||||
|
||||
## Conclusiones
|
||||
|
||||
En esta lección has aprendido:
|
||||
|
||||
- Qué son los datos
|
||||
- Cómo se describen los datos
|
||||
- Cómo se clasifican y categorizan los datos
|
||||
- Dónde se pueden encontrar los datos
|
||||
|
||||
## 🚀 Desafío
|
||||
|
||||
Kaggle es una fuente excelente de conjuntos de datos abiertos. Usa los [conjuntos de datos de la herramienta de búsqueda](https://www.kaggle.com/datasets) para encontrar algunos conjuntos de datos interesantes y clasifica de 3 a 5 conjuntos de datos con los siguientes criterios:
|
||||
|
||||
- ¿Los datos son cuantitativos o cualitativos?
|
||||
- ¿Los datos son estruturados, no estructurados o semi-estructurados?
|
||||
|
||||
## [Examen posterior a la lección](https://red-water-0103e7a0f.azurestaticapps.net/quiz/5)
|
||||
|
||||
|
||||
|
||||
## Revisión y auto-estudio
|
||||
|
||||
- Esta unidad de Microsoft Learn, titulada [clasifica tus datos](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) tiene un desglose detallado de datos estructurados, semi-estructurados y no estructurados.
|
||||
|
||||
## Assignación
|
||||
|
||||
[Clasificación de los conjuntos de datos](../assignment.md)
|
@ -0,0 +1,63 @@
|
||||
# डेटा का अवलोकन
|
||||
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/03-DefiningData.png)|
|
||||
|:---:|
|
||||
|डेटा का अवलोकन - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
डेटा मतलब तथ्य, ज्ञान और अनुभव है जिनका इस्तेमाल करके नए खोज और सूचित निर्णयोंका समर्थन किया जाता है।
|
||||
|
||||
डेटा पॉइंट यह डेटासेट का सबसे छोटा प्रमाण है। डेटासेट यह एक डेटा पॉइंट्स का बड़ा संग्रह होता है। डेटासेट बहुत सारे अलगअलग प्रकार और संरचनाका होता है, और बहुत बार किसी स्त्रोत पे आधारित होता है। उदाहरण के लिए, किसी कम्पनी की कमाई स्प्रेडशीट मैं जतन की हो सकती है मगर प्रति घंटे के दिल की धकड़न की गति [JSON](https://stackoverflow.com/questions/383692/what-is-json-and-what-is-it-used-for/383699#383699) रूप मैं हो सकती है। डेटा वैज्ञानिकों केलिए अलग अलग प्रकार के डेटा और डेटासेट के साथ काम करना आम बात होती है।
|
||||
|
||||
यह पाठ डेटा को उसके स्त्रोत के हिसाब से पहचानने और वर्गीकृत करने पर केंद्रित है।
|
||||
|
||||
## [पाठ के पूर्व की परीक्षा](https://red-water-0103e7a0f.azurestaticapps.net/quiz/4)
|
||||
|
||||
## डेटा का वर्णन कैसे किया जाता है
|
||||
**अपरीपक्व डेटा** ऐसे प्रकार का डेटा होता जो उसके स्त्रोत से आते वक्त जिस अवस्था में था वैसे ही है और उसका विश्लेषण या वर्गीकरण नहीं किया गया है। ऐसे डेटासेट से जरूरी जानकारी निकलने के लिए उसे ऐसे प्रकार मे लाना आवश्यक है जो इंसान समझ सके और जिस तंत्रज्ञान का उपयोग डेटा के विश्लेषण में किया जाएगा उसको भी समझ आये। डेटाबेस की संरचना हमें बताती है कि डेटा किस प्रकार से वर्गीकृत किया गया है और उसका संरचित, मिश्र संरचित और असंरचित प्रकार में वर्गीकरण कैसे किया जाता है। संरचना के प्रकार डेटा के स्त्रोत के अनुसार बदल सकते हैं मगर आखिर में इन तीनों में से एक प्रकार के हो सकते हैं।
|
||||
|
||||
### परिमाणात्मक डेटा
|
||||
परिमाणात्मक डेटा मतलब डेटासेट में उपलब्ध होने वाला ऐसा संख्यात्मक डेटा जिसका उपयोग विश्लेषण, मापन और गणितीय चीजों के लिए हो सकता है। परिमाणात्मक डेटा के यह कुछ उदाहरण हैं: देश की जनसंख्या, इंसान की कद या कंपनी की तिमाही कमाई। थोडे अधिक विश्लेषण बाद डेटा की परिस्थिति के अनुसार वायुगुणवत्ता सूचकांक का बदलाव पता करना या फिर किसी सामान्य दिन पर व्यस्त ट्रैफिक की संभावना का अनुमान लगाना मुमकिन है।
|
||||
|
||||
### गुणात्मक डेटा
|
||||
गुणात्मक डेटा, जिसे वर्गीकृत डेटा भी कहा जाता है, यह एक डेटा का ऐसा प्रकार है जिसे परिमाणात्मक डेटा की तरह वस्तुनिष्ठ तरह से नापा नहीं जा सकता। यह आम तौर पर अलग अलग प्रकार का आत्मनिष्ठ डेटा होता है जैसे से किसी उत्पादन या प्रक्रिया की गुणवत्ता। कभी कभी गुणात्मक डेटा सांख्यिक स्वरुप में हो के भी गणितीय कारणों के लिए इस्तेमाल नहीं किया जा सकता, जैसे की फोन नंबर या समय। गुणात्मक डेटा के यह कुछ उदाहरण हो सकते है: विडियो की टिप्पणियाँ, किसी गाड़ी का मॉडल या आपके प्रीय दोस्त का पसंदिदा रंग। गुणात्मक डेटा का इस्तेमाल करके ग्राहकौं को कोनसा उत्पादन सबसे ज्यादा पसंद आता है या फिर नौकरी आवेदन के रिज्यूमे में सबसे ज्यादा इस्तेमाल होने वाले शब्द ढूंढ़ना।
|
||||
|
||||
### संरचित डेटा
|
||||
संरचित डेटा वह डेटा है जो पंक्तियों और स्तंभों में संगठित होता है, जिसके हर पंक्ति में समान स्तंभ होते है। हर स्तंभ एक विशिष्ट प्रकार के मूल्य को बताता है और उस मूल्य को दर्शाने वाले नाम के साथ जाना जाता है। जबकि पंक्तियौं में वास्तविक मूल्य होते है। हर मूल्य सही स्तंभ का प्रतिनिधित्व करते हैं कि नहीं ये निश्चित करने के लिए स्तंभ में अक्सर मूल्यों पर नियमों का प्रतिबन्ध लगा रहता है। उदाहरणार्थ कल्पना कीजिये ग्राहकों की जानकारी होने वाला एक स्प्रेडशीट फ़ाइल जिसके हर पंक्ति में फोन नंबर होना जरुरी है और फोन नंबर में कभी भी अक्षर नहीं रहते। तो फिर फोन नंबर के स्तंभ पर ऐसा नियम लगा होना चाहिए जिससे यह निश्चित हो कि वह कभी भी खाली नहीं रहता है और उसमें सिर्फ आँकडे ही है ।
|
||||
|
||||
सरंचित डेटा का यह फायदा है की उसे स्तंभ और पंक्तियों में संयोजित किया जा सकता है। तथापि, डेटा को एक विशिष्ट प्रकार में संयोजित करने के लिए आयोजित किये जाने के वजह से पुरे संरचना में बदल करना बहुत मुश्किल काम होता है। जैसे की ग्राहकों के जानकारी वाले स्प्रेडशीट फ़ाइलमें अगर हमें ईमेल आयडी खाली ना होने वाला नया स्तंभ जोड़ना हो, तो हमे ये पता करना होगा की पहिले से जो मूल्य इस डेटासेट में है उनका क्या होगा?
|
||||
|
||||
संरचित डेटा के यह कुछ उदाहरण हैं: स्प्रेडशीट, रिलेशनल डेटाबेस, फोन नंबर एवं बैंक स्टेटमेंट ।
|
||||
|
||||
### असंरचित डेटा
|
||||
असंरचित डेटा आम तौर पर स्तंभ और पंक्तियों में वर्गीकृत नहीं किया जा सकता और किसी नियमों से बंधित भी नहीं रहता। संरचित डेटा के तुलना में असंरचित डेटा में कम नियम होने के कारण उसमे नया डेटा जोडना बहुत आसान होता है। अगर कोई सेंसर जो बैरोमीटर के दबाव को हर दो मिनट के बाद दर्ज करता है, जिसकी वजह से वह दाब को माप के दर्ज कर सकता है, तो उसे असंरचित डेटा होने के कारण डेटाबेस में पहलेसे उपलब्ध डेटा को बदलने की आवश्यकता नहीं है। तथापि, ऐसे डेटा का विश्लेषण और जाँच करने में ज्यादा समय लग सकता है।
|
||||
जैसे की, एक वैज्ञानिक जिसे सेंसर के डेटा से पिछले महीने के तापमान का औसत ढूंढ़ना हो, मगर वो देखता है की सेंसर ने कुछ जगह आधे अधूरे डेटा को दर्ज करने के लिए आम क्रमांक के विपरीत 'e' दर्ज किया है, जिसका मतलब है की डेटा अपूर्ण है।
|
||||
असंरचित डेटा के उदाहरण: टेक्स्ट फ़ाइलें, टेक्स्ट मेसेजेस, विडियो फ़ाइलें।
|
||||
|
||||
### मिश्र संरचित डेटा
|
||||
मिश्र संरचित डेटा के ऐसे कुछ गुण है जिसकी वजह से उसे संरचित और असंरचित डेटा का मिश्रण कहा जा सकता हैं। वह हमेशा स्तंभ और पंक्तियों के अनुरूप नहीं रहता मगर ऐसे तरह संयोजित किया गया होता है कि उसे संरचित कहा जा सकता है और शायद अन्य निर्धारित नियमों का पालन भी करता है। डेटा की संरचना उसके स्त्रोत के ऊपर निर्भर होती है जैसे की स्पष्ट अनुक्रम या फिर थोडा परिवर्तनशील होता है जिसमे नया डेटा जोड़ना आसान हो। मेटाडेटा ऐसे संकेतांक होते हैं जिससे डेटा का संयोजन और संग्रह करना आसान होता है, और उन्हें डेटा के प्रकार के अनुरूप नाम भी दिए जा सकते हैं । मेटाडेटा के आम उदाहरण है: टैग्स, एलिमेंट्स, एंटिटीज और एट्रीब्यूट्स.
|
||||
उदाहरणार्थ: एक सामान्य ईमेल को उसका विषय, मायना, और प्राप्तकर्ताओं की सूची होगी और किससे कब भेजना है उसके प्रमाण से संयोजित किया जा सकता है।
|
||||
|
||||
मिश्र संरचित डेटा के उदाहरण: एचटीएमएल, सीइसवी फाइलें, जेसन(JSON)
|
||||
|
||||
## डेटा के स्त्रोत
|
||||
डेटा का स्त्रोत, अर्थात वो जगह जहाँ डेटा सबसे पहिली बार निर्माण हुआ था, और हमेशा कहाँ और कब जमा किया था इसपर आधारित होगा। उपयोगकर्ता के द्वारा निर्माण किये हुए डेटा को प्राथमिक डेटा के नाम से पहचाना जाता है जबकि गौण डेटा ऐसे स्त्रोत से आता है जिसने सामान्य कार्य के लिए डेटा जमा किया था। उदाहरण के लिए, वैज्ञानिकों का समूह वर्षावन में टिप्पणियों और सूचि जमा कर रहे है तो वो प्राथमिक डेटा होगा और यदि उन्होंने उस डेटा को बाकि के वैज्ञनिको के साथ बाँटना चाहा तो वो वह गौण डेटा कहलाया जायेगा।
|
||||
|
||||
डेटाबेस यह एक सामान्य स्त्रोत है और वह होस्टिंग और डेटाबेस मेंटेनन्स सिस्टिम पर निर्भर होता है। डेटाबेस मेंटेनन्स सिस्टिम में उपयोगकर्ता कमांड्स, जिन्हें ‘क्वेरीज़’ कहा जाता है इस्तेमाल करके डेटाबेस का डेटा ढूंढ सकते हैं। डेटा स्त्रोत फ़ाइल स्वरुप में हो, तो आवाज, चित्र, वीडियो, स्प्रेडशीट ऐसे प्रकार में हो सकता है। अंतरजाल के स्त्रोत डेटा होस्ट करने का बहुत आम तरीका है। यहाँ डेटाबेस तथा फाइलें ढूंढी जा सकती है। एप्लीकेशन प्रोग्रामिंग इंटरफेस, जिन्हे 'एपीआय'(API) के नाम से जाना जाता है, उसकी मदद से प्रोग्रामर्स डेटा को बाहर के उपयोगकर्ताओं को अंतरजाल द्वारा इस्तेमाल करने के लिए भेज सकते हैं। जबकि वेब स्क्रैपिंग नामक प्रक्रिया से अंतरजाल के वेब पेज का डेटा अलग किया जा सकता है। [डेटा के साथ काम करना](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data) यह पाठ अलग अलग डेटा का इस्तेमाल करने पर ध्यान देता है।
|
||||
## निष्कर्ष
|
||||
यह पाठ में हमने पढ़ा कि:
|
||||
- डेटा क्या होता है
|
||||
- डेटा का वर्णन कैसे किया जाता है
|
||||
- डेटा का वर्गीकरण कैसे किया जाता है
|
||||
- डेटा कहा मिलता है
|
||||
|
||||
## 🚀 चुनौती
|
||||
Kaggle यह के मुक्त डेटाबेस का बहुत अच्छा स्त्रोत है। [सर्च टूल ](https://www.kaggle.com/datasets) का इस्तेमाल करके कुछ मजेदार डेटासेट ढूंढे और उनमे से तीन-चार डेटाबेस को ऐसे वर्गीकृत करे:
|
||||
- डेटा परिमाणात्मक है या गुणात्मक है?
|
||||
- डेटा संरचित, असंरचित या फिर मिश्र संरचित है?
|
||||
|
||||
## [पाठ के पश्चात परीक्षा](https://red-water-0103e7a0f.azurestaticapps.net/quiz/5)
|
||||
|
||||
## समीक्षा और स्वअध्ययन
|
||||
- माइक्रोसॉफ्ट लर्न का [Classify your data](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) पाठ संरचित, असंरचित और मिश्र संरचित डेटा के बारे में और अच्छे से बताता है।
|
||||
|
||||
## अभ्यास
|
||||
[डेटा का वर्गीकरण](../assignment.md)
|
@ -0,0 +1,19 @@
|
||||
# Introducción a la Ciencia de Datos
|
||||
|
||||
![Datos en acción](../images/data.jpg)
|
||||
> Fotografía de <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> en <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
|
||||
|
||||
En estas lecciones descubrirás cómo se define la Ciencia de Datos y aprenderás acerca de
|
||||
las cosideraciones éticas que deben ser tomadas por un científico de datos. También aprenderás
|
||||
cómo se definen los datos y un poco de probabilidad y estadística, el núcleo académico de la Ciencia de Datos.
|
||||
|
||||
### Temas
|
||||
|
||||
1. [Definiendo la Ciencia de Datos](../01-defining-data-science/README.md)
|
||||
2. [Ética de la Ciencia de Datos](../02-ethics/README.md)
|
||||
3. [Definición de Datos](../03-defining-data/translations/README.es.md)
|
||||
4. [introducción a la probabilidad y estadística](../04-stats-and-probability/README.md)
|
||||
|
||||
### Créditos
|
||||
|
||||
Éstas lecciones fueron escritas con ❤️ por [Nitya Narasimhan](https://twitter.com/nitya) y [Dmitry Soshnikov](https://twitter.com/shwars).
|
File diff suppressed because one or more lines are too long
@ -0,0 +1,204 @@
|
||||
# विज़ुअलाइज़िंग मात्रा
|
||||
|
||||
|![ सकेटच्नोते करने वाला [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/09-Visualizing-Quantities.png)|
|
||||
|:---:|
|
||||
| विज़ुअलाइज़िंग मात्रा - _सकेटच्नोते करने वाला [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
इस पाठ में आप यह पता लगाएंगे कि मात्रा की अवधारणा के चारों ओर दिलचस्प विज़ुअलाइज़ेशन कैसे बनाएं, यह जानने के लिए कई उपलब्ध पायथन पुस्तकालयों में से एक का उपयोग कैसे करें। मिनेसोटा के पक्षियों के बारे में साफ किए गए डेटासेट का उपयोग करके, आप स्थानीय वन्यजीवों के बारे में कई रोचक तथ्य जान सकते हैं।
|
||||
## [प्री-रीडिंग क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/16)
|
||||
|
||||
## माटप्लोटलिब के साथ पंखों का निरीक्षण करें
|
||||
|
||||
सरल और परिष्कृत दोनों प्रकार के प्लॉट और विभिन्न प्रकार के चार्ट बनाने के लिए एक उत्कृष्ट पुस्तकालय है [माटप्लोटलिब](https://matplotlib.org/stable/index.html)। सामान्य शब्दों में, इन पुस्तकालयों का उपयोग करके डेटा को प्लॉट करने की प्रक्रिया में आपके डेटाफ़्रेम के उन हिस्सों की पहचान करना शामिल है जिन्हें आप लक्षित करना चाहते हैं, उस डेटा पर कोई भी आवश्यक परिवर्तन करना, इसके x और y अक्ष मान निर्दिष्ट करना, यह तय करना कि किस प्रकार का प्लॉट दिखाना है, और फिर साजिश दिखा रहा है। माटप्लोटलिब विज़ुअलाइज़ेशन की एक विशाल विविधता प्रदान करता है, लेकिन इस पाठ के लिए, आइए उन पर ध्यान केंद्रित करें जो मात्रा को देखने के लिए सबसे उपयुक्त हैं: लाइन चार्ट, स्कैटरप्लॉट और बार प्लॉट।
|
||||
|
||||
> ✅ अपने डेटा की संरचना और जो कहानी आप बताना चाहते हैं, उसके अनुरूप सर्वोत्तम चार्ट का उपयोग करें।
|
||||
> - समय के साथ रुझानों का विश्लेषण करने के लिए: लाइन
|
||||
> - मानों की तुलना करने के लिए: बार, कॉलम, पाई, स्कैटरप्लॉट
|
||||
> - यह दिखाने के लिए कि भाग किस प्रकार संपूर्ण से संबंधित हैं: पाई
|
||||
> - डेटा का वितरण दिखाने के लिए: स्कैटरप्लॉट, बार
|
||||
> - रुझान दिखाने के लिए: लाइन, कॉलम
|
||||
> - मानों के बीच संबंध दिखाने के लिए: लाइन, स्कैटरप्लॉट, बबल
|
||||
|
||||
यदि आपके पास एक डेटासेट है और यह पता लगाने की आवश्यकता है कि किसी दिए गए आइटम में से कितना शामिल है, तो आपके पास सबसे पहले कार्यों में से एक इसके मूल्यों का निरीक्षण करना होगा।
|
||||
|
||||
✅ माटप्लोटलिब के लिए बहुत अच्छी 'चीट शीट' उपलब्ध हैं [here](https://github.com/matplotlib/cheatsheets/blob/master/cheatsheets-1.png) and [here](https://github.com/matplotlib/cheatsheets/blob/master/cheatsheets-2.png).
|
||||
|
||||
## बर्ड विंगस्पैन मूल्यों के बारे में एक लाइन प्लॉट बनाएं
|
||||
|
||||
इस पाठ फ़ोल्डर के मूल में `नोटबुक.आईपीएनबी` फ़ाइल खोलें और एक सेल जोड़ें।
|
||||
|
||||
> नोट: डेटा इस रेपो की जड़ में `/आंकड़े` फ़ोल्डर में संग्रहीत है।
|
||||
|
||||
```python
|
||||
import pandas as pd
|
||||
import matplotlib.pyplot as plt
|
||||
birds = pd.read_csv('../../data/birds.csv')
|
||||
birds.head()
|
||||
```
|
||||
यह डेटा टेक्स्ट और संख्याओं का मिश्रण है:
|
||||
|
||||
|
||||
| | नाम | वैज्ञानिक नाम | श्रेणी | आदेश | परिवार | जाति | संरक्षण की स्थिति | न्यूनतम लंबाई | अधिकतम लंबाई | मिनबॉडीमास | मैक्सबॉडीमास | मिनविंगस्पैन | मैक्सविंगस्पैन |
|
||||
| ---: | :--------------------------- | :--------------------- | :-------------------- | :----------- | :------- | :---------- | :----------------- | --------: | --------: | ----------: | ----------: | ----------: | ----------: |
|
||||
| 0 | ब्लैक-बेल्ड सीटी-बतख | डेंड्रोसाइग्ना ऑटमलिस | बतख / गीज़ / जलपक्षी | अंसेरी फॉर्म्स | अनाटिडे | डेंड्रोसाइग्ना | एल सी | 47 | 56 | 652 | 1020 | 76 | 94 |
|
||||
| 1 | फुल्वस सीटी-बतख | डेंड्रोसाइग्ना बाइकलर | बतख / गीज़ / जलपक्षी | अंसेरी फॉर्म्स | अनाटिडे | डेंड्रोसाइग्ना | एल सी | 45 | 53 | 712 | 1050 | 85 | 93 |
|
||||
| 2 | हिम हंस | Anser caerulescens | बतख / गीज़ / जलपक्षी | अंसेरी फॉर्म्स | अनाटिडे | Anser | एल सी | 64 | 79 | 2050 | 4050 | 135 | 165 |
|
||||
| 3 | रॉस हंस | Anser rossii | बतख / गीज़ / जलपक्षी | अंसेरी फॉर्म्स | अनाटिडे | Anser | एल सी | 57.3 | 64 | 1066 | 1567 | 113 | 116 |
|
||||
| 4 | ग्रेटर व्हाइट-फ्रंटेड गूज | Anser albifrons | बतख / गीज़ / जलपक्षी | अंसेरी फॉर्म्स | अनाटिडे | Anser | एल सी | 64 | 81 | 1930 | 3310 | 130 | 165 |
|
||||
|
||||
आइए बुनियादी लाइन प्लॉट का उपयोग करके कुछ संख्यात्मक डेटा को प्लॉट करके शुरू करें। मान लीजिए आप इन दिलचस्प पक्षियों के लिए अधिकतम पंखों का दृश्य चाहते हैं।
|
||||
|
||||
```python
|
||||
wingspan = birds['MaxWingspan']
|
||||
wingspan.plot()
|
||||
```
|
||||
![मैक्स विंगस्पैन](images/max-wingspan.png)
|
||||
|
||||
आप तुरंत क्या नोटिस करते हैं? ऐसा लगता है कि कम से कम एक बाहरी है - वह काफी पंख है! एक २३०० सेंटीमीटर पंखों का फैलाव २३ मीटर के बराबर होता है - क्या मिनेसोटा में पटरोडैक्टाइल घूम रहे हैं? आइए जांच करते हैं।
|
||||
|
||||
जबकि आप उन आउटलेर्स को खोजने के लिए एक्सेल में एक त्वरित सॉर्ट कर सकते हैं, जो शायद टाइपो हैं, प्लॉट के भीतर से काम करके विज़ुअलाइज़ेशन प्रक्रिया जारी रखें।
|
||||
|
||||
प्रश्न में किस प्रकार के पक्षी हैं, यह दिखाने के लिए x-अक्ष में लेबल जोड़ें:
|
||||
|
||||
```
|
||||
plt.title('Max Wingspan in Centimeters')
|
||||
plt.ylabel('Wingspan (CM)')
|
||||
plt.xlabel('Birds')
|
||||
plt.xticks(rotation=45)
|
||||
x = birds['Name']
|
||||
y = birds['MaxWingspan']
|
||||
|
||||
plt.plot(x, y)
|
||||
|
||||
plt.show()
|
||||
```
|
||||
![लेबल के साथ विंगस्पैन](images/max-wingspan-labels.png)
|
||||
|
||||
यहां तक कि लेबल के रोटेशन को 45 डिग्री पर सेट करने के बाद भी, पढ़ने के लिए बहुत कुछ है। आइए एक अलग रणनीति का प्रयास करें: केवल उन आउटलेर्स को लेबल करें और चार्ट के भीतर लेबल सेट करें। लेबलिंग के लिए अधिक जगह बनाने के लिए आप स्कैटर चार्ट का उपयोग कर सकते हैं:
|
||||
|
||||
```python
|
||||
plt.title('Max Wingspan in Centimeters')
|
||||
plt.ylabel('Wingspan (CM)')
|
||||
plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False)
|
||||
|
||||
for i in range(len(birds)):
|
||||
x = birds['Name'][i]
|
||||
y = birds['MaxWingspan'][i]
|
||||
plt.plot(x, y, 'bo')
|
||||
if birds['MaxWingspan'][i] > 500:
|
||||
plt.text(x, y * (1 - 0.05), birds['Name'][i], fontsize=12)
|
||||
|
||||
plt.show()
|
||||
```
|
||||
यहाँ क्या चल रहा है? आपने निचले लेबल को छिपाने के लिए `tick_params` का उपयोग किया और फिर अपने पक्षियों के डेटासेट पर एक लूप बनाया। 'बो' का उपयोग करके छोटे गोल नीले डॉट्स वाले चार्ट को प्लॉट करते हुए, आपने 500 से अधिक पंखों वाले किसी भी पक्षी की जाँच की और यदि ऐसा है तो डॉट के बगल में उनका लेबल प्रदर्शित किया। आप y अक्ष (`वाई * (1 - 0.05)`) पर लेबल को थोड़ा सा ऑफसेट करते हैं और एक लेबल के रूप में पक्षी के नाम का उपयोग करते हैं।
|
||||
|
||||
आपने क्या खोजा?
|
||||
|
||||
![बाहरी कारकों के कारण](images/labeled-wingspan.png)
|
||||
## अपना डेटा फ़िल्टर करें
|
||||
|
||||
बाल्ड ईगल और प्रेयरी फाल्कन दोनों, जबकि शायद बहुत बड़े पक्षी, गलत लेबल वाले प्रतीत होते हैं, उनके अधिकतम पंखों में अतिरिक्त `0` जोड़ा जाता है। यह संभावना नहीं है कि आप 25 मीटर पंखों वाले बाल्ड ईगल से मिलेंगे, लेकिन यदि ऐसा है, तो कृपया हमें बताएं! आइए उन दो आउटलेर्स के बिना एक नया डेटाफ़्रेम बनाएं:
|
||||
|
||||
```python
|
||||
plt.title('Max Wingspan in Centimeters')
|
||||
plt.ylabel('Wingspan (CM)')
|
||||
plt.xlabel('Birds')
|
||||
plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False)
|
||||
for i in range(len(birds)):
|
||||
x = birds['Name'][i]
|
||||
y = birds['MaxWingspan'][i]
|
||||
if birds['Name'][i] not in ['Bald eagle', 'Prairie falcon']:
|
||||
plt.plot(x, y, 'bo')
|
||||
plt.show()
|
||||
```
|
||||
|
||||
आउटलेर्स को फ़िल्टर करके, आपका डेटा अब अधिक सुसंगत और समझने योग्य है।
|
||||
|
||||
![पंखों का बिखराव](images/scatterplot-wingspan.png)
|
||||
|
||||
अब जबकि हमारे पास कम से कम पंखों के मामले में एक क्लीनर डेटासेट है, तो आइए इन पक्षियों के बारे में और जानें।
|
||||
|
||||
जबकि लाइन और स्कैटर प्लॉट डेटा मानों और उनके वितरण के बारे में जानकारी प्रदर्शित कर सकते हैं, हम इस डेटासेट में निहित मूल्यों के बारे में सोचना चाहते हैं। आप मात्रा के बारे में निम्नलिखित प्रश्नों के उत्तर देने के लिए विज़ुअलाइज़ेशन बना सकते हैं:
|
||||
|
||||
> पक्षियों की कितनी श्रेणियां हैं और उनकी संख्या क्या है?
|
||||
> कितने पक्षी विलुप्त, संकटग्रस्त, दुर्लभ या सामान्य हैं?
|
||||
> लिनिअस की शब्दावली में विभिन्न जीनस और आदेश कितने हैं?
|
||||
## बार चार्ट का अन्वेषण करें
|
||||
|
||||
बार चार्ट व्यावहारिक होते हैं जब आपको डेटा के समूह दिखाने की आवश्यकता होती है। आइए इस डेटासेट में मौजूद पक्षियों की श्रेणियों का पता लगाएं, यह देखने के लिए कि संख्या के हिसाब से कौन सा सबसे आम है।
|
||||
|
||||
नोटबुक फ़ाइल में, एक मूल बार चार्ट बनाएं
|
||||
|
||||
✅ ध्यान दें, आप या तो पिछले अनुभाग में पहचाने गए दो बाहरी पक्षियों को फ़िल्टर कर सकते हैं, उनके पंखों में टाइपो को संपादित कर सकते हैं, या उन्हें इन अभ्यासों के लिए छोड़ सकते हैं जो पंखों के मूल्यों पर निर्भर नहीं करते हैं।
|
||||
|
||||
यदि आप एक बार चार्ट बनाना चाहते हैं, तो आप उस डेटा का चयन कर सकते हैं जिस पर आप ध्यान केंद्रित करना चाहते हैं। कच्चे डेटा से बार चार्ट बनाए जा सकते हैं:
|
||||
|
||||
```python
|
||||
birds.plot(x='Category',
|
||||
kind='bar',
|
||||
stacked=True,
|
||||
title='Birds of Minnesota')
|
||||
|
||||
```
|
||||
![बार चार्ट के रूप में पूर्ण डेटा](images/full-data-bar.png)
|
||||
|
||||
हालांकि, यह बार चार्ट अपठनीय है क्योंकि इसमें बहुत अधिक गैर-समूहीकृत डेटा है। आपको केवल उस डेटा का चयन करने की आवश्यकता है जिसे आप प्लॉट करना चाहते हैं, तो आइए उनकी श्रेणी के आधार पर पक्षियों की लंबाई देखें।
|
||||
|
||||
केवल पक्षी की श्रेणी को शामिल करने के लिए अपना डेटा फ़िल्टर करें।
|
||||
|
||||
✅ ध्यान दें कि आप डेटा को प्रबंधित करने के लिए पंडों का उपयोग करते हैं, और फिर माटप्लोटलिब को चार्टिंग करने दें।
|
||||
|
||||
चूंकि कई श्रेणियां हैं, आप इस चार्ट को लंबवत रूप से प्रदर्शित कर सकते हैं और सभी डेटा के हिसाब से इसकी ऊंचाई को बदल सकते हैं:
|
||||
|
||||
```python
|
||||
category_count = birds.value_counts(birds['Category'].values, sort=True)
|
||||
plt.rcParams['figure.figsize'] = [6, 12]
|
||||
category_count.plot.barh()
|
||||
```
|
||||
![श्रेणी और लंबाई](images/category-counts.png)
|
||||
|
||||
यह बार चार्ट प्रत्येक श्रेणी में पक्षियों की संख्या का एक अच्छा दृश्य दिखाता है। पलक झपकते ही, आप देखते हैं कि इस क्षेत्र में पक्षियों की सबसे बड़ी संख्या बतख/गीज़/जलपक्षी श्रेणी में है। मिनेसोटा '10,000 झीलों की भूमि' है इसलिए यह आश्चर्य की बात नहीं है!
|
||||
|
||||
✅ इस डेटासेट पर कुछ और मायने रखने की कोशिश करें। क्या आपको कुछ आश्चर्य होता है?
|
||||
|
||||
## डेटा की तुलना करना
|
||||
|
||||
आप नए अक्ष बनाकर समूहीकृत डेटा की विभिन्न तुलनाओं को आज़मा सकते हैं। किसी पक्षी की श्रेणी के आधार पर उसकी अधिकतम लंबाई की तुलना करने का प्रयास करें:
|
||||
|
||||
```python
|
||||
maxlength = birds['MaxLength']
|
||||
plt.barh(y=birds['Category'], width=maxlength)
|
||||
plt.rcParams['figure.figsize'] = [6, 12]
|
||||
plt.show()
|
||||
```
|
||||
![डेटा की तुलना करना](images/category-length.png)
|
||||
|
||||
यहां कुछ भी आश्चर्य की बात नहीं है: हमिंगबर्ड में पेलिकन या गीज़ की तुलना में कम से कम अधिकतम लंबाई होती है। यह अच्छा है जब डेटा तार्किक समझ में आता है!
|
||||
|
||||
आप डेटा को सुपरइम्पोज़ करके बार चार्ट के अधिक दिलचस्प विज़ुअलाइज़ेशन बना सकते हैं। आइए किसी दी गई पक्षी श्रेणी पर न्यूनतम और अधिकतम लंबाई को सुपरइम्पोज़ करें:
|
||||
|
||||
```python
|
||||
minLength = birds['MinLength']
|
||||
maxLength = birds['MaxLength']
|
||||
category = birds['Category']
|
||||
|
||||
plt.barh(category, maxLength)
|
||||
plt.barh(category, minLength)
|
||||
|
||||
plt.show()
|
||||
```
|
||||
इस प्लॉट में आप न्यूनतम लंबाई और अधिकतम लंबाई की प्रति पक्षी श्रेणी की सीमा देख सकते हैं। आप सुरक्षित रूप से कह सकते हैं कि, इस डेटा को देखते हुए, पक्षी जितना बड़ा होगा, उसकी लंबाई सीमा उतनी ही बड़ी होगी। चित्ताकर्षक!
|
||||
|
||||
![superimposed values](images/superimposed.png)
|
||||
|
||||
## 🚀 चुनौती
|
||||
|
||||
यह पक्षी डेटासेट एक विशेष पारिस्थितिकी तंत्र के भीतर विभिन्न प्रकार के पक्षियों के बारे में जानकारी का खजाना प्रदान करता है। इंटरनेट के चारों ओर खोजें और देखें कि क्या आप अन्य पक्षी-उन्मुख डेटासेट पा सकते हैं। उन तथ्यों की खोज करने के लिए इन पक्षियों के चारों ओर चार्ट और ग्राफ़ बनाने का अभ्यास करें जिन्हें आपने महसूस नहीं किया है।
|
||||
## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/17)
|
||||
|
||||
## समीक्षा और स्व अध्ययन
|
||||
|
||||
इस पहले पाठ ने आपको मात्राओं की कल्पना करने के लिए Matplotlib का उपयोग करने के तरीके के बारे में कुछ जानकारी दी है। विज़ुअलाइज़ेशन के लिए डेटासेट के साथ काम करने के अन्य तरीकों के बारे में कुछ शोध करें। [प्लॉटली](https://github.com/plotly/plotly.py) प्वह है जिसे हम इन पाठों में शामिल नहीं करेंगे, इसलिए देखें कि यह क्या पेशकश कर सकता है।
|
||||
## कार्यभार
|
||||
|
||||
[लाइन्स, स्कैटर, और बार्स](assignment.md)
|
@ -0,0 +1,212 @@
|
||||
# Visualizando Quantidades
|
||||
|
||||
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/09-Visualizing-Quantities.png)|
|
||||
|:---:|
|
||||
| Visualizando quantidades - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
Nesta aula você irá explorar como usar uma das muitas bibliotecas disponíveis no Python para aprender a criar visualizações interessantes relacionadas ao conceito de quantidade. Usando um dataset já limpo sobre aves de Minnesota, você pode aprender muitos fatos interessantes sobre a fauna selvagem local.
|
||||
## [Quiz pré-aula](https://red-water-0103e7a0f.azurestaticapps.net/quiz/16)
|
||||
|
||||
## Observando envergadura da asa com Matplotlib
|
||||
|
||||
Uma biblioteca excelente para criar tanto gráficos simples como sofisticados e de diversos tipos é o [Matplotlib](https://matplotlib.org/stable/index.html). Em geral, o processo de plotar dados com esta biblioteca inclui identificar as partes do seu dataframe que você quer focar, utilizando quaisquer transformações necessárias nestes dados, atribuindo parâmetros dos eixos x e y, decidindo qual tipo de gráfico usar, e então mostrando o gráfico. O Matplotlib oferece uma grande variedade de visualizações, mas, nesta aula, iremos focar nos mais apropriados para visualizar quantidade: gráfico de linha, gráfico de dispersão e gráfico de barra.
|
||||
|
||||
> ✅ Use o melhor gráfico para se adaptar a estrutura dos dados e a história que você quer contar.
|
||||
> - Para analisar tendências temporais: linha
|
||||
> - Para comparar valores: barra, coluna, pizza, dispersão
|
||||
> - Para mostrar como as partes se relacionam com o todo: pizza
|
||||
> - Para mostrar a distribuição dos dados: dispersão, barra
|
||||
> - Para mostrar tendências: linha, coluna
|
||||
> - Para mostrar relações entre valores: linha, dispersão, bolha
|
||||
|
||||
Se você tem um dataset e precisa descobrir quanto de um dado elemento está presente, uma das primeiras coisas que você precisará fazer é examinar seus valores.
|
||||
|
||||
✅ Existem dicas ('cheat sheets') ótimas disponíveis para o Matplotlib [aqui](https://github.com/matplotlib/cheatsheets/blob/master/cheatsheets-1.png) e [aqui](https://github.com/matplotlib/cheatsheets/blob/master/cheatsheets-2.png).
|
||||
|
||||
## Construindo um gráfico de linhas sobre os valores de envergadura de aves
|
||||
|
||||
Abra o arquivo `notebook.ipynb` na raiz da pasta desta aula e adicione uma célula.
|
||||
|
||||
> Nota: os dados estão armazenados na raiz deste repositório na pasta `/data`.
|
||||
|
||||
```python
|
||||
import pandas as pd
|
||||
import matplotlib.pyplot as plt
|
||||
birds = pd.read_csv('../../data/birds.csv')
|
||||
birds.head()
|
||||
```
|
||||
|
||||
Estes dados são uma mistura de texto e números:
|
||||
|
||||
|
||||
| | Name | ScientificName | Category | Order | Family | Genus | ConservationStatus | MinLength | MaxLength | MinBodyMass | MaxBodyMass | MinWingspan | MaxWingspan |
|
||||
| ---: | :--------------------------- | :--------------------- | :-------------------- | :----------- | :------- | :---------- | :----------------- | --------: | --------: | ----------: | ----------: | ----------: | ----------: |
|
||||
| 0 | Black-bellied whistling-duck | Dendrocygna autumnalis | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Dendrocygna | LC | 47 | 56 | 652 | 1020 | 76 | 94 |
|
||||
| 1 | Fulvous whistling-duck | Dendrocygna bicolor | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Dendrocygna | LC | 45 | 53 | 712 | 1050 | 85 | 93 |
|
||||
| 2 | Snow goose | Anser caerulescens | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser | LC | 64 | 79 | 2050 | 4050 | 135 | 165 |
|
||||
| 3 | Ross's goose | Anser rossii | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser | LC | 57.3 | 64 | 1066 | 1567 | 113 | 116 |
|
||||
| 4 | Greater white-fronted goose | Anser albifrons | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser | LC | 64 | 81 | 1930 | 3310 | 130 | 165 |
|
||||
|
||||
Vamos começar plotando alguns dados numéricos com um simples gráfico de linhas. Suponha que você quer uma visualização da envergadura máxima (MaxWingspan) dessas aves interessantes.
|
||||
|
||||
```python
|
||||
wingspan = birds['MaxWingspan']
|
||||
wingspan.plot()
|
||||
```
|
||||
![Envergadura máxima](../images/max-wingspan.png)
|
||||
|
||||
O que é possível perceber imediatamente? Aparentemente existe pelo menos um outlier - e que envergadura! Uma envergadura de 2300 centímetros equivale a 23 metros - existem pterodáctilos voando em Minnesota? Vamos investigar.
|
||||
|
||||
Você poderia fazer uma ordenação rápida no Excel para encontrar estes outliers, que provavelmente são erros de digitação. No entanto, vamos continuar o processo de visualização trabalhando no gráfico.
|
||||
|
||||
Adicione identificadores (labels) no eixo x para mostrar os nomes das aves que estão sendo analisadas:
|
||||
|
||||
```
|
||||
plt.title('Max Wingspan in Centimeters')
|
||||
plt.ylabel('Wingspan (CM)')
|
||||
plt.xlabel('Birds')
|
||||
plt.xticks(rotation=45)
|
||||
x = birds['Name']
|
||||
y = birds['MaxWingspan']
|
||||
|
||||
plt.plot(x, y)
|
||||
|
||||
plt.show()
|
||||
```
|
||||
![Envergadura com labels (identificadores)](../images/max-wingspan-labels.png)
|
||||
|
||||
Mesmo com a rotação das labels em 45 graus, existem muitas para ler. Vamos tentar outra estratégia: identificar os outliers e somente colocar as labels deles dentro do gráfico. Você pode usar um gráfico de dispersão para abrir mais espaço para labels (identificadores):
|
||||
|
||||
```python
|
||||
plt.title('Max Wingspan in Centimeters')
|
||||
plt.ylabel('Wingspan (CM)')
|
||||
plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False)
|
||||
|
||||
for i in range(len(birds)):
|
||||
x = birds['Name'][i]
|
||||
y = birds['MaxWingspan'][i]
|
||||
plt.plot(x, y, 'bo')
|
||||
if birds['MaxWingspan'][i] > 500:
|
||||
plt.text(x, y * (1 - 0.05), birds['Name'][i], fontsize=12)
|
||||
|
||||
plt.show()
|
||||
```
|
||||
|
||||
O que aconteceu aqui? Você usou `tick_params` para esconder as labels do eixo x e então criou um loop sobre o dataset das aves. Depois, plotou o gráfico com pequenos círculos azuis usando `bo` e procurou por aves com envergadura maior que 500 e, em caso positivo, exibiu a label ao lado do círculo. Você ajustou as labels no eixo y (`y * (1 - 0.05)`) e usou o nome da ave como label.
|
||||
|
||||
O que você descobriu?
|
||||
|
||||
![outliers](../images/labeled-wingspan.png)
|
||||
|
||||
## Filtrando seus dados
|
||||
|
||||
Apesar de grandes, tanto a Bald Eagle (águia-de-cabeça-branca) como o Prairie Falcon (Falcão-da-pradaria) parecem ter valores errados, com um `0` a mais na envergadura máxima (MaxWingspan). É improvável que você encontre uma águia-de-cabeça-branca com envergadura de 25 metros, mas, se encontrar, por favor nos diga! Agora, vamos criar um dataframe sem estes dois outliers:
|
||||
|
||||
```python
|
||||
plt.title('Max Wingspan in Centimeters')
|
||||
plt.ylabel('Wingspan (CM)')
|
||||
plt.xlabel('Birds')
|
||||
plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False)
|
||||
for i in range(len(birds)):
|
||||
x = birds['Name'][i]
|
||||
y = birds['MaxWingspan'][i]
|
||||
if birds['Name'][i] not in ['Bald eagle', 'Prairie falcon']:
|
||||
plt.plot(x, y, 'bo')
|
||||
plt.show()
|
||||
```
|
||||
|
||||
Agora que estes outliers foram removidos, seus dados estão mais coesos e compreensíveis.
|
||||
|
||||
![Dispersão das envergaduras](../images/scatterplot-wingspan.png)
|
||||
|
||||
Agora que temos um dataset mais limpo ao menos em termos de envergadura, vamos aprender mais sobre estas aves.
|
||||
|
||||
Enquanto gráficos de linha e dispersão conseguem mostrar informações sobre valores e suas distribuições, nós queremos pensar sobre os valores inerentes a este dataset. Você poderia criar visualizações para responder as seguintes perguntas sobre quantidade:
|
||||
|
||||
> Quantas categorias de aves existem, e quais são seus valores?
|
||||
> Quantas aves estão extintas, em risco de extinção, raras ou comuns?
|
||||
> Quantos gêneros e ordens da taxonomia de Lineu (nome científico) existem no dataset?
|
||||
|
||||
## Explorando gráfico de barras
|
||||
|
||||
Gráfico de barras são úteis quando precisamos mostrar agrupamentos de dados. Vamos explorar as categorias de aves que existem neste dataset para observar qual é o mais comum em quantidade.
|
||||
|
||||
No arquivo notebook, crie um gráfico de barras simples.
|
||||
|
||||
✅ Note que você pode remover as duas aves outliers que foram identificados anteriormente, editar o erro de digitação na envergadura ou deixá-los nestes exercícios que não dependem dos valores da envergadura.
|
||||
|
||||
Ao criar um gráfico de barras, você pode selecionar os dados que quer focar. Gráficos de barras podem ser criados a partir de dados brutos:
|
||||
|
||||
```python
|
||||
birds.plot(x='Category',
|
||||
kind='bar',
|
||||
stacked=True,
|
||||
title='Birds of Minnesota')
|
||||
|
||||
```
|
||||
|
||||
![todos os dados em um gráfico de barras](../images/full-data-bar.png)
|
||||
|
||||
No entanto, este gráfico de barras é ilegível, porque existem muitos dados não agrupados. Você precisa selecionar somente os dados que quer plotar, então vamos olhar o comprimento das aves usando sua categoria como referência.
|
||||
|
||||
Filtre os dados para incluir somente a categoria da ave.
|
||||
|
||||
✅ Note que você usa o Pandas para lidar com os dados, e deixa a criação de gráficos para o Matplotlib.
|
||||
|
||||
Já que existem muitas categorias, você pode mostrar este gráfico verticalmente e ajustar sua altura para acomodar todos os dados:
|
||||
|
||||
```python
|
||||
category_count = birds.value_counts(birds['Category'].values, sort=True)
|
||||
plt.rcParams['figure.figsize'] = [6, 12]
|
||||
category_count.plot.barh()
|
||||
```
|
||||
![categoria e comprimento](../images/category-counts.png)
|
||||
|
||||
Este gráfico de barras mostra uma boa visão do número de aves em cada categoria. Em um piscar de olhos, você vê que a maior quantidade de aves nesta região pertence à categoria de Ducks/Geese/Waterfowl (patos/gansos/cisnes). Minnesota é 'a terra de 10.000 lagos', então isto não é surpreendente!
|
||||
|
||||
✅ Tente contabilizar outras quantidades deste dataset. Algo te surpreende?
|
||||
|
||||
## Comparando dados
|
||||
|
||||
Você pode tentar diferentes comparações de dados agrupados criando novos eixos. Tente comparar o comprimento máximo de uma ave, com base na sua categoria:
|
||||
|
||||
```python
|
||||
maxlength = birds['MaxLength']
|
||||
plt.barh(y=birds['Category'], width=maxlength)
|
||||
plt.rcParams['figure.figsize'] = [6, 12]
|
||||
plt.show()
|
||||
```
|
||||
![comparando dados](../images/category-length.png)
|
||||
|
||||
Nada é surpreendente aqui: hummingbirds (beija-flores) têm o menor comprimento enquanto pelicans (pelicanos) e geese (gansos) têm os maiores valores. É muito bom quando os dados fazem sentido!
|
||||
|
||||
Você pode criar visualizações mais interessantes de gráficos de barras ao sobrepor dados. Vamos sobrepor o comprimento mínimo e máximo de uma dada categoria de ave:
|
||||
|
||||
```python
|
||||
minLength = birds['MinLength']
|
||||
maxLength = birds['MaxLength']
|
||||
category = birds['Category']
|
||||
|
||||
plt.barh(category, maxLength)
|
||||
plt.barh(category, minLength)
|
||||
|
||||
plt.show()
|
||||
```
|
||||
|
||||
Neste gráfico, você pode ver o intervalo de comprimento mínimo e máximo por categoria de ave. Você pode seguramente dizer, a partir destes dados, que quanto maior a ave, maior o seu intervalo de comprimento. Fascinante!
|
||||
|
||||
![valores sobrepostos](../images/superimposed.png)
|
||||
|
||||
## 🚀 Desafio
|
||||
|
||||
Este dataset de aves oferece uma riqueza de informações sobre os diferentes tipos de aves de um ecossistema particular. Tente achar na internet outros datasets com dados sobre aves. Pratique construir gráficos com eles e tente descobrir fatos que você ainda não havia percebido.
|
||||
|
||||
## [Quiz pós-aula](https://red-water-0103e7a0f.azurestaticapps.net/quiz/17)
|
||||
|
||||
## Revisão e autoestudo
|
||||
|
||||
Esta primeira aula lhe deu informações sobre como usar o Matplotlib para visualizar quantidades. Procure por outras formas de trabalhar com dataset para visualização. [Plotly](https://github.com/plotly/plotly.py) é uma biblioteca que não será abordada nas aulas, então dê uma olhada no que ela pode oferecer.
|
||||
|
||||
## Tarefa
|
||||
|
||||
[Linhas, dispersão e barras](assignment.pt-br.md)
|
@ -0,0 +1,11 @@
|
||||
# Linhas, dispersão e barras
|
||||
|
||||
## Instruções
|
||||
|
||||
Nesta aula, você trabalhou com gráficos de linhas, dispersão e barras para mostrar fatos interessantes sobre este dataset. Nesta tarefa, explore o mesmo dataset mais a fundo para descobrir algo sobre um dado tipo de ave. Por exemplo, crie um notebook que mostre visualizações de todos os fatos interessantes que encontrar sobre os Snow Geese (gansos-das-neves). Use os três tipos de gráficos mencionados anteriormente para contar uma história em seu notebook.
|
||||
|
||||
## Rubrica
|
||||
|
||||
Exemplar | Adequado | Precisa melhorar
|
||||
--- | --- | -- |
|
||||
O notebook foi apresentado com boas anotações, contação de histórias (storytelling) sólida e gráficos cativantes | O notebook não tem um desses elementos | O notebook não tem dois desses elementos
|
@ -0,0 +1,191 @@
|
||||
# विज़ुअलाइज़िंग वितरण
|
||||
|
||||
|![ सकेटच्नोते करने वाला [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/10-Visualizing-Distributions.png)|
|
||||
|:---:|
|
||||
| विज़ुअलाइज़िंग वितरण - _सकेटच्नोते करने वाला [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
In the previous lesson, you learned some interesting facts about a dataset about the birds of Minnesota. You found some erroneous data by visualizing outliers and looked at the differences between bird categories by their maximum length.
|
||||
|
||||
## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/18)
|
||||
## पक्षियों के डेटासेट का अन्वेषण करें
|
||||
|
||||
डेटा में खुदाई करने का दूसरा तरीका इसके वितरण को देखना है, या डेटा को एक अक्ष के साथ कैसे व्यवस्थित किया जाता है। शायद, उदाहरण के लिए, आप इस डेटासेट के सामान्य वितरण के बारे में जानना चाहेंगे, मिनेसोटा के पक्षियों के लिए अधिकतम पंख या अधिकतम शरीर द्रव्यमान।
|
||||
|
||||
आइए इस डेटासेट में डेटा के वितरण के बारे में कुछ तथ्यों की खोज करें। इस पाठ फ़ोल्डर के मूल में _नोटबुक.आईपीएनबी_ फ़ाइल में, पांडा, मैटप्लोटलिब और अपना डेटा आयात करें:
|
||||
|
||||
```python
|
||||
import pandas as pd
|
||||
import matplotlib.pyplot as plt
|
||||
birds = pd.read_csv('../../data/birds.csv')
|
||||
birds.head()
|
||||
```
|
||||
|
||||
सामान्य तौर पर, आप देख सकते हैं कि स्कैटर प्लॉट का उपयोग करके डेटा कैसे वितरित किया जाता है, जैसा कि हमने पिछले पाठ में किया था:
|
||||
|
||||
```python
|
||||
birds.plot(kind='scatter',x='MaxLength',y='Order',figsize=(12,8))
|
||||
|
||||
plt.title('Max Length per Order')
|
||||
plt.ylabel('Order')
|
||||
plt.xlabel('Max Length')
|
||||
|
||||
plt.show()
|
||||
```
|
||||
यह प्रति पक्षी क्रम में शरीर की लंबाई के सामान्य वितरण का एक सिंहावलोकन देता है, लेकिन यह सही वितरण प्रदर्शित करने का सबसे अच्छा तरीका नहीं है। उस कार्य को आमतौर पर हिस्टोग्राम बनाकर नियंत्रित किया जाता है।
|
||||
## हिस्टोग्राम के साथ काम करना
|
||||
|
||||
माटप्लोटलिब हिस्टोग्राम का उपयोग करके डेटा वितरण की कल्पना करने के लिए बहुत अच्छे तरीके प्रदान करता है। इस प्रकार का चार्ट एक बार चार्ट की तरह होता है जहां वितरण को बार के ऊपर और नीचे के माध्यम से देखा जा सकता है। हिस्टोग्राम बनाने के लिए, आपको संख्यात्मक डेटा की आवश्यकता होती है। हिस्टोग्राम बनाने के लिए, आप हिस्टोग्राम के लिए 'इतिहास' के रूप में परिभाषित एक चार्ट तैयार कर सकते हैं। यह चार्ट संख्यात्मक डेटा की संपूर्ण डेटासेट की श्रेणी के लिए MaxBodyMass के वितरण को दर्शाता है। डेटा की सरणी को विभाजित करके इसे छोटे डिब्बे में दिया जाता है, यह डेटा के मूल्यों के वितरण को प्रदर्शित कर सकता है:
|
||||
|
||||
```python
|
||||
birds['MaxBodyMass'].plot(kind = 'hist', bins = 10, figsize = (12,12))
|
||||
plt.show()
|
||||
```
|
||||
![संपूर्ण डेटासेट पर वितरण](images/dist1.png)
|
||||
|
||||
जैसा कि आप देख सकते हैं, इस डेटासेट में 400+ पक्षी अपने मैक्स बॉडी मास के लिए 2000 से कम की सीमा में आते हैं। `बिन्स` पैरामीटर को अधिक संख्या में बदलकर डेटा में अधिक जानकारी प्राप्त करें, जैसे कुछ 30:
|
||||
|
||||
```python
|
||||
birds['MaxBodyMass'].plot(kind = 'hist', bins = 30, figsize = (12,12))
|
||||
plt.show()
|
||||
```
|
||||
![बड़े डिब्बे परम के साथ संपूर्ण डेटासेट पर वितरण](images/dist2.png)
|
||||
|
||||
यह चार्ट वितरण को कुछ अधिक बारीक तरीके से दिखाता है। यह सुनिश्चित करके कि आप केवल एक दी गई सीमा के भीतर डेटा का चयन करते हैं, बाईं ओर कम तिरछा एक चार्ट बनाया जा सकता है:
|
||||
|
||||
केवल उन पक्षियों को प्राप्त करने के लिए अपना डेटा फ़िल्टर करें जिनके शरीर का द्रव्यमान 60 से कम है, और 40 `डिब्बे` दिखाएं:
|
||||
|
||||
```python
|
||||
filteredBirds = birds[(birds['MaxBodyMass'] > 1) & (birds['MaxBodyMass'] < 60)]
|
||||
filteredBirds['MaxBodyMass'].plot(kind = 'hist',bins = 40,figsize = (12,12))
|
||||
plt.show()
|
||||
```
|
||||
![फ़िल्टर्ड हिस्टोग्राम](images/dist3.png)
|
||||
|
||||
✅ कुछ अन्य फ़िल्टर और डेटा बिंदु आज़माएं। डेटा का पूरा वितरण देखने के लिए, लेबल किए गए वितरण दिखाने के लिए `['मैक्सबॉडीमास']` फ़िल्टर को हटा दें।
|
||||
|
||||
हिस्टोग्राम भी कोशिश करने के लिए कुछ अच्छे रंग और लेबलिंग संवर्द्धन प्रदान करता है:
|
||||
|
||||
दो वितरणों के बीच संबंध की तुलना करने के लिए एक 2डी हिस्टोग्राम बनाएं। आइए `मैक्सबॉडीमास` बनाम `अधिकतम लंबाई` की तुलना करें। माटप्लोटलिब चमकीले रंगों का उपयोग करके अभिसरण दिखाने के लिए एक अंतर्निहित तरीका प्रदान करता है:
|
||||
|
||||
```python
|
||||
x = filteredBirds['MaxBodyMass']
|
||||
y = filteredBirds['MaxLength']
|
||||
|
||||
fig, ax = plt.subplots(tight_layout=True)
|
||||
hist = ax.hist2d(x, y)
|
||||
```
|
||||
एक विशेष रूप से मजबूत अभिसरण बिंदु के साथ, एक अपेक्षित अक्ष के साथ इन दो तत्वों के बीच एक अपेक्षित सहसंबंध प्रतीत होता है:
|
||||
|
||||
![2डी प्लॉट](images/2D.png)
|
||||
|
||||
संख्यात्मक डेटा के लिए हिस्टोग्राम डिफ़ॉल्ट रूप से अच्छी तरह से काम करते हैं। क्या होगा यदि आपको टेक्स्ट डेटा के अनुसार वितरण देखने की आवश्यकता है?
|
||||
## टेक्स्ट डेटा का उपयोग करके वितरण के लिए डेटासेट का अन्वेषण करें
|
||||
|
||||
इस डेटासेट में पक्षी श्रेणी और उसके जीनस, प्रजातियों और परिवार के साथ-साथ इसके संरक्षण की स्थिति के बारे में अच्छी जानकारी भी शामिल है। आइए इस संरक्षण जानकारी में खुदाई करें। पक्षियों का वितरण उनकी संरक्षण स्थिति के अनुसार क्या है?
|
||||
|
||||
> ✅ डेटासेट में, संरक्षण की स्थिति का वर्णन करने के लिए कई समरूपों का उपयोग किया जाता है। ये एक्रोनिम्स [IUCN रेड लिस्ट कैटेगरी](https://www.iucnredlist.org/) से आते हैं, जो एक संगठन है जो प्रजातियों की स्थिति को सूचीबद्ध करता है।
|
||||
>
|
||||
> - सीआर: गंभीर रूप से संकटग्रस्त
|
||||
> - एन: लुप्तप्राय
|
||||
> - पूर्व: विलुप्त
|
||||
> - एलसी: कम से कम चिंता
|
||||
> - एनटी: खतरे के पास
|
||||
> - वीयू: कमजोर
|
||||
|
||||
ये टेक्स्ट-आधारित मान हैं इसलिए आपको हिस्टोग्राम बनाने के लिए एक ट्रांसफ़ॉर्म करना होगा। फ़िल्टर्ड बर्ड्स डेटाफ़्रेम का उपयोग करते हुए, इसके न्यूनतम विंगस्पैन के साथ-साथ इसकी संरक्षण स्थिति प्रदर्शित करें। क्या देखती है?
|
||||
|
||||
```python
|
||||
x1 = filteredBirds.loc[filteredBirds.ConservationStatus=='EX', 'MinWingspan']
|
||||
x2 = filteredBirds.loc[filteredBirds.ConservationStatus=='CR', 'MinWingspan']
|
||||
x3 = filteredBirds.loc[filteredBirds.ConservationStatus=='EN', 'MinWingspan']
|
||||
x4 = filteredBirds.loc[filteredBirds.ConservationStatus=='NT', 'MinWingspan']
|
||||
x5 = filteredBirds.loc[filteredBirds.ConservationStatus=='VU', 'MinWingspan']
|
||||
x6 = filteredBirds.loc[filteredBirds.ConservationStatus=='LC', 'MinWingspan']
|
||||
|
||||
kwargs = dict(alpha=0.5, bins=20)
|
||||
|
||||
plt.hist(x1, **kwargs, color='red', label='Extinct')
|
||||
plt.hist(x2, **kwargs, color='orange', label='Critically Endangered')
|
||||
plt.hist(x3, **kwargs, color='yellow', label='Endangered')
|
||||
plt.hist(x4, **kwargs, color='green', label='Near Threatened')
|
||||
plt.hist(x5, **kwargs, color='blue', label='Vulnerable')
|
||||
plt.hist(x6, **kwargs, color='gray', label='Least Concern')
|
||||
|
||||
plt.gca().set(title='Conservation Status', ylabel='Max Body Mass')
|
||||
plt.legend();
|
||||
```
|
||||
|
||||
![विंगस्पैन और संरक्षण संयोजन](images/histogram-conservation.png)
|
||||
|
||||
न्यूनतम पंखों की अवधि और संरक्षण की स्थिति के बीच कोई अच्छा संबंध प्रतीत नहीं होता है। इस पद्धति का उपयोग करके डेटासेट के अन्य तत्वों का परीक्षण करें। आप अलग-अलग फ़िल्टर भी आज़मा सकते हैं। क्या आप कोई सहसंबंध पाते हैं?
|
||||
## घनत्व भूखंड
|
||||
|
||||
आपने देखा होगा कि अब तक हमने जिन आयतचित्रों को देखा है वे 'चरणबद्ध' हैं और एक चाप में सुचारू रूप से प्रवाहित नहीं होते हैं। एक आसान घनत्व चार्ट दिखाने के लिए, आप एक घनत्व प्लॉट आज़मा सकते हैं।
|
||||
|
||||
घनत्व वाले भूखंडों के साथ काम करने के लिए, अपने आप को एक नई प्लॉटिंग लाइब्रेरी से परिचित कराएं, [सीबॉर्न](https://seaborn.pydata.org/generated/seaborn.kdeplot.html).
|
||||
|
||||
सीबॉर्न लोड हो रहा है, एक बुनियादी घनत्व प्लॉट आज़माएं:
|
||||
|
||||
```python
|
||||
import seaborn as sns
|
||||
import matplotlib.pyplot as plt
|
||||
sns.kdeplot(filteredBirds['MinWingspan'])
|
||||
plt.show()
|
||||
```
|
||||
![घनत्व प्लॉट](images/density1.png)
|
||||
|
||||
आप देख सकते हैं कि न्यूनतम विंगस्पैन डेटा के लिए प्लॉट पिछले वाले को कैसे गूँजता है; यह थोड़ा चिकना है। सीबॉर्न के दस्तावेज़ीकरण के अनुसार, "हिस्टोग्राम के सापेक्ष, केडीई एक ऐसे प्लॉट का निर्माण कर सकता है जो कम अव्यवस्थित और अधिक व्याख्या योग्य हो, विशेष रूप से कई वितरणों को चित्रित करते समय। लेकिन इसमें विकृतियों को पेश करने की क्षमता होती है यदि अंतर्निहित वितरण बाध्य है या सुचारू नहीं है। जैसे हिस्टोग्राम, प्रतिनिधित्व की गुणवत्ता भी अच्छे चौरसाई मापदंडों के चयन पर निर्भर करती है।" [स्रोत](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) दूसरे शब्दों में, आउटलेयर हमेशा की तरह आपके चार्ट को खराब व्यवहार करेंगे।
|
||||
|
||||
यदि आप अपने द्वारा बनाए गए दूसरे चार्ट में उस दांतेदार मैक्सबॉडीमास लाइन को फिर से देखना चाहते हैं, तो आप इस पद्धति का उपयोग करके इसे फिर से बनाकर इसे बहुत अच्छी तरह से सुचारू कर सकते हैं:
|
||||
|
||||
```python
|
||||
sns.kdeplot(filteredBirds['MaxBodyMass'])
|
||||
plt.show()
|
||||
```
|
||||
![चिकनी बॉडीमास लाइन](images/density2.png)
|
||||
|
||||
यदि आप एक चिकनी, लेकिन बहुत चिकनी रेखा नहीं चाहते हैं, तो `bw_adjust` पैरामीटर संपादित करें:
|
||||
|
||||
```python
|
||||
sns.kdeplot(filteredBirds['MaxBodyMass'], bw_adjust=.2)
|
||||
plt.show()
|
||||
```
|
||||
![कम चिकनी बॉडीमास लाइन](images/density3.png)
|
||||
|
||||
✅ इस प्रकार के प्लॉट और प्रयोग के लिए उपलब्ध मापदंडों के बारे में पढ़ें!
|
||||
|
||||
इस प्रकार का चार्ट खूबसूरती से व्याख्यात्मक दृश्य प्रस्तुत करता है। कोड की कुछ पंक्तियों के साथ, उदाहरण के लिए, आप प्रति पक्षी अधिकतम शरीर द्रव्यमान घनत्व दिखा सकते हैं:
|
||||
|
||||
```python
|
||||
sns.kdeplot(
|
||||
data=filteredBirds, x="MaxBodyMass", hue="Order",
|
||||
fill=True, common_norm=False, palette="crest",
|
||||
alpha=.5, linewidth=0,
|
||||
)
|
||||
```
|
||||
|
||||
![प्रति आदेश बॉडीमास](images/density4.png)
|
||||
|
||||
आप एक चार्ट में कई चरों के घनत्व को भी मैप कर सकते हैं। किसी पक्षी की संरक्षण स्थिति की तुलना में उसकी अधिकतम लंबाई और न्यूनतम लंबाई को टेक्स्ट करें:
|
||||
|
||||
```python
|
||||
sns.kdeplot(data=filteredBirds, x="MinLength", y="MaxLength", hue="ConservationStatus")
|
||||
```
|
||||
|
||||
![एकाधिक घनत्व, आरोपित](images/multi.png)
|
||||
|
||||
शायद यह शोध करने लायक है कि 'कमजोर' पक्षियों का समूह उनकी लंबाई के अनुसार सार्थक है या नहीं।
|
||||
|
||||
## 🚀 चुनौती
|
||||
|
||||
हिस्टोग्राम बुनियादी स्कैटरप्लॉट, बार चार्ट या लाइन चार्ट की तुलना में अधिक परिष्कृत प्रकार के चार्ट हैं। हिस्टोग्राम के उपयोग के अच्छे उदाहरण खोजने के लिए इंटरनेट पर खोज करें। उनका उपयोग कैसे किया जाता है, वे क्या प्रदर्शित करते हैं, और किन क्षेत्रों या पूछताछ के क्षेत्रों में उनका उपयोग किया जाता है?
|
||||
|
||||
## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/19)
|
||||
|
||||
## समीक्षा और स्व अध्ययन
|
||||
|
||||
इस पाठ में, आपने Matplotlib का उपयोग किया और अधिक परिष्कृत चार्ट दिखाने के लिए Seaborn के साथ काम करना शुरू किया। सीबॉर्न में `केडीप्लॉट` पर कुछ शोध करें, "एक या अधिक आयामों में निरंतर संभाव्यता घनत्व वक्र"। यह कैसे काम करता है, यह समझने के लिए [दस्तावेज](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) पढ़ें।
|
||||
|
||||
## कार्यभार
|
||||
|
||||
[अपने कौशल को लागू करें](assignment.md)
|
@ -0,0 +1,198 @@
|
||||
# Visualizando distribuições
|
||||
|
||||
|![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/10-Visualizing-Distributions.png)|
|
||||
|:---:|
|
||||
| Visualizando distribuições - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
Na aula anterior, você aprendeu fatos interessantes sobre um dataset de aves de Minnesota. Você encontrou dados incorretos ao visualizar outliers e olhou as diferenças entre categorias de aves com base no seu comprimento máximo.
|
||||
|
||||
## [Quiz pré-aula](https://red-water-0103e7a0f.azurestaticapps.net/quiz/18)
|
||||
## Explorando o dataset de aves
|
||||
|
||||
Outra forma de explorar os dados é olhar para sua distribuição, ou como os dados estão organizados ao longo do eixo. Por exemplo, talvez você gostaria de aprender sobre a distribuição geral, neste dataset, do máximo de envergadura (wingspan) ou máximo de massa corporal (body mass) das aves de Minnesota.
|
||||
|
||||
Vamos descobrir alguns fatos sobre as distribuições de dados neste dataset. No arquivo _notebook.ipynb_, na raiz do diretório desta aula, importe Pandas, Matplotlib, e os dados:
|
||||
|
||||
```python
|
||||
import pandas as pd
|
||||
import matplotlib.pyplot as plt
|
||||
birds = pd.read_csv('../../data/birds.csv')
|
||||
birds.head()
|
||||
```
|
||||
|
||||
Geralmente, você pode olhar para a forma como os dados estão distribuídos usando um gráfico de dispersão (scatter plot) como fizemos na aula anterior:
|
||||
|
||||
```python
|
||||
birds.plot(kind='scatter',x='MaxLength',y='Order',figsize=(12,8))
|
||||
|
||||
plt.title('Max Length per Order')
|
||||
plt.ylabel('Order')
|
||||
plt.xlabel('Max Length')
|
||||
|
||||
plt.show()
|
||||
```
|
||||
|
||||
Isso nos dá uma visão geral da distribuição de comprimento do corpo por Ordem da ave, mas não é a melhor forma de mostrar a distribuição real. Esta tarefa geralmente é realizada usando um histograma.
|
||||
|
||||
## Trabalhando com histogramas
|
||||
|
||||
O Matplotlib oferece formas muito boas de visualizar distribuição dos dados usando histogramas. Este tipo de gráfico é parecido com um gráfico de barras onde a distribuição pode ser vista por meio da subida e descida das barras. Para construir um histograma, você precisa de dados numéricos e você pode plotar um gráfico definindo o tipo (kind) como 'hist' para histograma. Este gráfico mostra a distribuição de massa corporal máxima (MaxBodyMass) para todo o intervalo numérico dos dados. Ao dividir um certo vetor de dados em intervalos (bins) menores, vemos a distribuição dos valores:
|
||||
|
||||
```python
|
||||
birds['MaxBodyMass'].plot(kind = 'hist', bins = 10, figsize = (12,12))
|
||||
plt.show()
|
||||
```
|
||||
|
||||
![Distribuição de todo o dataset](../images/dist1.png)
|
||||
|
||||
Como você pode ver, a maior parte das mais de 400 aves cai no intervalo de menos de 2000 para a massa corporal máxima. Obtenha mais conhecimento dos dados mudando o parâmetro de intervalo (`bins`) para um número maior, como 30:
|
||||
|
||||
```python
|
||||
birds['MaxBodyMass'].plot(kind = 'hist', bins = 30, figsize = (12,12))
|
||||
plt.show()
|
||||
```
|
||||
|
||||
![Distribuição de todo o dataset com valores maiores de intervalo](../images/dist2.png)
|
||||
|
||||
Este gráfico mostra a distribuição de forma mais detalhada. Um gráfico menos concentrado na esquerda pode ser criado garantindo que você só selecione os dados dentro de um certo intervalo:
|
||||
|
||||
Filtre seus dados para obter somente as aves que possuem menos de 60 de massa corporal, e mostre 40 intervalos (`bins`):
|
||||
|
||||
```python
|
||||
filteredBirds = birds[(birds['MaxBodyMass'] > 1) & (birds['MaxBodyMass'] < 60)]
|
||||
filteredBirds['MaxBodyMass'].plot(kind = 'hist',bins = 40,figsize = (12,12))
|
||||
plt.show()
|
||||
```
|
||||
![Histograma filtrado](../images/dist3.png)
|
||||
|
||||
✅ Tente outros filtros e pontos de dados (data points). Para ver a distribuição completa dos dados, remova o filtro `['MaxBodyMass']` para mostrar as distribuições com labels (identificadores).
|
||||
|
||||
O histograma também oferece algumas cores legais e labels (identificares) melhorados:
|
||||
|
||||
Crie um histograma 2D para comparar a relação entre duas distribuições. Vamos comparar massa corporal máxima vs. comprimento máximo (`MaxBodyMass` vs. `MaxLength`). O Matplotlib possui uma forma integrada de mostrar convergência usando cores mais vivas:
|
||||
|
||||
```python
|
||||
x = filteredBirds['MaxBodyMass']
|
||||
y = filteredBirds['MaxLength']
|
||||
|
||||
fig, ax = plt.subplots(tight_layout=True)
|
||||
hist = ax.hist2d(x, y)
|
||||
```
|
||||
|
||||
Aparentemente, existe uma suposta correlação entre estes dois elementos ao longo de um eixo esperado, com um forte ponto de convergência:
|
||||
|
||||
![Histograma 2D](../images/2D.png)
|
||||
|
||||
Por definição, os histogramas funcionam para dados numéricos. Mas, e se você precisar ver distribuições de dados textuais?
|
||||
|
||||
## Explore o dataset e busque por distribuições usando dados textuais
|
||||
|
||||
Este dataset também inclui informações relevantes sobre a categoria de ave e seu gênero, espécie e família, assim como seu status de conservação. Vamos explorar mais a fundo esta informação sobre conservação. Qual é a distribuição das aves de acordo com seu status de conservação?
|
||||
|
||||
> ✅ No dataset, são utilizados vários acrônimos para descrever o status de conservação. Estes acrônimos vêm da [IUCN Red List Categories](https://www.iucnredlist.org/), uma organização que cataloga os status das espécies.
|
||||
>
|
||||
> - CR: Critically Endangered (Criticamente em perigo)
|
||||
> - EN: Endangered (Em perigo)
|
||||
> - EX: Extinct (Extinto)
|
||||
> - LC: Least Concern (Pouco preocupante)
|
||||
> - NT: Near Threatened (Quase ameaçada)
|
||||
> - VU: Vulnerable (Vulnerável)
|
||||
|
||||
Estes são valores textuais, então será preciso transformá-los para criar um histograma. Usando o dataframe filteredBirds, mostre seu status de conservação com sua envergadura mínima (MinWingspan). O que você vê?
|
||||
|
||||
```python
|
||||
x1 = filteredBirds.loc[filteredBirds.ConservationStatus=='EX', 'MinWingspan']
|
||||
x2 = filteredBirds.loc[filteredBirds.ConservationStatus=='CR', 'MinWingspan']
|
||||
x3 = filteredBirds.loc[filteredBirds.ConservationStatus=='EN', 'MinWingspan']
|
||||
x4 = filteredBirds.loc[filteredBirds.ConservationStatus=='NT', 'MinWingspan']
|
||||
x5 = filteredBirds.loc[filteredBirds.ConservationStatus=='VU', 'MinWingspan']
|
||||
x6 = filteredBirds.loc[filteredBirds.ConservationStatus=='LC', 'MinWingspan']
|
||||
|
||||
kwargs = dict(alpha=0.5, bins=20)
|
||||
|
||||
plt.hist(x1, **kwargs, color='red', label='Extinct')
|
||||
plt.hist(x2, **kwargs, color='orange', label='Critically Endangered')
|
||||
plt.hist(x3, **kwargs, color='yellow', label='Endangered')
|
||||
plt.hist(x4, **kwargs, color='green', label='Near Threatened')
|
||||
plt.hist(x5, **kwargs, color='blue', label='Vulnerable')
|
||||
plt.hist(x6, **kwargs, color='gray', label='Least Concern')
|
||||
|
||||
plt.gca().set(title='Conservation Status', ylabel='Max Body Mass')
|
||||
plt.legend();
|
||||
```
|
||||
|
||||
![Compilação envergadura e conservação](../images/histogram-conservation.png)
|
||||
|
||||
Aparentemente não existe uma correlação forte entre a envergadura mínima e o status de conservação. Teste outros elementos do dataset usando este método. Você também pode tentar outros filtros. Você encontrou alguma correlação?
|
||||
|
||||
## Gráfico de densidade (Estimativa de densidade kernel)
|
||||
|
||||
Você pode ter percebido que até agora os histogramas são quebrados em degraus e não fluem de forma suave em uma curva. Para mostrar um gráfico de densidade mais 'fluido', você pode tentar usar a estimativa de densidade kernel (kde).
|
||||
|
||||
Para trabalhar com gráficos de densidade, acostume-se com uma nova biblioteca de gráficos, o [Seaborn](https://seaborn.pydata.org/generated/seaborn.kdeplot.html).
|
||||
|
||||
Após carregar o Seaborn, tente um gráfico de densidade básico:
|
||||
|
||||
```python
|
||||
import seaborn as sns
|
||||
import matplotlib.pyplot as plt
|
||||
sns.kdeplot(filteredBirds['MinWingspan'])
|
||||
plt.show()
|
||||
```
|
||||
![Gráfico de densidade](../images/density1.png)
|
||||
|
||||
Você consegue ver como o gráfico reflete o anterior (de envergadura mínima); só é mais fluido/suave. De acordo com a documentação do Seaborn, "Em comparação com o histograma, o KDE pode produzir um gráfico que é menos confuso e mais legível, especialmente quando plotamos múltiplas distribuições. Mas pode potencialmente introduzir distorções se a distribuição usada é limitada ou não suave. Como um histograma, a qualidade da representação também depende na escolha de bons parâmetros suavizadores (smoothing parameters)." [créditos](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) Em outras palavras, dados discrepantes (outliers) vão fazer seus gráficos se comportarem mal, como sempre.
|
||||
|
||||
Se você quer revisitar a linha irregular/dentada MaxBodyMass (massa corporal máxima) no segundo gráfico construído, você pode suavizá-la muito bem recriando o seguinte método:
|
||||
|
||||
```python
|
||||
sns.kdeplot(filteredBirds['MaxBodyMass'])
|
||||
plt.show()
|
||||
```
|
||||
![Linha suave massa corporal](../images/density2.png)
|
||||
|
||||
Se você quer uma linha suave, mas não tão suave, mude o parâmetro `bw_adjust`:
|
||||
|
||||
```python
|
||||
sns.kdeplot(filteredBirds['MaxBodyMass'], bw_adjust=.2)
|
||||
plt.show()
|
||||
```
|
||||
![Linha menos suave massa corporal](../images/density3.png)
|
||||
|
||||
✅ Leia sobre os parâmetros disponíveis para este tipo de gráfico e experimente!
|
||||
|
||||
Este tipo de gráfico oferece visualizações bonitas e esclarecedoras. Com algumas linhas de código, por exemplo, você pode mostrar a densidade de massa corporal máxima por ave por Ordem:
|
||||
|
||||
```python
|
||||
sns.kdeplot(
|
||||
data=filteredBirds, x="MaxBodyMass", hue="Order",
|
||||
fill=True, common_norm=False, palette="crest",
|
||||
alpha=.5, linewidth=0,
|
||||
)
|
||||
```
|
||||
|
||||
![Massa corporal por Ordem](../images/density4.png)
|
||||
|
||||
Você também pode mapear a densidade de várias variáveis em um só gráfico. Teste usar o comprimento máximo (MaxLength) e mínimo (MinLength) de uma ave comparado com seu status de conservação:
|
||||
|
||||
```python
|
||||
sns.kdeplot(data=filteredBirds, x="MinLength", y="MaxLength", hue="ConservationStatus")
|
||||
```
|
||||
|
||||
![Múltiplas densidades sobrepostas](../images/multi.png)
|
||||
|
||||
Talvez valha a pena pesquisar mais a fundo se o cluster de aves vulneráveis ('Vulnerable') de acordo com seus comprimentos têm significado ou não.
|
||||
|
||||
## 🚀 Desafio
|
||||
|
||||
Histogramas são um tipo mais sofisticado de gráfico em relação a simples gráficos de dispersão, barras ou linhas. Pesquise na internet bons exemplos de uso de histogramas. Como eles são usados, o que eles demonstram e em quais áreas ou campos de pesquisa eles são usados.
|
||||
|
||||
## [Post-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/19)
|
||||
|
||||
## Revisão e autoestudo
|
||||
|
||||
Nesta aula, você usou o Matplotlib e começou a trabalhar com o Seaborn para mostrar gráficos mais avançados. Pesquise sobre o `kdeplot` no Seaborn, uma "curva de densidade de probabilidade contínua em uma ou mais dimensões". Leia a [documentação](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) para entender como funciona.
|
||||
|
||||
## Tarefa
|
||||
|
||||
[Aplique seus conhecimentos](assignment.pt-br.md)
|
@ -0,0 +1,11 @@
|
||||
# Aplique seus conhecimentos
|
||||
|
||||
## Instruções
|
||||
|
||||
Até agora, você trabalhou com o dataset de aves de Minnesota para descobrir informação sobre quantidades de aves e densidade populacional. Pratique essas técnicas usando outro dataset, talvez do [Kaggle](https://www.kaggle.com/). Faça um notebook que conta uma história sobre esse dataset, e lembre-se de usar histogramas para isso.
|
||||
|
||||
## Rubrica
|
||||
|
||||
Exemplar | Adequado | Precisa melhorar
|
||||
--- | --- | -- |
|
||||
O notebook tem anotações sobre o dataset, incluindo sua origem, e usa pelo menos 5 histogramas para descobrir fatos sobre os dados. | O notebook tem anotações incompletas ou bugs | O notebook não possui nenhuma anotação e contṕem bugs.
|
@ -0,0 +1,184 @@
|
||||
# विज़ुअलाइज़िंग अनुपात
|
||||
|
||||
|![ सकेटच्नोते करने वाला [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/11-Visualizing-Proportions.png)|
|
||||
|:---:|
|
||||
|विज़ुअलाइज़िंग अनुपात - _सकेटच्नोते करने वाला [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
इस पाठ में, आप अनुपात की कल्पना करने के लिए एक अलग प्रकृति-केंद्रित डेटासेट का उपयोग करेंगे, जैसे कि मशरूम के बारे में दिए गए डेटासेट में कितने अलग-अलग प्रकार के कवक आते हैं। आइए ऑडबोन सूची से प्राप्त डेटासेट का उपयोग करके इन आकर्षक कवक का पता लगाएं, एग्रिकस और लेपियोटा परिवारों में ग्रील्ड मशरूम की 23 प्रजातियों के बारे में विवरण। आप स्वादिष्ट विज़ुअलाइज़ेशन के साथ प्रयोग करेंगे जैसे:
|
||||
|
||||
- पाई चार्ट 🥧
|
||||
- डोनट चार्ट 🍩
|
||||
- वफ़ल चार्ट 🧇
|
||||
|
||||
|
||||
> 💡 माइक्रोसॉफ्ट अनुसंधान द्वारा [चार्टिकुलेटर](https://charticulator.com) नामक एक बहुत ही रोचक परियोजना डेटा विज़ुअलाइज़ेशन के लिए एक निःशुल्क ड्रैग एंड ड्रॉप इंटरफ़ेस प्रदान करती है। अपने एक ट्यूटोरियल में वे इस मशरूम डेटासेट का भी उपयोग करते हैं! तो आप एक ही समय में डेटा का पता लगा सकते हैं और पुस्तकालय सीख सकते हैं: [चार्टिकुलेटर ट्यूटोरियल](https://charticulator.com/tutorials/tutorial4.html)।
|
||||
|
||||
## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/20)
|
||||
|
||||
## अपने मशरूम को जानें 🍄
|
||||
|
||||
मशरूम बहुत दिलचस्प हैं। आइए उनका अध्ययन करने के लिए एक डेटासेट आयात करें:
|
||||
|
||||
```python
|
||||
import pandas as pd
|
||||
import matplotlib.pyplot as plt
|
||||
mushrooms = pd.read_csv('../../data/mushrooms.csv')
|
||||
mushrooms.head()
|
||||
```
|
||||
विश्लेषण के लिए कुछ महान डेटा के साथ एक तालिका मुद्रित की जाती है:
|
||||
|
||||
|
||||
| class | cap-shape | cap-surface | cap-color | bruises | odor | gill-attachment | gill-spacing | gill-size | gill-color | stalk-shape | stalk-root | stalk-surface-above-ring | stalk-surface-below-ring | stalk-color-above-ring | stalk-color-below-ring | veil-type | veil-color | ring-number | ring-type | spore-print-color | population | habitat |
|
||||
| --------- | --------- | ----------- | --------- | ------- | ------- | --------------- | ------------ | --------- | ---------- | ----------- | ---------- | ------------------------ | ------------------------ | ---------------------- | ---------------------- | --------- | ---------- | ----------- | --------- | ----------------- | ---------- | ------- |
|
||||
| Poisonous | Convex | Smooth | Brown | Bruises | Pungent | Free | Close | Narrow | Black | Enlarging | Equal | Smooth | Smooth | White | White | Partial | White | One | Pendant | Black | Scattered | Urban |
|
||||
| Edible | Convex | Smooth | Yellow | Bruises | Almond | Free | Close | Broad | Black | Enlarging | Club | Smooth | Smooth | White | White | Partial | White | One | Pendant | Brown | Numerous | Grasses |
|
||||
| Edible | Bell | Smooth | White | Bruises | Anise | Free | Close | Broad | Brown | Enlarging | Club | Smooth | Smooth | White | White | Partial | White | One | Pendant | Brown | Numerous | Meadows |
|
||||
| Poisonous | Convex | Scaly | White | Bruises | Pungent | Free | Close | Narrow | Brown | Enlarging | Equal | Smooth | Smooth | White | White | Partial | White | One | Pendant | Black | Scattered | Urban |
|
||||
|
||||
तुरंत, आप देखते हैं कि सभी डेटा टेक्स्टुअल है। चार्ट में इसका उपयोग करने में सक्षम होने के लिए आपको इस डेटा को परिवर्तित करना होगा। अधिकांश डेटा, वास्तव में, एक वस्तु के रूप में दर्शाया जाता है:
|
||||
|
||||
```python
|
||||
print(mushrooms.select_dtypes(["object"]).columns)
|
||||
```
|
||||
|
||||
आउटपुट है:
|
||||
|
||||
```output
|
||||
Index(['class', 'cap-shape', 'cap-surface', 'cap-color', 'bruises', 'odor',
|
||||
'gill-attachment', 'gill-spacing', 'gill-size', 'gill-color',
|
||||
'stalk-shape', 'stalk-root', 'stalk-surface-above-ring',
|
||||
'stalk-surface-below-ring', 'stalk-color-above-ring',
|
||||
'stalk-color-below-ring', 'veil-type', 'veil-color', 'ring-number',
|
||||
'ring-type', 'spore-print-color', 'population', 'habitat'],
|
||||
dtype='object')
|
||||
```
|
||||
यह डेटा लें और 'वर्ग' कॉलम को एक श्रेणी में बदलें:
|
||||
|
||||
```python
|
||||
cols = mushrooms.select_dtypes(["object"]).columns
|
||||
mushrooms[cols] = mushrooms[cols].astype('category')
|
||||
```
|
||||
अब, यदि आप मशरूम डेटा का प्रिंट आउट लेते हैं, तो आप देख सकते हैं कि इसे जहरीले/खाद्य वर्ग के अनुसार श्रेणियों में बांटा गया है:
|
||||
|
||||
|
||||
| | cap-shape | cap-surface | cap-color | bruises | odor | gill-attachment | gill-spacing | gill-size | gill-color | stalk-shape | ... | stalk-surface-below-ring | stalk-color-above-ring | stalk-color-below-ring | veil-type | veil-color | ring-number | ring-type | spore-print-color | population | habitat |
|
||||
| --------- | --------- | ----------- | --------- | ------- | ---- | --------------- | ------------ | --------- | ---------- | ----------- | --- | ------------------------ | ---------------------- | ---------------------- | --------- | ---------- | ----------- | --------- | ----------------- | ---------- | ------- |
|
||||
| class | | | | | | | | | | | | | | | | | | | | | |
|
||||
| Edible | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | ... | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 |
|
||||
| Poisonous | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | ... | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 |
|
||||
|
||||
यदि आप अपने वर्ग श्रेणी लेबल बनाने के लिए इस तालिका में प्रस्तुत क्रम का पालन करते हैं, तो आप एक पाई चार्ट बना सकते हैं:
|
||||
|
||||
## Pie!
|
||||
|
||||
```python
|
||||
labels=['Edible','Poisonous']
|
||||
plt.pie(edibleclass['population'],labels=labels,autopct='%.1f %%')
|
||||
plt.title('Edible?')
|
||||
plt.show()
|
||||
```
|
||||
वोइला, मशरूम के इन दो वर्गों के अनुसार इस डेटा के अनुपात को दर्शाने वाला एक पाई चार्ट। लेबल के क्रम को सही करना बहुत महत्वपूर्ण है, विशेष रूप से यहां, इसलिए उस क्रम को सत्यापित करना सुनिश्चित करें जिसके साथ लेबल सरणी बनाई गई है!
|
||||
|
||||
![पाई चार्ट](images/pie1.png)
|
||||
|
||||
## डोनट्स!
|
||||
|
||||
कुछ अधिक नेत्रहीन दिलचस्प पाई चार्ट एक डोनट चार्ट है, जो बीच में एक छेद के साथ एक पाई चार्ट है। आइए इस पद्धति का उपयोग करके हमारे डेटा को देखें।
|
||||
|
||||
विभिन्न आवासों पर एक नज़र डालें जहाँ मशरूम उगते हैं:
|
||||
|
||||
```python
|
||||
habitat=mushrooms.groupby(['habitat']).count()
|
||||
habitat
|
||||
```
|
||||
यहां, आप अपने डेटा को आवास के आधार पर समूहित कर रहे हैं। 7 सूचीबद्ध हैं, इसलिए उन्हें अपने डोनट चार्ट के लिए लेबल के रूप में उपयोग करें:
|
||||
|
||||
```python
|
||||
labels=['Grasses','Leaves','Meadows','Paths','Urban','Waste','Wood']
|
||||
|
||||
plt.pie(habitat['class'], labels=labels,
|
||||
autopct='%1.1f%%', pctdistance=0.85)
|
||||
|
||||
center_circle = plt.Circle((0, 0), 0.40, fc='white')
|
||||
fig = plt.gcf()
|
||||
|
||||
fig.gca().add_artist(center_circle)
|
||||
|
||||
plt.title('Mushroom Habitats')
|
||||
|
||||
plt.show()
|
||||
```
|
||||
|
||||
![डोनट चार्ट](images/donut.png)
|
||||
|
||||
यह कोड एक चार्ट और एक केंद्र वृत्त बनाता है, फिर उस केंद्र वृत्त को चार्ट में जोड़ता है। `0.40` को दूसरे मान में बदलकर केंद्र वृत्त की चौड़ाई संपादित करें।
|
||||
|
||||
डोनट चार्ट को लेबल बदलने के लिए कई तरह से ट्वीक किया जा सकता है। विशेष रूप से लेबल को पठनीयता के लिए हाइलाइट किया जा सकता है। [दस्तावेज़] (https://matplotlib.org/stable/gallery/pie_and_polar_charts/pie_and_donut_labels.html?highlight=donut) में और जानें।
|
||||
|
||||
अब जबकि आप जानते हैं कि अपने डेटा को कैसे समूहबद्ध करना है और फिर उसे पाई या डोनट के रूप में प्रदर्शित करना है, तो आप अन्य प्रकार के चार्टों को एक्सप्लोर कर सकते हैं। एक वफ़ल चार्ट आज़माएं, जो मात्रा की खोज का एक अलग तरीका है।
|
||||
## Waffles!
|
||||
|
||||
एक 'वफ़ल' प्रकार का चार्ट मात्राओं को वर्गों के 2डी सरणी के रूप में देखने का एक अलग तरीका है। इस डेटासेट में मशरूम कैप रंगों की विभिन्न मात्राओं को देखने का प्रयास करें। ऐसा करने के लिए, आपको [PyWaffle](https://pypi.org/project/pywaffle/) नामक एक सहायक पुस्तकालय स्थापित करने और Matplotlib का उपयोग करने की आवश्यकता है:
|
||||
|
||||
```python
|
||||
pip install pywaffle
|
||||
```
|
||||
|
||||
समूह के लिए अपने डेटा का एक खंड चुनें:
|
||||
|
||||
```python
|
||||
capcolor=mushrooms.groupby(['cap-color']).count()
|
||||
capcolor
|
||||
```
|
||||
|
||||
लेबल बनाकर और फिर अपने डेटा को समूहीकृत करके एक वफ़ल चार्ट बनाएं:
|
||||
|
||||
```python
|
||||
import pandas as pd
|
||||
import matplotlib.pyplot as plt
|
||||
from pywaffle import Waffle
|
||||
|
||||
data ={'color': ['brown', 'buff', 'cinnamon', 'green', 'pink', 'purple', 'red', 'white', 'yellow'],
|
||||
'amount': capcolor['class']
|
||||
}
|
||||
|
||||
df = pd.DataFrame(data)
|
||||
|
||||
fig = plt.figure(
|
||||
FigureClass = Waffle,
|
||||
rows = 100,
|
||||
values = df.amount,
|
||||
labels = list(df.color),
|
||||
figsize = (30,30),
|
||||
colors=["brown", "tan", "maroon", "green", "pink", "purple", "red", "whitesmoke", "yellow"],
|
||||
)
|
||||
```
|
||||
|
||||
वफ़ल चार्ट का उपयोग करके, आप स्पष्ट रूप से इस मशरूम डेटासेट के कैप रंगों के अनुपात को देख सकते हैं। दिलचस्प बात यह है कि कई हरे-छिपे हुए मशरूम हैं!
|
||||
|
||||
![वफ़ल चार्ट](images/waffle.png)
|
||||
|
||||
✅ Pywaffle उन चार्ट के भीतर आइकन का समर्थन करता है जो [Font Awesome](https://fontawesome.com/) में उपलब्ध किसी भी आइकन का उपयोग करते हैं। वर्गों के बजाय आइकन का उपयोग करके और भी अधिक रोचक वफ़ल चार्ट बनाने के लिए कुछ प्रयोग करें।
|
||||
|
||||
इस पाठ में, आपने अनुपातों की कल्पना करने के तीन तरीके सीखे। सबसे पहले, आपको अपने डेटा को श्रेणियों में समूहित करना होगा और फिर यह तय करना होगा कि डेटा प्रदर्शित करने का सबसे अच्छा तरीका कौन सा है - पाई, डोनट, या वफ़ल। सभी स्वादिष्ट हैं और डेटासेट के तत्काल स्नैपशॉट के साथ उपयोगकर्ता को संतुष्ट करते हैं।
|
||||
## 🚀 चुनौती
|
||||
|
||||
इन स्वादिष्ट चार्ट को फिर से बनाने का प्रयास करें [चार्टिकुलेटर](https://charticulator.com).
|
||||
## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/21)
|
||||
|
||||
## समीक्षा और आत्म अध्ययन
|
||||
|
||||
कभी-कभी यह स्पष्ट नहीं होता कि पाई, डोनट, या वफ़ल चार्ट का उपयोग कब करना है। इस विषय पर पढ़ने के लिए यहां कुछ लेख दिए गए हैं:
|
||||
|
||||
https://www.beautiful.ai/blog/battle-of-the-charts-pie-chart-vs-donut-chart
|
||||
|
||||
https://medium.com/@hypsypops/pie-chart-vs-donut-chart-showdown-in-the-ring-5d24fd86a9ce
|
||||
|
||||
https://www.mit.edu/~mbarker/formula1/f1help/11-ch-c6.htm
|
||||
|
||||
https://medium.datadriveninvestor.com/data-visualization-done-the-right-way-with-tableau-waffle-chart-fdf2a19be402
|
||||
|
||||
इस चिपचिपे निर्णय के बारे में अधिक जानकारी प्राप्त करने के लिए कुछ शोध करें।
|
||||
## कार्यभार
|
||||
|
||||
[इसे एक्सेल में आज़माएं](assignment.md)
|
@ -0,0 +1,173 @@
|
||||
# रिश्तों की कल्पना: शहद के बारे में सब कुछ
|
||||
|
||||
|![ सकेटच्नोते करने वाला [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/12-Visualizing-Relationships.png)|
|
||||
|:---:|
|
||||
|रिश्तों की कल्पना - _सकेटच्नोते करने वाला [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
[यूनाइटेड स्टेट्स डिपार्टमेंट ऑफ़ एग्रीकल्चर](https://www.nass.usda.gov/) से प्राप्त एक डेटासेट के अनुसार, अपने शोध के प्रकृति फ़ोकस को जारी रखते हुए, आइए विभिन्न प्रकार के शहद के बीच संबंधों को दिखाने के लिए दिलचस्प विज़ुअलाइज़ेशन खोजें। लगभग_NASS/index.php)।
|
||||
|
||||
लगभग ६०० वस्तुओं का यह डेटासेट कई यू.एस. राज्यों में शहद उत्पादन को प्रदर्शित करता है। इसलिए, उदाहरण के लिए, आप प्रत्येक राज्य के लिए प्रति वर्ष एक पंक्ति के साथ, 1998-2012 से किसी दिए गए राज्य में उत्पादित कॉलोनियों की संख्या, प्रति कॉलोनी उपज, कुल उत्पादन, स्टॉक, मूल्य प्रति पाउंड और शहद का मूल्य देख सकते हैं। .
|
||||
|
||||
किसी दिए गए राज्य के प्रति वर्ष उत्पादन और, उदाहरण के लिए, उस राज्य में शहद की कीमत के बीच संबंधों की कल्पना करना दिलचस्प होगा। वैकल्पिक रूप से, आप प्रति कॉलोनी राज्यों की शहद उपज के बीच संबंधों की कल्पना कर सकते हैं। इस वर्ष की अवधि में विनाशकारी 'सीसीडी' या 'कॉलोनी पतन विकार' शामिल है जिसे पहली बार 2006 में देखा गया था (http://npic.orst.edu/envir/ccd.html), इसलिए यह अध्ययन करने के लिए एक मार्मिक डेटासेट है।🐝
|
||||
|
||||
## [व्याख्यान पूर्व प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/22)
|
||||
|
||||
इस पाठ में, आप सीबॉर्न का उपयोग कर सकते हैं, जिसका उपयोग आपने पहले किया है, चरों के बीच संबंधों की कल्पना करने के लिए एक अच्छे पुस्तकालय के रूप में। सीबॉर्न के `रिलप्लॉट` फ़ंक्शन का उपयोग विशेष रूप से दिलचस्प है जो स्कैटर प्लॉट्स और लाइन प्लॉट्स को जल्दी से '[सांख्यिकीय संबंध](https://seaborn.pydata.org/tutorial/relational.html?highlight=relationships)' की कल्पना करने की अनुमति देता है, जो डेटा वैज्ञानिक को बेहतर ढंग से समझने की अनुमति दें कि चर एक दूसरे से कैसे संबंधित हैं।
|
||||
|
||||
## तितर बितर भूखंडों
|
||||
|
||||
यह दिखाने के लिए स्कैटरप्लॉट का उपयोग करें कि प्रति राज्य शहद की कीमत साल दर साल कैसे विकसित हुई है। सीबॉर्न, `रिलप्लॉट` का उपयोग करते हुए, राज्य डेटा को आसानी से समूहित करता है और श्रेणीबद्ध और संख्यात्मक डेटा दोनों के लिए डेटा बिंदु प्रदर्शित करता है।
|
||||
|
||||
आइए डेटा और सीबोर्न आयात करके शुरू करें:
|
||||
|
||||
```python
|
||||
import pandas as pd
|
||||
import matplotlib.pyplot as plt
|
||||
import seaborn as sns
|
||||
honey = pd.read_csv('../../data/honey.csv')
|
||||
honey.head()
|
||||
```
|
||||
आपने देखा कि शहद के आंकड़ों में कई दिलचस्प कॉलम हैं, जिनमें साल और कीमत प्रति पाउंड शामिल हैं। आइए इस डेटा को यू.एस. राज्य द्वारा समूहीकृत करें:
|
||||
|
||||
| state | numcol | yieldpercol | totalprod | stocks | priceperlb | prodvalue | year |
|
||||
| ----- | ------ | ----------- | --------- | -------- | ---------- | --------- | ---- |
|
||||
| AL | 16000 | 71 | 1136000 | 159000 | 0.72 | 818000 | 1998 |
|
||||
| AZ | 55000 | 60 | 3300000 | 1485000 | 0.64 | 2112000 | 1998 |
|
||||
| AR | 53000 | 65 | 3445000 | 1688000 | 0.59 | 2033000 | 1998 |
|
||||
| CA | 450000 | 83 | 37350000 | 12326000 | 0.62 | 23157000 | 1998 |
|
||||
| CO | 27000 | 72 | 1944000 | 1594000 | 0.7 | 1361000 | 1998 |
|
||||
|
||||
|
||||
प्रति पाउंड शहद की कीमत और इसकी यू.एस. मूल स्थिति के बीच संबंध दिखाने के लिए एक बुनियादी स्कैटरप्लॉट बनाएं। सभी राज्यों को प्रदर्शित करने के लिए `y` अक्ष को पर्याप्त लंबा बनाएं:
|
||||
|
||||
```python
|
||||
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
|
||||
```
|
||||
![scatterplot 1](images/scatter1.png)
|
||||
|
||||
अब, शहद रंग योजना के साथ समान डेटा दिखाएं ताकि यह दिखाया जा सके कि मूल्य वर्षों में कैसे विकसित होता है। साल दर साल बदलाव दिखाने के लिए आप 'ह्यू' पैरामीटर जोड़कर ऐसा कर सकते हैं:
|
||||
|
||||
> ✅ [सीबॉर्न में आपके द्वारा उपयोग किए जा सकने वाले रंग पैलेट](https://seaborn.pydata.org/tutorial/color_palettes.html) के बारे में अधिक जानें - एक सुंदर इंद्रधनुष रंग योजना आज़माएं!
|
||||
|
||||
```python
|
||||
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
|
||||
```
|
||||
![स्कैटरप्लॉट 2](images/scatter2.png)
|
||||
|
||||
इस रंग योजना में बदलाव के साथ, आप देख सकते हैं कि शहद की कीमत प्रति पाउंड के मामले में पिछले कुछ वर्षों में स्पष्ट रूप से एक मजबूत प्रगति हुई है। वास्तव में, यदि आप सत्यापित करने के लिए डेटा में सेट किए गए नमूने को देखते हैं (उदाहरण के लिए किसी दिए गए राज्य, एरिज़ोना को चुनें) तो आप कुछ अपवादों के साथ, साल दर साल मूल्य वृद्धि का एक पैटर्न देख सकते हैं:
|
||||
|
||||
| state | numcol | yieldpercol | totalprod | stocks | priceperlb | prodvalue | year |
|
||||
| ----- | ------ | ----------- | --------- | ------- | ---------- | --------- | ---- |
|
||||
| AZ | 55000 | 60 | 3300000 | 1485000 | 0.64 | 2112000 | 1998 |
|
||||
| AZ | 52000 | 62 | 3224000 | 1548000 | 0.62 | 1999000 | 1999 |
|
||||
| AZ | 40000 | 59 | 2360000 | 1322000 | 0.73 | 1723000 | 2000 |
|
||||
| AZ | 43000 | 59 | 2537000 | 1142000 | 0.72 | 1827000 | 2001 |
|
||||
| AZ | 38000 | 63 | 2394000 | 1197000 | 1.08 | 2586000 | 2002 |
|
||||
| AZ | 35000 | 72 | 2520000 | 983000 | 1.34 | 3377000 | 2003 |
|
||||
| AZ | 32000 | 55 | 1760000 | 774000 | 1.11 | 1954000 | 2004 |
|
||||
| AZ | 36000 | 50 | 1800000 | 720000 | 1.04 | 1872000 | 2005 |
|
||||
| AZ | 30000 | 65 | 1950000 | 839000 | 0.91 | 1775000 | 2006 |
|
||||
| AZ | 30000 | 64 | 1920000 | 902000 | 1.26 | 2419000 | 2007 |
|
||||
| AZ | 25000 | 64 | 1600000 | 336000 | 1.26 | 2016000 | 2008 |
|
||||
| AZ | 20000 | 52 | 1040000 | 562000 | 1.45 | 1508000 | 2009 |
|
||||
| AZ | 24000 | 77 | 1848000 | 665000 | 1.52 | 2809000 | 2010 |
|
||||
| AZ | 23000 | 53 | 1219000 | 427000 | 1.55 | 1889000 | 2011 |
|
||||
| AZ | 22000 | 46 | 1012000 | 253000 | 1.79 | 1811000 | 2012 |
|
||||
|
||||
|
||||
इस प्रगति की कल्पना करने का दूसरा तरीका रंग के बजाय आकार का उपयोग करना है। कलरब्लाइंड यूजर्स के लिए यह एक बेहतर विकल्प हो सकता है। डॉट परिधि में वृद्धि करके मूल्य में वृद्धि दिखाने के लिए अपना विज़ुअलाइज़ेशन संपादित करें:
|
||||
|
||||
```python
|
||||
sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspect=.5);
|
||||
```
|
||||
आप डॉट्स के आकार को धीरे-धीरे बढ़ते हुए देख सकते हैं।
|
||||
|
||||
![स्कैटरप्लॉट 3](images/scatter3.png)
|
||||
|
||||
क्या यह आपूर्ति और मांग का एक साधारण मामला है? जलवायु परिवर्तन और कॉलोनी के ढहने जैसे कारकों के कारण, क्या साल दर साल खरीद के लिए कम शहद उपलब्ध है, और इस तरह कीमत बढ़ जाती है?
|
||||
|
||||
इस डेटासेट में कुछ चरों के बीच संबंध खोजने के लिए, आइए कुछ लाइन चार्ट देखें।
|
||||
|
||||
## लाइन चार्ट
|
||||
|
||||
प्रश्न : क्या शहद की कीमत में प्रति पौंड वर्ष दर वर्ष स्पष्ट वृद्धि हुई है? सिंगल लाइन चार्ट बनाकर आप इसे आसानी से खोज सकते हैं:
|
||||
|
||||
```python
|
||||
sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
|
||||
```
|
||||
Aउत्तर: हाँ, वर्ष २००३ के आसपास कुछ अपवादों को छोड़कर:
|
||||
|
||||
![लाइन चार्ट 1](इमेज/लाइन1.पीएनजी)
|
||||
|
||||
क्योंकि सीबॉर्न एक पंक्ति के आसपास डेटा एकत्र कर रहा है, यह "माध्य की साजिश रचकर प्रत्येक x मान पर कई माप और माध्य के आसपास 95% विश्वास अंतराल" प्रदर्शित करता है। [स्रोत](https://seaborn.pydata.org/tutorial/relational.html)। इस समय लेने वाले व्यवहार को `ci=none` जोड़कर अक्षम किया जा सकता है।
|
||||
|
||||
प्रश्न: क्या २००३ में हम शहद की आपूर्ति में भी वृद्धि देख सकते हैं? अगर आप साल दर साल कुल उत्पादन को देखें तो क्या होगा?
|
||||
|
||||
```python
|
||||
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
|
||||
```
|
||||
|
||||
![लाइन चार्ट 2](इमेज/लाइन2.पीएनजी)
|
||||
|
||||
उत्तर: वास्तव में नहीं। यदि आप कुल उत्पादन को देखें, तो वास्तव में उस विशेष वर्ष में वृद्धि हुई प्रतीत होती है, भले ही आम तौर पर इन वर्षों के दौरान उत्पादित होने वाले शहद की मात्रा में गिरावट आई हो।
|
||||
|
||||
प्रश्न: उस मामले में, 2003 के आसपास शहद की कीमत में उस उछाल का क्या कारण हो सकता है?
|
||||
|
||||
इसे खोजने के लिए, आप एक पहलू ग्रिड का पता लगा सकते हैं।
|
||||
|
||||
## पहलू ग्रिड
|
||||
|
||||
फ़ैसिट ग्रिड आपके डेटासेट का एक पहलू लेते हैं (हमारे मामले में, आप 'वर्ष' चुन सकते हैं ताकि बहुत अधिक फ़ैसिट उत्पन्न न हों)। सीबॉर्न तब आपके चुने हुए x और y निर्देशांकों में से प्रत्येक के लिए अधिक आसान दृश्य तुलना के लिए एक प्लॉट बना सकता है। क्या 2003 इस प्रकार की तुलना में अलग है?
|
||||
|
||||
[सीबॉर्न का दस्तावेज़ीकरण](https://seaborn.pydata.org/generated/seaborn.FacetGrid.html?highlight=facetgrid#seaborn.FacetGrid) द्वारा सुझाए गए अनुसार `relplot` का उपयोग जारी रखते हुए एक पहलू ग्रिड बनाएं।
|
||||
```python
|
||||
sns.relplot(
|
||||
data=honey,
|
||||
x="yieldpercol", y="numcol",
|
||||
col="year",
|
||||
col_wrap=3,
|
||||
kind="line"
|
||||
```
|
||||
इस विज़ुअलाइज़ेशन में, आप प्रति कॉलोनी उपज और साल दर साल कॉलोनियों की संख्या की तुलना कॉलम के लिए 3 पर सेट रैप के साथ कर सकते हैं:
|
||||
|
||||
![पहलू ग्रिड](छवियां/पहलू.पीएनजी)
|
||||
|
||||
इस डेटासेट के लिए, विशेष रूप से कॉलोनियों की संख्या और उनकी उपज, साल दर साल और राज्य दर राज्य के संबंध में कुछ भी नहीं है। क्या इन दो चरों के बीच संबंध खोजने का कोई अलग तरीका है?
|
||||
|
||||
## ड्यूल-लाइन प्लॉट्स
|
||||
|
||||
एक दूसरे के ऊपर दो लाइनप्लॉट्स को सुपरइम्पोज़ करके, सीबॉर्न की 'डेस्पाइन' का उपयोग करके उनके शीर्ष और दाएं स्पाइन को हटाने के लिए, और उपयोग करके एक मल्टीलाइन प्लॉट आज़माएं`ax.twinx` [Matplotlib . से व्युत्पन्न](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.twinx.html). Twinx चार्ट को x अक्ष साझा करने और दो y अक्ष प्रदर्शित करने की अनुमति देता है। तो, प्रति कॉलोनी उपज और कॉलोनियों की संख्या प्रदर्शित करें, जो आरोपित हैं:
|
||||
|
||||
```python
|
||||
fig, ax = plt.subplots(figsize=(12,6))
|
||||
lineplot = sns.lineplot(x=honey['year'], y=honey['numcol'], data=honey,
|
||||
label = 'Number of bee colonies', legend=False)
|
||||
sns.despine()
|
||||
plt.ylabel('# colonies')
|
||||
plt.title('Honey Production Year over Year');
|
||||
|
||||
ax2 = ax.twinx()
|
||||
lineplot2 = sns.lineplot(x=honey['year'], y=honey['yieldpercol'], ax=ax2, color="r",
|
||||
label ='Yield per colony', legend=False)
|
||||
sns.despine(right=False)
|
||||
plt.ylabel('colony yield')
|
||||
ax.figure.legend();
|
||||
```
|
||||
![सुपरइम्पोज्ड प्लॉट्स](images/dual-line.png)
|
||||
|
||||
हालांकि वर्ष 2003 के आस-पास कुछ भी सामने नहीं आया, यह हमें इस पाठ को एक छोटे से सुखद नोट पर समाप्त करने की अनुमति देता है: जबकि कुल मिलाकर कॉलोनियों की संख्या घट रही है, कॉलोनियों की संख्या स्थिर हो रही है, भले ही प्रति कॉलोनी उनकी उपज घट रही हो .
|
||||
|
||||
जाओ, मधुमक्खियों, जाओ!
|
||||
|
||||
❤️
|
||||
## चुनौती
|
||||
|
||||
इस पाठ में, आपने फैसेट ग्रिड सहित स्कैटरप्लॉट और लाइन ग्रिड के अन्य उपयोगों के बारे में कुछ और सीखा। किसी भिन्न डेटासेट का उपयोग करके फ़ैसिट ग्रिड बनाने के लिए स्वयं को चुनौती दें, शायद एक जिसे आपने इन पाठों से पहले उपयोग किया था। ध्यान दें कि उन्हें बनाने में कितना समय लगता है और इन तकनीकों का उपयोग करके आपको कितने ग्रिड बनाने की आवश्यकता है, इस बारे में आपको सावधान रहने की आवश्यकता है।
|
||||
## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/23)
|
||||
|
||||
## समीक्षा और आत्म अध्ययन
|
||||
|
||||
रेखा भूखंड सरल या काफी जटिल हो सकते हैं। [सीबॉर्न डॉक्युमेंटेशन](https://seaborn.pydata.org/generated/seaborn.lineplot.html) को विभिन्न तरीकों से पढ़कर आप उन्हें बना सकते हैं। डॉक्स में सूचीबद्ध अन्य विधियों के साथ इस पाठ में आपके द्वारा बनाए गए लाइन चार्ट को बढ़ाने का प्रयास करें।
|
||||
## कार्यभार
|
||||
|
||||
[मधुमक्खी के छत्ते में गोता लगाएँ] (असाइनमेंट.एमडी)
|
@ -0,0 +1,10 @@
|
||||
# अपना खुद का कस्टम दृश्य बनाएं
|
||||
|
||||
## निर्देश
|
||||
|
||||
एक सामाजिक नेटवर्क बनाने के लिए इस परियोजना में कोड नमूने का उपयोग करते हुए, अपने स्वयं के सामाजिक इंटरैक्शन के डेटा का मजाक उड़ाएं। आप सोशल मीडिया के अपने उपयोग को मैप कर सकते हैं या अपने परिवार के सदस्यों का आरेख बना सकते हैं। एक दिलचस्प वेब ऐप बनाएं जो सोशल नेटवर्क का एक अनूठा विज़ुअलाइज़ेशन दिखाता है।
|
||||
## रूब्रिक
|
||||
|
||||
अनुकरणीय | पर्याप्त | सुधार की जरूरत
|
||||
--- | --- | -- |
|
||||
एक गिटहब रेपो कोड के साथ प्रस्तुत किया जाता है जो ठीक से चलता है (इसे एक स्थिर वेब ऐप के रूप में तैनात करने का प्रयास करें) और परियोजना को समझाते हुए एक एनोटेट रीडमे है | रेपो ठीक से नहीं चलता है या अच्छी तरह से प्रलेखित नहीं है | रेपो ठीक से नहीं चलता है और अच्छी तरह से प्रलेखित नहीं है
|
@ -0,0 +1,168 @@
|
||||
# सार्थक विज़ुअलाइज़ेशन बनाना
|
||||
|
||||
|![ सकेटच्नोते करने वाला [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/13-MeaningfulViz.png)|
|
||||
|:---:|
|
||||
| सार्थक विज़ुअलाइज़ेशन - _सकेटच्नोते करने वाला [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
> "यदि आप डेटा को काफी देर तक प्रताड़ित करते हैं, तो यह कुछ भी कबूल कर लेगा" - [रोनाल्ड कोसे](https://en.wikiquote.org/wiki/Ronald_Coase)
|
||||
|
||||
एक डेटा वैज्ञानिक के बुनियादी कौशल में से एक सार्थक डेटा विज़ुअलाइज़ेशन बनाने की क्षमता है जो आपके सवालों के जवाब देने में मदद करता है। अपने डेटा की कल्पना करने से पहले, आपको यह सुनिश्चित करने की आवश्यकता है कि इसे साफ और तैयार किया गया है, जैसा कि आपने पिछले पाठों में किया था। उसके बाद, आप यह तय करना शुरू कर सकते हैं कि डेटा को सर्वोत्तम तरीके से कैसे प्रस्तुत किया जाए।
|
||||
|
||||
इस पाठ में, आप समीक्षा करेंगे:
|
||||
|
||||
1. सही चार्ट प्रकार कैसे चुनें
|
||||
2. भ्रामक चार्टिंग से कैसे बचें
|
||||
3. रंग के साथ कैसे काम करें
|
||||
4. पठनीयता के लिए अपने चार्ट को कैसे स्टाइल करें
|
||||
5. एनिमेटेड या 3डी चार्टिंग समाधान कैसे तैयार करें
|
||||
6. क्रिएटिव विज़ुअलाइज़ेशन कैसे बनाएं
|
||||
|
||||
## [व्याख्यान पूर्व प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/24)
|
||||
|
||||
## सही चार्ट प्रकार चुनें
|
||||
|
||||
पिछले पाठों में, आपने चार्टिंग के लिए Matplotlib और Seaborn का उपयोग करके सभी प्रकार के दिलचस्प डेटा विज़ुअलाइज़ेशन बनाने का प्रयोग किया था। सामान्य तौर पर, आप इस तालिका का उपयोग करके पूछे जाने वाले प्रश्न के लिए [सही प्रकार का चार्ट](https://chartio.com/learn/charts/how-to-select-a-data-vizualization/) चुन सकते हैं:
|
||||
|
||||
|
||||
| आपको चाहिए: | आपको उपयोग करना चाहिए: |
|
||||
| -------------------------- | ----------------------------- |
|
||||
| समय के साथ डेटा रुझान दिखाएं | रेखा |
|
||||
| श्रेणियों की तुलना करें | बार, पाई |
|
||||
| योग की तुलना करें | पाई, स्टैक्ड बार |
|
||||
| रिश्ते दिखाएँ | तितर बितर, रेखा, पहलू, दोहरी रेखा |
|
||||
| वितरण दिखाएं | तितर बितर, हिस्टोग्राम, बॉक्स |
|
||||
| अनुपात दिखाएँ | पाई, डोनट, वफ़ल |
|
||||
|
||||
> ✅ आपके डेटा की बनावट के आधार पर, आपको इसका समर्थन करने के लिए दिए गए चार्ट को प्राप्त करने के लिए इसे टेक्स्ट से न्यूमेरिक में बदलने की आवश्यकता हो सकती है।
|
||||
|
||||
## धोखे से बचें
|
||||
|
||||
यहां तक कि अगर एक डेटा वैज्ञानिक सही डेटा के लिए सही चार्ट चुनने के लिए सावधान है, तो ऐसे कई तरीके हैं जिनसे डेटा को एक बिंदु साबित करने के लिए प्रदर्शित किया जा सकता है, अक्सर डेटा को कम करने की कीमत पर। भ्रामक चार्ट और इन्फोग्राफिक्स के कई उदाहरण हैं!
|
||||
|
||||
[![हाउ चार्ट्स लाइ बाय अल्बर्टो काहिरा](./images/tornado.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How चार्ट्स झूठ")
|
||||
|
||||
> भ्रामक चार्ट के बारे में एक सम्मेलन वार्ता के लिए ऊपर की छवि पर क्लिक करें
|
||||
|
||||
यह चार्ट दिनांक के आधार पर सत्य के विपरीत दिखाने के लिए X अक्ष को उलट देता है:
|
||||
|
||||
![खराब चार्ट 1](images/bad-chart-1.png)
|
||||
|
||||
[यह चार्ट](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) और भी भ्रामक है, क्योंकि यह निष्कर्ष निकालने के लिए सही है कि, समय के साथ, विभिन्न काउंटियों में COVID मामलों में गिरावट आई है। वास्तव में, यदि आप तिथियों को करीब से देखते हैं, तो आप पाते हैं कि उन्हें उस भ्रामक गिरावट की प्रवृत्ति देने के लिए पुनर्व्यवस्थित किया गया है।
|
||||
|
||||
![खराब चार्ट 2](images/bad-chart-2.jpg)
|
||||
|
||||
यह कुख्यात उदाहरण धोखा देने के लिए रंग और एक फ़्लिप वाई अक्ष का उपयोग करता है: यह निष्कर्ष निकालने के बजाय कि बंदूक के अनुकूल कानून के पारित होने के बाद बंदूक की मौत बढ़ गई, वास्तव में आंख को यह सोचने के लिए मूर्ख बनाया जाता है कि विपरीत सच है:
|
||||
|
||||
![खराब चार्ट 3](images/bad-chart-3.jpg)
|
||||
|
||||
यह अजीब चार्ट दिखाता है कि कैसे अनुपात में हेरफेर किया जा सकता है, उल्लसित प्रभाव के लिए:
|
||||
|
||||
![खराब चार्ट 4](images/bad-chart-4.jpg)
|
||||
|
||||
अतुलनीय की तुलना करना अभी तक एक और छायादार चाल है। एक [अद्भुत वेब साइट](https://tylervigen.com/spurious-correlations) सभी 'नकली सहसंबंध' के बारे में है जो मेन में तलाक की दर और मार्जरीन की खपत जैसी 'तथ्यों' से संबंधित चीजों को प्रदर्शित करती है। एक Reddit समूह डेटा का [बदसूरत उपयोग](https://www.reddit.com/r/dataisugly/top/?t=all) भी एकत्र करता है।
|
||||
|
||||
यह समझना महत्वपूर्ण है कि भ्रामक चार्ट द्वारा आंख को कितनी आसानी से मूर्ख बनाया जा सकता है। भले ही डेटा वैज्ञानिक की मंशा अच्छी हो, लेकिन खराब प्रकार के चार्ट का चुनाव, जैसे कि बहुत अधिक श्रेणियां दिखाने वाला पाई चार्ट, भ्रामक हो सकता है।
|
||||
|
||||
## रंग
|
||||
|
||||
आपने ऊपर 'फ्लोरिडा गन हिंसा' चार्ट में देखा कि कैसे रंग चार्ट को अर्थ की एक अतिरिक्त परत प्रदान कर सकते हैं, विशेष रूप से वे जो मैटप्लोटलिब और सीबॉर्न जैसे पुस्तकालयों का उपयोग करके डिज़ाइन नहीं किए गए हैं जो विभिन्न सत्यापित रंग पुस्तकालयों और पट्टियों के साथ आते हैं। अगर आप हाथ से चार्ट बना रहे हैं, तो [रंग सिद्धांत](https://colormatters.com/color-and-design/basic-color-theory) का थोड़ा अध्ययन करें
|
||||
|
||||
> ✅ चार्ट डिजाइन करते समय सावधान रहें, कि एक्सेसिबिलिटी विज़ुअलाइज़ेशन का एक महत्वपूर्ण पहलू है। आपके कुछ उपयोगकर्ता कलर ब्लाइंड हो सकते हैं - क्या आपका चार्ट दृष्टिबाधित उपयोगकर्ताओं के लिए अच्छा प्रदर्शन करता है?
|
||||
|
||||
अपने चार्ट के लिए रंग चुनते समय सावधान रहें, क्योंकि रंग वह अर्थ बता सकता है जिसका आप इरादा नहीं कर सकते। ऊपर 'ऊंचाई' चार्ट में 'गुलाबी महिलाएं' एक विशिष्ट 'स्त्री' अर्थ व्यक्त करती हैं जो चार्ट की विचित्रता को जोड़ती है।
|
||||
|
||||
जबकि [रंग अर्थ](https://colormatters.com/color-symbolism/the-meanings-of-colors) दुनिया के अलग-अलग हिस्सों में अलग-अलग हो सकते हैं, और उनकी छाया के अनुसार अर्थ में परिवर्तन होता है। सामान्यतया, रंग अर्थों में शामिल हैं:
|
||||
|
||||
| रंग | अर्थ |
|
||||
| ------ | ------------------- |
|
||||
| लाल | शक्ति |
|
||||
| नीला | भरोसा, वफादारी |
|
||||
| पीला | खुशी, सावधानी |
|
||||
| हरा | पारिस्थितिकी, भाग्य, ईर्ष्या |
|
||||
| बैंगनी | खुशी |
|
||||
| नारंगी | कंपन |
|
||||
|
||||
यदि आपको कस्टम रंगों के साथ चार्ट बनाने का काम सौंपा गया है, तो सुनिश्चित करें कि आपके चार्ट दोनों पहुंच योग्य हैं और आपके द्वारा चुना गया रंग उस अर्थ से मेल खाता है जिसे आप व्यक्त करने का प्रयास कर रहे हैं।
|
||||
|
||||
## पठनीयता के लिए अपने चार्ट को स्टाइल करना
|
||||
|
||||
यदि चार्ट पढ़ने योग्य नहीं हैं तो वे अर्थपूर्ण नहीं हैं! अपने डेटा के साथ अच्छी तरह से स्केल करने के लिए अपने चार्ट की चौड़ाई और ऊंचाई को स्टाइल करने पर विचार करने के लिए कुछ समय निकालें। यदि एक चर (जैसे सभी ५० राज्यों) को प्रदर्शित करने की आवश्यकता है, तो यदि संभव हो तो उन्हें Y अक्ष पर लंबवत रूप से दिखाएं ताकि क्षैतिज-स्क्रॉलिंग चार्ट से बचा जा सके।
|
||||
|
||||
अपनी कुल्हाड़ियों को लेबल करें, यदि आवश्यक हो तो एक किंवदंती प्रदान करें, और डेटा की बेहतर समझ के लिए टूलटिप्स प्रदान करें।
|
||||
|
||||
यदि आपका डेटा X अक्ष पर टेक्स्टुअल और वर्बोज़ है, तो आप बेहतर पठनीयता के लिए टेक्स्ट को एंगल कर सकते हैं। [Matplotlib](https://matplotlib.org/stable/tutorials/toolkits/mplot3d.html) ३डी प्लॉटिंग की पेशकश करता है, अगर आप डेटा इसका समर्थन करते हैं। परिष्कृत डेटा विज़ुअलाइज़ेशन `mpl_toolkits.mplot3d` का उपयोग करके तैयार किया जा सकता है।
|
||||
|
||||
![3d plots](images/3d.png)
|
||||
|
||||
## एनिमेशन और 3डी चार्ट डिस्प्ले
|
||||
|
||||
आज कुछ बेहतरीन डेटा विज़ुअलाइज़ेशन एनिमेटेड हैं। शर्ली वू ने डी3 के साथ अद्भुत काम किए हैं, जैसे '[फिल्म फूल](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', जहां प्रत्येक फूल एक फिल्म का एक दृश्य है। गार्जियन के लिए एक और उदाहरण 'बस्स्ड आउट' है, ग्रीन्सॉक और डी3 के साथ विज़ुअलाइज़ेशन के संयोजन के साथ एक इंटरैक्टिव अनुभव और एक स्क्रॉलीटेलिंग आलेख प्रारूप यह दिखाने के लिए कि एनवाईसी लोगों को शहर से बाहर निकालकर अपनी बेघर समस्या को कैसे संभालता है।
|
||||
|
||||
![busing](images/busing.png)
|
||||
|
||||
> "बस्स्ड आउट: हाउ अमेरिका मूव्स इट्स बेघर" से [अभिभावक](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). नादिह ब्रेमर और शर्ली वू द्वारा विज़ुअलाइज़ेशन
|
||||
|
||||
हालांकि यह पाठ इन शक्तिशाली विज़ुअलाइज़ेशन लाइब्रेरी को सिखाने के लिए पर्याप्त नहीं है, फिर भी एक एनिमेटेड सोशल नेटवर्क के रूप में "डेंजरस लाइजन्स" पुस्तक के विज़ुअलाइज़ेशन को प्रदर्शित करने के लिए लाइब्रेरी का उपयोग करके Vue.js ऐप में D3 पर अपना हाथ आज़माएं।
|
||||
|
||||
> "लेस लिआइसन्स डेंजरियस" एक पत्र-पत्रिका उपन्यास है, या पत्रों की एक श्रृंखला के रूप में प्रस्तुत उपन्यास है। 1782 में चोडरलोस डी लैक्लोस द्वारा लिखित, यह 18 वीं शताब्दी के अंत में फ्रांसीसी अभिजात वर्ग के दो द्वंद्वयुद्ध नायक, विकोमेट डी वालमोंट और मार्क्विस डी मेर्टुइल के शातिर, नैतिक रूप से दिवालिया सामाजिक युद्धाभ्यास की कहानी कहता है। दोनों अंत में अपने निधन से मिलते हैं लेकिन सामाजिक क्षति का एक बड़ा सौदा किए बिना नहीं। उपन्यास उनके मंडलियों में विभिन्न लोगों को लिखे गए पत्रों की एक श्रृंखला के रूप में सामने आता है, जो बदला लेने की साजिश रच रहा है या बस परेशानी पैदा कर रहा है। कथा के प्रमुख सरगनाओं को नेत्रहीन रूप से खोजने के लिए इन पत्रों का एक विज़ुअलाइज़ेशन बनाएं।
|
||||
|
||||
आप एक वेब ऐप पूरा करेंगे जो इस सोशल नेटवर्क का एक एनिमेटेड दृश्य प्रदर्शित करेगा। यह एक पुस्तकालय का उपयोग करता है जिसे Vue.js और D3 का उपयोग करके [एक नेटवर्क का दृश्य](https://github.com/emiliorizzo/vue-d3-network) बनाने के लिए बनाया गया था। जब ऐप चल रहा हो, तो आप डेटा को इधर-उधर करने के लिए स्क्रीन पर चारों ओर नोड्स खींच सकते हैं।
|
||||
![liaisons](images/liaisons.png)
|
||||
|
||||
## प्रोजेक्ट: D3.js का उपयोग करके नेटवर्क दिखाने के लिए एक चार्ट बनाएं
|
||||
|
||||
> इस पाठ फ़ोल्डर में एक `solution` फ़ोल्डर शामिल है जहां आप अपने संदर्भ के लिए पूर्ण परियोजना ढूंढ सकते हैं।
|
||||
|
||||
1. स्टार्टर फोल्डर के रूट में README.md फाइल में दिए गए निर्देशों का पालन करें। सुनिश्चित करें कि आपके प्रोजेक्ट की निर्भरता स्थापित करने से पहले आपके मशीन पर NPM और Node.js चल रहे हैं।
|
||||
|
||||
2. `starter/src` फ़ोल्डर खोलें। आपको एक `assets` फ़ोल्डर मिलेगा जहां आप उपन्यास के सभी अक्षरों वाली एक .json फ़ाइल ढूंढ सकते हैं, जिसमें 'से' और 'प्रेषक' लिखावट हो।
|
||||
|
||||
3. विज़ुअलाइज़ेशन को सक्षम करने के लिए कोड को `components/Nodes.vue` में पूरा करें। `createLinks()` नामक विधि की तलाश करें और निम्नलिखित नेस्टेड लूप जोड़ें।
|
||||
|
||||
अक्षरों के लिए 'से' और 'से' डेटा कैप्चर करने के लिए .json ऑब्जेक्ट के माध्यम से लूप करें और `links` ऑब्जेक्ट का निर्माण करें ताकि विज़ुअलाइज़ेशन लाइब्रेरी इसका उपभोग कर सके:
|
||||
|
||||
```javascript
|
||||
// अक्षरों के माध्यम से लूप
|
||||
let f = 0;
|
||||
let t = 0;
|
||||
for (var i = 0; i < letters.length; i++) {
|
||||
for (var j = 0; j < characters.length; j++) {
|
||||
|
||||
if (characters[j] == letters[i].from) {
|
||||
f = j;
|
||||
}
|
||||
if (characters[j] == letters[i].to) {
|
||||
t = j;
|
||||
}
|
||||
}
|
||||
this.links.push({ sid: f, tid: t });
|
||||
}
|
||||
```
|
||||
|
||||
टर्मिनल से अपना ऐप चलाएं (एनपीएम रन सर्व करें) और विज़ुअलाइज़ेशन का आनंद लें!
|
||||
|
||||
## चुनौती
|
||||
|
||||
भ्रामक विज़ुअलाइज़ेशन खोजने के लिए इंटरनेट का भ्रमण करें. लेखक उपयोगकर्ता को कैसे मूर्ख बनाता है, और क्या यह जानबूझकर किया गया है? विज़ुअलाइज़ेशन को यह दिखाने के लिए सही करने का प्रयास करें कि उन्हें कैसा दिखना चाहिए।
|
||||
|
||||
## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/25)
|
||||
|
||||
## समीक्षा और आत्म अध्ययन
|
||||
|
||||
भ्रामक डेटा विज़ुअलाइज़ेशन के बारे में पढ़ने के लिए यहां कुछ लेख दिए गए हैं:
|
||||
|
||||
https://gizmodo.com/how-to-lie-with-data-visualization-1563576606
|
||||
|
||||
http://ixd.prattsi.org/2017/12/visual-lies-usability-in-deceptive-data-visualizations/
|
||||
|
||||
ऐतिहासिक संपत्तियों और कलाकृतियों के लिए इन रुचि विज़ुअलाइज़ेशन पर एक नज़र डालें:
|
||||
|
||||
https://handbook.pubpub.org/
|
||||
|
||||
इस लेख को देखें कि एनीमेशन आपके विज़ुअलाइज़ेशन को कैसे बढ़ा सकता है:
|
||||
|
||||
https://medium.com/@EvanSinar/use-animation-to-supercharge-data-visualization-cd905a882ad4
|
||||
|
||||
## कार्यभार
|
||||
|
||||
[अपना खुद का कस्टम विज़ुअलाइज़ेशन बनाएं](assignment.hi.md)
|
@ -0,0 +1,33 @@
|
||||
# विज़ुअलाइज़ेशन
|
||||
|
||||
![लैवेंडर फूल पर मधुमक्खी](../images/bee.jpg)
|
||||
> <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">
|
||||
जेना ली</a> द्वारा फोटो <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash
|
||||
पर </a>
|
||||
|
||||
|
||||
डेटा को विज़ुअलाइज़ करना डेटा साइंटिस्ट के सबसे महत्वपूर्ण कार्यों में से एक है। छवियां 1000 शब्दों के लायक हैं, और एक विज़ुअलाइज़ेशन आपको अपने डेटा के सभी प्रकार के दिलचस्प हिस्सों जैसे कि स्पाइक्स, आउटलेयर, ग्रुपिंग, प्रवृत्ति, और बहुत कुछ की पहचान करने में मदद कर सकता है, जो आपको उस कहानी को समझने में मदद कर सकता है जिसे आपका डेटा बताने की कोशिश कर रहा है।
|
||||
|
||||
इन पांच पाठों में, आप प्रकृति से प्राप्त डेटा का पता लगाएंगे और विभिन्न तकनीकों का उपयोग करके दिलचस्प और सुंदर विज़ुअलाइज़ेशन बनाएंगे।
|
||||
### Topics
|
||||
|
||||
1. [विज़ुअलाइज़िंग मात्रा](09-visualization-quantities/translations/README.hi.mdREADME.hi.md)
|
||||
1. [विज़ुअलाइज़िंग वितरण](10-visualization-distributions/translations/README.hi.md)
|
||||
1. [विज़ुअलाइज़िंग अनुपात](11-visualization-proportions/translations/README.hi.md)
|
||||
1. [रिश्तों की कल्पना](12-visualization-relationships/translations/README.hi.md)
|
||||
1. [सार्थक विज़ुअलाइज़ेशन बनाना](13-meaningful-visualizations/translations/README.hi.md)
|
||||
|
||||
### Credits
|
||||
|
||||
ये विज़ुअलाइज़ेशन पाठ 🌸 [Jen Looper](https://twitter.com/jenlooper) के साथ लिखे गए थे
|
||||
|
||||
🍯 यूएस हनी प्रोडक्शन के लिए डेटा [कागल](https://www.kaggle.com/jessicali9530/honey-production) पर जेसिका ली के प्रोजेक्ट से लिया गया है। [डेटा](https://usda.library.cornell.edu/concern/publications/rn301137d) [यूनाइटेड स्टेट्स डिपार्टमेंट ऑफ़ एग्रीकल्चर](https://www.nass.usda.gov/About_NASS/index.php) से लिया गया है।
|
||||
|
||||
🍄 मशरूम के लिए डेटा भी हैटरस डनटन द्वारा संशोधित [कागल](https://www.kaggle.com/hatterasdunton/mushroom-classification-updated-dataset) से प्राप्त किया जाता है। इस डेटासेट में एगारिकस और लेपियोटा परिवार में ग्रील्ड मशरूम की 23 प्रजातियों के अनुरूप काल्पनिक नमूनों का विवरण शामिल है। द ऑडबोन सोसाइटी फील्ड गाइड टू नॉर्थ अमेरिकन मशरूम (1981) से लिया गया मशरूम। यह डेटासेट 1987 में UCI ML 27 को दान किया गया था।
|
||||
|
||||
🦆 मिनेसोटा बर्ड्स के लिए डेटा [कागल](https://www.kaggle.com/hannahcollins/minnesota-birds) से है, जिसे हन्ना कॉलिन्स द्वारा [विकिपीडिया](https://en.wikipedia.org/wiki/List_of_birds_of_Minnesota) से स्क्रैप किया गया है।
|
||||
|
||||
ये सभी डेटासेट [CC0: Creative Commons](https://creativecommons.org/publicdomain/zero/1.0/) के रूप में लाइसेंसीकृत हैं।
|
||||
|
||||
|
||||
|
@ -0,0 +1,31 @@
|
||||
# Visualizações
|
||||
|
||||
![Uma abelha em uma flor de lavanda](./../images/bee.jpg)
|
||||
> Foto por <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> em <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
|
||||
|
||||
Visualizar dados é uma das tarefas mais importantes para um cientista de dados. Uma imagem vale mais que 1000 palavras, e uma visualização pode te ajudar a identificar todo tipo de coisa interessante nos seus dados, como picos, outliers, agrupamentos, tendências, e mais, que podem te ajudar a entender a história que seus dados estão tentando contar.
|
||||
|
||||
Nessas cinco aulas, você irá explorar dados vindos da natureza e criar visualizações bonitas e interessantes usando várias técnicas.
|
||||
|
||||
### Tópicos
|
||||
|
||||
1. [Visualizando quantidades](../09-visualization-quantities/translations/README.pt-br.md)
|
||||
1. [Visualizando distribuições](../10-visualization-distributions/translations/README.pt-br.md)
|
||||
1. [Visualizando proporções](../11-visualization-proportions/README.md) (ainda não traduzido)
|
||||
1. [Visualizando relações](../12-visualization-relationships/README.md) (ainda não traduzido)
|
||||
1. [Criando visualizações relevantes](../13-meaningful-visualizations/README.md) (ainda não traduzido)
|
||||
|
||||
### Créditos
|
||||
|
||||
Essas aulas foram escritas com 🌸 por [Jen Looper](https://twitter.com/jenlooper)
|
||||
|
||||
🍯 Os dados de produção de mel nos EUA são provenientes do projeto de Jessica Li no [Kaggle](https://www.kaggle.com/jessicali9530/honey-production). Eles são derivados dos [dados](https://usda.library.cornell.edu/concern/publications/rn301137d) disponibilizados pelo [Departamento de Agricultura dos Estados Unidos](https://www.nass.usda.gov/About_NASS/index.php).
|
||||
|
||||
🍄 Os dados dos cogumelos também são provenientes do [Kaggle](https://www.kaggle.com/hatterasdunton/mushroom-classification-updated-dataset), e foram revisados por Hatteras Dunton. Esse dataset inclui descrições de amostras hipotéticas que correspondem a 23 espécies de cogumelos lamelados das famílias Agaricus e Lepiota. Os cogumelos foram retirados do livro The Audubon Society Field Guide to North American Mushrooms (1981). Esse dataset foi doado para a UCI ML 27 em 1987.
|
||||
|
||||
🦆 Os dados de aves de Minnesota também são provenientes do [Kaggle](https://www.kaggle.com/hannahcollins/minnesota-birds), e foram raspados (scraped) da [Wikipedia](https://en.wikipedia.org/wiki/List_of_birds_of_Minnesota) por Hannah Collins.
|
||||
|
||||
Todos esses datasets estão licenciados sob [CC0: Creative Commons](https://creativecommons.org/publicdomain/zero/1.0/).
|
||||
|
||||
|
||||
|
@ -0,0 +1,211 @@
|
||||
# डेटा विज्ञान के जीवनचक्र: संचार
|
||||
|
||||
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev)](https://github.com/Heril18/Data-Science-For-Beginners/raw/main/sketchnotes/16-Communicating.png)|
|
||||
|:---:|
|
||||
| डेटा विज्ञान के जीवनचक्र: संचार - _[@nitya](https://twitter.com/nitya) द्वारा स्केचनोट_|
|
||||
|
||||
## [प्री-लेक्चर क्विज ](https://red-water-0103e7a0f.azurestaticapps.net/quiz/30)
|
||||
ऊपर दिए गए प्री-लेक्चर क्विज़ के साथ क्या करना है, इसके बारे में अपने ज्ञान का परीक्षण करें!
|
||||
### संचार क्या है?
|
||||
आइए इस पाठ की शुरुआत यह परिभाषित करते हुए करें कि संचार के साधन क्या हैं। **संचार करना सूचनाओं को संप्रेषित करना या उनका आदान-प्रदान करना है।** सूचना विचार, विचार, भावनाएं, संदेश, गुप्त संकेत, डेटा हो सकती है - कुछ भी जो एक **_प्रेषक_** (सूचना भेजने वाला) एक **_रिसीवर_** चाहता है ( जानकारी प्राप्त करने वाला कोई व्यक्ति) समझने के लिए। इस पाठ में, हम प्रेषकों को संचारक के रूप में और रिसीवर को श्रोता के रूप में संदर्भित करेंगे।
|
||||
|
||||
### डेटा संचार और कहानी सुनाना
|
||||
हम समझते हैं कि संचार करते समय, उद्देश्य सूचना देना या आदान-प्रदान करना है। लेकिन डेटा का संचार करते समय, आपका उद्देश्य केवल अपने दर्शकों तक संख्या पहुँचाना नहीं होना चाहिए। आपका उद्देश्य एक ऐसी कहानी को संप्रेषित करना होना चाहिए जो आपके डेटा द्वारा सूचित हो - प्रभावी डेटा संचार और कहानी सुनाना साथ-साथ चलते हैं। आपके दर्शकों को आपके द्वारा दी गई संख्या की तुलना में आपके द्वारा बताई गई कहानी को याद रखने की अधिक संभावना है। इस पाठ में बाद में, हम कुछ ऐसे तरीकों के बारे में जानेंगे जिनसे आप अपने डेटा को अधिक प्रभावी ढंग से संप्रेषित करने के लिए कहानी कहने का उपयोग कर सकते हैं।
|
||||
|
||||
### संचार के प्रकार
|
||||
इस पूरे पाठ में दो अलग-अलग प्रकार के संचार पर चर्चा की जाएगी, वन-वे कम्युनिकेशन और टू-वे कम्युनिकेशन।
|
||||
|
||||
**एक तरफा संचार** तब होता है जब कोई प्रेषक बिना किसी प्रतिक्रिया या प्रतिक्रिया के किसी प्राप्तकर्ता को सूचना भेजता है। हम हर दिन एक-तरफ़ा संचार के उदाहरण देखते हैं - बल्क/मास ईमेल में, जब समाचार सबसे हाल की कहानियाँ देता है, या यहाँ तक कि जब कोई टेलीविज़न विज्ञापन आता है और आपको सूचित करता है कि उनका उत्पाद बढ़िया क्यों है। इनमें से प्रत्येक उदाहरण में, प्रेषक सूचनाओं के आदान-प्रदान की मांग नहीं कर रहा है। वे केवल सूचना देना या देना चाहते हैं।
|
||||
|
||||
**दोतरफा संचार** तब होता है जब सभी शामिल पक्ष प्रेषक और प्राप्तकर्ता दोनों के रूप में कार्य करते हैं। एक प्रेषक एक रिसीवर से संचार करके शुरू करेगा, और रिसीवर प्रतिक्रिया या प्रतिक्रिया प्रदान करेगा। जब हम संचार के बारे में बात करते हैं तो हम परंपरागत रूप से दोतरफा संचार के बारे में सोचते हैं। हम आम तौर पर बातचीत में लगे लोगों के बारे में सोचते हैं - या तो व्यक्तिगत रूप से, या फोन कॉल, सोशल मीडिया या टेक्स्ट संदेश पर।
|
||||
|
||||
डेटा संचार करते समय, ऐसे मामले होंगे जहां आप एकतरफा संचार का उपयोग कर रहे होंगे (एक सम्मेलन में प्रस्तुत करने के बारे में सोचें, या एक बड़े समूह के लिए जहां सीधे प्रश्न नहीं पूछे जाएंगे) और ऐसे मामले होंगे जहां आप दो का उपयोग करेंगे -वे संचार (खरीद-इन के लिए कुछ हितधारकों को मनाने के लिए डेटा का उपयोग करने के बारे में सोचें, या किसी टीम के साथी को यह समझाने के लिए कि कुछ नया बनाने में समय और प्रयास खर्च किया जाना चाहिए)।
|
||||
|
||||
# प्रभावी संचार
|
||||
|
||||
### एक संचारक के रूप में आपकी जिम्मेदारियां
|
||||
संचार करते समय, यह सुनिश्चित करना आपका काम है कि आपका रिसीवर वह जानकारी ले रहा है जिसे आप चाहते हैं कि वह ले जाए। जब आप डेटा का संचार कर रहे होते हैं, तो आप नहीं चाहते कि आपके रिसीवर नंबर ले लें, आप चाहते हैं कि आपके रिसीवर आपके डेटा द्वारा सूचित एक कहानी ले लें। एक अच्छा डेटा कम्युनिकेटर एक अच्छा कहानीकार होता है।
|
||||
|
||||
आप डेटा के साथ कहानी कैसे सुनाते हैं? अनंत तरीके हैं - लेकिन नीचे 6 हैं जिनके बारे में हम इस पाठ में बात करेंगे।
|
||||
1. अपने दर्शकों, अपने माध्यम और अपनी संचार पद्धति को समझें
|
||||
2. मन में अंत के साथ शुरू करें
|
||||
3. इसे एक वास्तविक कहानी की तरह देखें
|
||||
4. सार्थक शब्दों और वाक्यांशों का प्रयोग करें
|
||||
5. भावना का प्रयोग करें
|
||||
|
||||
इनमें से प्रत्येक रणनीति को नीचे अधिक विस्तार से समझाया गया है।
|
||||
|
||||
### 1. अपने दर्शकों, अपने चैनल और अपनी संचार पद्धति को समझें
|
||||
जिस तरह से आप परिवार के सदस्यों के साथ संवाद करते हैं, वह आपके दोस्तों के साथ संवाद करने के तरीके से अलग होने की संभावना है। आप शायद अलग-अलग शब्दों और वाक्यांशों का उपयोग करते हैं जिन्हें आप जिन लोगों से बात कर रहे हैं, उनके समझने की अधिक संभावना है। डेटा संचार करते समय आपको वही दृष्टिकोण अपनाना चाहिए। इस बारे में सोचें कि आप किससे संवाद कर रहे हैं। उनके लक्ष्यों और उस संदर्भ के बारे में सोचें जो उनके पास उस स्थिति के आसपास है जो आप उन्हें समझा रहे हैं।
|
||||
|
||||
आप संभावित रूप से अपने अधिकांश दर्शकों को एक श्रेणी में समूहित कर सकते हैं। एक _Harvard Business Review_ लेख में, “[डेटा के साथ कहानी कैसे बताएं](http://blogs.hbr.org/2013/04/how-to-tell-a-story-with-data/),” डेल कार्यकारी रणनीतिकार जिम स्टिकलेदर दर्शकों की पांच श्रेणियों की पहचान करता है।
|
||||
|
||||
- **नौसिखिया**: विषय के लिए पहला प्रदर्शन, लेकिन नहीं चाहता
|
||||
अति सरलीकरण
|
||||
- **सामान्यवादी**: विषय से अवगत हैं, लेकिन एक सिंहावलोकन की तलाश में हैं
|
||||
समझ और प्रमुख विषय
|
||||
- **प्रबंधकीय**: पेचीदगियों की गहन, कार्रवाई योग्य समझ और
|
||||
विस्तार तक पहुंच के साथ अंतर्संबंध
|
||||
- **विशेषज्ञ**: अधिक अन्वेषण और खोज और कम कहानी कहने के साथ
|
||||
बहुत अच्छी जानकारी
|
||||
- **कार्यकारी**: के पास केवल के महत्व और निष्कर्ष निकालने का समय है
|
||||
भारित संभावनाएं
|
||||
|
||||
ये श्रेणियां आपके दर्शकों को डेटा प्रस्तुत करने के तरीके की जानकारी दे सकती हैं।
|
||||
|
||||
अपने दर्शकों की श्रेणी के बारे में सोचने के अलावा, आपको उस चैनल पर भी विचार करना चाहिए जिसका उपयोग आप अपने दर्शकों के साथ संवाद करने के लिए कर रहे हैं। यदि आप एक मेमो या ईमेल लिख रहे हैं या एक बैठक कर रहे हैं या एक सम्मेलन में प्रस्तुत कर रहे हैं तो आपका दृष्टिकोण थोड़ा अलग होना चाहिए।
|
||||
|
||||
अपने दर्शकों को समझने के शीर्ष पर, यह जानना कि आप उनके साथ कैसे संवाद करेंगे (वन-वे कम्युनिकेशन या टू-वे का उपयोग करना) भी महत्वपूर्ण है।
|
||||
|
||||
यदि आप अधिकांश नौसिखिए दर्शकों के साथ संवाद कर रहे हैं और आप एकतरफा संचार का उपयोग कर रहे हैं, तो आपको पहले दर्शकों को शिक्षित करना होगा और उन्हें उचित संदर्भ देना होगा। फिर आपको अपना डेटा उनके सामने पेश करना चाहिए और उन्हें बताना चाहिए कि आपके डेटा का क्या मतलब है और आपका डेटा क्यों मायने रखता है। इस उदाहरण में, आप स्पष्टता ड्राइविंग पर केंद्रित लेजर होना चाह सकते हैं, क्योंकि आपके दर्शक आपसे कोई सीधा प्रश्न नहीं पूछ पाएंगे।
|
||||
|
||||
यदि आप बहुसंख्यक प्रबंधकीय दर्शकों के साथ संवाद कर रहे हैं और आप दो-तरफ़ा संचार का उपयोग कर रहे हैं, तो संभवतः आपको अपने दर्शकों को शिक्षित करने या उन्हें अधिक संदर्भ प्रदान करने की आवश्यकता नहीं होगी। आप सीधे उस डेटा पर चर्चा करने में सक्षम हो सकते हैं जिसे आपने एकत्र किया है और यह क्यों मायने रखता है। हालांकि इस परिदृश्य में, आपको समय और अपनी प्रस्तुति को नियंत्रित करने पर ध्यान केंद्रित करना चाहिए। दो-तरफा संचार का उपयोग करते समय (विशेषकर एक प्रबंधकीय दर्शकों के साथ जो "विस्तार तक पहुंच के साथ पेचीदगियों और अंतर्संबंधों की कार्रवाई योग्य समझ" की तलाश कर रहे हैं) प्रश्न आपकी बातचीत के दौरान पॉप अप हो सकते हैं जो चर्चा को उस दिशा में ले जा सकते हैं जो संबंधित नहीं है वह कहानी जिसे आप बताने की कोशिश कर रहे हैं। जब ऐसा होता है, तो आप कार्रवाई कर सकते हैं और अपनी कहानी के साथ चर्चा को वापस ट्रैक पर ले जा सकते हैं।
|
||||
|
||||
|
||||
### 2. अंत को ध्यान में रखकर शुरू करें
|
||||
अंत को ध्यान में रखकर शुरू करने का मतलब है कि आप अपने दर्शकों के साथ संवाद शुरू करने से पहले अपने इच्छित टेकअवे को समझना। आप अपने दर्शकों को समय से पहले क्या लेना चाहते हैं, इस बारे में विचारशील होने से आपको एक ऐसी कहानी तैयार करने में मदद मिल सकती है जिसका आपके दर्शक अनुसरण कर सकें। अंत को ध्यान में रखकर शुरू करना एकतरफा संचार और दोतरफा संचार दोनों के लिए उपयुक्त है।
|
||||
|
||||
आप अंत को ध्यान में रखकर कैसे शुरू करते हैं? अपने डेटा को संप्रेषित करने से पहले, अपने मुख्य निष्कर्ष लिख लें। फिर, जिस तरह से आप कहानी तैयार कर रहे हैं, जिस तरह से आप अपने डेटा के साथ बताना चाहते हैं, अपने आप से पूछें, "यह मेरे द्वारा बताई जा रही कहानी में कैसे एकीकृत होता है?"
|
||||
|
||||
सावधान रहें - अंत को ध्यान में रखते हुए शुरुआत करना आदर्श है, आप केवल उस डेटा को संप्रेषित नहीं करना चाहते जो आपके इच्छित टेकअवे का समर्थन करता है। ऐसा करने को चेरी-पिकिंग कहा जाता है, जो तब होता है जब एक संचारक केवल उस डेटा का संचार करता है जो उस बिंदु का समर्थन करता है जिसे वे बनाने के लिए बांध रहे हैं और अन्य सभी डेटा को अनदेखा करते हैं।
|
||||
|
||||
यदि आपके द्वारा एकत्र किया गया सभी डेटा स्पष्ट रूप से आपके इच्छित टेकअवे का समर्थन करता है, तो बढ़िया। लेकिन अगर आपके द्वारा एकत्र किया गया डेटा है जो आपके टेकअवे का समर्थन नहीं करता है, या यहां तक कि आपके प्रमुख टेकअवे के खिलाफ तर्क का समर्थन करता है, तो आपको उस डेटा को भी संप्रेषित करना चाहिए। अगर ऐसा होता है, तो अपने दर्शकों के साथ खुलकर बात करें और उन्हें बताएं कि आप अपनी कहानी के साथ बने रहने का विकल्प क्यों चुन रहे हैं, भले ही सभी डेटा इसका समर्थन न करें।
|
||||
|
||||
|
||||
### 3. इसे एक वास्तविक कहानी की तरह देखें
|
||||
एक पारंपरिक कहानी 5 चरणों में होती है। आपने इन चरणों को एक्सपोज़िशन, राइज़िंग एक्शन, क्लाइमेक्स, फॉलिंग एक्शन और डिनाउंसमेंट के रूप में व्यक्त किया होगा। या संदर्भ, संघर्ष, चरमोत्कर्ष, समापन, निष्कर्ष को याद रखना आसान है। अपने डेटा और अपनी कहानी को संप्रेषित करते समय, आप एक समान दृष्टिकोण अपना सकते हैं।
|
||||
|
||||
आप संदर्भ के साथ शुरू कर सकते हैं, मंच सेट कर सकते हैं और सुनिश्चित कर सकते हैं कि आपके दर्शक एक ही पृष्ठ पर हैं। फिर संघर्ष का परिचय दें। आपको यह डेटा एकत्र करने की आवश्यकता क्यों पड़ी? आप किन समस्याओं को हल करना चाह रहे थे? इसके बाद क्लाइमेक्स. डेटा क्या है? डेटा का क्या मतलब है? डेटा हमें कौन से समाधान बताता है जिसकी हमें आवश्यकता है? फिर आप समापन पर पहुंच जाते हैं, जहां आप समस्या को दोहरा सकते हैं, और प्रस्तावित समाधान। अंत में, हम इस निष्कर्ष पर पहुँचते हैं, जहाँ आप अपने मुख्य निष्कर्षों को संक्षेप में बता सकते हैं और अगले कदम जो आप टीम को सुझाते हैं।
|
||||
|
||||
### 4. सार्थक शब्दों और वाक्यांशों का प्रयोग करें
|
||||
यदि आप और मैं किसी उत्पाद पर एक साथ काम कर रहे थे, और मैंने आपसे कहा "हमारे उपयोगकर्ता हमारे प्लेटफ़ॉर्म पर आने में लंबा समय लेते हैं," तो आप कब तक उस "लंबे समय" का अनुमान लगाएंगे? एक घंटा? एक सप्ताह? यह जानना कठिन है। क्या होगा अगर मैंने इसे पूरे दर्शकों से कहा? दर्शकों में हर कोई इस बारे में एक अलग विचार के साथ समाप्त हो सकता है कि उपयोगकर्ता हमारे प्लेटफॉर्म पर कितना समय लेते हैं।
|
||||
|
||||
इसके बजाय, क्या होगा अगर मैंने कहा "बाहर के उपयोगकर्ताओं को साइन अप करने और हमारे प्लेटफॉर्म पर ऑनबोर्ड होने में औसतन 3 मिनट लगते हैं।"
|
||||
|
||||
वह संदेश अधिक स्पष्ट है। डेटा संचार करते समय, यह सोचना आसान हो सकता है कि आपके दर्शकों में हर कोई आपकी तरह ही सोच रहा है। लेकिन हमेशा ऐसा ही नहीं होता है। अपने डेटा के बारे में स्पष्टता लाना और इसका क्या अर्थ है, एक संचारक के रूप में आपकी जिम्मेदारियों में से एक है। यदि डेटा या आपकी कहानी स्पष्ट नहीं है, तो आपके दर्शकों के लिए कठिन समय होगा, और इस बात की संभावना कम है कि वे आपकी मुख्य बातों को समझेंगे।
|
||||
|
||||
जब आप अस्पष्ट शब्दों के बजाय अर्थपूर्ण शब्दों और वाक्यांशों का उपयोग करते हैं तो आप डेटा को अधिक स्पष्ट रूप से संप्रेषित कर सकते हैं। नीचे कुछ उदाहरण दिए गए हैं।
|
||||
|
||||
- हमारे पास एक *प्रभावशाली* वर्ष था!
|
||||
- एक व्यक्ति सोच सकता है कि एक प्रभावशाली मतलब राजस्व में 2% - 3% की वृद्धि है, और एक व्यक्ति सोच सकता है कि इसका मतलब 50% - 60% की वृद्धि है।
|
||||
- हमारे उपयोगकर्ताओं की सफलता दर *नाटकीय रूप से* बढ़ी।
|
||||
- नाटकीय वृद्धि कितनी बड़ी है?
|
||||
- इस उपक्रम के लिए *महत्वपूर्ण* प्रयास की आवश्यकता होगी।
|
||||
- कितना प्रयास महत्वपूर्ण है?
|
||||
|
||||
अस्पष्ट शब्दों का उपयोग आने वाले अधिक डेटा के परिचय के रूप में या आपके द्वारा अभी-अभी बताई गई कहानी के सारांश के रूप में उपयोगी हो सकता है। लेकिन यह सुनिश्चित करने पर विचार करें कि आपकी प्रस्तुति का प्रत्येक भाग आपके दर्शकों के लिए स्पष्ट है।
|
||||
|
||||
|
||||
### 5. भावना का प्रयोग करें
|
||||
कहानी कहने में भावना महत्वपूर्ण है। जब आप डेटा के साथ कहानी सुना रहे हों तो यह और भी महत्वपूर्ण हो जाता है। जब आप डेटा का संचार कर रहे होते हैं, तो सब कुछ उन टेकअवे पर केंद्रित होता है जो आप चाहते हैं कि आपके दर्शक हों। जब आप दर्शकों के लिए एक भावना पैदा करते हैं तो यह उन्हें सहानुभूति रखने में मदद करता है, और उन्हें कार्रवाई करने की अधिक संभावना बनाता है। भावना इस संभावना को भी बढ़ाती है कि एक दर्शक आपके संदेश को याद रखेगा।
|
||||
|
||||
इसका सामना आपने टीवी विज्ञापनों के साथ पहले भी किया होगा। कुछ विज्ञापन बहुत उदास होते हैं, और अपने दर्शकों से जुड़ने के लिए एक दुखद भावना का उपयोग करते हैं और जो डेटा वे प्रस्तुत कर रहे हैं उसे वास्तव में अलग बनाते हैं। या, कुछ विज्ञापन बहुत उत्साहित हैं और खुश हैं कि आप उनके डेटा को एक सुखद एहसास के साथ जोड़ सकते हैं।
|
||||
|
||||
डेटा संचार करते समय आप भावनाओं का उपयोग कैसे करते हैं? नीचे कुछ तरीके दिए गए हैं।
|
||||
|
||||
- प्रशंसापत्र और व्यक्तिगत कहानियों का प्रयोग करें
|
||||
- डेटा एकत्र करते समय, मात्रात्मक और गुणात्मक दोनों डेटा एकत्र करने का प्रयास करें, और संचार करते समय दोनों प्रकार के डेटा को एकीकृत करें। यदि आपका डेटा मुख्य रूप से मात्रात्मक है, तो आपका डेटा आपको जो कुछ भी बता रहा है, उसके अनुभव के बारे में अधिक जानने के लिए व्यक्तियों से कहानियों की तलाश करें।
|
||||
- इमेजरी का प्रयोग करें
|
||||
- छवियां दर्शकों को खुद को एक स्थिति में देखने में मदद करती हैं। जब आप उपयोग करते हैं
|
||||
छवियों, आप दर्शकों को उस भावना की ओर धकेल सकते हैं जो आप महसूस करते हैं
|
||||
उनके पास आपके डेटा के बारे में होना चाहिए।
|
||||
- रंग का प्रयोग करें
|
||||
- अलग-अलग रंग अलग-अलग भावनाएं पैदा करते हैं। लोकप्रिय रंग और उनमें जो भावनाएँ पैदा होती हैं, वे नीचे हैं। ध्यान रखें कि विभिन्न संस्कृतियों में रंगों के अलग-अलग अर्थ हो सकते हैं।
|
||||
- नीला आमतौर पर शांति और विश्वास की भावना पैदा करता है
|
||||
- हरा आमतौर पर प्रकृति और पर्यावरण से संबंधित होता है
|
||||
- लाल आमतौर पर जुनून और उत्साह होता है
|
||||
- पीला आमतौर पर आशावाद और खुशी है
|
||||
|
||||
# संचार केस स्टडी
|
||||
एमर्सन एक मोबाइल ऐप के लिए एक उत्पाद प्रबंधक है। एमर्सन ने देखा है कि ग्राहक सप्ताहांत में 42% अधिक शिकायतें और बग रिपोर्ट प्रस्तुत करते हैं। एमर्सन ने यह भी देखा कि जो ग्राहक 48 घंटों के बाद अनुत्तरित शिकायत सबमिट करते हैं, उनके ऐप स्टोर में ऐप को 1 या 2 की रेटिंग देने की संभावना 32% अधिक होती है।
|
||||
|
||||
शोध करने के बाद, इमर्सन के पास कुछ समाधान हैं जो इस मुद्दे का समाधान करेंगे। एमर्सन डेटा और प्रस्तावित समाधानों को संप्रेषित करने के लिए ३ कंपनी के साथ ३० मिनट की बैठक स्थापित करता है।
|
||||
|
||||
इस बैठक के दौरान, एमर्सन का लक्ष्य कंपनी के प्रमुखों को यह समझाना है कि नीचे दिए गए 2 समाधान ऐप की रेटिंग में सुधार कर सकते हैं, जो संभवतः उच्च राजस्व में तब्दील हो जाएगा।
|
||||
|
||||
**समाधान 1.** सप्ताहांत पर काम करने के लिए ग्राहक सेवा प्रतिनिधि को किराए पर लें
|
||||
|
||||
**समाधान 2.** एक नई ग्राहक सेवा टिकटिंग प्रणाली खरीदें जहां ग्राहक सेवा प्रतिनिधि आसानी से पहचान सकें कि कौन सी शिकायतें कतार में सबसे लंबी रही हैं - ताकि वे बता सकें कि किसको तुरंत संबोधित करना है।
|
||||
|
||||
मीटिंग में, एमर्सन 5 मिनट यह बताते हुए बिताते हैं कि ऐप स्टोर पर कम रेटिंग क्यों खराब है, 10 मिनट शोध प्रक्रिया की व्याख्या करते हैं और रुझानों की पहचान कैसे की जाती है, 10 मिनट हाल की कुछ ग्राहकों की शिकायतों के बारे में बताते हुए, और अंतिम 5 मिनट 2 संभावित समाधानों पर प्रकाश डालते हुए।
|
||||
|
||||
क्या यह इमर्सन के लिए इस बैठक के दौरान संवाद करने का एक प्रभावी तरीका था?
|
||||
|
||||
बैठक के दौरान, एक कंपनी लीड ने ग्राहकों की 10 मिनट की शिकायतों को ठीक किया, जिनसे इमर्सन गुजरा। बैठक के बाद, केवल यही शिकायतें इस टीम के नेतृत्व को याद रहीं। एक अन्य कंपनी लीड ने मुख्य रूप से एमर्सन पर शोध प्रक्रिया का वर्णन करने पर ध्यान केंद्रित किया। तीसरी कंपनी के नेतृत्व ने इमर्सन द्वारा प्रस्तावित समाधानों को याद किया लेकिन यह सुनिश्चित नहीं था कि उन समाधानों को कैसे लागू किया जा सकता है।
|
||||
|
||||
ऊपर की स्थिति में, आप देख सकते हैं कि इमर्सन जो चाहता था कि टीम लीड ले ले, और बैठक से दूर ले जाने के बीच एक महत्वपूर्ण अंतर था। नीचे एक और तरीका है जिस पर इमर्सन विचार कर सकता है।
|
||||
|
||||
इमर्सन इस दृष्टिकोण को कैसे सुधार सकता है?
|
||||
प्रसंग, संघर्ष, चरमोत्कर्ष, समापन, निष्कर्ष
|
||||
**संदर्भ** - इमर्सन पहले 5 मिनट पूरी स्थिति का परिचय देने और यह सुनिश्चित करने में बिता सकता है कि टीम लीड यह समझती है कि समस्याएं कंपनी के लिए महत्वपूर्ण मीट्रिक को कैसे प्रभावित करती हैं, जैसे राजस्व।
|
||||
|
||||
इसे इस तरह से रखा जा सकता है: "वर्तमान में, ऐप स्टोर में हमारे ऐप की रेटिंग 2.5 है। ऐप स्टोर में रेटिंग ऐप स्टोर ऑप्टिमाइज़ेशन के लिए महत्वपूर्ण हैं, जो यह प्रभावित करती है कि कितने उपयोगकर्ता हमारे ऐप को खोज में देखते हैं, xxxxx डी हमारे ऐप को परिप्रेक्ष्य उपयोगकर्ताओं के लिए कैसे देखा जाता है। और निश्चित रूप से, हमारे पास जितने उपयोगकर्ता हैं, वे सीधे राजस्व से जुड़े हैं।"
|
||||
|
||||
**संघर्ष** तब इमर्सन अगले 5 मिनट तक या संघर्ष के बारे में बात करने के लिए आगे बढ़ सकता है।
|
||||
|
||||
यह इस प्रकार हो सकता है: "उपयोगकर्ता सप्ताहांत पर 42% अधिक शिकायतें और बग रिपोर्ट जमा करते हैं। जो ग्राहक 48 घंटों के बाद अनुत्तरित शिकायत सबमिट करते हैं, उनके ऐप स्टोर में हमारे ऐप को 2 से अधिक रेटिंग देने की संभावना 32% कम होती है। ऐप स्टोर में हमारे ऐप की रेटिंग को 4 तक बढ़ाने से हमारी दृश्यता में 20-30% की वृद्धि होगी, जिसका मेरा अनुमान है कि राजस्व में 10% की वृद्धि होगी।" बेशक, इमर्सन को इन नंबरों को सही ठहराने के लिए तैयार रहना चाहिए।
|
||||
|
||||
**क्लाइमेक्स** आधार तैयार करने के बाद, इमर्सन 5 या इतने मिनट के लिए चरमोत्कर्ष पर जा सकता था।
|
||||
|
||||
इमर्सन प्रस्तावित समाधानों को पेश कर सकता है, यह बता सकता है कि वे समाधान कैसे उल्लिखित मुद्दों को संबोधित करेंगे, उन समाधानों को मौजूदा वर्कफ़्लो में कैसे लागू किया जा सकता है, समाधानों की लागत कितनी है, समाधानों का आरओआई क्या होगा, और शायद कुछ स्क्रीनशॉट भी दिखा सकते हैं या लागू होने पर समाधान कैसे दिखेंगे, इसके वायरफ्रेम। एमर्सन उन उपयोगकर्ताओं के प्रशंसापत्र भी साझा कर सकते हैं, जिन्होंने अपनी शिकायत को संबोधित करने में 48 घंटे से अधिक समय लिया, और यहां तक कि कंपनी के भीतर एक मौजूदा ग्राहक सेवा प्रतिनिधि से एक प्रशंसापत्र भी, जिसने वर्तमान टिकट प्रणाली पर टिप्पणी की है।
|
||||
|
||||
**क्लोजर** अब इमर्सन कंपनी के सामने आने वाली समस्याओं को दूर करने में 5 मिनट बिता सकता है, प्रस्तावित समाधानों पर फिर से विचार कर सकता है और समीक्षा कर सकता है कि वे समाधान सही क्यों हैं।
|
||||
|
||||
**निष्कर्ष** क्योंकि यह कुछ हितधारकों के साथ एक बैठक है जहां दो-तरफा संचार का उपयोग किया जाएगा, इमर्सन तब प्रश्नों के लिए 10 मिनट छोड़ने की योजना बना सकता है, यह सुनिश्चित करने के लिए कि जो कुछ भी टीम लीड को भ्रमित कर रहा था उसे पहले स्पष्ट किया जा सकता है बैठक समाप्त हो गई है।
|
||||
|
||||
यदि एमर्सन ने #2 दृष्टिकोण अपनाया, तो इस बात की बहुत अधिक संभावना है कि टीम लीड मीटिंग से ठीक उसी तरह दूर ले जाएगी, जिसे एमर्सन ने उनसे दूर करने का इरादा किया था - कि जिस तरह से शिकायतों और बगों को संभाला जा सकता है, उसमें सुधार किया जा सकता है, और 2 समाधान हैं। उस सुधार को लाने के लिए स्थापित किया जा सकता है। यह दृष्टिकोण डेटा और कहानी को संप्रेषित करने के लिए एक अधिक प्रभावी दृष्टिकोण होगा, जिसे इमर्सन संवाद करना चाहता है।
|
||||
# निष्कर्ष
|
||||
### मुख्य बिंदुओं का सारांश
|
||||
- संचार करने के लिए सूचना देना या आदान-प्रदान करना है।
|
||||
- डेटा संप्रेषित करते समय, आपका उद्देश्य केवल अपने दर्शकों तक संख्या पहुँचाना नहीं होना चाहिए। आपका उद्देश्य एक ऐसी कहानी को संप्रेषित करना होना चाहिए जो आपके डेटा द्वारा सूचित हो।
|
||||
- संचार 2 प्रकार के होते हैं, वन-वे कम्युनिकेशन (सूचना बिना किसी प्रतिक्रिया के संप्रेषित की जाती है) और टू-वे कम्युनिकेशन (सूचना को आगे और पीछे संप्रेषित किया जाता है।)
|
||||
- ऐसी कई रणनीतियाँ हैं जिनका उपयोग आप अपने डेटा के साथ कहानी कहने के लिए कर सकते हैं, 5 रणनीतियाँ जिनका हमने अध्ययन किया है:
|
||||
- अपने दर्शकों, अपने माध्यम और अपनी संचार पद्धति को समझें
|
||||
- मन में कार्य समाप्ति का विचार लेकर कार्य प्रारंभ करना
|
||||
- इसे एक वास्तविक कहानी की तरह देखें
|
||||
- सार्थक शब्दों और वाक्यांशों का प्रयोग करें
|
||||
- भावना का प्रयोग करें
|
||||
|
||||
## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/31)
|
||||
|
||||
### स्व अध्ययन के लिए अनुशंसित संसाधन
|
||||
[द फाइव सी ऑफ़ स्टोरीटेलिंग - आर्टिक्यूलेट पर्सुएशन](http://articulatepersuasion.com/the-five-cs-of-storytelling/)
|
||||
|
||||
[१.४ एक संचारक के रूप में आपकी जिम्मेदारियां - सफलता के लिए व्यावसायिक संचार (umn.edu)](https://open.lib.umn.edu/businesscommunication/chapter/1-4-your-responsibilities-as-a-communicator/)
|
||||
[डेटा के साथ कहानी कैसे सुनाएं (hbr.org)](https://hbr.org/2013/04/how-to-tell-a-story-with-data)
|
||||
|
||||
[टू-वे कम्युनिकेशन: अधिक व्यस्त कार्यस्थल के लिए 4 टिप्स (yourthoughtpartner.com)](https://www.yourthoughtpartner.com/blog/bid/59576/4-steps-to-increase-employee-engagement-through-two-way-communication)
|
||||
|
||||
[महान डेटा स्टोरीटेलिंग के लिए 6 संक्षिप्त चरण - बार्नराइज़र, एलएलसी (barnraisersllc.com)](https://barnraisersllc.com/2021/05/02/6-succinct-steps-to-great-data-storytelling/)
|
||||
|
||||
[डेटा के साथ कहानी कैसे सुनाएं | ल्यूसिडचार्ट ब्लॉग](https://www.lucidchart.com/blog/how-to-tell-a-story-with-data)
|
||||
|
||||
[6 Cs ऑफ़ इफेक्टिव स्टोरीटेलिंग ऑन सोशल मीडिया | कूलर इनसाइट्स](https://coolerinsights.com/2018/06/effective-storytelling-social-media/)
|
||||
|
||||
[प्रस्तुतिकरण में भावनाओं का महत्व | Ethos3 - एक प्रस्तुति प्रशिक्षण और डिजाइन एजेंसी](https://ethos3.com/2015/02/the-importance-of-emotions-in-presentations/)
|
||||
|
||||
[डेटा स्टोरीटेलिंग: भावनाओं और तर्कसंगत निर्णयों को जोड़ना (toucantoco.com)](https://www.toucantoco.com/en/blog/data-storytelling-dataviz)
|
||||
|
||||
[भावनात्मक विज्ञापन: कैसे ब्रांड लोगों को खरीदने के लिए भावनाओं का उपयोग करते हैं (hubspot.com)](https://blog.hubspot.com/marketing/emotions-in-advertising-examples)
|
||||
|
||||
[अपनी प्रस्तुति स्लाइड के लिए रंग चुनना | स्लाइड के बाहर सोचें](https://www.thinkoutsidetheslide.com/choosing-colors-for-your-presentation-slides/)
|
||||
|
||||
[डेटा कैसे प्रस्तुत करें [१० विशेषज्ञ युक्तियाँ] | ऑब्जर्वप्वाइंट](https://resources.observepoint.com/blog/10-tips-for-presenting-data)
|
||||
|
||||
[Microsoft Word - Persuasive Instructions.doc (tpsnva.org)](https://www.tpsnva.org/teach/lq/016/persinstr.pdf)
|
||||
|
||||
[द पावर ऑफ स्टोरी फॉर योर डेटा (थिंकहडी.कॉम)](https://www.thinkhdi.com/library/supportworld/2019/power-story-your-data.aspx)
|
||||
|
||||
[डेटा प्रस्तुति में सामान्य गलतियाँ (perceptualedge.com)](https://www.perceptualedge.com/articles/ie/data_presentation.pdf)
|
||||
|
||||
[इन्फोग्राफिक: यहां से बचने के लिए 15 सामान्य डेटा गलतियाँ हैं (visualcapitalist.com)](https://www.visualcapitalist.com/here-are-15-common-data-fallacies-to-avoid/)
|
||||
|
||||
[चेरी पिकिंग: जब लोग उन सबूतों को नज़रअंदाज़ करते हैं जो वे नापसंद करते हैं - प्रभाव विज्ञान](https://effectiviology.com/cherry-picking/#How_to_avoid_cherry_picking)
|
||||
|
||||
[डेटा के साथ कहानियां सुनाएं: डेटा साइंस में संचार | द्वारा सोनाली वर्गीज | टूवर्ड्स डेटा साइंस](https://towardsdatascience.com/tell-stories-with-data-communication-in-data-science-5266f7671d7)
|
||||
|
||||
[१. संचार डेटा - झांकी के साथ संचार डेटा [पुस्तक] (oreilly.com)](https://www.oreilly.com/library/view/communicating-data-with/9781449372019/ch01.html)
|
||||
|
||||
## कार्यभार
|
||||
|
||||
[एक कहानी बताओ](../assignment.md)
|
@ -0,0 +1,100 @@
|
||||
# क्लाउड में डेटा साइंस का परिचय
|
||||
|
||||
|![[(@sketchthedocs) द्वारा स्केचनोट](https://sketchthedocs.dev) ](../../../sketchnotes/17-DataScience-Cloud.png)|
|
||||
|:---:|
|
||||
| क्लाउड में डेटा साइंस: परिचय - _[@nitya](https://twitter.com/nitya) द्वारा स्केचनोट_ |
|
||||
|
||||
|
||||
इस पाठ में, आप क्लाउड के मूलभूत सिद्धांतों को जानेंगे, फिर आप देखेंगे कि आपके डेटा साइंस परियोजनाओं को चलाने के लिए क्लाउड सेवाओं का उपयोग करना आपके लिए दिलचस्प क्यों हो सकता है और हम क्लाउड में चलने वाले डेटा साइंस प्रोजेक्ट के कुछ उदाहरण देखेंगे।
|
||||
|
||||
|
||||
## [प्री-लेक्चर क्विज़](https://red-water-0103e7a0f.azurestaticapps.net/quiz/32)
|
||||
|
||||
|
||||
## क्लाउड क्या है?
|
||||
|
||||
क्लाउड, या क्लाउड कंप्यूटिंग, इंटरनेट पर एक बुनियादी ढांचे पर होस्ट की जाने वाली पे-एज़-यू-गो कंप्यूटिंग सेवाओं की एक विस्तृत श्रृंखला की डिलीवरी है। सेवाओं में स्टोरेज, डेटाबेस, नेटवर्किंग, सॉफ्टवेयर, एनालिटिक्स और इंटेलिजेंट सर्विसेज जैसे समाधान शामिल हैं।
|
||||
|
||||
हम आम तौर पर पब्लिक, प्राइवेट और हाइब्रिड क्लाउड में ऐसे अंतर करते हैं:
|
||||
|
||||
* पब्लिक क्लाउड: एक पब्लिक क्लाउड का स्वामित्व और संचालन तीसरे पक्ष के क्लाउड सेवा प्रदाता के पास होता है जो इंटरनेट पर अपने कंप्यूटिंग संसाधनों को जनता तक पहुंचाता है।
|
||||
* प्राइवेट क्लाउड: एक ही व्यवसाय या संगठन द्वारा विशेष रूप से उपयोग किए जाने वाले क्लाउड कंप्यूटिंग संसाधनों को संदर्भित करता है, जिसमें सेवाओं और निजी नेटवर्क पर बनाए रखा गया इंफ्रास्ट्रक्चर होता है।
|
||||
* हाइब्रिड क्लाउड: हाइब्रिड क्लाउड एक ऐसा सिस्टम है जो पब्लिक और प्राइवेट क्लाउड को जोड़ता है। उपयोगकर्ता ऑन-प्रिमाइसेस डेटासेंटर चुनते हैं, जिससे डेटा और एप्लिकेशन को एक या अधिक पब्लिक क्लाउड पर चला सकते हैं।
|
||||
|
||||
अधिकांश क्लाउड कंप्यूटिंग सेवाएं तीन श्रेणियों में आती हैं: सर्विस के रूप में इंफ्रास्ट्रक्चर (IaaS), सर्विस के रूप में प्लेटफॉर्म (PaaS) और सर्विस के रूप में सॉफ्टवेयर (SaaS)।
|
||||
|
||||
* सर्विस के रूप में इंफ्रास्ट्रक्चर (IaaS): उपयोगकर्ता आईटी इन्फ्रास्ट्रक्चर किराए पर लेते हैं जैसे सर्वर और वर्चुअल मशीन (VMs), स्टोरेज, नेटवर्क, ऑपरेटिंग सिस्टम।
|
||||
* सर्विस के रूप में प्लेटफॉर्म (PaaS): उपयोगकर्ता सॉफ्टवेयर ऍप्लिकेशन्स के विकास, परीक्षण, वितरण और मैनेज करने के लिए एक वातावरण किराए पर लेते हैं। उपयोगकर्ताओं को विकास के लिए आवश्यक सर्वर के इंफ्रास्ट्रक्चर, स्टोरेज, नेटवर्क और डेटाबेस को स्थापित करने या प्रबंधित करने के बारे में चिंता करने की आवश्यकता नहीं है।
|
||||
* सर्विस के रूप में सॉफ्टवेयर (SaaS): उपयोगकर्ताओं को आमतौर पर मांग और सदस्यता के आधार पर इंटरनेट पर सॉफ़्टवेयर एप्लिकेशन तक पहुंच प्राप्त होती है। उपयोगकर्ताओं को सॉफ़्टवेयर एप्लिकेशन की होस्टिंग और मैनेजिंग, बुनियादी इंफ्रास्ट्रक्चर या मेंटेनेंस, जैसे सॉफ़्टवेयर अपग्रेड और सुरक्षा पैचिंग के बारे में चिंता करने की आवश्यकता नहीं है।
|
||||
|
||||
कुछ सबसे बड़े क्लाउड प्रदाता ऐमज़ॉन वेब सर्विसेस, गूगल क्लाउड प्लेटफॉर्म और माइक्रोसॉफ्ट अज़ूर हैं।
|
||||
## डेटा साइंस के लिए क्लाउड क्यों चुनें?
|
||||
|
||||
डेवलपर और आईटी पेशेवर कई कारणों से क्लाउड के साथ काम करना चुनते हैं, जिनमें निम्न शामिल हैं:
|
||||
|
||||
* नवाचार: आप क्लाउड प्रदाताओं द्वारा बनाई गई नवीन सेवाओं को सीधे अपने ऐप्स में एकीकृत करके अपने एप्लिकेशन को सशक्त बना सकते हैं।
|
||||
* लचक: आप केवल उन सेवाओं के लिए भुगतान करते हैं जिनकी आपको आवश्यकता है और आप सेवाओं की एक विस्तृत श्रृंखला से चुन सकते हैं। आप आमतौर पर अपनी उभरती जरूरतों के अनुसार अपनी सेवाओं का भुगतान और अनुकूलन करते हैं।
|
||||
* बजट: आपको हार्डवेयर और सॉफ़्टवेयर खरीदने, साइट पर डेटासेंटर स्थापित करने और चलाने के लिए प्रारंभिक निवेश करने की आवश्यकता नहीं है और आप केवल उसी के लिए भुगतान करते हैं जिसका आपने उपयोग किया है।
|
||||
* अनुमापकता: आपके संसाधन आपकी परियोजना की ज़रूरतों के अनुसार बड़े हो सकते हैं, जिसका अर्थ है कि आपके ऐप्स किसी भी समय बाहरी कारकों को अपनाकर, कम या ज्यादा कंप्यूटिंग शक्ति, स्टोरेज और बैंडविड्थ का उपयोग कर सकते हैं।
|
||||
* उत्पादकता: आप उन कार्यों पर समय बिताने के बजाय, जिन्हें कोई अन्य व्यक्ति प्रबंधित कर सकता है, जैसे डेटासेंटर प्रबंधित करना, अपने व्यवसाय पर ध्यान केंद्रित कर सकते हैं।
|
||||
* विश्वसनीयता: क्लाउड कम्प्यूटिंग आपके डेटा का लगातार बैकअप लेने के कई तरीके प्रदान करता है और आप संकट के समय में भी अपने व्यवसाय और सेवाओं को चालू रखने के लिए आपदा वसूली योजनाएँ स्थापित कर सकते हैं।
|
||||
* सुरक्षा: आप उन नीतियों, तकनीकों और नियंत्रणों से लाभ उठा सकते हैं जो आपकी प्रोजेक्ट की सुरक्षा को मजबूत करती हैं।
|
||||
|
||||
ये कुछ सबसे सामान्य कारण हैं जिनकी वजह से लोग क्लाउड सेवाओं का उपयोग करना चुनते हैं। अब जब हमें इस बात की बेहतर समझ है कि क्लाउड क्या है और इसके मुख्य लाभ क्या हैं, तो आइए डेटा के साथ काम करने वाले डेटा वैज्ञानिकों और डेवलपर्स की नौकरियों पर और अधिक विशेष रूप से देखें, और क्लाउड उन्हें कई चुनौतियों का सामना करने में कैसे मदद कर सकता है:
|
||||
|
||||
* बड़ी मात्रा में डेटा स्टोर करना: बड़े सर्वरों को खरीदने, प्रबंधित करने और उनकी सुरक्षा करने के बजाय, आप अज़ूर कॉसमॉस डीबी , अज़ूर एसक्यूएल डेटाबेस और अज़ूर डेटा लेक स्टोरेज जैसे समाधानों के साथ अपने डेटा को सीधे क्लाउड में स्टोर कर सकते हैं।
|
||||
* डेटा एकीकरण करना: डेटा एकीकरण डेटा साइंस का एक अनिवार्य हिस्सा है, जो आपको डेटा संग्रह से कार्रवाई करने के लिए संक्रमण करने देता है। क्लाउड में दी जाने वाली डेटा एकीकरण सेवाओं के साथ, आप डेटा फ़ैक्टरी के साथ विभिन्न स्रोतों से डेटा एकत्र, रूपांतरित और एकीकृत कर सकते हैं।
|
||||
* डेटा प्रोसेसिंग: बड़ी मात्रा में डेटा को संसाधित करने के लिए बहुत अधिक कंप्यूटिंग शक्ति की आवश्यकता होती है, और हर किसी के पास इसके लिए पर्याप्त शक्तिशाली मशीनों तक पहुंच नहीं होती है, यही वजह है कि बहुत से लोग अपने समाधानों को चलाने और डिप्लॉय करने के लिए क्लाउड की विशाल कंप्यूटिंग शक्ति का सीधे उपयोग करना चुनते हैं।
|
||||
* डेटा एनालिटिक्स सेवाओं का उपयोग करना: अज़ूर सिनेप्स एनालिटिक्स, अज़ूर स्ट्रीम एनालिटिक्स और अज़ूर डेटाब्रिक्स जैसी क्लाउड सेवाएं आपके डेटा को कार्रवाई योग्य अंतर्दृष्टि में बदलने में आपकी सहायता करती हैं।
|
||||
* मशीन लर्निंग और डेटा इंटेलिजेंस सेवाओं का उपयोग करना: स्क्रैच से शुरू करने के बजाय, आप क्लाउड प्रदाता द्वारा पेश किए गए मशीन लर्निंग एल्गोरिदम का उपयोग अज़ूरएमएल जैसी सेवाओं के साथ कर सकते हैं। आप संज्ञानात्मक सेवाओं का भी उपयोग कर सकते हैं जैसे कि स्पीच-टू-टेक्स्ट, टेक्स्ट-टू-स्पीच, कंप्यूटर दृष्टि और बहुत कुछ।
|
||||
|
||||
## क्लाउड में डेटा साइंस के उदाहरण
|
||||
|
||||
आइए कुछ परिदृश्यों को देखकर इसे और अधिक मूर्त बनाते हैं।
|
||||
|
||||
### रीयल-टाइम सोशल मीडिया भावना विश्लेषण
|
||||
हम आमतौर पर मशीन लर्निंग से शुरू होने वाले लोगों द्वारा अध्ययन किए गए परिदृश्य से शुरू करेंगे: वास्तविक समय में सोशल मीडिया की भावना का विश्लेषण।
|
||||
|
||||
मान लीजिए कि आप एक समाचार मीडिया वेबसाइट चलाते हैं और आप यह समझने के लिए लाइव डेटा का लाभ उठाना चाहते हैं कि आपके पाठकों की किस सामग्री में रुचि हो सकती है। इसके बारे में अधिक जानने के लिए, आप एक प्रोग्राम बना सकते हैं जो ट्विटर प्रकाशनों से डेटा का रीयल-टाइम भावना विश्लेषण करता है, उन विषयों पर जो आपके पाठकों के लिए प्रासंगिक हैं।
|
||||
|
||||
आप जिन प्रमुख संकेतकों को देखेंगे, वे विशिष्ट विषयों (हैशटैग) और भावना पर ट्वीट्स की मात्रा है, जो विश्लेषिकी टूल का उपयोग करके स्थापित किया जाता है जो निर्दिष्ट विषयों के आसपास भावना विश्लेषण करते हैं।
|
||||
|
||||
इस प्रोजेक्ट को बनाने के लिए आवश्यक स्टेप्स इस प्रकार हैं:
|
||||
|
||||
* स्ट्रीमिंग इनपुट के लिए एक इवेंट हब बनाएं, जो ट्विटर से डेटा एकत्र करेगा
|
||||
* ट्विटर क्लाइंट एप्लिकेशन को कॉन्फ़िगर करें और शुरू करें, जो ट्विटर स्ट्रीमिंग एपीआई को कॉल करेगा
|
||||
* एक स्ट्रीम एनालिटिक्स जॉब बनाएं
|
||||
* जॉब इनपुट और क्वेरी निर्दिष्ट करें
|
||||
* आउटपुट सिंक बनाएं और जॉब आउटपुट निर्दिष्ट करें
|
||||
* जॉब शुरू करें
|
||||
|
||||
पूरी प्रक्रिया देखने के लिए [प्रलेखन](https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?WT.mc_id=academic-40229-cxa&ocid=AID30411099) देखें।
|
||||
|
||||
### वैज्ञानिक कागजात विश्लेषण
|
||||
आइए इस पाठ्यक्रम के लेखकों में से एक, [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा बनाई गई परियोजना का एक और उदाहरण लें।
|
||||
|
||||
दिमित्री ने एक टूल बनाया जो कोविड पेपर्स का विश्लेषण करता है। इस परियोजना की समीक्षा करके, आप देखेंगे कि आप एक उपकरण कैसे बना सकते हैं जो वैज्ञानिक पत्रों से ज्ञान प्राप्त करता है, अंतर्दृष्टि प्राप्त करता है और शोधकर्ताओं को एक कुशल तरीके से कागजात के बड़े संग्रह के माध्यम से नेविगेट करने में मदद करता है।
|
||||
|
||||
आइए इसके लिए उपयोग किए जाने वाले विभिन्न चरणों को देखें:
|
||||
* [टेक्स्ट एनालिटिक्स फॉर हेल्थ](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health?WT.mc_id=academic-40229-cxa&ocid=AID3041109) के साथ जानकारी निकालना और प्री-प्रोसेस करना
|
||||
* प्रसंस्करण को समानांतर रखने के लिए [अज़ूरएमएल](https://azure.microsoft.com/services/machine-learning?WT.mc_id=academic-40229-cxa&ocid=AID3041109) का उपयोग करना
|
||||
* [कॉसमॉस डीबी](https://azure.microsoft.com/services/cosmos-db?WT.mc_id=academic-40229-cxa&ocid=AID3041109) के साथ जानकारी संग्रहीत करना और क्वेरी करना
|
||||
* पावर बीआई का उपयोग करके डेटा अन्वेषण और विज़ुअलाइज़ेशन के लिए एक इंटरैक्टिव डैशबोर्ड बनाना
|
||||
|
||||
पूरी प्रक्रिया देखने के लिए [दिमित्री के ब्लॉग](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/) पर जाएँ।
|
||||
|
||||
जैसा कि आप देख सकते हैं, हम डेटा साइंस का प्रदर्शन करने के लिए कई तरह से क्लाउड सेवाओं का लाभ उठा सकते हैं।
|
||||
## पादटिप्पणी
|
||||
|
||||
स्त्रोत:
|
||||
* https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109
|
||||
* https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109
|
||||
* https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/
|
||||
|
||||
## पोस्ट-लेक्चर क्विज़
|
||||
|
||||
[पोस्ट-लेक्चर क्विज़](https://red-water-0103e7a0f.azurestaticapps.net/quiz/33)
|
||||
|
||||
## असाइनमेंट
|
||||
|
||||
[मार्केट रिसर्च](./assignment.hi.md)
|
@ -0,0 +1,10 @@
|
||||
# मार्केट रिसर्च
|
||||
|
||||
## निर्देश
|
||||
|
||||
इस पाठ में आपने सीखा कि कई महत्वपूर्ण क्लाउड प्रदाता हैं। डेटा साइंटिस्ट को प्रत्येक क्या पेशकश कर सकता है, यह जानने के लिए कुछ मार्केट रिसर्च करें। क्या उनके सब्स्क्रिप्शन्स तुलनीय हैं? इनमें से तीन या अधिक क्लाउड प्रदाताओं की पेशकशों का वर्णन करने के लिए एक पेपर लिखें।
|
||||
## स्कोर गाइड
|
||||
|
||||
उदाहरणात्मक | पर्याप्त | सुधार की जरूरत है
|
||||
--- | --- | -- |
|
||||
एक पृष्ठ का पेपर तीन क्लाउड प्रदाताओं के डेटा विज्ञान प्रसाद का वर्णन करता है और उनके बीच अंतर करता है। | एक छोटा पेपर प्रस्तुत किया गया है। | विश्लेषण पूरा किए बिना एक पेपर प्रस्तुत किया गया है।
|
@ -0,0 +1,20 @@
|
||||
# क्लाउड में डेटा साइंस
|
||||
|
||||
![क्लाउड-चित्र](../images/cloud-picture.jpg)
|
||||
|
||||
> [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) से [जेलेके वनूटेघम](https://unsplash.com/@ilumire) द्वारा फोटो।
|
||||
|
||||
जब बड़े डेटा के साथ डेटा साइंस करने की बात आती है, तो क्लाउड गेम चेंजर हो सकता है। अगले तीन पाठों में हम यह देखने जा रहे हैं कि क्लाउड क्या है और यह इतना मददगार क्यों हो सकता है। हम हृद्पात (दिल की धड़कन रुकना) के डेटासेट का भी पता लगाने जा रहे हैं और किसी के हृद्पात की संभावना का आकलन करने में मदद करने के लिए एक मॉडल का निर्माण करने जा रहे हैं। हम दो अलग-अलग तरीकों से एक मॉडल को प्रशिक्षित करने, डिप्लॉय करने और उपभोग करने के लिए क्लाउड की शक्ति का उपयोग करेंगे। एक तरीका कम कोड/नो कोड फैशन में केवल यूजर इंटरफेस का उपयोग करके, दूसरा तरीका एज़ूर मशीन लर्निंग सॉफ्टवेयर डेवलपर किट (एज़ूर एमएल एस.डी.के) का उपयोग करके।
|
||||
|
||||
![प्रॉजेक्ट-स्कीमा](../19-Azure/images/project-schema.PNG)
|
||||
|
||||
### विषय
|
||||
|
||||
1. [डेटा साइंस के लिए क्लाउड का उपयोग क्यों करें?](../17-Introduction/README.md)
|
||||
2. [क्लाउड में डेटा साइंस: "लो कोड/नो कोड" तरीका](../18-Low-Code/README.md)
|
||||
3. [क्लाउड में डेटा साइंस: "एज़ूर एमएल एस.डी.के" तरीका](../19-Azure/README.md)
|
||||
|
||||
### आभार सूची
|
||||
ये पाठ [मौड लेवी](https://twitter.com/maudstweets) और [टिफ़नी सॉटर्रे](https://twitter.com/TiffanySouterre) द्वारा ☁️ और 💕 के साथ लिखे गए थे।
|
||||
|
||||
हार्ट फेल्योर प्रेडिक्शन प्रोजेक्ट के लिए डेटा [कागल](https://www.kaggle.com/andrewmvd/heart-failure-clinical-data) पर [लारक्सेल](https://www.kaggle.com/andrewmvd) से प्राप्त किया गया है। इसे [एट्रिब्यूशन 4.0 इंटरनेशनल (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/) के तहत लाइसेंस दिया गया है।
|
@ -0,0 +1,144 @@
|
||||
# Ciencia de Datos en el mundo real
|
||||
|
||||
| ![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/20-DataScience-RealWorld.png) |
|
||||
| :--------------------------------------------------------------------------------------------------------------: |
|
||||
| Ciencia de Datos en el mundo real - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
¡Estamos casi al final de esta aventura de aprendizaje!
|
||||
|
||||
Empezamos con las definiciones de ciencia de datos y ética, se exploraron diveras herramientas y técnicas para el análisis y visualización de datos, se revisó el ciclo de vida de los datos, y se buscó escalar y automatizar flujos de trabajo de ciencia de datos con servicios de cómputo en la nube. Por lo que te preguntarás: _"¿Cómo relaciono todo este aprendizaje con el mundo real?"_
|
||||
|
||||
En esta lección, exploraremos la aplicación de la ciencia de datos en el mundo real en la industria y profundizaremos en ejemplos específicos en la investigación, humanidades digitales y sustentabilidad. Analizaremos oportunidades de proyectos para estudiantes y concluiremos con recursos útiles que te ayuden en tu aventura de aprendizaje.
|
||||
## Examen previo a la lección
|
||||
|
||||
[Examen previo a la lección](https://red-water-0103e7a0f.azurestaticapps.net/quiz/38)
|
||||
## Ciencia de Datos + Industria
|
||||
|
||||
Gracias a la democratización de la AI, los desarrolladores encuentran más fácil el diseñar e integrar tanto la toma de decisiones dirigidas por AI como el conocimiento práctico dirigido por datos en experiencias de usuario y desarrollar flujos de trabajo. Aquí algunos ejemplos de cómo la ciencia de datos es "aplicada" en aplicaciones del mundo real a través de la industria:
|
||||
|
||||
* [Tendencias de la gripe de Google](https://www.wired.com/2015/10/can-learn-epic-failure-google-flu-trends/) se usó ciencia de datos para correlacionar términos de búsqueda con tendencias de la gripe. Mientras el enfoque tuvo fallos, este resaltó las posibilidades (y retos) de las predicciones de cuidados de la salud dirigidos por datos.
|
||||
|
||||
* [Predicciones de enrutamiento de UPS](https://www.technologyreview.com/2018/11/21/139000/how-ups-uses-ai-to-outsmart-bad-weather/) - explica cómo UPS usa ciencia de datos y aprendizaje automático para predecir rutas óptimas para la entrega, tomando en cuenta condiciones climáticas, patrones de tráfico, fechas límite de entrega y más.
|
||||
|
||||
* [Visualización de rutas de taxis en la ciudad de Nueva York](http://chriswhong.github.io/nyctaxi/) - se reunieron los datos usando [leyes de libertad de la información](https://chriswhong.com/open-data/foil_nyc_taxi/) lo cual ayudó a visualizar un día en la vida de los taxis de Nueva York, ayudando a entender como recorren la ajetreada ciudad, cuánto dinero ganan, y la duración de los viajes durante un período de 24 horas.
|
||||
|
||||
* [Banco de trabajo de Ciencia de Datos de Uber](https://eng.uber.com/dsw/) - usa los datos (de ubicaciones de inicio y fin de ruta, duración del viaje, rutas preferidas, etc.) reunidos de millones de viajes *diarios* en uber para construir una herramienta de analítica de datos para ayudar con los precios, seguridad, detección de fraude y decisiones de navegación.
|
||||
|
||||
* [Analítica de deportes](https://towardsdatascience.com/scope-of-analytics-in-sports-world-37ed09c39860) - se enfoca en _analítica predictiva_ (análisis de equipo y jugador) - piensa [Moneyball](https://datasciencedegree.wisconsin.edu/blog/moneyball-proves-importance-big-data-big-ideas/) - y gestión de admiradores) y _visualización de datos_ (tableros de equipo y admiradores, juegos, etc.) con aplicaciones como búsqueda de talento, apuestas deportivas y gestión de sedes/inventario.
|
||||
|
||||
* [Ciencia de Datos en el sector bancario](https://data-flair.training/blogs/data-science-in-banking/) - resalta el valor de la ciencia de datos en la industria financiera con aplicaciones que varían desde el modelado de riesgo y detección de fraudes, a segmentación de clientes, sistemas de predicción y recomendación en tiempo real. La analítica predictiva también dirige medidas críticas como [puntaje de crédito](https://dzone.com/articles/using-big-data-and-predictive-analytics-for-credit).
|
||||
|
||||
* [Ciencia de Datos en el cuidado de la salud](https://data-flair.training/blogs/data-science-in-healthcare/) - resalta aplicaciones como imágenes médicas (por ejemplo, resonancias magnéticas, rayos X, tomografías computarizadas), genómicas (secuencia de ADN), desarrollo de fármacos (evaluación de riesgos, predicción de éxito), análisis predictivos (cuidado del paciente y logística de suministro), seguimiento y prevención de enfermedades, etcétera.
|
||||
|
||||
![Aplicaciones de la Ciencia de Datos en el mundo real](../images/data-science-applications.png) Image Credit: [Estilos de datos: 6 sorprendentes aplicaciones de la Ciencia de Datos](https://data-flair.training/blogs/data-science-applications/)
|
||||
|
||||
La imagen muestra otros dominios y ejemplos para aplicar técnicas de ciencia de datos. ¿Quieres explorar otras aplicaciones? Revisa la sección [revisión y auto-estudio](#revisi%C3%B3n-y-auto-estudio) abajo.
|
||||
|
||||
## Ciencia de datos + Investigación
|
||||
|
||||
| ![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/20-DataScience-Research.png) |
|
||||
| :---------------------------------------------------------------------------------------------------------------: |
|
||||
| Ciencia de Datos e Investigación - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
Mientras las aplicaciones del mundo real suelen enfocarse en los casos de uso a escala en la industri, las aplicaciones y proyectos de _investigación_ son útiles desde dos prespectivas:
|
||||
|
||||
* _oportunidades de inovación_ - explora el prototipado rápido de conceptos avanzados y pruebas de experiencias de usuario para aplicaciones de próxima generación.
|
||||
* _desafíos de despliegue_ - investiga daños potenciales o consecuencias involuntarias de las tecnologías de ciencia de datos el mundo real.
|
||||
|
||||
Para los estudiantes, estos proyectos de investigación pueden proveer tanto aprendizaje como oportunidades de colaboración que podrían mejorar tu entendimiento del tema, y ampliar tu conciencia y compromiso con gente o equipos relevantes en el área de interés. ¿Entonces, qué te parecen los proyectos de investigación y cómo pueden tener impacto?
|
||||
|
||||
Veamos un ejemplo - el [estudio de sombras de género del MIT](http://gendershades.org/overview.html) de Joy Buolamwini (MIT Media Labs) con el[documento de investigación de firma](http://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf) en co-autoría con Timnit Gebru (luego en Microsoft Research) se enfocó en:
|
||||
|
||||
* **Qué:** El objetivo del proyecto de investigación fue el _evaluar sesgos presentes en los algoritmos de análisis facial automatizado y conjuntos de datos_ basados en el género y tipo de piel.
|
||||
|
||||
* **Porqué:** El análisis facial es usado en área como cumplimiento de la ley, seguridad aeroportuaria, sistemas de contratación y más - contextos donde las clasificaciones imprecisas (por ejemplo, debido a sesgos) pueden causar daños potenciales económicos y sociales a los individuos o grupos afectados. Entender (y eliminar o mitigar) sesgos es la clave para ser justos en práctica.
|
||||
|
||||
* **Cómo:** Lso investigadores reconocieron que los puntos de referencia existentes usaron predominantemente sujetos de piel más clara, y curaron un nuevo conjunto de datos (más de 1000 imágenes) que estaban _más equilibradas_ por género y tipo de piel. El conjunto de datos se usó para evaluar la precisión de tres productos de clasificación de género (de Microsoft, IBM y Face++).
|
||||
|
||||
Los resultados mostraton que aunque la precisión de clasificación general era buena, había una notable diferencia en las tasas de error entre distintos subgrupos - con la **mala clasificación de género** siendo más alta para mujeres o personas con tipos de piel más oscuros, indicativo de un sesgo.
|
||||
|
||||
**Resultados clave:** Hicieron evidente que la ciencia de datos necesita más _conjuntos de datos representativos_ (subgrupos equilibrados) y más _equipos incluyentes_ (distintos antecedentes) para reconocer y eliminar o mitigar esos sesgos antes en soluciones de AI. los esfuerzos de investigación como este también son instrumentales en muchas organizaciones definiendo principios y práticas para una _AI responsable_ para mejorar la justicia a través de los productos y procesos de AI.
|
||||
|
||||
**¿quieres aprender acerca de esfuerzos relevantes de investigación en Microsoft?**
|
||||
|
||||
* Revisa los [proyectos de investigación de Microsoft](https://www.microsoft.com/research/research-area/artificial-intelligence/?facet%5Btax%5D%5Bmsr-research-area%5D%5B%5D=13556&facet%5Btax%5D%5Bmsr-content-type%5D%5B%5D=msr-project) en Inteligencia Artificial.
|
||||
* Explorar proyectos de estudiantes de la [escuela de verano de investigación en Ciencia de Datos de Microsoft](https://www.microsoft.com/en-us/research/academic-program/data-science-summer-school/).
|
||||
* Revisa el proyecto [Fairlearn](https://fairlearn.org/) e iniciativas de [AI responsable](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6).
|
||||
|
||||
|
||||
|
||||
## Ciencia de Datos + Humanidades
|
||||
|
||||
| ![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/20-DataScience-Humanities.png) |
|
||||
| :---------------------------------------------------------------------------------------------------------------: |
|
||||
| Ciencia de Datos & Humanidades Digitales - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
|
||||
Las Humanidades Digitales [han sido definidas](https://digitalhumanities.stanford.edu/about-dh-stanford) como "una coleción de prácticas y enfoques que combinan métodos computacionales con investigación humanística". Los [proyectos de Stanford](https://digitalhumanities.stanford.edu/projects) como _"reiniciando la historia"_ y _"pensamiento poético"_ ilustran el vículo entre [las Humanidades Digitales y Ciencia de Datos](https://digitalhumanities.stanford.edu/digital-humanities-and-data-science) - enfatizando técnicas como el análisis de red, visualización de la información, análisis espacial y de texto que nos ayudan a revisitar datos históricos y literarios para derivar en nuevos conocimientos y perspectivas.
|
||||
|
||||
*¿Quieres explorar y extender un proyecto en este espacio?*
|
||||
|
||||
Revisa ["Emily Dickinson y el medidor de estado de ánimo"](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671) - un gran ejemplo de [Jen Looper](https://twitter.com/jenlooper) que planteacomo podemos usar la ciencia de datos para revisitar poesía familiar y re-evaluar su significado y las contribuciones de su autor en nuevos contextos. Por ejemplo, _¿podemos predecir la estación en la cual fue creado un poema realizando un análisis en su tono o sentimiento_? y ¿qué nos dices esto acerca del estado mental del autor en ese período en particular?
|
||||
|
||||
Para responder a esa pregunta, seguiremos los pasos de nuestro ciclo de vida de ciencia de datos:
|
||||
* [`Adquisición de datos`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#acquiring-the-dataset) - para recolectar un conjunto de datos relevante para el análisis. Las opciones incluyen el uso de un API (por ejemplo, [Poetry DB API](https://poetrydb.org/index.html)) o realizar raspado de páginas web (por ejemplo, [Proyecto Gutenberg](https://www.gutenberg.org/files/12242/12242-h/12242-h.htm)) usando herramientas como [Scrapy](https://scrapy.org/).
|
||||
* [`Limpieza de datos`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#clean-the-data) - explica como se puede dar formato al texto, la sanitización y simplificación usando herramientas básicas como Visual Studio Code y Microsoft Excel.
|
||||
* [`Análisis de datos`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#working-with-the-data-in-a-notebook) - explica como podemos importar los conjuntos de trabajo en "Notebooks" para análisis usando paquetes de Python (como pandas, numpy y matplotlib) para organizar y visualizar los datos.
|
||||
* [`Análisis de sentimiento`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#sentiment-analysis-using-cognitive-services) - explica como podemos integrar servicios en la nube como Text Analytics, usando herramientas de low-code tools como [Power Automate](https://flow.microsoft.com/en-us/) para flujos de trabajo de procesamiento de datos automatizados.
|
||||
|
||||
Usando este flujo de trabajo, podemos explorar los impactos estacionales en el sentimiento de los poemas, y nos ayuda a formar nuestras propias perspectivas del autor. ¡Prueba esto tú mismo - luego extiende el notebook para preguntar otras cuestiones o visualizar los datos de nuevas formas!
|
||||
|
||||
> Puedes usar algunas de las herramientas en la [caja de herramientas de Humanidades Digitales](https://github.com/Digital-Humanities-Toolkit) para seguir estas vías de investigación.
|
||||
|
||||
|
||||
## Ciencia de Datos + Sustentabilidad
|
||||
|
||||
| ![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/20-DataScience-Sustainability.png) |
|
||||
| :---------------------------------------------------------------------------------------------------------------: |
|
||||
| Ciencia de Datos y Sustentabilidad - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
La [agenda de 2030 para el desarrollo sostenible](https://sdgs.un.org/2030agenda) - adoptada por todos los miembros de las Naciones Unidas en 2015 - identifica 17 metas incluyendo algunas que se enfocan en la **protección del planeta** de la degradación y el impacto del cambio climático. La iniciativa de [sustentabilidad de Microsoft](https://www.microsoft.com/en-us/sustainability) soporta estas metas explorando formas en las cuales las soluciones tecnológicas pueden soportar y construir futuros más sostenibles con un [enfoque en 4 metas](https://dev.to/azure/a-visual-guide-to-sustainable-software-engineering-53hh) - siendo negativas al carbono, positivas al agua, cero desperdicio y biodiversas para el 2030.
|
||||
|
||||
Abordar estos desafíos de forma escalable y oportuna requiere pensamiento a escala de la nuber y datos en gran escala. La iniciativa de [Computadora Planetaria](https://planetarycomputer.microsoft.com/) provee 4 componentes que ayudan a los científicos de datos y desarrolladores en este esfuerzo:
|
||||
|
||||
* [Catálogo de datos](https://planetarycomputer.microsoft.com/catalog) - con petabytes de datos de los sistemas de la tierra (gratuitos y hospedados en Azure).
|
||||
* [API Planetaria](https://planetarycomputer.microsoft.com/docs/reference/stac/) - para ayudar a los usuarios a buscar datos relevantes a través del espacio y tiempo.
|
||||
* [Hub](https://planetarycomputer.microsoft.com/docs/overview/environment/) - entorno gestionado por científicos par el proceso de conjuntos de datos geoespaciales masivos.
|
||||
* [Aplicaciones](https://planetarycomputer.microsoft.com/applications) - exhibe casos de uso y herramientas para conocimientos prácticos sostenibles.
|
||||
|
||||
**El proyecto de Computadora Planetaria está actualmente en progreso (a Septiembre de 2021)** - así es como puedes iniciarte en la contribución a soluciones sostenibles usando ciencia de datos.
|
||||
|
||||
* [Solicita acceso](https://planetarycomputer.microsoft.com/account/request) para iniciar la exploración y conecta con compañeros.
|
||||
* [Explora la documentación](https://planetarycomputer.microsoft.com/docs/overview/about) para entender los conjuntos de datos y APIs soportados.
|
||||
* Explora aplicaciones como [Monitoreo del ecosistema](https://analytics-lab.org/ecosystemmonitoring/) en búsqueda de inspiración en ideas de aplicación.
|
||||
|
||||
Piensa en cómo puedes usar la visualización de datos para exponer o amplificar los conocimientos en áreas como el cambio climático y deforestación. O piensa en como pueden ser usados los conocimientos para crear nuevas experiencias de usuario para motivar cambios en comportamiento para una vida más sostenible.
|
||||
|
||||
## Ciencia de Datos + Estudiantes
|
||||
|
||||
Hemos hablado acerca de aplicaciones en el mundo real en la industria y la investigación y explorado ejemplos de aplicación de la ciencia de datos en las humanidades digitales y sostenibilidad. Entonces, ¿cómo puedes construir tus habilidades y compartir tu experienca como principiantes en la ciencia de datos?
|
||||
|
||||
Aquí tienes algunos ejemplos de proyectos de estudiantes de ciencia de datos para inspirarte.
|
||||
|
||||
* [Escuela de verano de ciencia de datos MSR](https://www.microsoft.com/en-us/research/academic-program/data-science-summer-school/#!projects) en [proyectos](https://github.com/msr-ds3) de Github explora temas como:
|
||||
- [Sesgo racial en el uso de la fuerza policial](https://www.microsoft.com/en-us/research/video/data-science-summer-school-2019-replicating-an-empirical-analysis-of-racial-differences-in-police-use-of-force/) | [Github](https://github.com/msr-ds3/stop-question-frisk)
|
||||
- [Fiabilidad del sistema de transporte Metro de la Ciudad de Nueva York](https://www.microsoft.com/en-us/research/video/data-science-summer-school-2018-exploring-the-reliability-of-the-nyc-subway-system/) | [Github](https://github.com/msr-ds3/nyctransit)
|
||||
* [Digitalización de la Cultura Material: explora las distribuciones socio-económicas en Sirkap](https://claremont.maps.arcgis.com/apps/Cascade/index.html?appid=bdf2aef0f45a4674ba41cd373fa23afc)- por [Ornella Altunyan](https://twitter.com/ornelladotcom) y el equipo en Claremont, usando [ArcGIS StoryMaps](https://storymaps.arcgis.com/).
|
||||
|
||||
## 🚀 Desafío
|
||||
|
||||
Busca artículos que recomienden proyectos de ciencia de datos que son amigables para principiantes - como [éstas 50 temas de área](https://www.upgrad.com/blog/data-science-project-ideas-topics-beginners/) o [estas 21 ideas de proyecto](https://www.intellspot.com/data-science-project-ideas) o [estos 16 proyectos con código fuente](https://data-flair.training/blogs/data-science-project-ideas/) que puedes deconstruir y remezclar. Y no olvides crear un blog acerca de tu viaje de aprendizaje y comparte tus conocimientos con todos nosotros.
|
||||
|
||||
## Examen posterior a la lección
|
||||
|
||||
[Examen posterior a la lección](https://red-water-0103e7a0f.azurestaticapps.net/quiz/39)
|
||||
## Revisión y auto-estudio
|
||||
|
||||
¿Quieres explorar más casos de uso? Aquí hay algunos artículos relevantes:
|
||||
* [17 aplicaciones de Ciencia de Datos y ejemplos](https://builtin.com/data-science/data-science-applications-examples) - Julio de 2021
|
||||
* [11 proyectos de Ciencia de Datos sorprendentes en el mundo real](https://myblindbird.com/data-science-applications-real-world/) - Mayo de 2021
|
||||
* [Ciencia de Datos en el mundo real](https://towardsdatascience.com/data-science-in-the-real-world/home) - colección de artículos
|
||||
* Ciencia de Datos en la [Educación](https://data-flair.training/blogs/data-science-in-education/), [Agricultura](https://data-flair.training/blogs/data-science-in-agriculture/), [Finanzas](https://data-flair.training/blogs/data-science-in-finance/), [Películas](https://data-flair.training/blogs/data-science-at-movies/) y más.
|
||||
## Asignación
|
||||
|
||||
[Explora un conjunto de datos de la Computadora Planetaria](assignment.es.md)
|
@ -0,0 +1,37 @@
|
||||
# Explora un conjunto de datos de la Computadora Planetaria
|
||||
|
||||
## Instrucciones
|
||||
|
||||
En esta lección, hablamos acerca de distintos dominios de aplicación de la ciencia de datos - profundizando en ejemplos relacionados a la investigación, sustentabilidad y humanidades digitales. En esta asignación, explorarás uno de estos ejemplos a mayor detalle, y aplicarás algunos de tus aprendizajes en visualización de datos y análisis para derivar en conocimientos acerca de datos de sustentabilidad.
|
||||
|
||||
El proyecto de [Computadora Planetaria](https://planetarycomputer.microsoft.com/) tiene conjuntos de datos y APIs que pueden ser accesadas con una cuenta - solicita acceso si quieres probar el paso adicional de esta asignación. El sitio también provee una característica de [Explorador](https://planetarycomputer.microsoft.com/explore) que puedes usar sin crear una cuenta.
|
||||
|
||||
|
||||
`Pasos:`
|
||||
La interfaz de exploración (mostrada en captura de pantalla abajo) te permite seleccionar un conjunto de datos (de las opciones proporcionadas), una consulta preestablecida (para filtrar los datos) y una opción de representación (para crear una visualización relevante). En esta asignación, tu tarea es:
|
||||
|
||||
1. Lee la [documentación del explorador](https://planetarycomputer.microsoft.com/docs/overview/explorer/) - entiende las opciones.
|
||||
2. Explora el conjunto de datos del [catálogo](https://planetarycomputer.microsoft.com/catalog) - entiende el propósito de cada uno.
|
||||
3. Usa el explorador - elige un conjunto de datos de interés, selecciona una consulta relevante y una opción de representación.
|
||||
|
||||
![El explorador de la Computadora Planetaria](../images/planetary-computer-explorer.png)
|
||||
|
||||
`Tu tarea:`
|
||||
Ahora estudia la visualización que es representada en el navegador y responde a lo siguiente:
|
||||
* ¿Qué _características_ tiene el conjunto de datos?
|
||||
* ¿Qué _conocimientos_ o resultados provee la visualización?
|
||||
* ¿Cuáles son las _implicaciones_ de esos conocimientos para las metas de sustentabilidad del proyecto?
|
||||
* ¿Cuáles son las _limitantes_ de la visualización (esto es, ¿qué conocimiento no obtienes?)?
|
||||
* Si pudieras obtener los datos en crudo, ¿qué _alternativas de visualización_ crearías y porqué?
|
||||
|
||||
`Puntos adicionales:`
|
||||
Aplica para una cuenta - e inicia sesión cuando seas aceptado.
|
||||
* Usa la opción _Launch Hub_ para abrir el conjunto de datos en crudo en un Notebook.
|
||||
* Explorar los datos de forma interactiva, e implementa las alternativas de visualización que tengas en mente.
|
||||
* Ahora analiza tus visualizaciones personalizadas - ¿fuiste capaz de derivar los conocimientos que antes te faltaron?
|
||||
|
||||
## Rúbrica
|
||||
|
||||
Ejemplar | Adecuado | Necesita mejorar
|
||||
--- | --- | -- |
|
||||
Todas las cinco preguntas se respondieron. El estudiante identificó claramente como las visualizaciones actuales y alternativas podrían proveer conocimiento en objetivos de sustentabilidad o resultados. | El estudiante respondió al menos las 3 preguntas principales a gran detalle, mostrando que tuvo experiencia práctica con el Explorador. | El estudiante falló al responder múltiples preguntas, o dió detalles insuficientes - indicando que hizo un intento significativo para el proyecto. |
|
@ -0,0 +1,34 @@
|
||||
# Planetary Computer 데이터 셋 살펴보기
|
||||
|
||||
## 설명
|
||||
|
||||
이 레슨에서는, 우리는 다양한 도메인에 적용된 데이터 과학에 대해 이야기할 것입니다 - 연구, 지속 가능성과 디지털 인문학에 관련된 예를 더 깊이 파고 들것입니다. 이 과제에서, 당신은 이러한 예들 중 하나를 더 자세히 살펴보고, 데이터 시각화 및 분석에 대한 학습 내용을 적용하여 지속 가능성 데이터에 대한 통찰력을 도출할 수 있습니다.
|
||||
|
||||
[Planetary Computer](https://planetarycomputer.microsoft.com/) 프로젝트에서 계정으로 데이터 셋과 API를 접근할 수 있습니다 - 과제의 보너스 단계를 시도하려면 액세스 권한을 요청하세요. 이 사이트는 계정을 만들지 않고도 사용할 수 있는 [Explorer](https://planetarycomputer.microsoft.com/explore) 기능도 제공합니다.
|
||||
|
||||
`단계:` Explorer 인터페이스(아래 스크린샷에 보임)를 사용하여 데이터 셋(제공된 옵션), 사전 설정된 쿼리(데이터 필터링), 렌더링 옵션(관련 시각화를 생성)을 선택할 수 있습니다. 이 과제에서, 과제는 다음과 같습니다.
|
||||
|
||||
1. [Explorer documentation](https://planetarycomputer.microsoft.com/docs/overview/explorer/) 살펴보기 - 옵션에 대한 이해.
|
||||
2. 데이터 셋 [Catalog](https://planetarycomputer.microsoft.com/catalog) 살펴보기 - 각각에 대한 목적 이해.
|
||||
3. Explorer 사용하기 - 관심있는 데이터를 고르고, 알맞은 쿼리 & 렌더링 옵션을 찾으세요.
|
||||
|
||||
![The Planetary Computer Explorer](images/Planetary-Computer-Explorer.png)
|
||||
|
||||
`당신의 과제:` 이제 브라우저에 렌더링된 시각화를 공부하고 다음 질문에 답해보세요:
|
||||
|
||||
* 데이터가 어떤 _특징(features)_ 을 가지고 있나요 ?
|
||||
* 시각화 어떤 *인사이트* 혹은 결과를 제공하나요?
|
||||
* 이러한 통찰이 프로젝트의 지속 가능성 목표에 미치는 *의미 (implications)* 는 무엇인가요?
|
||||
* 시각화의 한계(즉, 어떤 통찰력을 얻지 못했나요?)가 무엇이었나요?
|
||||
* 미가공 데이터를 얻을 수 있다면 어떤 _대체 시각화_ 를 만들고 싶은지? 그리고 그 이유는 무엇인가요?
|
||||
|
||||
`보너스 포인트:` 계정 신청 - 그리고 계정 승인 후 로그인 해보기.
|
||||
|
||||
* 데이터를 인터랙티브하게 탐색하고, 생각해 낸 다른 시각화를 구현합니다.
|
||||
* 이제 커스텀한 시각화를 분석해보세요 - 이전에 놓쳤던 통찰력을 도출할 수 있었나요?
|
||||
|
||||
## 지시문
|
||||
|
||||
| 모범적인 | 적당한 | 개선 필요 |
|
||||
| ------------------------------------------------------------------------------------------ | ------------------------------------------------------------------- | ---------------------------------------------------------------- |
|
||||
| 다섯 가지 핵심 질문에 모두 답했습니다. 학생은 현재 및 대안 시각화가 지속 가능성 목표 또는 결과에 대한 통찰력을 제공할 수 있는 방법을 명확하게 파악했습니다. | 학생은 적어도 상위 3개의 질문에 매우 자세하게 답변했으며, 이는 Explorer에 대한 실제 경험이 있음을 보여줍니다. | 학생이 여러 질문에 답하지 못하거나 세부 정보가 충분하지 않음 - 프로젝트에 의미 있는 시도가 없었음을 나타냅니다. |
|
@ -0,0 +1,11 @@
|
||||
# Ciencia de Datos en la naturaleza
|
||||
|
||||
Aplicaciones del mundo real de la ciencia de datos en las industrias.
|
||||
|
||||
### Temas
|
||||
|
||||
1. [Ciencia de datos en el mundo real](../20-Real-World-Examples/translations/README.es.md)
|
||||
|
||||
### Créditos
|
||||
|
||||
Escrito con ❤️ por [Nitya Narasimhan](https://twitter.com/nitya)
|
@ -0,0 +1,11 @@
|
||||
# 실제 환경에서의 데이터 과학
|
||||
|
||||
산업 전반에 걸친 데이터 과학의 실제 적용.
|
||||
|
||||
### 토픽
|
||||
|
||||
1. [현실에서의 데이터 과학](20-Real-World-Examples/README.md)
|
||||
|
||||
### 출처
|
||||
|
||||
[Nitya Narasimhan](https://twitter.com/nitya)에 의해 쓰여졌음 ❤️
|
After Width: | Height: | Size: 263 KiB |
Loading…
Reference in new issue