Merge branch 'microsoft:main' into patch-3

pull/208/head
Dhanya Hegde 4 years ago committed by GitHub
commit 782693a16b
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

@ -0,0 +1,31 @@
# असाइनमेंट: डाटा साइंस के परिदृश्य
इस असाइनमेंट मे हम चाहते हैं कि आप कुछ असल ज़िंदगी की दिक्कतें या क्रिया-कलाप सोचें विभिन्न क्षेत्रों मे, और फिर सोचें कि इसको हम डाटा साइंस के प्रयोग से कैसे सुधार सकते हैं| इन चीजों के बारे मे सोचें:
1. आप कौनसी डाटा इकट्ठा कर सकते हैं?
1. आप उसको कैसे इकट्ठा करेंगे?
1. आप उस डाटा को कैसे संग्रहीत करेंगे? वो डाटा कितनी बड़ी होगी?
1. अस डाटा से आपको क्या अनुमान मिलेगा? उस डाटा के आधार पर आप क्या निर्णय ले सकते हैं?
किन्ही 3 अलग दिक्कत या क्रिया-कलाप के बारे मे सोचे का प्रयास करें और ऊपर लिखे हर पॉइंट को अलग कार्यक्षेत्र के लिए वर्णित कीजिए|
यहा कुछ कार्यक्षेत्र और दिक्कतें लिखी हैं जिनकी मदद से आप सोचना शुरू कर सकते हैं:
1. आप डाटा का प्रयोग करके विद्यालय जा रहे बच्चों की शिक्षा कैसे सुधार सकते हैं?
1. आप डाटा का प्रयोग करके महामारी के समय मे टीकाकरण कैसे नियंत्रित कर सकते हैं?
1. आप डाटा का प्रयोग करके अपने काम मे कैसे और उत्पादक बन सकते हैं?
## निर्देश:
निम्नलिखित मेज को भरें (अपने विकल्प सुझावित क्षेत्रों की जगह लिखें अगर जरूरत हो तो):
| समस्या डोमेन | समस्या | कॉनसी डाटा संग्रहीत करनी है | डाटा को कैसे संग्रहीत करना है | कॉन्से निर्णय ले सकते हैं |
|----------------|---------|-----------------------|-----------------------|--------------------------------------|
| शिक्षा | | | | |
| टीकाकरण | | | | |
| उत्पादकता | | | | |
## सरनामा
अनुकरणीय | पर्याप्त | सुधार चाहिए
--- | --- | -- |
डाटा के स्तोत्र को पहचानने मे, उसको भंडारित मे और निर्णय लेने मे सक्षम थे | समाधान के कुछ हिस्से विस्तृत नहीं हैं, डाटा को संग्रहीत करना नहीं बताया गया है, कम से कम दो क्षेत्रों का वर्णन है | समाधान के सिर्फ कुछ ही हिस्सों का वर्णन है, सिर्फ एक क्षेत्र पर विचार किया है|

@ -0,0 +1,273 @@
# Введение в этику данных
|![ Рисунок [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/02-Ethics.png)|
|:---:|
| Этика в науке о данных - _Рисунок [@nitya](https://twitter.com/nitya)_ |
---
Мы все инфо-граждане, живущие в инфо-мире.
Из тенденций рынка следует, что к 2022 году одна из трёх крупных организаций будет покупать и продавать свои данные на онлайн [маркетплейсах и биржах](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/). Как **разработчики приложений**, мы интегрируем инсайты на основе данных и алгоритмы автоматизации в ежедневную жизнь пользователя более простым и дешёвым способом. Однако по мере распространения ИИ, нам необходимо осознавать потенциальную угрозу использования подобных алгоритмов в качестве [оружия](https://www.youtube.com/watch?v=TQHs8SA1qpk) в больших масштабах.
Тенденции также показывают, что мы создадим и потребим более [180 зеттабайт](https://www.statista.com/statistics/871513/worldwide-data-created/) данных к 2025 году. Нам, как **дата сайентистам - специалистам по данным**, открывается беспрецедентный уровень доступа к личным данным. Это означает, что мы сможем составлять поведенческие профили пользователей и влиять на принятие решений, создавая [иллюзию свободного выбора](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) и подталкивая пользователей делать то, что нам нужно. Также возникают широкие вопросы о приватности данных и защите пользователей.
В настоящее время, этика данных является еобходимым ограждением_ для специалистов и инженеров по данным, минимизирующим ущерб и непреднамеренные последствия от наших действий на основе данных. На [графике цикла популярности Gartner для ИИ](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) современные тренды в цифровой этике, ответственном ИИ и управлении ИИ обозначены как ключевые двигатели мегатрендов емократизации_ и _индустриализации_ искусственного интеллекта.
![Цикл популярности Gartner для ИИ - 2020 год](https://images-cdn.newscred.com/Zz1mOWJhNzlkNDA2ZTMxMWViYjRiOGFiM2IyMjQ1YmMwZQ==)
В данном уроке мы исследуем увлекательную область этики данных, от основных положений и проблем, до реальных примеров и прикладных концепции, таких как управление данными, которые помогают установить этическую культуру в командах и организациях, работающих с данными и ИИ.
## [Вступительный тест](https://red-water-0103e7a0f.azurestaticapps.net/quiz/2) 🎯
## Основные определения
Давайте начнём с базовых терминов.
Само слово "этика" происходит от [греческого слова "этикос"](https://ru.wikipedia.org/wiki/%D0%AD%D1%82%D0%B8%D0%BA%D0%B0) (и его корня "этос"), означающего _характер или моральная природа_.
**Этика** изучает общие ценности и моральные принципы, которые определяют наше поведение в обществе. Этика основывается не на законах, а на широких принятых нормах того, что хорошо, а что плохо. Однако, этические соображения могут влиять на политику компаний и государственное регулирование, которое создает больше стимулов для соблюдения этических норм.
**Этика данных** - это [новая ветвь этики](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1), которая "изучает и оценивает моральные вопросы связанные с анными, алгоритмами и соответствующими практиками_". Упомянутые здесь вопросы **"данных"** сосредоточены вокруг действий генерации, записи, курирования, обработки, распространения, предоставление доступа и использования. Вопросы **"алгоритмов"** сосредоточены вокруг ИИ, агентов, машинного обучения и роботов. Вопросы **"практик"** сфокусированы на темах ответственных инноваций, программирования, хакинга и этичного исходного кода.
**Прикладная этика** - это [практическое применение моральных соображений](https://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%B8%D0%BA%D0%BB%D0%B0%D0%B4%D0%BD%D0%B0%D1%8F_%D1%8D%D1%82%D0%B8%D0%BA%D0%B0). Это процесс активного исследования этических проблем в контексте ействий, товаров и процессов реального мира_, и принятия корректирующих мер по удержанию их в соответствии нашим принятым этическим ценностям.
**Этическая культура** - раздел об [спользовании_ прикладной этики](https://hbr.org/2019/05/how-to-design-an-ethical-organization) для того, чтобы убедиться, что наши этические принципы и порядки приняты полномасштабно в рамках всей организации и действуют постоянно. Успешные этические культуры определяют общеорганизационные этические принципы, обеспечивают ощутимые стимулы для их соблюдения и укрепляют этические нормы, поощряя желаемое поведение на каждом уровне организации.
## Этические концепции
В данном разделе мы обсудим такие понятия как **общие ценности** (принципы) и **этические вызовы** (проблемы) в этике данных, а также исследуем **реальные примеры**, которые помогут Вам понять эти концепции в реальном мире.
### 1. Принципы этики
Каждая стратегия в этике данных начинается с определения _этических принципов_ - "общих ценностей", которые описывают приемлемое поведение и регламентируют соответствующие действия в проектах, связанных с данными и ИИ. Вы можете определить их на индивидуальном уровне или на уровне команды. Однако, большинство крупных организаций выделяют их как миссию по созданию _этичного ИИ_ или набора правил, который определён на уровне компании и которому подчиняются все без исключения.
**Пример**: Формулировка миссии об [ответственном ИИ](https://www.microsoft.com/en-us/ai/responsible-ai) компании Майкрософт звучит так: _"Мы преданы идее продвижения ИИ на основе этических принципов, которые ставят людей во главу угла"_. Данный лозунг определяет 6 этических принципов, описанных далее.
![Ответсвенный ИИ в компании Майкрософт](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
Давайте кратко рассмотрим эти принципы. розрачность_ и _Ответственность_ являются основными, а остальные строятся поверх, поэтому начнем с главных:
* Принцип [**ответственности**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) накладывает ответственность на активных пользователей за использование данных и ИИ и требует согласия с данными этическими принципами.
* Принцип [**прозрачности**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) позволяет убедиться, что действия с данными и ИИ _понимаемы_ (осознаваемы) пользователями, разъясняя, что кроется за действиями и их последствия.
* Принцип [**справедливости**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) фокусируется на равном восприятии искусственным интеллектом сех людей_ и обращает внимание на системную и скрытую социально-техническую предвзятость в данных и информационных системах.
* Принцип [**надёжности и сохранности**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) обеспечивает _постоянное_ соответствие поведения ИИ заранее определённым ценностям, минимизируя потенциальный ущерб или неумышленные последствия.
* Принцип [**приватности и безопасности**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) говорит о необходимости понимания происхождения данных и обеспечивает _приватность данных и их защиту_ для пользователей.
* Принцип [**инклюзивности**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) гарантирует создание решений на основе ИИ с целью адаптировать их к уждам широкого круга людей с различными возможностями_.
> 🚨 Подумайте о том, какими могут быть формулировки миссий в этике данных. Познакомьтесь с подходами этичного ИИ в других организациях: [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) и [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/). Какие общие ценности являются схожими? Как эти принципы связаны с продуктами и отраслями этих компаний?
### 2. Проблемы этики
Как только мы определили этические принципы, следующим шагом становится оценить наши действия с данными и ИИ с точки зрения того, как они соотносятся с принятыми общими ценностями. Подумайте над Вашими действиями в разрезе двух категорий: _сбора данных_ и _разработка алгоритма_.
При сборе данных, список действий наверняка будет включать в себя **персональные данные** или персональные идентифицирующие данные для установления личностей. Они состоят из
[различных неперсональных данных](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en), которые совокупности_ определяются как персональные. Этические вызовы здесь могут относиться к _приватности данных_, _владению данными_ и связанным с ними вопросам _информированного согласия_, и _прав на интеллектуальную собственность_ пользователей.
При разработке алгоритма, действия включают в себя сбор и обработку **датасетов** и последующее использование их для тренировки и развёртывания одели данных_, способной выдавать прогнозы или автоматизировать принятие решений в реальном мире. Этические вызовы возникают из-за есбалансированного датасета_, ачества данных_, есправедливости модели_ и скажения фактов_ в алгоритмах, включая некоторые системные по своей природе вопросы.
В обоих случаях, этические проблемы подсвечивают области, в которых наши действия могут идти в разрез с нашими общими ценностями. Для того чтобы распознать, смягчить, сократить или устранить конфликты, нам необходимо задать моральные "да/нет" вопросы, связанные с нашими действиями, а затем скорректировать наши действия при необходимости. Давайте взглянем на некоторые этические вызовы и моральные вопросы, которые они поднимают:
#### 2.1 Право собственности на данные
Сбор данных часто включает в себя сбор персональных данных, которые могут идентифицировать действующих лиц. [Право собственности на данные](https://permission.io/blog/data-ownership) занимается вопросами онтроля_ и [_прав пользователя_](https://permission.io/blog/data-ownership) в области создания, обработки и распространения данных.
Моральные вопросы, которые мы должны задать себе здесь:
* Кто владеет данными (пользователь или организация)?
* Какие права имеют действующие лица, имеющие отношение к данным? (напр., доступ, стирание, перенос)
* Какие права имеет организация? (напр., редактирование злонамеренных пользовательских отзывов)
#### 2.2 Информированное согласие
[Информированное согласие](https://legaldictionary.net/informed-consent/) определяет согласие пользователя на действия (например, сбор данных) с _полным пониманием_ всех фактов, включая цель, потенциальные риски и альтернативы.
Вопросы для дискуссии:
* Предоставил ли пользователь (действующее лицо) соглашение на сбор и использование данных?
* Осознал ли пользователь цель сбора данных?
* Осознал ли пользователь возможные риски от использования данных?
#### 2.3 Интеллектуальная собственность
[Интеллектуальная собственность](https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D1%81%D0%BE%D0%B1%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D1%81%D1%82%D1%8C) относится к нематериальным творениям, произведенным по инициативе человека, которые могут _иметь экономическую ценность_ для физических или юридических лиц.
Вопросы для дискуссии:
* Имеют ли собранные данные экономическую ценность для пользователя или компании?
* Обладает ли **пользователь** интеллектуальной собственностью в данном случае?
* Обладает ли **компания** интеллектуальной собственностью в данном случае?
* Если права на собственность существуют, как мы защищаем их?
#### 2.4 Приватность данных
[Приватность данных](https://www.northeastern.edu/graduate/blog/what-is-data-privacy/) или информационная приватность относится к сохранению приватности пользователя и защиты его личности относительно пользовательской идентифицирующей информации.
Вопросы для дискуссии:
* Защищены ли пользовательские (персональные) данные от взломов и утечек?
* Доступны ли пользовательские данные только уполномоченным пользователям и окружениям?
* Сохраняется ли анонимность пользователя при передаче и распространении данных?
* Может ли пользователь быть идентифицирован из анонимизированного датасета?
#### 2.5 Право на забвение
[Право на забвение](https://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%B0%D0%B2%D0%BE_%D0%BD%D0%B0_%D0%B7%D0%B0%D0%B1%D0%B2%D0%B5%D0%BD%D0%B8%D0%B5) или [Право на стирание](https://www.gdpreu.org/right-to-be-forgotten/) обеспечивает дополнительную защиту данных пользователя. В особенности, данное право предоставляет пользователям возможность удаления персональных данных из поисковых систем сети Интернет и других мест, позволяя, при определённых обстоятельствах, начать онлайн-историю с чистого листа без учёта предыдущих событий.
Вопросы для дискуссии:
* Позволяет ли рассматриваемая система действующим лицам запрашивать удаление данных?
* Должен ли отзыв пользовательского соглашения вызывать автоматическое стирание данных?
* Были ли данные собраны без согласия или незаконными способами?
* Действуем ли мы согласно государственному регулированию в сфере приватности данных?
#### 2.6 Несбалансированный датасет
Проблема [несбалансированного датасета или коллекции данных](http://researcharticles.com/index.php/bias-in-data-collection-in-research/) появляется при использовании ерепрезентативной_ выборки для разработки алгоритма, создании потенциальной несправедливости в результатах модели для различных групп. Типы искажений включают в себя систематические ошибки, ошибки наблюдателя, погрешности инструментов.
Вопросы для дискуссии:
* Имеем ли мы дело с репрезентативным набором действующих лиц?
* Был ли протестирован собранный или созданный датасет на различные искажения?
* Можем ли мы уменьшить или избавиться от обнаруженных искажений?
#### 2.7 Качество данных
[Качество данных](https://lakefs.io/data-quality-testing/) отображает пригодность собранного датасета, используемого для разработки нашего алгоритма, проверяет, удовлетворяют ли признаки и записи требованиям качества и согласованности, необходимым для целей нашего ИИ.
Вопросы для дискуссии:
* Собрали ли мы _пригодные_ признаки для решения нашей задачи?
* Собраны ли данные _согласованно_ с различных источников?
* Является ли датасет _полным_ с точки зрения различных условий и сценариев?
* остоверно_ ли отображает собранная информация реальность?
#### 2.8 Справедливость алгоритма
[Справедливость алгоритма](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) указывает, дискриминирует ли созданный алгоритм отдельные группы действующих лиц и ведет ли это к [потенциальному ущербу](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) в _распределении_ (когда ресурсы недоступны или, наоборот, удерживаются отдельной группой) и в ачестве услуг_ (когда ИИ недостаточно точен для некоторых групп в отличие от других).
Вопросы для дискуссии:
* Правильно ли мы оценили точность модели для различных групп и условий?
* Внимательно ли мы изучили созданную систему на предмет потенциального ущерба (например, на стереотипизацию)?
* Можем ли мы перепроверить данные или перетренировать модель, чтобы сократить выявленный ущерб?
Изучите материалы, подобные [контрольному списку справедливости ИИ](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA), чтобы узнать больше.
#### 2.9 Искажение фактов
[Искажение фактов в данных](https://www.sciencedirect.com/topics/computer-science/misrepresentation) указывает, вводим ли мы в заблуждение инсайтами, чтобы поддержать желаемую точку зрения, несмотря на достоверные собранные данные.
Вопросы для дискуссии:
* Предоставляем ли мы неполные или неточные данные?
* Визуализируем ли мы данные таким образом, который ведет к ошибочным выводам?
* Используем ли мы статистические методы выборочно, чтобы манипулировать результатами?
* Существуют ли альтернативные суждения, которые могут привести к другим выводам?
#### 2.10 Свободный выбор
[Иллюзия свободного выбора](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) появляется, когда система, "проектирующая выбор", использует алгоритмы принятия решений, чтобы подтолкнуть к предподчтительным действиям, и в то же время обманчиво даёт выбор и контроль над ситуацией. Эти [нечестные уловки](https://www.darkpatterns.org/) могут нанести социальный и экономический вред пользователям. Поскольку решения пользователей влияют на поведенческие паттерны, подобные действия могут привести к последующим принятиям решений, которые приумножат или продлят действие нанесённого ущерба.
Вопросы для дискуссии:
* Понимает ли пользователь последствия принятия того или иного решения?
* Был ли пользователь осведомлён о (альтернативном) выборе и плюсах и минусах каждого исхода?
* Может ли пользователь изменить автоматический выбор или выбор, сделанный под влиянием, позднее?
### 3. Случаи из реальной практики
В решении упомянутых этических вызовов в контексте реального мира нам поможет взглянуть на случаи, когда потенциальные угрозы и последствия для личности и общества наиболее выражены, когда этические нарушения упущены из виду.
Вот некоторые примеры:
| Этический вызов | Реальный пример |
|--- |--- |
| **Информированное согласие** | 1972 год - [Исследование сифилиса в Таскиги](https://ru.wikipedia.org/wiki/%D0%98%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%81%D0%B8%D1%84%D0%B8%D0%BB%D0%B8%D1%81%D0%B0_%D0%B2_%D0%A2%D0%B0%D1%81%D0%BA%D0%B8%D0%B3%D0%B8) - Принявшим участие в исследовании афроамериканцам была обещана бесплатная медицинская помощь, однако их _обманули_ исследователи, не предоставив информацию о диагнозе или доступности лекарств. Многие участники умерли, заразив партнёров или детей. Исследование длилось 40 лет. |
| **Приватность данных** | 2007 год - В соревновании [от компании Netflix](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/) участникам предложили _10 миллионов анонимизированных оценок фильмов от 50 тысяч клиентов_ для улучшения алгоритма рекомендаций. Однако, участники оказались способны сопоставить анонимизированные данные с персональными данными из _внешнего источника данных_ (например, комментарии на сайте IMDb) и успешно де-анонимизировать некоторых подписчиков Netflix. |
| **Систематическая ошибка** | 2013 год - городские власти города Бостона [разработали Street Bump](https://www.boston.gov/transportation/street-bump), приложение, позволяющее гражданам сообщать о дорожных выбоинах, предоставляя властям более качественные данные для поиска и ремонта. Однако, [люди из группы с низким доходом имели ограниченный доступ к машинам и смартфонам](https://hbr.org/2013/04/the-hidden-biases-in-big-data), и их дорожные проблемы не отображались в этом приложении. Разработчики совместно с учеными исправили проблемы _равного доступа и цифрового неравенства_ для большей справедливости. |
| **Справедливость алгоритма** | 2018 год - В [исследовании гендерных оттенков](http://gendershades.org/overview.html) в университете MIT при оценке точности ИИ для задачи гендерной классификации товаров были обнаружены пробелы в точности для женщин и для "цветных" людей. В 2019 году [кредитная программа компании Apple](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) предлагала меньший кредитный лимит женщинам по сравнению с мужчинами. Оба случая иллюстрируют предвзятость, ведущую к социально-экономическому ущербу. |
| **Искажение фактов** | 2020 год - [Департамент штата Джорджия выпустил графики заболеваемости COVID-19](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening), которые ввели в заблуждение граждан насчёт трендов подтверждённых случаев своей хронологической неупорядоченностью. Данный пример показывает искажение фактов при помощи визуализации. |
| **Иллюзия свободного выбора** | 2020 год - Разработчики обучающего приложения [ABCmouse заплатили 10 миллионов долларов для урегулирования жалобы Федеральной торговой комиссии](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/), в которой родители были вынуждены платить за подписку, которую они не могли отменить. Данный случай иллюстрирует тёмную сторону систем с наличием выбора, в которых пользователей подталкивают к потенциально вредному выбору. |
| **Приватность данных и права пользователя** | 2021 год - [Утечка данных в компании Facebook](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) содержала данные 530 миллионов пользователей и повлекла штраф в 5 миллиардов долларов от Федеральной торговой комиссии. Компания отказалась предупреждать пользователей об утечке данных, нарушив тем самым права пользователей на прозрачность и приватный доступ. |
Хотите узнать больше случаев из реальной жизни? Познакомьтесь с данными ресурсами:
* [Этика без прикрас](https://ethicsunwrapped.utexas.edu/case-studies) - этические дилеммы в различных отраслях.
* [Курс этики в науке о данных](https://www.coursera.org/learn/data-science-ethics#syllabus) - рассматриваются ключевые примеры из реальной практики.
* [Место, где что-то пошло не так](https://deon.drivendata.org/examples/) - список примеров от Deon.
> 🚨 Вспомните реальные случаи из своей жизни. Сталкивались ли Вы сами или пострадали от подобных этических вызовов? Можете ли вы вспомнить по крайней мере ещё один случай, который иллюстрирует один из этических вызовов, которые мы обсудили в данном разделе?
## Прикладная этика
Мы рассмотрели этические концепции, вызовы и случаи из реальной жизни. Но как мы можем начать _применять_ этические принципы в наших проектах? И как мы должны _оперировать_ данными принципами для лучшего управления? Давайте рассмотрим некоторые решения проблем из реальной практики.
### 1. Профессиональные нормы поведения
Профессиональные нормы поведения в организации являются способом _стимулирования_ участников для поддержания её этических принципов и целей. Зафиксированные нормы являются оральным ориентиром_ для поведения на работе, помощи сотрудникам в принятии решений, которые соответствуют принципам их организации. Они имеют силу только при добровольном согласии участников, однако многие организации предлагают дополнительные вознаграждения и штрафы, чтобы мотивировать участников на согласие.
Примеры:
* Нормы этики в [университете Оксфорда в городе Мюнхен](http://www.code-of-ethics.org/code-of-conduct/)
* Нормы поведения в [Ассоциации науки о данных](http://datascienceassn.org/code-of-conduct.html) (написаны в 2013 году)
* Этические и профессиональные нормы в [Ассоциации вычислительной техники](https://www.acm.org/code-of-ethics) (действуют с 1993 года)
> 🚨 Имеете ли Вы отношение к организациям, занимающимся разработкой ПО и наукой о данных? Исследуйте их сайты на наличие зафиксированных норм этики. Какие этические принципы там определены? Как они "стимулируют" участников следовать принятым нормам?
### 2. Списки этических норм
В то время как нормы профессионального поведения определяют необходимое _этичное поведение_ участников, они также принуждают к соблюдению [установленных ограничений](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), особенно в крупных проектах. Вместо этого, многие эксперты в науке о данных [поддерживают использование списков](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), которые **соединяют принципы и реальные практики** более определённым и действенным методом.
Подобные списки конвертируют размытые вопросы в "да/нет" пункты, которые могут быть введены в действие и которые могут отслеживаться как часть стандартного процесса выпуска продукта.
Примеры:
* [Deon](https://deon.drivendata.org/) - список этических пунктов общего назначения, созданный по [промышленным рекомендациям](https://deon.drivendata.org/#checklist-citations) с поддержкой интерфейса командной строки для удобной интеграции.
* [Список аудита приватности](https://cyber.harvard.edu/ecommerce/privacyaudit.html) содержит общие рекомендации для обработки информации с точки зрения правового и социального воздействия.
* [Чеклист справедливого ИИ](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) создан разработчиками систем ИИ для поддержки интеграции проверок справедливости в цикл разработки продуктов с ИИ.
* [22 вопросв о этике в данных и ИИ](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - более открытый список, ориентированный на первоначальное обнаружение этических проблем в контексте структуры, реализации и организации.
### 3. Регулирование в области этики
Этика определяет общие ценности и правильные поступки а добровольной основе_. **Соглашение** в свою очередь принуждает _следовать закону_, если он определён, там, где он определён. **Руководство** покрывает широкий спектр способов, которыми организации пользуются для продвижения этических принципов и согласия с установленными законами.
На сегодняшний день, руководство по этике принимает две формы внутри организации. Во-первых, оно определяет принципы **этичного ИИ** и устанавливает правила его внедрения для всех проектов организации, связанных с ИИ. Во-вторых, оно действует в соглашении с государственным **регулированием в области защиты данных** в регионах представительства организации.
Примеры государственного регулирования в области защиты данных и конфиденциальности:
* `1974 год`, [Закон США о конфиденциальности](https://www.justice.gov/opcl/privacy-act-1974), регулирующий сбор, использование и раскрытие персональной информации а государственном уровне_.
* `1996 год`, [Закон США о переносимости и подотчетности медицинского страхования (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html), защищающий персональные данные в сфере здравоохранения.
* `1998 год`, [Закон США о защите конфиденциальности детей в Интернете (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule), защищающий конфиденциальность данных детей младше 13 лет.
* `2018 год`, [Общие правила защиты данных (GDPR)](https://gdpr-info.eu/), обеспечивающий пользовательские права, защиту данных и конфиденциальность.
* `2018`, [Закон Калифорнии о конфиденциальности потребителей (CCPA)](https://www.oag.ca.gov/privacy/ccpa), предоставляющий потребителям больше _прав_ в области своих (персональных) данных.
* `2021`, китайский [Закон о защите личной информации](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/), принятый в недавном времени, применяющий одно из самых строгих в мире регулирований в области конфиденциальности данных в сети Интернет.
> 🚨 Принятые Европейским Союзом Общие правила защиты данных (GDPR) остаются на сегодняшний день наиболее влиятельным регулированием в области приватности данных. Знали ли Вы, что они также определяют [8 прав пользователей](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) в области защиты конфиденциальности и персональных данных граждан? Узнайте подробнее, что они из себя представляют и почему они имеют значение.
### 4. Этичная культура
Отметим, что остаётся неосязаемый промежуток между _соглашением_ (делать достаточно, чтобы оставаться "в рамках закона") и [системными проблемами](https://www.coursera.org/learn/data-science-ethics/home/week/4) (такими, как потеря гибкости, информационная несимметричность и несправедливое распределение), который может ускорить применение ИИ в качестве оружия.
Решение этой проблемы кроется в [совместных подходах к определению этичных культур](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-driven-approach-26f451afa29f), которые выстраивают эмоциональные связи и постоянные общие ценности о всех организациях_ отрасли. Это требует более глубокой [формализации культуры в области этики данных](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) в организациях, позволяющей _любому_ [потянуть за ниточки](https://en.wikipedia.org/wiki/Andon_(manufacturing)) (чтобы поднять вопрос этики на ранней стадии) и провести _оценку этичности_ (например, при найме на работу) основных критериев формирования команд в проектах с ИИ.
---
## [Проверочный тест](https://red-water-0103e7a0f.azurestaticapps.net/quiz/3) 🎯
## Дополнительные источники
Курсы и книги помогут Вам понять основные этические принципы и вызовы, а примеры из реальной практики помогут с прикладными вопросами этики в контексте реального мира. Вот некоторые ресурсы, с которых можно начать:
* [Машинное обучение для начинающих (на англ.)](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - курс о справедливости от компании Microsoft.
* [Принципы ответственного ИИ](https://docs.microsoft.com/ru-ru/learn/modules/responsible-ai-principles/) - бесплатный курс от Microsoft Learn.
* [Этика в науке о данных](https://resources.oreilly.com/examples/0636920203964) - электронная книга издательства O'Reilly (M. Loukides, H. Mason и др.)
* [Этика науки о данных](https://www.coursera.org/learn/data-science-ethics#syllabus) - онлайн курс от Мичиганского университета.
* [Этика без прикрас](https://ethicsunwrapped.utexas.edu/case-studies) - случаи из реальной практики от Техасского университета.
# Домашнее задание
[Опишите реальный случай из этики в науке о данных](assignment.ru.md)

@ -0,0 +1,21 @@
## Опишите реальный случай из этики в науке о данных
## Порядок выполнения
Вы узнали о различных [проблемах в науке о данных](README.ru.md#2-проблемы-этики) и увидели некоторые [случаи из реальной практики](README.ru.md#3-случаи-из-реальной-практики), отражающие этические вызовы в контексте реального мира.
В данном домашнем задании Вам предстоит написать свой собственный пример, отражающий этический вызов, из Вашего личного опыта или окружения. Следуйте шагам:
1. `Выберите этический вызов, относящийся к науке о данных`. Взгляните на [примеры из лекции](README.ru.md#2-проблемы-этики) или ознакомьтесь с примерами из Интернета, например [список Deon](https://deon.drivendata.org/examples/).
2. `Опишите случай из реальной практики`. Вспомните ситуацию, о которой Вы слышали (заголовки, исследования и т.п.) или в которой принимали участие (на местном уровне), когда именно этот этический вызов проявился. Обдумайте вопросы в рамках этики данных и обсудите ущерб или непреднамеренные последствия, которые имели место вследствие этой проблемы. Дополнительный вопрос: подумайте о потенциальных решениях или процессах, которые могли бы помочь смягчить или устранить неблагоприятное воздействие этого вызова.
3. `Приведите список использованных источников`. Поделитесь одним или несколькими ресурсами (ссылки на статьи, пост в личном блоге или изображение, исследовательская онлайн статья и др.), чтобы подтвердить достоверность приведённого случая. Дополнительный вопрос: поделитесь ресурсами, которые описывают потенциальный ущерб и последствия от инцидента, или выделите положительные изменения для предотвращения его появления.
## Оценка
Отлично | Достаточно | Нуждается в улучшении
--- | --- | -- |
Найден один или более этических вызовов. <br/> <br/> Приведённый пример полно описывает случай из реальной жизни, отражающий выбранный этический вызов и подчёркивающий нежелательные последствия или ущерб, которые он вызвал. <br/><br/> Приведён по крайней мере один источник в доказательство существования данной проблемы. | Приведёт один этический вызов. <br/><br/> Кратко описан по крайне мере один нанесённый ущерб или одно последствие. <br/><br/> Приведены неубедительные доказательства существования данной проблемы или не приведены вообще. | Вызов верно определён. <br/><br/> Приведённое описание или источники не отображают или не подтверждают существование выбранной проблемы. |

@ -0,0 +1,76 @@
# Что такое данные?
|![ Рисунок [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/03-DefiningData.png)|
|:---:|
|Что такое данные - _Рисунок [@nitya](https://twitter.com/nitya)_ |
Данные - это факты, информация, наблюдения и измерения, которые используются для совершения открытий и для принятия информированных решений. Экземпляр данных - единичная сущность внутри датасета - коллекции экземпляров. Датасеты могут иметь различный формат и структуру в зависимости от источника данных и их природы. Например, данные о ежемесячной выручке компании могут лежать в таблице, а почасовые данные сердечного ритма с умных часов - в формате [JSON](https://stackoverflow.com/a/383699). Очень часто дата сайентистам приходится работать с разными типами данных в рамках одного датасета.
В данном уроке мы сосредоточимся на описании и классификации данных по их характеристикам и источникам.
## [Вступительный тест](https://red-water-0103e7a0f.azurestaticapps.net/quiz/4)
## Классификация данных
**"Сырые" данные** - это необработанные данные, полученные из источника без дополнительного анализа или организации. Для того, чтобы понять, что содержит в себе датасет, необходимо привести данные к формату, одинаково понятному как человеку, так и методам, которые могут быть использованы при их анализе. Структура датасета характеризует его содержание, которое делится на структурированные, неструктурированные и полуструктурированные данные. Эти типы структуры могут изменяться в зависимости от источника, но в конечном счёте все равно принадлежат одной из трёх упомянутых категорий.
### Количественные данные
Количественные данные - это численные наблюдения внутри датасета, которые обычно могут быть проанализированы, измерены и использованы при расчетах. Примеры таких данных: население страны, рост человека или поквартальная выручка компании. При дополнительном анализе, количественные данные могут быть использованы для обнаружения сезонных трендов в Индексе качества воздуха (AQI) или при оценке вероятности пробок в час пик в обычный рабочий день.
### Качественные данные
Качественные данные, также известные как категориальные, - это данные, которые не могут быть объективно измерены, в отличие от количественных наблюдений. В общем случае, они представляют из себя различные форматы субъективных данных, которые оценивают качество чего-либо, например товара или процесса. Иногда, качественные данные представлены в численном формате, но не могут быть обработаны обычными математическими методами, как например номера телефонов или временные интервалы. Примеры качественных данных: комментарии к видео, марка и модель автомобиля, любимый цвет Вашего близкого друга. Количественные данные можно использовать для того, чтобы понять, какие товары больше нравятся потребителями или определить популярные ключевые слова в резюме претендентов.
### Структурированные данные
Структурированные данные - это данные, которые организованы в строки и столбцы, при этом каждая строка имеет одинаковый набор столбцов. Стоблцы обозначают величину определённого типа и имеют название, отражающее эту величину, в то время как строки содержат значения этой величины. Столбцы часто имеют специальный набор правил или ограничений для значений, чтобы гарантировать соответствие между столбцом и значениями в нём. Представьте таблицу клиентов, в которой каждая строка должна иметь номер телефона и номера телефонов никогда не содержат букв. Таким образом, можно применить правило к столбцу номеров телефона, чтобы убедиться, что он не содержит пустых значений и содержит только цифры.
Преимущество структурированных данных в том, что они могут быть организованы таким образом, который соотносится с другим набором структурированных данных. Однако, из-за того, что данные должны быть организованны определённым способом, внесение изменений в общую структуру может быть затруднительным. Например, добавление колонки с адресом электронного ящика в таблицу клиентов, которая не может быть пустой, означает, что Вам необходимо продумать, как добавить эти значения в существующие строки датасета, соответствующие клиентам.
Примеры структурированных данных: таблицы, реляционные базы данных, телефонные номера, выписки из банка.
### Неструктурированные данные
Неструктурированные данные обычно не могут быть организованы по строкам или столбцам и не имеют строгого формата и набора правил. Благодаря тому, что неструктурированные данные содержат меньше ограничений на свою структуру, добавить новую информацию в них гораздо легче, чем в случае со структурированными данными. Если датчик, измеряющий давление каждые две минуты, получит обновление, которое позволит измерять и сохранять температуру, то в случае неструктурированных данных нет необходимости изменять уже существующие данные. Однако, такой подход требует более тщательного анализа и исследования выбранного типа данных. Например, специалист, который хочет найти среднюю температуру за предыдущий месяц из показаний датичков, может обнаружить, что датчики в некоторых случаях записали "е" чтобы обозначить поломку, соответственно, данные будут неполными.
Примеры неструктурированных данных: текстовые файлы, текстовые сообщения, видеофайлы.
### Полуструктурированные данные
Полуструктурированные данные имеют свойства как структурированных, так и неструктурированных данных. Обычно, они не соответствуют табличному формату, но организованы таким образом, который считается структурированным и могут иметь фиксированный формат данных и набор правил. Структура может отличаться от источника к источнику, от строго определённой иерархии до чего-то более гибкого, что позволяет более простое слияние с новой информацией. Метаданные - это индикаторы, которые помогают понять, как данные организованы и хранятся, и имеют различные наименования в зависимости от типа данных. Наиболее распространённые наименования метаданных: теги, элементы, сущности и аттрибуты. Например, обычное электронное письмо имеет тему, тело и набор адресатов и может быть организовано по адресам и датам отправки.
Примеры полуструктурированных данных: HTML страницы, CSV файлы, файлы JSON.
## Источники данных
Источник данных - место, где данные были изначально сгенерированы, или где они "лежат", оно может отличаться от того, как и когда данные были собраны. Данные, сгенерированные пользователем (пользователями) называются первичными, а собранные из источника и пригодные для использования - вторичными. Например, группа специалистов, собравших наблюдения в тропическом лесу, буду называть их первичными, а если они поделятся ими с другими, то относительно другой группы данные будут считаться вторичными.
Базы данных - общепринятый источник данных, который управляется и поддерживается системой управления базой данных (СУБД), в которой пользователи при помощи команд инициируют запросы для получения данных. В качестве источников могут выступать аудиофайлы, изображения, видеофайлы, а также таблицы, например файлы Excel. Интернет - распространённое место для хранения данных, где можно найти как базы данных, так и файлы. Прикладные программные интерфейсы, также известные как API, дают программистам возможность создавать различные способы обмена данными с внешними пользователями через Интернет, а парсинг веб-страниц извлекает информацию с сайтов. На уроках [работы с данными](../../../2-Working-With-Data) мы обратим внимание на то, как использовать различные источники данных.
## Заключение
На данном уроке мы изучили:
- Что такое данные
- Как можно описать данные
- Классификацию данных
- Где хранятся данные
## 🚀 Задача
Портал Kaggle - отличный источник датасетов. Воспользуйтесь [средством поиска по датасетам](https://www.kaggle.com/datasets), чтобы найти интересные и охарактеризовать 3-5 датасетов по следующим критериям:
- Являются ли данные количественными или качественными?
- Являются ли данные структурированными, неструктурированными, полуструктурированными?
## [Проверочный тест](https://red-water-0103e7a0f.azurestaticapps.net/quiz/5)
## Материалы для самостоятельного изучения
- Глава курса Microsoft Learn под названием ["Классификация данных"](https://docs.microsoft.com/ru-ru/learn/modules/choose-storage-approach-in-azure/2-classify-data) содержит детальную классификацию структурированных, полуструктурированных и неструктурированных данных.
## Домашнее задание
[Классификация датасетов](assignment.ru.md)

@ -0,0 +1,65 @@
# डाटासेट को वर्गीकृत करना
## निर्देश
इस असाइनमेंट मे निम्नलिखित प्रॉम्प्ट को देख कर डाटा को पहचाने व एक या उससे ज्यादा डाटा टाइप मे वर्गीकृत करें:
**स्ट्रक्चर टाइप**: संरचित, अर्ध्य-संरचित अथवा असंरचित
**वैल्यू टाइप**: गुणात्मक अथवा मात्रात्मक
**सोर्स टाइप**: मुख्य अथवा माध्यमिक
1. एक कंपनी को अधिग्रहित किया गया है और अब उसकी पेरन्ट कंपनी है| डाटा वैज्ञानिकों को पेरन्ट कंपनी से ग्राहकों के फओबने नंबर की सूची प्राप्त हुई है|
स्ट्रक्चर टाइप:
वैल्यू टाइप:
सोर्स टाइप:
---
2. एक स्मार्ट वाच उसको पहनने वाले का हृदय दर का माप ले रही है, जो की JSON फॉर्मैट मे है|
स्ट्रक्चर टाइप:
वैल्यू टाइप:
सोर्स टाइप:
---
3. कुछ कर्मचारियो का कार्यस्थल सर्वेक्षण जो की एक CSV फाइल मे संग्रहीत है|
स्ट्रक्चर टाइप:
वैल्यू टाइप:
सोर्स टाइप:
---
4. कुछ खगोल वैज्ञानिक एक आकाशगंगा के डेटाबेस को जांच रहे हैं जो अंतरिक्ष जांच से मिला है| उसकी डाटा मे हर आकाशगंगा मे स्थित ग्रहों की संख्या है|
स्ट्रक्चर टाइप:
वैल्यू टाइप:
सोर्स टाइप:
---
5. एक वयऐक्टिक फाइनैन्स एप कुछ APIs के सहारे एक व्यक्ति के आर्थिक खाते से जुड़ता है व उनकी कुल योग्यता निकलता है| यूजर अपनी सारी लेनदेन को एक स्प्रेड्शीट की तरह पंक्ति और स्तम्भ के रूप मे देख सकते हैं|
स्ट्रक्चर टाइप:
वैल्यू टाइप:
सोर्स टाइप:
## सरनामा
अनुकरणीय | पर्याप्त | सुधार चाहिए
--- | --- | -- |
डाटा के स्तोत्र को पहचानने मे, उसको भंडारित मे और निर्णय लेने मे सक्षम थे | समाधान के कुछ हिस्से विस्तृत नहीं हैं, डाटा को संग्रहीत करना नहीं बताया गया है, कम से कम दो क्षेत्रों का वर्णन है | समाधान के सिर्फ कुछ ही हिस्सों का वर्णन है, सिर्फ एक क्षेत्र पर विचार किया है|

@ -0,0 +1,65 @@
# Классификация датасетов
## Порядок выполнения
Следуйте подсказкам в данном домашнем задании, чтобы определить и классифицировать данные по следующим категориям:
**Структура**: структурированные, полуструктурированные, неструктурированные
**Величины**: количественные или качественные
**Источники**: первичные или вторичные
1. Компания была приобретена и теперь у нее есть материнская компания. Дата сайентисты получили таблицу с номерами телефонов клиентов от материнской компании.
Структура:
Величина:
Источник:
---
2. Умные часы собрали данные сердечного ритма владельца и сохранили сырые данные в формате JSON.
Структура:
Величина:
Источник:
---
3. Опрос настроения сотрудников, результаты которого хранятся в файле CSV.
Структура:
Величина:
Источник:
---
4. Астрофизики получили доступ к базе данных галактик, которая была собрана с помощью космического зонда. Данные содержат номера планет в переделах каждой галактики.
Структура:
Величина:
Источник:
---
5. Приложение для управления финансами использует API для соединения с финансовым счетом пользователя для того, чтобы рассчитать его траты. Пользователи могут видеть свои транзакции в строках и столбцах, напоминающих таблицу.
Структура:
Величина:
Источник:
## Оценка
Отлично | Достаточно | Нуждается в улучшении
--- | --- | -- |
Верно определены все структуры, величины и источники |Верно определены структура, величины и источники трёх примеров целиком |Верно определены структура, величины и источники двух и менее примеров целиком |

@ -0,0 +1,16 @@
# डाटा विज्ञान को परिचय
![कार्यमा डाटा](../images/data.jpg)
> फोटो <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> on <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash द्वारा</a>
यी पाठहरूमा, तपाईंले डाटा विज्ञानलाई कसरी परिभाषित गरिएको छ भनेर थाहा पाउनुहुनेछ र डेटा वैज्ञानिकले विचार गर्नुपर्ने नैतिक विचारहरूको बारेमा सिक्नुहुनेछ। तपाइँ यो पाठमा कसरी डाटा परिभाषित गरिएको छ र डाटा विज्ञान को मुख्य शैक्षिक डोमेन, statistics र probability पनि केहि मात्रामा जान्नुहुनेछ ।
### विषयहरु
१. [डाटा विज्ञान को परिभाषा](01-defining-data-science/README.md)
२. [डाटा विज्ञान नैतिकता](02-ethics/README.md)
३. [डाटा परिभाषा ](03-defining-data/README.md)
४. [Statistics र Probability को परिभाषा](04-stats-and-probability/README.md)
### विशेष धन्यवाद
यी पाठहरु N [नित्य नरसिम्हन](https://twitter.com/nitya) र [दिमित्री सोश्निकोभ](https://twitter.com/shwars) द्वारा ❤️ का साथ लेखिएको हो।

@ -0,0 +1,19 @@
# सोडा लाभ
## निर्देश
[कोका कोला कंपनी स्प्रेडशीट](CocaColaCo.xlsx) में कुछ गणनाएं नहीं हैं। आपका कार्य है:
1. वित्त वर्ष '15, '16, '17, और '18' के सकल लाभ की गणना करें
- सकल लाभ = शुद्ध परिचालन राजस्व - बेची गई वस्तुओं की लागत
1. सभी सकल लाभ के औसत की गणना करें। इसे एक फ़ंक्शन के साथ करने का प्रयास करें।
- औसत = वित्तीय वर्षों की संख्या से विभाजित सकल लाभ का योग (10)
- [औसत फ़ंक्शन] पर दस्तावेज़ीकरण(https://support.microsoft.com/en-us/office/average-function-047bac88-d466-426c-a32b-8f33eb960cf6)
1. यह एक एक्सेल फाइल है, लेकिन इसे किसी भी स्प्रेडशीट प्लेटफॉर्म में संपादित किया जा सकता है
[यीयी वांग को डेटा स्रोत क्रेडिट](https://www.kaggle.com/yiyiwang0826/cocacola-excel)
## रूब्रिक
अनुकरणीय | पर्याप्त | सुधार की जरूरत
--- | --- | -- |

@ -0,0 +1,15 @@
# डाटासँग सहकार्य
![डाटा माया](images/data-love.jpg)
> फोटो <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn द्वारा</a> <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash बाट </a>
यी पाठहरुमा, तपाइँ केहि तरिकाहरु डाटा को प्रबंधन, हेरफेर, र अनुप्रयोगहरुमा प्रयोग गर्न सकिन्छ को बारे मा जान्न सक्नुहुन्छ। तपाइँ रिलेशनल र नन-रिलेशनल डाटाबेस को बारे मा र कसरी डाटा उनीहरुमा भण्डारण गर्न सकिन्छ जान्नुहुनेछ। तपाइँ डेटा को प्रबन्ध गर्न को लागी Python संग काम गर्ने आधारभूत कुराहरु सिक्नुहुनेछ, र तपाइँ Python द्वारा डाटा माइन साथै म्यानेज गर्ने धेरै मध्य केहि तरिकाहरु पत्ता लगाउन सक्नुहुनेछ ।
### बिषयहरु
१. [रेलशनल डाटाबेस](05-relational-databases/README.md)
२. [नन रेलशनल डाटाबेस](06-non-relational/README.md)
३. [Python सँग सहकार्य](07-python/README.md)
४. [डाटा को तयारी](08-data-preparation/README.md)
### बिषेष धन्यवाद
यी पाठहरू ❤️ का साथ [Christopher Harrison](https://twitter.com/geektrainer), [Dmitry Soshnikov](https://twitter.com/shwars) र [Jasmine Greenaway](https://twitter.com/paladique) द्वारा लेखिएको हो ।

@ -1,4 +1,4 @@
# Visualización de cantidades
# Visualización de Cantidades
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/09-Visualizing-Quantities.png)|
|:---:|

@ -1,4 +1,4 @@
# Líneas, Scatters y Barras
# Líneas, Dispersiones y Barras
## Instrucciones

@ -0,0 +1,193 @@
# Visualización de Distribuciones
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/10-Visualizing-Distributions.png)|
|:---:|
| Visualización de Distribuciones - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
En la lección anterior, aprendiste algunos datos interesantes sobre un conjunto de datos acerca de las aves de Minnesota. Encontraste algunos datos erróneos visualizando los valores atípicos y observaste las diferencias entre las categorías de aves según su longitud máxima.
## [Pre-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/18)
## Explora el conjunto de datos sobre aves
Otra forma de profundizar en los datos es observar su distribución, o cómo se organizan los datos a lo largo de un eje. Quizás, por ejemplo, te gustaría conocer la distribución general para este conjunto de datos, de la envergadura máxima o la masa corporal máxima de las aves de Minnesota.
Descubramos algunos hechos sobre las distribuciones de los datos en este conjunto de datos. En el archivo _notebook.ipynb_ en la raíz de la carpeta de esta lección, importa Pandas, Matplotlib, y tus datos:
```python
import pandas as pd
import matplotlib.pyplot as plt
birds = pd.read_csv('../../data/birds.csv')
birds.head()
```
En general, puedes ver rápidamente la forma en que se distribuyen los datos usando un gráfico de dispersión como hicimos en la lección anterior:
```python
birds.plot(kind='scatter',x='MaxLength',y='Order',figsize=(12,8))
plt.title('Max Length per Order')
plt.ylabel('Order')
plt.xlabel('Max Length')
plt.show()
```
Esto da una visión general de la distribución de la longitud del cuerpo por orden de las aves, pero no es la forma óptima de mostrar las verdaderas distribuciones. Esa tarea se suele realizar creando un Histograma.
## Trabajando con histogramas
Matplotlib ofrece muy buenas formas de visualizar la distribución de los datos utilizando Histogramas. Este tipo de gráfico es como un gráfico de barras en el que la distribución se puede ver a través de la subida y bajada de las barras. Para construir un histograma, necesitas datos numéricos. Para construir un Histograma, puedes trazar un gráfico definiendo el tipo como 'hist' para Histograma. Este gráfico muestra la distribución de MaxBodyMass para todo el rango de datos numéricos del conjunto de datos. Al dividir el conjunto de datos que se le da en intervalos más pequeños, puede mostrar la distribución de los valores de los datos:
```python
birds['MaxBodyMass'].plot(kind = 'hist', bins = 10, figsize = (12,12))
plt.show()
```
![distribución en todo el conjunto de datos](../images/dist1.png)
Como puedes ver, la mayoría de los más de 400 pájaros de este conjunto de datos se encuentran en el rango de menos de 2000 para su masa corporal máxima. Puedes obtener más información sobre los datos cambiando el parámetro `bins` a un número mayor, algo así como 30:
```python
birds['MaxBodyMass'].plot(kind = 'hist', bins = 30, figsize = (12,12))
plt.show()
```
![distribución en todo el conjunto de datos con un parámetro de bins más grande](../images/dist2.png)
Este gráfico muestra la distribución de forma un poco más granular. Se podría crear un gráfico menos sesgado hacia la izquierda asegurándose de que sólo se seleccionan datos dentro de un rango determinado:
Filtra tus datos para obtener sólo las aves cuya masa corporal es inferior a 60, y mostrar 40 `bins`:
```python
filteredBirds = birds[(birds['MaxBodyMass'] > 1) & (birds['MaxBodyMass'] < 60)]
filteredBirds['MaxBodyMass'].plot(kind = 'hist',bins = 40,figsize = (12,12))
plt.show()
```
![histograma filtrado](../images/dist3.png)
✅ Prueba otros filtros y puntos de datos. Para ver la distribución completa de los datos, elimina el filtro `['MaxBodyMass']` para mostrar las distribuciones etiquetadas.
El histograma ofrece algunas mejoras de color y etiquetado para probar también:
Crea un histograma 2D para comparar la relación entre dos distribuciones. Comparemos `MaxBodyMass` vs. `MaxLength`. Matplotlib ofrece una forma integrada de mostrar la convergencia utilizando colores más brillantes:
```python
x = filteredBirds['MaxBodyMass']
y = filteredBirds['MaxLength']
fig, ax = plt.subplots(tight_layout=True)
hist = ax.hist2d(x, y)
```
Parece haber una correlación esperada entre estos dos elementos a lo largo de un eje esperado, con un punto de convergencia particularmente fuerte:
![diagrama 2D](../images/2D.png)
Los histogramas funcionan bien por defecto para los datos numéricos. ¿Y si necesita ver las distribuciones según los datos de texto?
## Explorar el conjunto de datos para ver las distribuciones según los datos de texto
Este conjunto de datos también incluye buena información sobre la categoría de ave, su género, especie y familia, así como su estado de conservación. Exploremos esta información sobre la conservación. Cuál es la distribución de las aves según su estado de conservación?
> ✅ En el conjunto de datos, se utilizan varios acrónimos para describir el estado de conservación. Estas siglas proceden de la [Lista Roja de Categorías de la UICN](https://www.iucnredlist.org/), una organización que cataloga el estado de las especies.
>
> - CR: En peligro crítico
> - EN: En peligro de extinción
> - EX: Extinta
> - LC: Preocupación Menor
> - NT: Casi amenazada
> - VU: Vulnerable
Estos son valores basados en texto, por lo que tendrás que hacer una transformación para crear un histograma. Utilizando el dataframe de FilteredBirds, muestra su estado de conservación junto con su envergadura mínima. ¿Qué es lo que ves?
```python
x1 = filteredBirds.loc[filteredBirds.ConservationStatus=='EX', 'MinWingspan']
x2 = filteredBirds.loc[filteredBirds.ConservationStatus=='CR', 'MinWingspan']
x3 = filteredBirds.loc[filteredBirds.ConservationStatus=='EN', 'MinWingspan']
x4 = filteredBirds.loc[filteredBirds.ConservationStatus=='NT', 'MinWingspan']
x5 = filteredBirds.loc[filteredBirds.ConservationStatus=='VU', 'MinWingspan']
x6 = filteredBirds.loc[filteredBirds.ConservationStatus=='LC', 'MinWingspan']
kwargs = dict(alpha=0.5, bins=20)
plt.hist(x1, **kwargs, color='red', label='Extinct')
plt.hist(x2, **kwargs, color='orange', label='Critically Endangered')
plt.hist(x3, **kwargs, color='yellow', label='Endangered')
plt.hist(x4, **kwargs, color='green', label='Near Threatened')
plt.hist(x5, **kwargs, color='blue', label='Vulnerable')
plt.hist(x6, **kwargs, color='gray', label='Least Concern')
plt.gca().set(title='Conservation Status', ylabel='Max Body Mass')
plt.legend();
```
![colación de la envergadura y la conservación](../images/histogram-conservation.png)
No parece haber una buena correlación entre la envergadura mínima y el estado de conservación. Prueba otros elementos del conjunto de datos utilizando este método. También puedes probar diferentes filtros. ¿Encuentras alguna correlación?
## Gráficos de densidad
Habrás notado que los histogramas que hemos visto hasta ahora están "escalonados" y no fluyen suavemente en un arco. Para mostrar un gráfico de densidad más suave, puedes probar con un gráfico de densidad.
Para trabajar con gráficos de densidad, familiarízate con una nueva biblioteca de trazado, [Seaborn](https://seaborn.pydata.org/generated/seaborn.kdeplot.html).
Cargando Seaborn, intenta un gráfico de densidad básico:
```python
import seaborn as sns
import matplotlib.pyplot as plt
sns.kdeplot(filteredBirds['MinWingspan'])
plt.show()
```
![gráfico de densidad](../images/density1.png)
Puedes ver cómo el gráfico se asemeja al anterior para los datos de envergadura mínima; sólo que es un poco más suave. De acuerdo con la documentación de Seaborn, "En relación con un histograma, KDE puede producir un gráfico que es menos desordenado y más interpretable, especialmente cuando se dibujan múltiples distribuciones. Pero tiene el potencial de introducir distorsiones si la distribución subyacente está acotada o no es suave. Al igual que un histograma, la calidad de la representación también depende de la selección de buenos parámetros de suavización." [fuente](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) En otras palabras, los valores atípicos, como siempre, harán que tus gráficos se comporten mal.
Si quieres volver a ver esa línea dentada de MaxBodyMass en el segundo gráfico que construiste, podrías suavizarla muy bien recreándola con este método:
```python
sns.kdeplot(filteredBirds['MaxBodyMass'])
plt.show()
```
![línea de masa corporal lisa ](../images/density2.png)
Si quieres una línea suave, pero no demasiado suave, edita el parámetro `bw_adjust`:
```python
sns.kdeplot(filteredBirds['MaxBodyMass'], bw_adjust=.2)
plt.show()
```
![línea de masa corporal menos suave](../images/density3.png)
✅ Lee acerca de los parámetros disponibles para este tipo de gráfico y experimenta.
Este tipo de gráfico ofrece bonitas visualizaciones explicativas. Con unas pocas líneas de código, por ejemplo, se puede mostrar la densidad de masa corporal máxima por orden de aves:
```python
sns.kdeplot(
data=filteredBirds, x="MaxBodyMass", hue="Order",
fill=True, common_norm=False, palette="crest",
alpha=.5, linewidth=0,
)
```
![masa corporal por orden](../images/density4.png)
También puedes mapear la densidad de varias variables en un gráfico. Observa la longitud máxima y mínima de un ave en comparación con su estado de conservación:
```python
sns.kdeplot(data=filteredBirds, x="MinLength", y="MaxLength", hue="ConservationStatus")
```
![densidades múltiples, superpuestas](../images/multi.png)
Tal vez valga la pena investigar si la agrupación de aves "Vulnerables" según su longitud tiene sentido o no.
## 🚀 Desafío
Los histogramas son un tipo de gráfico más sofisticado que los gráficos de dispersión básicos, los gráficos de barras o los gráficos de líneas. Haz una búsqueda en internet para encontrar buenos ejemplos del uso de histogramas. ¿Cómo se utilizan, qué demuestran y en qué campos o áreas de investigación suelen utilizarse?
## [Cuestionario posterior a la clase](https://red-water-0103e7a0f.azurestaticapps.net/quiz/19)
## Repaso y Autoestudio
En esta lección, has utilizado Matplotlib y empezado a trabajar con Seaborn para mostrar gráficos más sofisticados. Investiga un poco sobre `kdeplot` en Seaborn, una "curva de densidad de probabilidad continua en una o más dimensiones". Lee [la documentación](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) para entender cómo funciona.
## Asignación
[Aplica tus habilidades](assignment.es.md)

@ -0,0 +1,10 @@
# Aplica tus habilidades
## Instrucciones
Hasta ahora, has trabajado con el conjunto de datos de aves de Minnesota para descubrir información sobre las cantidades de aves y la densidad de población. Practica tu aplicación de estas técnicas probando un conjunto de datos diferente, quizás procedente de [Kaggle](https://www.kaggle.com/). Construye un cuaderno para contar una historia sobre este conjunto de datos, y asegúrate de utilizar histogramas al hablar de él.
## Rúbrica
Ejemplar | Adecuado | Necesita mejorar
--- | --- | -- |
Un cuaderno se presenta con anotaciones sobre este conjunto de datos, incluyendo su fuente, y utiliza al menos 5 histogramas para descubrir hechos sobre los datos. | Un cuaderno se presenta con anotaciones incompletas o con errores. | Un cuaderno se presenta sin anotaciones e incluye errores.

@ -2,9 +2,9 @@
![a bee on a lavender flower](./images/bee.jpg)
> Photo by <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> on <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Visualizing data is one of the most important tasks of a data scientist. Images are worth 1000 words, and a visualization can help you identify all kinds of interesting parts of your data such as spikes, outliers, groupings, tendencies, and more, that can help you understand the story your data is trying to tell.
Visualizing data is one of the most important tasks of a data scientist. Images are worth 1000 words, and a visualization can help you identify all kinds of interesting parts of your data such as spikes, outliers, groupings, tendencies, and more, that can help you understand the story your data is trying to tell.
In these five lessons, you will explore data sourced from nature and create interesting and beautiful visualizations using various techniques.
### Topics
@ -26,7 +26,3 @@ These visualization lessons were written with 🌸 by [Jen Looper](https://twitt
🦆 Data for Minnesota Birds is from [Kaggle](https://www.kaggle.com/hannahcollins/minnesota-birds) scraped from [Wikipedia](https://en.wikipedia.org/wiki/List_of_birds_of_Minnesota) by Hannah Collins.
All these datasets are licensed as [CC0: Creative Commons](https://creativecommons.org/publicdomain/zero/1.0/).

@ -8,11 +8,11 @@ Visualizar datos es una de las tareas más importantes de un científico de dato
En estas cinco lecciones, podrás explorar datos provenientes de la naturaleza y crear interesantes y hermosas visualizaciones usando varias técnicas.
### Tópicos
1. [Visualización de cantidades](09-visualization-quantities/README.md)
2. [Visualización de la distribución](10-visualization-distributions/README.md)
3. [Visualización de proporciones](11-visualization-proportions/README.md)
4. [Visualización de relaciones](12-visualization-relationships/README.md)
5. [Hacer visualizaciones significativas](13-meaningful-visualizations/README.md)
1. [Visualización de cantidades](../09-visualization-quantities/translations/README.es.md)
2. [Visualización de distribuciones](../10-visualization-distributions/translations/README.es.md)
3. [Visualización de proporciones](../11-visualization-proportions/translations/README.es.md)
4. [Visualización de relaciones](../12-visualization-relationships/translations/README.es.md)
5. [Hacer visualizaciones significativas](../13-meaningful-visualizations/translations/README.es.md)
### Créditos

@ -0,0 +1,26 @@
# भिजुअलाइजेसन
![एक लेभेंडर फूल मा एक मधुमक्खी](./images/bee.jpg)
> फोटो <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> द्वारा <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash बाट </a>
डाटा भिजुअलाइज गर्नु डाटा वैज्ञानिकको सबैभन्दा महत्त्वपूर्ण कार्यहरू मध्ये एक हो। छविहरू 1000 शब्दहरूको लायक छन्, र एक दृश्यले तपाईंलाई तपाईंको डेटाका सबै प्रकारका रोचक भागहरू जस्तै स्पाइकहरू, आउटलियरहरू, समूहहरू, प्रवृत्तिहरू, र थप, जसले तपाईंलाई तपाईंको डेटाले बताउन खोजेको कथा बुझ्न मद्दत गर्न सक्छ।
यी पाँच पाठहरूमा, तपाईंले प्रकृतिबाट प्राप्त डाटा अन्वेषण गर्नुहुनेछ र विभिन्न प्रविधिहरू प्रयोग गरेर रोचक र सुन्दर दृश्यहरू सिर्जना गर्नुहुनेछ।
१. [परिमाणहरू भिजुअलाईजिङ](09-visualization-quantities/README.md)
२. [वितरण भिजुअलाईजिङ](10-visualization-distributions/README.md)
३. [अनुपात भिजुअलाईजिङ](11-visualization-proportions/README.md)
४. [सम्बन्धहरु भिजुअलाईजिङ](12-visualization-relationships/README.md)
५. [भिजुअलाइजेसन अर्थपूर्ण बनाउने](13-meaningful-visualizations/README.md)
### बिषेष धन्यवाद
यी भिजुअलाइजेसन पाठहरू [Jen Looper](https://twitter.com/jenlooper) द्वारा 🌸 सँग लेखिएको हो ।
🍯 अमेरिकी मह उत्पादन को लागी डाटा, जेसिका लीको [Kaggle](https://www.kaggle.com/jessicali9530/honey-production) प्रोजेक्ट बाट लिइएको हो । [डाटा](https://usda.library.cornell.edu/concern/publications/rn301137d) [United States Department of Agriculture](https://www.nass.usda.gov/About_NASS/index.php) बाट लिइएको हो ।
🍄 च्याउको लागि डाटा पनि [Kaggle](https://www.kaggle.com/hatterasdunton/mushroom-classification-updated-dataset) बाट लिइएको Hatteras Dunton द्वारा संशोधित हो । यो डाटासेट Agaricus र Lepiota परिवार मा gilled मशरूम को २३ प्रजातिहरु संग सम्बन्धित काल्पनिक नमूनाहरु को विवरण शामिल छ। द अडुबोन सोसाइटी फिल्ड गाइड बाट नर्थ अमेरिकन मशरूम (१९८१) को च्याउ कोरिएको। यो डाटासेट UCI ML २ to मा १ 7 मा दान गरिएको थियो।
🦆 मिनेसोटा पक्षीहरूको लागि डाटा [Kaggle](https://www.kaggle.com/hannahcollins/minnesota-birds) बाट हो जुन [Wikipedia](https://en.wikipedia.org/wiki/List_of_birds_of_Minnesota) हन्ना कोलिन्स द्वारा, बाट स्क्र्याप गरिएको हो ।
यी सबै डाटासेट [CC0: Creative Commons](https://creativecommons.org/publicdomain/zero/1.0/) को रूप मा लाइसेन्स प्राप्त छ ।

@ -0,0 +1,24 @@
# जवाब की तलाश
यह पिछले पाठ के [असाइनमेंट](..\14-Introduction\assignment.md) की निरंतरता है, जहां हमने संक्षेप में डेटा सेट पर एक नज़र डाली। अब हम आंकड़ों पर गहराई से विचार करेंगे।
फिर से, वह प्रश्न जो ग्राहक जानना चाहता है: **क्या न्यूयॉर्क शहर में पीली टैक्सी के यात्री सर्दियों या गर्मियों में ड्राइवरों को अधिक टिप देते हैं?**
आपकी टीम डेटा विज्ञान जीवनचक्र के [विश्लेषण] (Readme.md) चरण में है, जहां आप डेटासेट पर खोजपूर्ण डेटा विश्लेषण करने के लिए जिम्मेदार हैं। आपको एक नोटबुक और डेटासेट प्रदान किया गया है जिसमें जनवरी और जुलाई 2019 से 200 टैक्सी लेनदेन शामिल हैं।
## निर्देश
इस निर्देशिका में एक [नोटबुक](असाइनमेंट.आईपीएनबी) और [टैक्सी और लिमोसिन कमीशन] का डेटा है(https://docs.microsoft.com/en-us/azure/open-datasets/dataset-taxi- Yellow? tabs=azureml-opendatasets)। [डेटासेट डिक्शनरी] (https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_ Yellow.pdf) और [उपयोगकर्ता गाइड](https://www1.nyc.gov/assets/tlc/) का संदर्भ लें। डाउनलोड/पीडीएफ/trip_record_user_guide.pdf) डेटा के बारे में अधिक जानकारी के लिए।
इस पाठ की कुछ तकनीकों का उपयोग नोटबुक में अपना स्वयं का EDA करने के लिए करें (यदि आप चाहें तो सेल जोड़ें) और निम्नलिखित प्रश्नों के उत्तर दें:
- डेटा में अन्य कौन से प्रभाव टिप राशि को प्रभावित कर सकते हैं?
- क्लाइंट के सवालों के जवाब देने के लिए किन कॉलमों की सबसे ज्यादा जरूरत नहीं होगी?
- अब तक जो प्रदान किया गया है, उसके आधार पर, क्या डेटा मौसमी टिपिंग व्यवहार का कोई सबूत प्रदान करता है?
## रूब्रिक
अनुकरणीय | पर्याप्त | सुधार की जरूरत
--- | --- | -- |

@ -0,0 +1,15 @@
# डाटा विज्ञान जीवनचक्र
![संचार](images/communication.jpg)
> फोटो <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> मा <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash द्वारा</a>
यी पाठहरुमा, तपाइँ डाटा विज्ञान जीवन चक्र को केहि पहलुहरु को अन्वेषण गर्नुहुनेछ, विश्लेषण र डाटा को आसपास संचार सहित।
### बिषयहरु
१. [परिचय](14-Introduction/README.md)
२. [विश्लेषण](15-Analyzing/README.md)
३. [संचार](16-communication/README.md)
यी पाठहरु ❤️ का साथ [Jalen McGee](https://twitter.com/JalenMCG) र [Jasmine Greenaway](https://twitter.com/paladique) द्वारा लेखिएको हो ।

@ -0,0 +1,11 @@
# Azure ML SDK का उपयोग करके डेटा विज्ञान परियोजना
## निर्देश
हमने देखा कि एज़्योर एमएल एसडीके के साथ एक मॉडल को प्रशिक्षित करने, तैनात करने और उपभोग करने के लिए एज़्योर एमएल प्लेटफॉर्म का उपयोग कैसे किया जाता है। अब कुछ डेटा के लिए चारों ओर देखें, जिसका उपयोग आप किसी अन्य मॉडल को प्रशिक्षित करने, उसे परिनियोजित करने और उसका उपभोग करने के लिए कर सकते हैं। आप [कागल](https://kaggle.com) और [Azure Open Datasets](https://azure.microsoft.com/services/open-datasets/catalog?WT.mc_id=academic-40229 पर डेटासेट ढूंढ सकते हैं। -cxa&ocid=AID3041109)।
## रूब्रिक
| अनुकरणीय | पर्याप्त | सुधार की जरूरत |
|-----------|----------|---------------------|
|ऑटोएमएल कॉन्फ़िगरेशन करते समय, आपने यह देखने के लिए कि आप किन मापदंडों का उपयोग कर सकते हैं, एसडीके दस्तावेज़ीकरण को देखा। आपने Azure ML SDK का उपयोग करके AutoML के माध्यम से डेटासेट पर एक प्रशिक्षण चलाया, और आपने मॉडल स्पष्टीकरण की जाँच की। आपने सबसे अच्छा मॉडल तैनात किया और आप Azure ML SDK के माध्यम से इसका उपभोग करने में सक्षम थे। | आपने Azure ML SDK का उपयोग करके AutoML के माध्यम से डेटासेट पर एक प्रशिक्षण चलाया, और आपने मॉडल स्पष्टीकरण की जाँच की। आपने सबसे अच्छा मॉडल तैनात किया और आप Azure ML SDK के माध्यम से इसका उपभोग करने में सक्षम थे। | आपने Azure ML SDK का उपयोग करके AutoML के माध्यम से डेटासेट पर एक प्रशिक्षण चलाया। आपने सबसे अच्छा मॉडल तैनात किया और आप Azure ML SDK के माध्यम से इसका उपभोग करने में सक्षम थे। |

@ -0,0 +1,38 @@
# ग्रहीय कंप्यूटर डेटासेट का अन्वेषण करें
## निर्देश
इस पाठ में, हमने विभिन्न डेटा विज्ञान अनुप्रयोग डोमेन के बारे में बात की - अनुसंधान, स्थिरता और डिजिटल मानविकी से संबंधित उदाहरणों में गहन गोता लगाने के साथ। इस असाइनमेंट में, आप इनमें से किसी एक उदाहरण का अधिक विस्तार से अन्वेषण करेंगे, और स्थिरता डेटा के बारे में अंतर्दृष्टि प्राप्त करने के लिए डेटा विज़ुअलाइज़ेशन और विश्लेषण के आसपास अपनी कुछ सीखों को लागू करेंगे।
[प्लैनेटरी कंप्यूटर](https://planetarycomputer.microsoft.com/) प्रोजेक्ट में डेटासेट और एपीआई हैं जिन्हें किसी खाते से एक्सेस किया जा सकता है - यदि आप असाइनमेंट के बोनस चरण को आज़माना चाहते हैं तो एक्सेस के लिए अनुरोध करें। साइट एक [एक्सप्लोरर](https://planetarycomputer.microsoft.com/explore) सुविधा भी प्रदान करती है जिसका उपयोग आप बिना खाता बनाए भी कर सकते हैं।
`कदम:`
एक्सप्लोरर इंटरफ़ेस (नीचे स्क्रीनशॉट में दिखाया गया है) आपको एक डेटासेट (प्रदान किए गए विकल्पों में से), एक प्रीसेट क्वेरी (डेटा फ़िल्टर करने के लिए) और एक रेंडरिंग विकल्प (एक प्रासंगिक विज़ुअलाइज़ेशन बनाने के लिए) का चयन करने देता है। इस असाइनमेंट में, आपका कार्य है:
1. [एक्सप्लोरर दस्तावेज़ीकरण] (https://planetarycomputer.microsoft.com/docs/overview/explorer/) पढ़ें - विकल्पों को समझें।
2. डेटासेट को एक्सप्लोर करें [कैटलॉग](https://planetarycomputer.microsoft.com/catalog) - प्रत्येक का उद्देश्य जानें।
3. एक्सप्लोरर का उपयोग करें - रुचि का डेटासेट चुनें, प्रासंगिक क्वेरी और रेंडरिंग विकल्प चुनें।
![प्लैनेटरी कंप्यूटर एक्सप्लोरर](इमेज/प्लैनेटरी-कंप्यूटर-एक्सप्लोरर.पीएनजी)
`आपका कार्य:`
अब उस विज़ुअलाइज़ेशन का अध्ययन करें जो ब्राउज़र में प्रस्तुत किया गया है और निम्नलिखित का उत्तर दें:
* डेटासेट में क्या _features_ हैं?
* विज़ुअलाइज़ेशन क्या _insights_ या परिणाम प्रदान करता है?
* परियोजना के स्थायित्व लक्ष्यों के लिए उन अंतर्दृष्टि के _प्रभाव_ क्या हैं?
* विज़ुअलाइज़ेशन की _सीमाएँ_ क्या हैं (यानी, आपको कौन सी अंतर्दृष्टि नहीं मिली?)
* यदि आप कच्चा डेटा प्राप्त कर सकते हैं, तो आप कौन से _वैकल्पिक विज़ुअलाइज़ेशन_ बनाएंगे, और क्यों?
`बोनस अंक:`
एक खाते के लिए आवेदन करें - और स्वीकार किए जाने पर लॉगिन करें।
* नोटबुक में अपरिष्कृत डेटा खोलने के लिए _Launch Hub_ विकल्प का उपयोग करें।
* डेटा को अंतःक्रियात्मक रूप से एक्सप्लोर करें, और उन वैकल्पिक विज़ुअलाइज़ेशन को लागू करें जिनके बारे में आपने सोचा था।
* अब अपने कस्टम विज़ुअलाइज़ेशन का विश्लेषण करें - क्या आप उन जानकारियों को प्राप्त करने में सक्षम थे जिन्हें आपने पहले याद किया था?
## रूब्रिक
अनुकरणीय | पर्याप्त | सुधार की जरूरत
--- | --- | -- |
सभी पांच मुख्य सवालों के जवाब दिए गए। छात्र ने स्पष्ट रूप से पहचाना कि कैसे वर्तमान और वैकल्पिक विज़ुअलाइज़ेशन स्थिरता के उद्देश्यों या परिणामों में अंतर्दृष्टि प्रदान कर सकते हैं।| छात्र ने कम से कम शीर्ष 3 प्रश्नों के उत्तर बहुत विस्तार से दिए, यह दिखाते हुए कि एक्सप्लोरर के साथ व्यावहारिक अनुभव था। | छात्र कई प्रश्नों का उत्तर देने में विफल रहा, या अपर्याप्त विवरण प्रदान किया - यह दर्शाता है कि परियोजना के लिए कोई सार्थक प्रयास नहीं किया गया था |

@ -0,0 +1,112 @@
# 초보자를 위한 데이터 사이언스 - 커리큘럼
[![깃허브 라이센스](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE))
[![깃허브 기여자](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/))
[![깃허브 문제](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/))
[![깃허브 풀백](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/))
[![PRs 환영](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub 시청자](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=)시청)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![깃허브 포크](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/))
[![깃허브 스타](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/))
Microsoft의 Azure Cloud Advocates는 데이터 과학에 관한 10주짜리 20개 레슨 커리큘럼을 제공하게 된 것을 기쁘게 생각합니다. 각 레슨에는 예습 및 복습 퀴즈, 레슨을 완료하기 위한 서면 지침, 해결책 및 과제가 포함됩니다. 프로젝트 기반 교육학을 통해 새로운 기술을 익힐 수 있는 검증된 방법으로 학습 할 수 있습니다.
**Hearty thanks to our authors:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Special thanks 🙏 to our [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) authors, reviewers and content contributors,** notably Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), Tauqeer Ahmad, Yogendrasingh Pawar
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](./sketchnotes/00-Title.png)|
|:---:|
| 초보자를 위한 데이터 사이언스 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
# 시작하기
> **선생님들께**, 이 커리큘럼의 사용 방법에 대해 [일부 제안사항](for-teachers.md)이 있습니다. 이 [포럼에서](https://github.com/microsoft/Data-Science-For-Beginners/discussions) 의견을 주시면 감사하겠습니다.
> **학생분들께**, 스스로 이 커리큘럼을 활용하려면 강의 전 퀴즈부터 시작하여 강의 전 학습 과정을 읽고 나머지 과제를 완료하면 됩니다. 솔루션 코드를 복사하는 대신 레슨을 이해하여 프로젝트를 만들어 보십시오. 이 코드들의 답안은 각 프로젝트 지향 레슨에 있는 /solutions 폴더에서 찾을 수 있습니다. 또 다른 방법으로는 친구들과 함께 학습 내용을 살펴보는 스터디 그룹을 만드는 것입니다. 추가 학습은 [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-40229-cxa)을 추천합니다.
# 팀을 만나다
[![Promo video](ds-for-beginners.png)](https://youtu.be/8mzavjQSMM4 "Promo video")
> 🎥 프로젝트를 만든 사람들에 대한 동영상을 보려면 위의 이미지를 클릭하십시오!
# 커리큘럼
우리는 이 커리큘럼을 구축하는 동안 두 가지 교육학 교리를 선택했습니다. 프로젝트 기반이며 빈번한 퀴즈를 포함하도록 하는 것입니다. 이 시리즈가 끝날 때까지 학생들은 윤리적 개념, 데이터 준비, 다양한 데이터 작업 방법, 데이터 시각화, 데이터 분석, 데이터 과학의 실제 사용 사례 등을 포함한 데이터 과학의 기본 원리를 배우게 됩니다.
또한, 수업 전 간단한 퀴즈는 학생이 주제를 학습하려는 의도를 정하고, 수업 후 두 번째 퀴즈는 더 많은 내용을 습득할 수 있도록 합니다. 이 커리큘럼은 유연하고 재미있도록 설계되었으며 전체 또는 부분적으로 수강할 수 있습니다. 프로젝트는 소규모로 시작하여 10주가 끝날 때까지 단계별로 점점 더 복잡해집니다.
> [행동 강령](CODE_OF_CONITION.md), [기여](CONTRIBUTING.md), [번역](TRANSLATIONS.md) 지침을 참고하세요. 우리는 당신의 피드백을 환영합니다!
## 각 레슨은 다음을 포함합니다.
- 스케치노트(옵션)
- 보조 비디오(옵션)
- 사전 예습 퀴즈
- 서면 수업
- 프로젝트 기반 레슨: 개인 프로젝트 구축 방법에 대한 단계별 가이드
- 쪽지 시험
- 챌린지
- 보충 학습자료
- 과제
- 복습 퀴즈
> **퀴즈에 대한 참고사항*: 모든 퀴즈는 [이 앱에](https://white-water-09ec41f0f.azurestaticapps.net/) 포함되어 있으며 각 3문항씩 총 40개의 퀴즈가 있습니다. 퀴즈 앱은 교육 과정과 연결되어 있지만, 원하는 경우 따로 퀴즈 앱을 실행할 수도 있습니다. 자세한 사항은 퀴즈 앱 폴더 내의 지침을 따르십시오.
## 세부 수업내용
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](./sketchnotes/00-Roadmap.png)|
|:---:|
| 초보자를 위한 데이터 사이언스 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
| Lesson Number | Topic | Lesson Grouping | Learning Objectives | Linked Lesson | Author |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Defining Data Science | [Introduction](1-Introduction/README.md) | Learn the basic concepts behind data science and how its related to artificial intelligence, machine learning, and big data. | [lesson](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Data Science Ethics | [Introduction](1-Introduction/README.md) | Data Ethics Concepts, Challenges & Frameworks. | [lesson](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Defining Data | [Introduction](1-Introduction/README.md) | How data is classified and its common sources. | [lesson](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Introduction to Statistics & Probability | [Introduction](1-Introduction/README.md) | The mathematical techniques of probability and statistics to understand data. | [lesson](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Working with Relational Data | [Working With Data](2-Working-With-Data/README.md) | Introduction to relational data and the basics of exploring and analyzing relational data with the Structured Query Language, also known as SQL (pronounced “see-quell”). | [lesson](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Working with NoSQL Data | [Working With Data](2-Working-With-Data/README.md) | Introduction to non-relational data, its various types and the basics of exploring and analyzing document databases. | [lesson](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Working with Python | [Working With Data](2-Working-With-Data/README.md) | Basics of using Python for data exploration with libraries such as Pandas. Foundational understanding of Python programming is recommended. | [lesson](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Data Preparation | [Working With Data](2-Working-With-Data/README.md) | Topics on data techniques for cleaning and transforming the data to handle challenges of missing, inaccurate, or incomplete data. | [lesson](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualizing Quantities | [Data Visualization](3-Data-Visualization/README.md) | Learn how to use Matplotlib to visualize bird data 🦆 | [lesson](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualizing Distributions of Data | [Data Visualization](3-Data-Visualization/README.md) | Visualizing observations and trends within an interval. | [lesson](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualizing Proportions | [Data Visualization](3-Data-Visualization/README.md) | Visualizing discrete and grouped percentages. | [lesson](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualizing Relationships | [Data Visualization](3-Data-Visualization/README.md) | Visualizing connections and correlations between sets of data and their variables. | [lesson](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Meaningful Visualizations | [Data Visualization](3-Data-Visualization/README.md) | Techniques and guidance for making your visualizations valuable for effective problem solving and insights. | [lesson](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Introduction to the Data Science lifecycle | [Lifecycle](4-Data-Science-Lifecycle/README.md) | Introduction to the data science lifecycle and its first step of acquiring and extracting data. | [lesson](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analyzing | [Lifecycle](4-Data-Science-Lifecycle/README.md) | This phase of the data science lifecycle focuses on techniques to analyze data. | [lesson](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Communication | [Lifecycle](4-Data-Science-Lifecycle/README.md) | This phase of the data science lifecycle focuses on presenting the insights from the data in a way that makes it easier for decision makers to understand. | [lesson](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Data Science in the Cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | This series of lessons introduces data science in the cloud and its benefits. | [lesson](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 18 | Data Science in the Cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Training models using Low Code tools. |[lesson](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 19 | Data Science in the Cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Deploying models with Azure Machine Learning Studio. | [lesson](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 20 | Data Science in the Wild | [In the Wild](6-Data-Science-In-Wild/README.md) | Data science driven projects in the real world. | [lesson](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## 오프라인 액세스
[Docsify](https://docsify.js.org/#/)를 사용하여 이 문서를 오프라인으로 실행할 수 있습니다. 이 repo를 포크하여 로컬 컴퓨터에 [Docsify (설치)](https://docsify.js.org/#/quickstart)를 설치한 다음 이 repo의 루트 폴더에 'docsify serve'를 입력하면 됩니다. 웹 사이트는 로컬 호스트의 포트 3000에서 제공됩니다: 'localhost:3000'.
> 참고: 노트북은 Docsify를 통해 렌더링되지 않으므로 노트북을 실행해야 할 때는 Python 커널을 실행하는 VS Code에서 별도로 렌더링하십시오.
## PDF
[여기](https://microsoft.github.io/Data-Science-For-Beginners/pdf/readme.pdf) 링크를 통해 커리큘럼의 PDF를 찾아보십시오.
# 기여
번역에 기여하시겠습니까? 커리큘럼의 전부 또는 일부를 번역하려면 [번역](TRANSLATIONS.md)의 내용을 참고하십시오.
# 기타 커리큘럼
우리 팀은 아래의 다른 커리큘럼도 제작 및 제공합니다!
- [초보자용 웹 개발](https://aka.ms/webdev-beginners)
- [초보자용 IoT](https://aka.ms/iot-beginners)
- [초보자용 데이터 과학](https://aka.ms/datascience-beginners)

@ -0,0 +1,23 @@
## शिक्षकों के लिए
क्या आप इस पाठ्यक्रम का उपयोग अपनी कक्षा में करना चाहेंगे? कृपया निःसंकोच करें!
वास्तव में, आप इसे GitHub क्लासरूम का उपयोग करके GitHub के भीतर ही उपयोग कर सकते हैं।
ऐसा करने के लिए, इस रेपो का प्रतिरूप करें। आपको प्रत्येक पाठ के लिए एक रेपो बनाने की आवश्यकता होगी, इसलिए आपको प्रत्येक फ़ोल्डर को एक अलग रेपो में निकालने की आवश्यकता होगी। इस तरह, [GitHub Classroom](https://classroom.github.com/classrooms) प्रत्येक पाठ को अलग से उठा सकता है।
ये [पूरे निर्देश](https://github.blog/2020-03-18-set-up-your-digital-classroom-with-github-classroom/) से आपको पता चल जाएगा कि आप अपनी कक्षा कैसे सेट अप करें।
## रेपो का इस प्रकार उपयोग करना
यदि आप इस रेपो का उपयोग करना चाहते हैं, जैसा कि यह वर्तमान में खड़ा है, बिना गिटहब क्लासरूम का उपयोग किए, यह भी किया जा सकता है। आपको अपने छात्रों के साथ संवाद करने की आवश्यकता होगी कि कौन सा पाठ एक साथ काम करना है।
एक ऑनलाइन प्रारूप (ज़ूम, टीम, या अन्य) में आप क्विज़ के लिए ब्रेकआउट रूम बना सकते हैं, और छात्रों को सीखने के लिए तैयार होने में मदद करने के लिए सलाह दे सकते हैं। फिर छात्रों को प्रश्नोत्तरी के लिए आमंत्रित करें और एक निश्चित समय पर अपने उत्तर 'मुद्दों' के रूप में जमा करें। आप असाइनमेंट के साथ भी ऐसा ही कर सकते हैं, यदि आप चाहते हैं कि छात्र खुले में मिलकर काम करें।
यदि आप अधिक निजी प्रारूप पसंद करते हैं, तो अपने छात्रों से पाठ्यक्रम, पाठ दर पाठ, निजी रिपो के रूप में अपने स्वयं के गिटहब रेपो में फोर्क करने के लिए कहें, और आपको पहुंच प्रदान करें। फिर वे क्विज़ और असाइनमेंट को निजी तौर पर पूरा कर सकते हैं और उन्हें आपके क्लासरूम रेपो पर मुद्दों के माध्यम से आपको सबमिट कर सकते हैं।
ऑनलाइन कक्षा प्रारूप में इस काम को करने के कई तरीके हैं। कृपया हमें बताएं कि आपके लिए सबसे अच्छा क्या काम करता है!
## कृपया हमें अपने विचार दें!
हम इस पाठ्यक्रम को आपके और आपके छात्रों के लिए कारगर बनाना चाहते हैं। कृपया हमें चर्चा बोर्डों में प्रतिक्रिया दें!
Loading…
Cancel
Save