Pending changes exported from your codespace

pull/521/head
ArthurSrZ 2 years ago
parent a85ce480d8
commit cda8274a74

File diff suppressed because one or more lines are too long

@ -1,263 +0,0 @@
# Introduction to Data Ethics
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/02-Ethics.png)|
|:---:|
| Data Science Ethics - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
---
We are all data citizens living in a datafied world.
Market trends tell us that by 2022, 1-in-3 large organizations will buy and sell their data through online [Marketplaces and Exchanges](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/). As **App Developers**, we'll find it easier and cheaper to integrate data-driven insights and algorithm-driven automation into daily user experiences. But as AI becomes pervasive, we'll also need to understand the potential harms caused by the [weaponization](https://www.youtube.com/watch?v=TQHs8SA1qpk) of such algorithms at scale.
Trends also indicate that we will create and consume over [180 zettabytes](https://www.statista.com/statistics/871513/worldwide-data-created/) of data by 2025. As **Data Scientists**, this gives us unprecedented levels of access to personal data. This means we can build behavioral profiles of users and influence decision-making in ways that create an [illusion of free choice](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) while potentially nudging users towards outcomes we prefer. It also raises broader questions on data privacy and user protections.
Data ethics are now _necessary guardrails_ for data science and engineering, helping us minimize potential harms and unintended consequences from our data-driven actions. The [Gartner Hype Cycle for AI](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) identifies relevant trends in digital ethics, responsible AI, and AI governance as key drivers for larger megatrends around _democratization_ and _industrialization_ of AI.
![Gartner's Hype Cycle for AI - 2020](https://images-cdn.newscred.com/Zz1mOWJhNzlkNDA2ZTMxMWViYjRiOGFiM2IyMjQ1YmMwZQ==)
In this lesson, we'll explore the fascinating area of data ethics - from core concepts and challenges, to case studies and applied AI concepts like governance - that help establish an ethics culture in teams and organizations that work with data and AI.
## [Pre-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/2) 🎯
## Basic Definitions
Let's start by understanding the basic terminology.
The word "ethics" comes from the [Greek word "ethikos"](https://en.wikipedia.org/wiki/Ethics) (and its root "ethos") meaning _character or moral nature_.
**Ethics** is about the shared values and moral principles that govern our behavior in society. Ethics is based not on laws but on
widely accepted norms of what is "right vs. wrong". However, ethical considerations can influence corporate governance initiatives and government regulations that create more incentives for compliance.
**Data Ethics** is a [new branch of ethics](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1) that "studies and evaluates moral problems related to _data, algorithms and corresponding practices_". Here, **"data"** focuses on actions related to generation, recording, curation, processing dissemination, sharing ,and usage, **"algorithms"** focuses on AI, agents, machine learning ,and robots, and **"practices"** focuses on topics like responsible innovation, programming, hacking and ethics codes.
**Applied Ethics** is the [practical application of moral considerations](https://en.wikipedia.org/wiki/Applied_ethics). It's the process of actively investigating ethical issues in the context of _real-world actions, products and processes_, and taking corrective measures to make that these remain aligned with our defined ethical values.
**Ethics Culture** is about [_operationalizing_ applied ethics](https://hbr.org/2019/05/how-to-design-an-ethical-organization) to make sure that our ethical principles and practices are adopted in a consistent and scalable manner across the entire organization. Successful ethics cultures define organization-wide ethical principles, provide meaningful incentives for compliance, and reinforce ethics norms by encouraging and amplifying desired behaviors at every level of the organization.
## Ethics Concepts
In this section, we'll discuss concepts like **shared values** (principles) and **ethical challenges** (problems) for data ethics - and explore **case studies** that help you understand these concepts in real-world contexts.
### 1. Ethics Principles
Every data ethics strategy begins by defining _ethical principles_ - the "shared values" that describe acceptable behaviors, and guide compliant actions, in our data & AI projects. You can define these at an individual or team level. However, most large organizations outline these in an _ethical AI_ mission statement or framework that is defined at corporate levels and enforced consistently across all teams.
**Example:** Microsoft's [Responsible AI](https://www.microsoft.com/en-us/ai/responsible-ai) mission statement reads: _"We are committed to the advancement of AI-driven by ethical principles that put people first"_ - identifying 6 ethical principles in the framework below:
![Responsible AI at Microsoft](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
Let's briefly explore these principles. _Transparency_ and _accountability_ are foundational values that other principles built upon - so let's begin there:
* [**Accountability**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) makes practitioners _responsible_ for their data & AI operations, and compliance with these ethical principles.
* [**Transparency**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) ensures that data and AI actions are _understandable_ (interpretable) to users, explaining the what and why behind decisions.
* [**Fairness**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) - focuses on ensuring AI treats _all people_ fairly, addressing any systemic or implicit socio-technical biases in data and systems.
* [**Reliability & Safety**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - ensures that AI behaves _consistently_ with defined values, minimizing potential harms or unintended consequences.
* [**Privacy & Security**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - is about understanding data lineage, and providing _data privacy and related protections_ to users.
* [**Inclusiveness**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - is about designing AI solutions with intention, adapting them to meet a _broad range of human needs_ & capabilities.
> 🚨 Think about what your data ethics mission statement could be. Explore ethical AI frameworks from other organizations - here are examples from [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) ,and [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/). What shared values do they have in common? How do these principles relate to the AI product or industry they operate in?
### 2. Ethics Challenges
Once we have ethical principles defined, the next step is to evaluate our data and AI actions to see if they align with those shared values. Think about your actions in two categories: _data collection_ and _algorithm design_.
With data collection, actions will likely involve **personal data** or personally identifiable information (PII) for identifiable living individuals. This includes [diverse items of non-personal data](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en) that _collectively_ identify an individual. Ethical challenges can relate to _data privacy_, _data ownership_, and related topics like _informed consent_ and _intellectual property rights_ for users.
With algorithm design, actions will involve collecting & curating **datasets**, then using them to train & deploy **data models** that predict outcomes or automate decisions in real-world contexts. Ethical challenges can arise from _dataset bias_, _data quality_ issues, _unfairness_ ,and _misrepresentation_ in algorithms - including some issues that are systemic in nature.
In both cases, ethics challenges highlight areas where our actions may encounter conflict with our shared values. To detect, mitigate, minimize, or eliminate, these concerns - we need to ask moral "yes/no" questions related to our actions, then take corrective actions as needed. Let's take a look at some ethical challenges and the moral questions they raise:
#### 2.1 Data Ownership
Data collection often involves personal data that can identify the data subjects. [Data ownership](https://permission.io/blog/data-ownership) is about _control_ and [_user rights_](https://permission.io/blog/data-ownership) related to the creation, processing ,and dissemination of data.
The moral questions we need to ask are:
* Who owns the data? (user or organization)
* What rights do data subjects have? (ex: access, erasure, portability)
* What rights do organizations have? (ex: rectify malicious user reviews)
#### 2.2 Informed Consent
[Informed consent](https://legaldictionary.net/informed-consent/) defines the act of users agreeing to an action (like data collection) with a _full understanding_ of relevant facts including the purpose, potential risks, and alternatives.
Questions to explore here are:
* Did the user (data subject) give permission for data capture and usage?
* Did the user understand the purpose for which that data was captured?
* Did the user understand the potential risks from their participation?
#### 2.3 Intellectual Property
[Intellectual property](https://en.wikipedia.org/wiki/Intellectual_property) refers to intangible creations resulting from the human initiative, that may _have economic value_ to individuals or businesses.
Questions to explore here are:
* Did the collected data have economic value to a user or business?
* Does the **user** have intellectual property here?
* Does the **organization** have intellectual property here?
* If these rights exist, how are we protecting them?
#### 2.4 Data Privacy
[Data privacy](https://www.northeastern.edu/graduate/blog/what-is-data-privacy/) or information privacy refers to the preservation of user privacy and protection of user identity with respect to personally identifiable information.
Questions to explore here are:
* Is users' (personal) data secured against hacks and leaks?
* Is users' data accessible only to authorized users and contexts?
* Is users' anonymity preserved when data is shared or disseminated?
* Can a user be de-identified from anonymized datasets?
#### 2.5 Right To Be Forgotten
The [Right To Be Forgotten](https://en.wikipedia.org/wiki/Right_to_be_forgotten) or [Right to Erasure](https://www.gdpreu.org/right-to-be-forgotten/) provides additional personal data protection to users. Specifically, it gives users the right to request deletion or removal of personal data from Internet searches and other locations, _under specific circumstances_ - allowing them a fresh start online without past actions being held against them.
Questions to explore here are:
* Does the system allow data subjects to request erasure?
* Should the withdrawal of user consent trigger automated erasure?
* Was data collected without consent or by unlawful means?
* Are we compliant with government regulations for data privacy?
#### 2.6 Dataset Bias
Dataset or [Collection Bias](http://researcharticles.com/index.php/bias-in-data-collection-in-research/) is about selecting a _non-representative_ subset of data for algorithm development, creating potential unfairness in result outcomes for diverse groups. Types of bias include selection or sampling bias, volunteer bias, and instrument bias.
Questions to explore here are:
* Did we recruit a representative set of data subjects?
* Did we test our collected or curated dataset for various biases?
* Can we mitigate or remove any discovered biases?
#### 2.7 Data Quality
[Data Quality](https://lakefs.io/data-quality-testing/) looks at the validity of the curated dataset used to develop our algorithms, checking to see if features and records meet requirements for the level of accuracy and consistency needed for our AI purpose.
Questions to explore here are:
* Did we capture valid _features_ for our use case?
* Was data captured _consistently_ across diverse data sources?
* Is the dataset _complete_ for diverse conditions or scenarios?
* Is information captured _accurately_ in reflecting reality?
#### 2.8 Algorithm Fairness
[Algorithm Fairness](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) checks to see if the algorithm design systematically discriminates against specific subgroups of data subjects leading to [potential harms](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) in _allocation_ (where resources are denied or withheld from that group) and _quality of service_ (where AI is not as accurate for some subgroups as it is for others).
Questions to explore here are:
* Did we evaluate model accuracy for diverse subgroups and conditions?
* Did we scrutinize the system for potential harms (e.g., stereotyping)?
* Can we revise data or retrain models to mitigate identified harms?
Explore resources like [AI Fairness checklists](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA) to learn more.
#### 2.9 Misrepresentation
[Data Misrepresentation](https://www.sciencedirect.com/topics/computer-science/misrepresentation) is about asking whether we are communicating insights from honestly reported data in a deceptive manner to support a desired narrative.
Questions to explore here are:
* Are we reporting incomplete or inaccurate data?
* Are we visualizing data in a manner that drives misleading conclusions?
* Are we using selective statistical techniques to manipulate outcomes?
* Are there alternative explanations that may offer a different conclusion?
#### 2.10 Free Choice
The [Illusion of Free Choice](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) occurs when system "choice architectures" use decision-making algorithms to nudge people towards taking a preferred outcome while seeming to give them options and control. These [dark patterns](https://www.darkpatterns.org/) can cause social and economic harm to users. Because user decisions impact behavior profiles, these actions potentially drive future choices that can amplify or extend the impact of these harms.
Questions to explore here are:
* Did the user understand the implications of making that choice?
* Was the user aware of (alternative) choices and the pros & cons of each?
* Can the user reverse an automated or influenced choice later?
### 3. Case Studies
To put these ethical challenges in real-world contexts, it helps to look at case studies that highlight the potential harms and consequences to individuals and society, when such ethics violations are overlooked.
Here are a few examples:
| Ethics Challenge | Case Study |
|--- |--- |
| **Informed Consent** | 1972 - [Tuskegee Syphilis Study](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - African American men who participated in the study were promised free medical care _but deceived_ by researchers who failed to inform subjects of their diagnosis or about availability of treatment. Many subjects died & partners or children were affected; the study lasted 40 years. |
| **Data Privacy** | 2007 - The [Netflix data prize](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/) provided researchers with _10M anonymized movie rankings from 50K customers_ to help improve recommendation algorithms. However, researchers were able to correlate anonymized data with personally-identifiable data in _external datasets_ (e.g., IMDb comments) - effectively "de-anonymizing" some Netflix subscribers.|
| **Collection Bias** | 2013 - The City of Boston [developed Street Bump](https://www.boston.gov/transportation/street-bump), an app that let citizens report potholes, giving the city better roadway data to find and fix issues. However, [people in lower income groups had less access to cars and phones](https://hbr.org/2013/04/the-hidden-biases-in-big-data), making their roadway issues invisible in this app. Developers worked with academics to _equitable access and digital divides_ issues for fairness. |
| **Algorithmic Fairness** | 2018 - The MIT [Gender Shades Study](http://gendershades.org/overview.html) evaluated the accuracy of gender classification AI products, exposing gaps in accuracy for women and persons of color. A [2019 Apple Card](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) seemed to offer less credit to women than men. Both illustrated issues in algorithmic bias leading to socio-economic harms.|
| **Data Misrepresentation** | 2020 - The [Georgia Department of Public Health released COVID-19 charts](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening) that appeared to mislead citizens about trends in confirmed cases with non-chronological ordering on the x-axis. This illustrates misrepresentation through visualization tricks. |
| **Illusion of free choice** | 2020 - Learning app [ABCmouse paid $10M to settle an FTC complaint](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/) where parents were trapped into paying for subscriptions they couldn't cancel. This illustrates dark patterns in choice architectures, where users were nudged towards potentially harmful choices. |
| **Data Privacy & User Rights** | 2021 - Facebook [Data Breach](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) exposed data from 530M users, resulting in a $5B settlement to the FTC. It however refused to notify users of the breach violating user rights around data transparency and access. |
Want to explore more case studies? Check out these resources:
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - ethics dilemmas across diverse industries.
* [Data Science Ethics course](https://www.coursera.org/learn/data-science-ethics#syllabus) - landmark case studies explored.
* [Where things have gone wrong](https://deon.drivendata.org/examples/) - deon checklist with examples
> 🚨 Think about the case studies you've seen - have you experienced, or been affected by, a similar ethical challenge in your life? Can you think of at least one other case study that illustrates one of the ethical challenges we've discussed in this section?
## Applied Ethics
We've talked about ethics concepts, challenges ,and case studies in real-world contexts. But how do we get started _applying_ ethical principles and practices in our projects? And how do we _operationalize_ these practices for better governance? Let's explore some real-world solutions:
### 1. Professional Codes
Professional Codes offer one option for organizations to "incentivize" members to support their ethical principles and mission statement. Codes are _moral guidelines_ for professional behavior, helping employees or members make decisions that align with their organization's principles. They are only as good as the voluntary compliance from members; however, many organizations offer additional rewards and penalties to motivate compliance from members.
Examples include:
* [Oxford Munich](http://www.code-of-ethics.org/code-of-conduct/) Code of Ethics
* [Data Science Association](http://datascienceassn.org/code-of-conduct.html) Code of Conduct (created 2013)
* [ACM Code of Ethics and Professional Conduct](https://www.acm.org/code-of-ethics) (since 1993)
> 🚨 Do you belong to a professional engineering or data science organization? Explore their site to see if they define a professional code of ethics. What does this say about their ethical principles? How are they "incentivizing" members to follow the code?
### 2. Ethics Checklists
While professional codes define required _ethical behavior_ from practitioners, they [have known limitations](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) in enforcement, particularly in large-scale projects. Instead, many data Science experts [advocate for checklists](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), that can **connect principles to practices** in more deterministic and actionable ways.
Checklists convert questions into "yes/no" tasks that can be operationalized, allowing them to be tracked as part of standard product release workflows.
Examples include:
* [Deon](https://deon.drivendata.org/) - a general-purpose data ethics checklist created from [industry recommendations](https://deon.drivendata.org/#checklist-citations) with a command-line tool for easy integration.
* [Privacy Audit Checklist](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - provides general guidance for information handling practices from legal and social exposure perspectives.
* [AI Fairness Checklist](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - created by AI practitioners to support the adoption and integration of fairness checks into AI development cycles.
* [22 questions for ethics in data and AI](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - more open-ended framework, structured for initial exploration of ethical issues in design, implementation, and organizational, contexts.
### 3. Ethics Regulations
Ethics is about defining shared values and doing the right thing _voluntarily_. **Compliance** is about _following the law_ if and where defined. **Governance** broadly covers all the ways in which organizations operate to enforce ethical principles and comply with established laws.
Today, governance takes two forms within organizations. First, it's about defining **ethical AI** principles and establishing practices to operationalize adoption across all AI-related projects in the organization. Second, it's about complying with all government-mandated **data protection regulations** for regions it operates in.
Examples of data protection and privacy regulations:
* `1974`, [US Privacy Act](https://www.justice.gov/opcl/privacy-act-1974) - regulates _federal govt._ collection, use ,and disclosure of personal information.
* `1996`, [US Health Insurance Portability & Accountability Act (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - protects personal health data.
* `1998`, [US Children's Online Privacy Protection Act (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - protects data privacy of children under 13.
* `2018`, [General Data Protection Regulation (GDPR)](https://gdpr-info.eu/) - provides user rights, data protection ,and privacy.
* `2018`, [California Consumer Privacy Act (CCPA)](https://www.oag.ca.gov/privacy/ccpa) gives consumers more _rights_ over their (personal) data.
* `2021`, China's [Personal Information Protection Law](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) just passed, creating one of the strongest online data privacy regulations worldwide.
> 🚨 The European Union defined GDPR (General Data Protection Regulation) remains one of the most influential data privacy regulations today. Did you know it also defines [8 user rights](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) to protect citizens' digital privacy and personal data? Learn about what these are, and why they matter.
### 4. Ethics Culture
Note that there remains an intangible gap between _compliance_ (doing enough to meet "the letter of the law") and addressing [systemic issues](https://www.coursera.org/learn/data-science-ethics/home/week/4) (like ossification, information asymmetry, and distributional unfairness) that can speed up the weaponization of AI.
The latter requires [collaborative approaches to defining ethics cultures](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-driven-approach-26f451afa29f) that build emotional connections and consistent shared values _across organizations_ in the industry. This calls for more [formalized data ethics cultures](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) in organizations - allowing _anyone_ to [pull the Andon cord](https://en.wikipedia.org/wiki/Andon_(manufacturing)) (to raise ethics concerns early in the process) and making _ethical assessments_ (e.g., in hiring) a core criteria team formation in AI projects.
---
## [Post-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/3) 🎯
## Review & Self Study
Courses and books help with understanding core ethics concepts and challenges, while case studies and tools help with applied ethics practices in real-world contexts. Here are a few resources to start with.
* [Machine Learning For Beginners](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - lesson on Fairness, from Microsoft.
* [Principles of Responsible AI](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - free learning path from Microsoft Learn.
* [Ethics and Data Science](https://resources.oreilly.com/examples/0636920203964) - O'Reilly EBook (M. Loukides, H. Mason et. al)
* [Data Science Ethics](https://www.coursera.org/learn/data-science-ethics#syllabus) - online course from the University of Michigan.
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - case studies from the University of Texas.
# Assignment
[Write A Data Ethics Case Study](assignment.md)

@ -1,21 +0,0 @@
## Write A Data Ethics Case Study
## Instructions
You've learned about various [Data Ethics Challenges](README.md#2-ethics-challenges) and seen some examples of [Case Studies](README.md#3-case-studies) reflecting data ethics challenges in real-world contexts.
In this assignment, you'll write your own case study reflecting a data ethics challenge from your own experience, or from a relevant real-world context you are familiar with. Just follow these steps:
1. `Pick a Data Ethics Challenge`. Look at [the lesson examples](README.md#2-ethics-challenges) or explore online examples like [the Deon Checklist](https://deon.drivendata.org/examples/) to get inspiration.
2. `Describe a Real World Example`. Think about a situation you have heard of (headlines, research study etc.) or experienced (local community), where this specific challenge occurred. Think about the data ethics questions related to the challenge - and discuss the potential harms or unintended consequences that arise because of this issue. Bonus points: think about potential solutions or processes that may be applied here to help eliminate or mitigate the adverse impact of this challenge.
3. `Provide a Related Resources list`. Share one or more resources (links to an article, a personal blog post or image, online research paper etc.) to prove this was a real-world occurrence. Bonus points: share resources that also showcase the potential harms & consequences from the incident, or highlight positive steps taken to prevent its recurrence.
## Rubric
Exemplary | Adequate | Needs Improvement
--- | --- | -- |
One or more data ethics challenges are identified. <br/> <br/> The case study clearly describes a real-world incident reflecting that challenge, and highlights undesirable consequences or harms it caused. <br/><br/> There is at least one linked resource to prove this occurred. | One data ethics challenge is identified. <br/><br/> At least one relevant harm or consequence is discussed briefly. <br/><br/> However discussion is limited or lacks proof of real-world occurence. | A data challenge is identified. <br/><br/> However the description or resources do not adequately reflect the challenge or prove it's real-world occurence. |

@ -1,259 +0,0 @@
# डेटा नैतिकता का परिचय
|![[(@sketchthedocs) द्वारा स्केचनोट](https://sketchthedocs.dev) ](../../../sketchnotes/02-Ethics.png)|
|:---:|
| डेटा विज्ञान नैतिकता - _[@nitya](https://twitter.com/nitya) द्वारा स्केचनोट_ |
---
हम सब इस डाटा-फाइड दुनिया में रहने वाले डाटा-नागरिक है |
बाजार के रुझान यह दर्शाते हैं कि २०२२ तक, तीन में से एक बड़ी संस्था अपना डाटा कि खरीद और बेचना ऑनलाइन [दुकानों](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/) द्वारा करेंगी | **ऐप डेवलपर** के रूप में, हम डेटा-संचालित अंतर्दृष्टि और एल्गोरिथम-चालित स्वचालन को दैनिक उपयोगकर्ता अनुभवों में एकीकृत करना आसान और सस्ता पाएंगे। लेकिन जैसे-जैसे AI व्यापक होता जाएगा, हमें इस तरह के एल्गोरिदम के [हथियारीकरण](https://www.youtube.com/watch?v=TQHs8SA1qpk) से होने वाले संभावित नुकसान को भी समझना होगा ।
रुझान यह भी संकेत देते हैं कि हम २०२५ तक [180 ज़ेटाबाइट्स](https://www.statista.com/statistics/871513/worldwide-data-created/) डेटा का निर्माण और उपभोग करेंगे । **डेटा वैज्ञानिक** के रूप में, यह हमें व्यक्तिगत डेटा तक पहुंचने के लिये अभूतपूर्व स्तर प्रदान करता है । इसका मतलब है कि हम उपयोगकर्ताओं के व्यवहार संबंधी प्रोफाइल बना सकते हैं और निर्णय लेने को इस तरह से प्रभावित कर सकते हैं जो संभावित रूप से एक [मुक्त इच्छा का भ्रम](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) पैदा करता है जब्कि वह उपयोगकर्ताओं को हमारे द्वारा पसंद किए जाने वाले परिणामों की ओर आकर्षित करना । यह डेटा गोपनीयता और उपयोगकर्ता की सुरक्षा पर भी व्यापक प्रश्न उठाता है ।
डेटा नैतिकता अब डेटा विज्ञान और इंजीनियरिंग का _आवश्यक रक्षक_ हैं, जिससे हमें अपने डेटा-संचालित कार्यों से संभावित नुकसान और अनपेक्षित परिणामों को नीचे रखने में मदद मिलती है । [AI के लिए गार्टनर हाइप साइकिल](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) डिजिटल नैतिकता में उचित रुझानों की पहचान करता है AI के _democratization_ और _industrialization_ के आसपास बड़े मेगाट्रेंड के लिए प्रमुख ड्राइवर के रूप में जिम्मेदार AI की ज़िम्मेदारी और AI शासन ।
![AI के लिए गार्टनर का प्रचार चक्र - २०२०](https://images-cdn.newscred.com/Zz1mOWJhNzlkNDA2ZTMxMWViYjRiOGFiM2IyMjQ1YmMwZQ==)
इस पाठ में, हम डेटा नैतिकता के आकर्षक क्षेत्र के बारे में सीखेंगे - मूल अवधारणाओं और चुनौतियों से लेकर केस-स्टडी और शासन जैसी एप्लाइड AI अवधारणाओं तक - जो डेटा और AI के साथ काम करने वाली समूह और संगठनों में नैतिकता संस्कृति स्थापित करने में मदद करते हैं ।
## [पाठ से पहले की प्रश्नोत्तरी](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/2) 🎯
## मूल परिभाषाएं
आइए बुनियादी शब्दावली को समझना शुरू करें ।
"नैतिकता" [ग्रीक शब्द "एथिकोस"](https://en.wikipedia.org/wiki/Ethics) (और इसकी जड़ "एथोस") से आया है जिसका अर्थ _चरित्र या नैतिक प्रकृति_ होता है ।
**नैतिकता** उन साझा मूल्यों और नैतिक सिद्धांतों के बारे में है जो समाज में हमारे व्यवहार को नियंत्रित करते हैं । नैतिकता कानूनों पर नहीं बल्कि "सही बनाम गलत" के व्यापक रूप से स्वीकृत मानदंड पर आधारित है । लेकिन , नैतिक विचार कॉर्पोरेट प्रशासन की पहल और अनुपालन के लिए अधिक प्रोत्साहन पैदा करने वाले सरकारी नियमों को प्रभावित कर सकते हैं ।
**डेटा नैतिकता** एक [नैतिकता की नई शाखा](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1) है जो "_डेटा, एल्गोरिदम और से संबंधित नैतिक समस्याओं का अध्ययन और मूल्यांकन करती है_" । यहां, **"डेटा"** - निर्माण, रिकॉर्डिंग, अवधि, प्रसंस्करण प्रसार, साझाकरण और उपयोग से संबंधित कार्यों पर केंद्रित है, **"एल्गोरिदम"** AI , एजेंटों, मशीन लर्निंग और रोबोटो पर केंद्रित है, और ** "अभ्यास"** जिम्मेदार नवाचार, प्रोग्रामिंग, हैकिंग और नैतिकता कोड जैसे विषयों पर केंद्रित है ।
**एप्लाइड नैतिकता** [नैतिक विचारों का व्यावहारिक अनुप्रयोग](https://en.wikipedia.org/wiki/Applied_ethics) है । यह _वास्तविक दुनिया की कार्रवाइयों, उत्पादों और प्रक्रियाओं_ के संदर्भ में नैतिक मुद्दों की सक्रिय रूप से जांच करने और सुधारात्मक उपाय करने की प्रक्रिया है ताकि ये हमारे परिभाषित नैतिक मूल्यों के साथ संरेखित रहें ।
**नैतिकता संस्कृति** यह सुनिश्चित करने के लिए [_operationalizing_ एप्लाइड नैतिकता](https://hbr.org/2019/05/how-to-design-an-ethical-organization) के बारे में है कि हमारे नैतिक सिद्धांतों और प्रथाओं को पूरे संगठन में एक सुसंगत और मापनीय तरीके से अपनाया जाए । सफल नैतिक संस्कृतियाँ संगठन-व्यापी नैतिक सिद्धांतों को परिभाषित करती हैं, अनुपालन के लिए सार्थक प्रोत्साहन प्रदान करती हैं, और संगठन के हर स्तर पर वांछित व्यवहारों को प्रोत्साहित और प्रवर्धित करके नैतिक मानदंडों को सुदृढ़ करती हैं ।
## नैतिकता की अवधारणाएं
इस खंड में, हम डेटा नैतिकता के लिए साझा मूल्यों (सिद्धांतों) और नैतिक चुनौतियों (समस्याओं) जैसी अवधारणाओं पर चर्चा करेंगे - और मामले के अध्ययन का पता लगाएंगे जो आपको वास्तविक दुनिया के संदर्भों में इन अवधारणाओं को समझने में मदद करते हैं ।
### 1. नैतिक सिद्धांत
प्रत्येक डेटा नैतिकता रणनीति _नैतिक सिद्धांतों_ को परिभाषित करके शुरू होती है - "साझा मूल्य" जो स्वीकार्य व्यवहारों का वर्णन करते हैं, और हमारे डेटा और AI परियोजनाओं में अनुपालन कार्यों का मार्गदर्शन करते हैं । लेकिन, अधिकांश बड़े संगठन इन्हें एक _नैतिक AI_ मिशन स्टेटमेंट या फ्रेमवर्क में रेखांकित करते हैं जो कॉर्पोरेट स्तर पर परिभाषित होता है और सभी टीमों में लगातार लागू होता है ।
**उदाहरण:** माइक्रोसॉफ्ट की [जिम्मेदार एआई](https://www.microsoft.com/en-us/ai/responsible-ai) मिशन स्टेटमेंट कहती है : _"हम नैतिक सिद्धांतों द्वारा संचालित AI की उन्नति के लिए प्रतिबद्ध हैं जो लोगों को सबसे पहले रखते हैं |"_ - नीचे दिए गए ढांचे में 6 नैतिक सिद्धांतों की वार्ना की गयी है :
![माइक्रोसॉफ्ट की जिम्मेदार एआई](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
आइए संक्षेप में इन सिद्धांतों के बारे में सीखे | _पारदर्शिता_ और _जवाबदेही_ वह मूलभूत मूल्य हैं जिन पर अन्य सिद्धांतों का निर्माण किया गया है - तो चलिए वहां शुरु करते हैं :
* [**जवाबदेही**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) उपयोगकर्ताओं को उनके डेटा और AI संचालन, और इन नैतिक सिद्धांतों के अनुपालन के लिए _जिम्मेदार_ बनाती है ।
* [**पारदर्शिता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) सुनिश्चित करती है कि डेटा और AI क्रियाएं उपयोगकर्ताओं के लिए _समझने योग्य_ (व्याख्या योग्य) हैं, यह बताते हुए कि निर्णयों के पीछे क्या और क्यों है ।
* [**निष्पक्षता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) - यह सुनिश्चित करने पर ध्यान केंद्रित करती है कि AI डेटा और सिस्टम में किसी भी प्रणालीगत या निहित सामाजिक-तकनीकी पूर्वाग्रहों को संबोधित करते हुए _सभी लोगों_ के साथ उचित व्यवहार करता है ।
* [**विश्वसनीयता और अहनिकारकता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - सुनिश्चित करती है कि AI- संभावित नुकसान या अनपेक्षित परिणामों को कम करते हुए परिभाषित मूल्यों के साथ _लगातार_ काम करता है ।
* [**निजता एवं सुरक्षा**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - डेटा वंश को समझने, और उपयोगकर्ताओं को _डेटा गोपनीयता और संबंधित सुरक्षा_ प्रदान करने के बारे में है ।
* [**समग्रता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - AI समाधानों को इरादे से डिजाइन करना एवं उन्हें _मानवीय आवश्यकताओं की एक विस्तृत श्रृंखला_ और क्षमताओं को पूरा करने के लिए अनुकूलित करने के बारे में है ।
> 🚨 अपने डेटा नैतिकता मिशन वक्तव्य के बारे में सोचें | अन्य संगठनों से नैतिक AI ढांचों का अन्वेषण करें - ये हैं कुछ उदाहरण [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) ,एवं [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/) | इनके बीच क्या साझा मूल्य हैं? ये सिद्धांत उनके द्वारा संचालित एआई उत्पाद या उद्योग से कैसे संबंधित हैं ?
### 2. नैतिकता से जुडी चुनौतियां
एक बार जब हमारे पास नैतिक सिद्धांत परिभाषित हो जाते हैं, तो अगला कदम यह देखने के लिए हमारे डेटा और एआई कार्यों का मूल्यांकन करना है कि क्या वे उन साझा मूल्यों के साथ संरेखित हैं । अपने कार्यों के बारे में दो श्रेणियों में सोचें: _डेटा संग्रह_ और _एल्गोरिदम डिज़ाइन_ |
डेटा संग्रह के साथ, कार्रवाइयों में संभवतः पहचान योग्य जीवित व्यक्तियों के लिए **व्यक्तिगत डेटा** या व्यक्तिगत रूप से पहचान योग्य जानकारी शामिल होगी । इसमें [गैर-व्यक्तिगत डेटा के विविध आइटम](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en) शामिल हैं, जो _collectively_ किसी व्यक्ति की पहचान करते हैं । नैतिक चुनौतियां _डेटा गोपनीयता_, _डेटा स्वामित्व_, और उपयोगकर्ताओं के लिए _सूचित सहमति_ और _बौद्धिक संपदा अधिकार_ जैसे संबंधित विषयों से संबंधित हो सकती हैं ।
एल्गोरिथम डिज़ाइन के साथ, क्रियाओं में **डेटासेट** एकत्र करना और क्यूरेट करना शामिल होगा, फिर उनका उपयोग **डेटा मॉडल** को प्रशिक्षित और तैनात करने के लिए किया जाएगा जो वास्तविक दुनिया के संदर्भों में परिणामों की भविष्यवाणी या स्वचालित निर्णय लेते हैं । एल्गोरिथम डिज़ाइन के साथ, क्रियाओं में **डेटासेट** एकत्र करना और क्यूरेट करना शामिल होगा, फिर उनका उपयोग **डेटा मॉडल** को प्रशिक्षित और तैनात करने के लिए किया जाएगा जो वास्तविक दुनिया के संदर्भों में परिणामों की भविष्यवाणी या स्वचालित निर्णय लेते हैं ।
दोनों ही मामलों में, नैतिकता की चुनौतियाँ उन क्षेत्रों को उजागर करती हैं जहाँ हमारे कार्यों का हमारे साझा मूल्यों के साथ टकराव हो सकता है । इन चिंताओं का पता लगाने, सामना करने, कम करने या समाप्त करने के लिए - हमें अपने कार्यों से संबंधित नैतिक "हां या नहीं" प्रश्न पूछने की जरूरत है, फिर आवश्यकतानुसार सुधारात्मक कार्रवाई करें । आइए कुछ नैतिक चुनौतियों और उनके द्वारा उठाए गए नैतिक प्रश्नों पर एक नज़र डालें :
#### 2.1 डेटा स्वामित्व
डेटा संग्रह में अक्सर व्यक्तिगत डेटा शामिल होता है जो डेटा विषयों की पहचान कर सकता है । [डेटा स्वामित्व](https://permission.io/blog/data-ownership) _नियंत्रण_ के बारे में और उन [उपयोगकर्ता अधिकारो(https://permission.io/blog/data-ownership) के सम्भंदित है जो निर्माण , प्रसंस्करण और से संबंधित है ।
हमें जो नैतिक प्रश्न पूछने चाहिए, वे हैं :
* डेटा का मालिक कौन है ? (उपयोगकर्ता या संगठन)
* डेटा विषयों के पास क्या अधिकार हैं ? (उदा: पहुंच, मिटाना, सुवाह्यता)
* संगठनों के पास क्या अधिकार हैं ? (उदा: दुर्भावनापूर्ण उपयोगकर्ता समीक्षाओं का सुधार)
#### 2.2 सूचित सहमति
[सूचित सहमति](https://legaldictionary.net/informed-consent/) उद्देश्य, संभावित जोखिमों और विकल्पों सहित प्रासंगिक तथ्यों की _पूर्ण समझ_ के साथ कार्रवाई (जैसे डेटा संग्रह) के लिए सहमत होने वाले उपयोगकर्ताओं के कार्य को परिभाषित करता है ।
यहां देखने लायक प्रश्न हैं :
* क्या उपयोगकर्ता (डेटा विषय) ने डेटा कैप्चर और उपयोग के लिए अनुमति दी थी ?
* क्या उपयोगकर्ता को वह उद्देश्य समझ में आया जिसके लिए उस डेटा को कैप्चर किया गया था ?
* क्या उपयोगकर्ता ने उनकी भागीदारी से संभावित जोखिमों को समझा ?
#### 2.3 बौद्धिक संपदा
[बौद्धिक संपदा](https://en.wikipedia.org/wiki/Intellectual_property) मानव पहल से उत्पन्न अमूर्त कृतियों को संदर्भित करता है, जिनका व्यक्तियों या व्यवसायों के लिए _आर्थिक_ महत्व हो सकता है ।
यहां देखने लायक प्रश्न हैं :
* क्या जमा किए गए डेटा का किसी उपयोगकर्ता या व्यवसाय के लिए आर्थिक महत्व है ?
* क्या **उपयोगकर्ता** के पास यहां बौद्धिक संपदा है ?
* क्या **संगठन** के पास यहां बौद्धिक संपदा है ?
* अगर ये अधिकार मौजूद हैं, तो हम उनकी रक्षा कैसे कर रहे हैं ?
#### 2.4 डाटा गोपनीयता
[डेटा गोपनीयता](https://www.northeaster.edu/graduate/blog/what-is-data-privacy/) या सूचना गोपनीयता व्यक्तिगत रूप से पहचान योग्य जानकारी के संबंध में उपयोगकर्ता की गोपनीयता के संरक्षण और उपयोगकर्ता की पहचान की सुरक्षा को संदर्भित करता है ।
यहां देखने लायक प्रश्न हैं :
* क्या उपयोगकर्ताओं का (व्यक्तिगत) डेटा हैक और लीक से सुरक्षित है ?
* क्या उपयोगकर्ताओं का डेटा केवल अधिकृत उपयोगकर्ताओं और संदर्भों के लिए सुलभ है ?
* क्या डेटा साझा या प्रसारित होने पर उपयोगकर्ताओं की गोपनीयता बनी रहती है ?
* क्या किसी उपयोगकर्ता की पहचान अज्ञात डेटासेट से की जा सकती है ?
#### 2.5 भूला दिया जाने का अधिकार
[भूला दिया जाने का अधिकार](https://en.wikipedia.org/wiki/Right_to_be_forgotten) अतिरिक्त सुविधाएं प्रदान करता है उपयोगकर्ताओं के लिए व्यक्तिगत डेटा सुरक्षा। विशेष रूप से, यह उपयोगकर्ताओं को इंटरनेट खोजों और अन्य स्थानों से व्यक्तिगत डेटा को हटाने या हटाने का अनुरोध करने का अधिकार देता है, _विशिष्ट परिस्थितियों में_ - उन्हें उनके खिलाफ पिछली कार्रवाई किए बिना ऑनलाइन एक नई शुरुआत करने की अनुमति देता है ।
यहां देखने लायक प्रश्न हैं :
* क्या सिस्टम डेटा विषयों को अपना डेटा मिटाने का अनुरोध करने की अनुमति देता है ?
* क्या उपयोगकर्ता की सहमति वापस लेने से स्वचालित डेटा मिटाना शुरू हो जाएगा ?
* क्या डेटा सहमति के बिना या गैरकानूनी तरीके से एकत्र किया गया था ?
* क्या हम डेटा गोपनीयता के लिए सरकारी नियमों का अनुपालन करते हैं ?
#### 2.6 डेटासेट पूर्वाग्रह
डेटासेट या [संग्रह पूर्वाग्रह](http://researcharticles.com/index.php/bias-in-data-collection-in-research/) एल्गोरिथम विकास के लिए डेटा के _गैर-प्रतिनिधि_ सबसेट का चयन करने के बारे में है, जिसमें संभावित अनुचितता पैदा होती है विभिन्न समूहों के लिए भेदभाव । पूर्वाग्रह के प्रकारों में चयन या नमूना पूर्वाग्रह, स्वयंसेवी पूर्वाग्रह और साधन पूर्वाग्रह शामिल हैं ।
यहां देखने लायक प्रश्न हैं :
* क्या हमने डेटा विषयों के प्रतिनिधि सेट की भर्ती की ?
* क्या हमने विभिन्न पूर्वाग्रहों के लिए अपने एकत्रित या क्यूरेट किए गए डेटासेट का परीक्षण किय ा?
* क्या हम खोजे गए पूर्वाग्रहों को कम कर सकते हैं या हटा सकते हैं ?
#### 2.7 डेटा की गुणवत्ता
[डेटा गुणवत्ता](https://lakefs.io/data-quality-testing/) जो हमारे एल्गोरिदम को विकसित करने के लिए उपयोग किए गए क्यूरेट किए गए डेटासेट की वैधता को देखता है, यह देखने के लिए जाँच करता है कि सुविधाएँ और रिकॉर्ड सटीकता और स्थिरता के स्तर की आवश्यकताओं को पूरा करते हैं या नहीं हमारे AI उद्देश्य के लिए आवश्यक है ।
यहां देखने लायक प्रश्न हैं :
* क्या हमने अपने उपयोग के मामले में मान्य _features_ को कैप्चर किया ?
* क्या डेटा विविध डेटा स्रोतों से _लगातार_ कैप्चर किया गया था ?
* क्या विविध स्थितियों या परिदृश्यों के लिए डेटासेट _पूर्ण_ है ?
* क्या वास्तविकता को प्रतिबिंबित करने में जानकारी _सटीक_ रूप से कैप्चर की गई है ?
#### 2.8 एल्गोरिथम की निष्पक्षता
[एल्गोरिदम निष्पक्षता](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) यह देखने के लिए जांच करता है कि क्या एल्गोरिथम डिज़ाइन व्यवस्थित रूप से डेटा विषयों के विशिष्ट उपसमूहों के साथ भेदभाव करता है जिससे [संभावित नुकसान](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) होते हैं में _allocation_ (जहां संसाधनों को अस्वीकार कर दिया जाता है या उस समूह से रोक दिया जाता है) और _सेवा की गुणवत्ता_ (जहां AI कुछ उपसमूहों के लिए उतना सटीक नहीं है जितना कि यह दूसरों के लिए है) ।
यहां देखने लायक प्रश्न हैं :
* क्या हमने विविध उपसमूहों और स्थितियों के लिए मॉडल सटीकता का मूल्यांकन किया ?
* क्या हमने संभावित नुकसान (जैसे, स्टीरियोटाइपिंग) के लिए सिस्टम की जांच की ?
* क्या हम पहचाने गए नुकसान को कम करने के लिए डेटा को संशोधित कर सकते हैं या मॉडल को फिर से प्रशिक्षित कर सकते हैं ?
अधिक जानने के लिए [AI फेयरनेस चेकलिस्ट](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA) जैसे संसाधनों का अन्वेषण करें ।
#### 2.9 मिथ्या निरूपण
[डेटा मिसरिप्रेजेंटेशन](https://www.sciencedirect.com/topics/computer-science/misrepresentation) यह पूछने के बारे में है कि क्या हम एक वांछित कथा का समर्थन करने के लिए भ्रामक तरीके से ईमानदारी से रिपोर्ट किए गए डेटा से अंतर्दृष्टि का संचार कर रहे हैं ।
यहां देखने लायक प्रश्न हैं :
* क्या हम अपूर्ण या गलत डेटा की रिपोर्ट कर रहे हैं ?
* क्या हम डेटा को इस तरह से देख रहे हैं जिससे भ्रामक निष्कर्ष निकलते हैं ?
* क्या हम परिणामों में हेरफेर करने के लिए चुनिंदा सांख्यिकीय तकनीकों का उपयोग कर रहे हैं ?
* क्या ऐसे वैकल्पिक स्पष्टीकरण हैं जो एक अलग निष्कर्ष प्रस्तुत कर सकते हैं ?
#### 2.10 मुक्त चयन
[इल्यूज़न ऑफ़ फ्री चॉइस](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) तब होता है जब सिस्टम "चॉइस आर्किटेक्चर" लोगों को पसंदीदा परिणाम लेने के लिए प्रेरित करने के लिए निर्णय लेने वाले एल्गोरिदम का उपयोग करता है। जबकि उन्हें विकल्प और नियंत्रण देना प्रतीत होता है। ये [डार्क पैटर्न](https://www.darkpatterns.org/) उपयोगकर्ताओं को सामाजिक और आर्थिक नुकसान पहुंचा सकते हैं। चूंकि उपयोगकर्ता निर्णय व्यवहार प्रोफाइल को प्रभावित करते हैं, इसलिए ये कार्रवाइयां संभावित रूप से भविष्य के विकल्पों को प्रेरित करती हैं जो इन नुकसानों के प्रभाव को बढ़ा या बढ़ा सकते हैं।
यहां देखने लायक प्रश्न हैं :
* क्या उपयोगकर्ता ने उस विकल्प को बनाने के निहितार्थों को समझा ?
* क्या उपयोगकर्ता (वैकल्पिक) विकल्पों और प्रत्येक के पेशेवरों और विपक्षों से अवगत था ?
* क्या उपयोगकर्ता किसी स्वचालित या प्रभावित विकल्प को बाद में उलट सकता है ?
### 3. केस स्टडी
इन नैतिक चुनौतियों को वास्तविक दुनिया के संदर्भों में रखने के लिए, ऐसे मामलों के अध्ययन को देखने में मदद मिलती है जो व्यक्तियों और समाज को संभावित नुकसान और परिणामों को उजागर करते हैं, जब ऐसे नैतिकता उल्लंघनों की अनदेखी की जाती है ।
कुछ उदाहरण निम्नलिखित हैं :
| नैतिकता चुनौती | मामले का अध्ययन |
|--- |--- |
| **सूचित सहमति** | १९७२ - [टस्केगी सिफलिस अध्ययन](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - अध्ययन में भाग लेने वाले अफ्रीकी अमेरिकी पुरुषों को उन शोधकर्ताओं द्वारा मुफ्त चिकित्सा देखभाल का वादा किया गया था जो उनके निदान या उपचार की उपलब्धता के बारे में विषयों को सूचित करने में विफल रहे। कई विषयों की मृत्यु हो गई और साथी या बच्चे प्रभावित हुए; अध्ययन 40 साल तक चला । |
| **डाटा प्राइवेसी** | २००७ - [नेटफ्लिक्स डेटा प्राइज](https://www.wired.com/2007/12/why-anonymous-data-only-isnt/) ने शोधकर्ताओं को सिफारिश एल्गोरिदम को बेहतर बनाने में मदद करने के लिए 50K ग्राहकों_ से _10M अनाम मूवी रैंकिंग प्रदान की। हालांकि, शोधकर्ता अज्ञात डेटा को व्यक्तिगत रूप से पहचाने जाने योग्य डेटा के साथ _बाहरी डेटासेट_ (उदाहरण के लिए, IMDb टिप्पणियों) में सहसंबंधित करने में सक्षम थे - कुछ नेटफ्लिक्स ग्राहकों को प्रभावी रूप से "डी-अनामीकरण" ।|
| **संग्रह पूर्वाग्रह** | २०१३ - द सिटी ऑफ़ बोस्टन [विकसित स्ट्रीट बम्प](https://www.boston.gov/transportation/street-bump), एक ऐप जो नागरिकों को गड्ढों की रिपोर्ट करने देता है, जिससे शहर को समस्याओं को खोजने और ठीक करने के लिए बेहतर रोडवे डेटा मिलता है । हालांकि, [निम्न आय वर्ग के लोगों के पास कारों और फोन तक कम पहुंच थी](https://hbr.org/2013/04/the-hidden-biases-in-big-data), जिससे इस ऐप में उनके सड़क संबंधी मुद्दे अदृश्य हो गए थे। . डेवलपर्स ने शिक्षाविदों के साथ निष्पक्षता के लिए _न्यायसंगत पहुंच और डिजिटल विभाजन_ मुद्दों पर काम किया । |
| **एल्गोरिथम निष्पक्षता** | २०१८ - एमआईटी [जेंडर शेड्स स्टडी](http://gendershades.org/overview.html) ने लिंग वर्गीकरण एआई उत्पादों की सटीकता का मूल्यांकन किया, महिलाओं और रंग के व्यक्तियों के लिए सटीकता में अंतराल को उजागर किया । एक [2019 ऐप्पल कार्ड](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) पुरुषों की तुलना में महिलाओं को कम क्रेडिट प्रदान करता है। दोनों ने एल्गोरिथम पूर्वाग्रह में सचित्र मुद्दों को सामाजिक-आर्थिक नुकसान की ओर अग्रसर किया ।|
| **डेटा गलत बयानी** | २०२० - [जॉर्जिया डिपार्टमेंट ऑफ पब्लिक हेल्थ ने जारी किया COVID-19 चार्ट](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening) जो एक्स-अक्ष पर गैर-कालानुक्रमिक क्रम के साथ पुष्टि किए गए मामलों में रुझानों के बारे में नागरिकों को गुमराह करने के लिए प्रकट हुए। यह विज़ुअलाइज़ेशन ट्रिक्स के माध्यम से गलत बयानी दिखाता है । |
| **स्वतंत्र चुनाव का भ्रम** | २०२० - लर्निंग ऐप [एबीसीमाउस ने एफटीसी शिकायत को निपटाने के लिए 10 मिलियन डॉलर का भुगतान किया](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/) जहां माता-पिता भुगतान करने में फंस गए थे सदस्यता वे रद्द नहीं कर सके । यह पसंद वास्तुकला में काले पैटर्न को दिखाता है, जहां उपयोगकर्ता संभावित रूप से हानिकारक विकल्पों की ओर झुकाव कर रहे थे । |
| **डेटा गोपनीयता और उपयोगकर्ता अधिकार** | २०२१ - फेसबुक [डेटा ब्रीच](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) 530M उपयोगकर्ताओं के डेटा को उजागर किया, जिसके परिणामस्वरूप FTC को $ 5B का समझौता हुआ । हालांकि इसने डेटा पारदर्शिता और पहुंच के आसपास उपयोगकर्ता अधिकारों का उल्लंघन करने वाले उल्लंघन के उपयोगकर्ताओं को सूचित करने से इनकार कर दिया । |
अधिक केस स्टडी के बारे में चाहते हैं ? इन संसाधनों की जाँच करें :
* [नैतिकता अलिखित](https://ethicsunwrapped.utexas.edu/case-studies) - विविध उद्योगों में नैतिकता की दुविधा ।
* [डेटा साइंस एथिक्स कोर्स](https://www.coursera.org/learn/data-science-ethics#syllabus) - ऐतिहासिक मामले का अध्ययन ।
* [जहां चीजें गलत हो गई हैं](https://deon.drivendata.org/examples/) - उदाहरण के साथ डीओन चेकलिस्ट |
> 🚨 आपके द्वारा देखी गई केस स्टडी के बारे में सोचें - क्या आपने अपने जीवन में इसी तरह की नैतिक चुनौती का अनुभव किया है, या इससे प्रभावित हुए हैं ? क्या आप कम से कम एक अन्य केस स्टडी के बारे में सोच सकते हैं जो इस खंड में चर्चा की गई नैतिक चुनौतियों में से एक को दर्शाती है ?
## एप्लाइड नैतिकता
हमने वास्तविक दुनिया के संदर्भों में नैतिक अवधारणाओं, चुनौतियों और केस स्टडी के बारे में बात की है। लेकिन हम अपनी परियोजनाओं में नैतिक सिद्धांतों और प्रथाओं को _लागू करना_ कैसे शुरू करते हैं ? और हम बेहतर शासन के लिए इन प्रथाओं को कैसे _संचालन_कृत करते हैं ? आइए कुछ वास्तविक दुनिया के समाधान देखें :
### 1. व्यावसायिक कोड
व्यावसायिक कोड संगठनों के लिए सदस्यों को उनके नैतिक सिद्धांतों और मिशन वक्तव्य का समर्थन करने के लिए "प्रोत्साहित" करने के लिए एक विकल्प प्रदान करते हैं । पेशेवर व्यवहार के लिए कोड _नैतिक दिशानिर्देश_ हैं, जो कर्मचारियों या सदस्यों को उनके संगठन के सिद्धांतों के अनुरूप निर्णय लेने में मदद करते हैं । वे केवल उतने ही अच्छे हैं जितने सदस्यों से स्वैच्छिक अनुपालन; हालांकि, कई संगठन सदस्यों से अनुपालन को प्रेरित करने के लिए अतिरिक्त पुरस्कार और दंड प्रदान करते हैं ।
उदाहरणों में शामिल :
* [ऑक्सफोर्ड म्यूनिख](http://www.code-of-ethics.org/code-of-conduct/) आचार संहिता
* [डेटा साइंस एसोसिएशन](http://datascienceassn.org/code-of-conduct.html) आचार संहिता (2013 में बनाया गया)
* [एसीएम आचार संहिता और व्यावसायिक आचरण](https://www.acm.org/code-of-ethics) (1993 से)
> 🚨 क्या आप एक पेशेवर इंजीनियरिंग या डेटा विज्ञान संगठन से संबंधित हैं ? यह देखने के लिए कि क्या वे पेशेवर आचार संहिता को परिभाषित करते हैं, उनकी साइट का अन्वेषण करें । यह उनके नैतिक सिद्धांतों के बारे में क्या कहता है ? वे सदस्यों को कोड का पालन करने के लिए "प्रोत्साहित" कैसे कर रहे हैं ?
### 2. नैतिकता जाँच सूची
जबकि पेशेवर कोड चिकित्सकों से आवश्यक _नैतिक व्यवहार_ को परिभाषित करते हैं, वे प्रवर्तन में [विशेष रूप से बड़े पैमाने पर परियोजनाओं में](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) [ज्ञात सीमाएं हैं] । इसके बजाय, कई डेटा विज्ञान विशेषज्ञ [चेकलिस्ट के वकील](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), जो **सिद्धांतों को अभ्यासों से जोड़ सकते हैं** अधिक नियतात्मक और कार्रवाई योग्य तरीके ।
चेकलिस्ट प्रश्नों को "हां/नहीं" कार्यों में परिवर्तित करते हैं जिन्हें संचालित किया जा सकता है, जिससे उन्हें मानक उत्पाद रिलीज वर्कफ़्लो के हिस्से के रूप में ट्रैक किया जा सकता है ।
उदाहरणों में शामिल :
* [डियोन](https://deon.drivendata.org/) - आसान एकीकरण के लिए कमांड-लाइन टूल के साथ [उद्योग अनुशंसाओं](https://deon.drivedata.org/#checklist-citations) से बनाई गई एक सामान्य-उद्देश्य डेटा नैतिकता चेकलिस्ट ।
* [गोपनीयता ऑडिट चेकलिस्ट](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - कानूनी और सामाजिक जोखिम के दृष्टिकोण से सूचना प्रबंधन प्रथाओं के लिए सामान्य मार्गदर्शन प्रदान करता है ।
* [एआई फेयरनेस चेकलिस्ट](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - एआई विकास चक्रों में निष्पक्षता जांच को अपनाने और एकीकरण का समर्थन करने के लिए एआई चिकित्सकों द्वारा बनाया गया ।
* [डेटा और एआई में नैतिकता के लिए 22 प्रश्न](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - डिजाइन, कार्यान्वयन, और संगठनात्मक, संदर्भों में नैतिक मुद्दों की प्रारंभिक खोज के लिए संरचित, अधिक खुला ढांचा ।
### 3. नैतिकता विनियम
नैतिकता साझा मूल्यों को परिभाषित करने और _स्वेच्छा_ से सही काम करने के बारे में है । **अनुपालन** _कानून का पालन करने के बारे में है_ यदि और जहां परिभाषित किया गया है । **शासन** मोटे तौर पर उन सभी तरीकों को शामिल करता है जिनमें संगठन नैतिक सिद्धांतों को लागू करने और स्थापित कानूनों का पालन करने के लिए काम करते हैं ।
आज, संगठनों के भीतर शासन दो रूप लेता है । सबसे पहले, यह **नैतिक एआई** सिद्धांतों को परिभाषित करने और संगठन में सभी एआई-संबंधित परियोजनाओं में गोद लेने के संचालन के लिए प्रथाओं को स्थापित करने के बारे में है । दूसरा, यह उन क्षेत्रों के लिए सरकार द्वारा अनिवार्य सभी **डेटा सुरक्षा नियमों** का अनुपालन करने के बारे में है जहां यह संचालित होता है ।
डेटा सुरक्षा और गोपनीयता नियमों के उदाहरण :
* `१९७४`, [यूएस गोपनीयता अधिनियम](https://www.justice.gov/opcl/privacy-act-1974) - व्यक्तिगत जानकारी के संग्रह, उपयोग और प्रकटीकरण को नियंत्रित करता है ।
* `१९९६`, [अमेरिकी स्वास्थ्य बीमा सुवाह्यता और जवाबदेही अधिनियम (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - व्यक्तिगत स्वास्थ्य डेटा की सुरक्षा करता है ।
* `१९९८`, [यूएस चिल्ड्रन ऑनलाइन प्राइवेसी प्रोटेक्शन एक्ट (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - 13 साल से कम उम्र के बच्चों की डेटा गोपनीयता की रक्षा करता है ।
* `२०१८`, [सामान्य डेटा संरक्षण विनियमन (GDPR)](https://gdpr-info.eu/) - उपयोगकर्ता अधिकार, डेटा सुरक्षा और गोपनीयता प्रदान करता है ।
* `२०१८`, [कैलिफोर्निया उपभोक्ता गोपनीयता अधिनियम (CCPA)](https://www.oag.ca.gov/privacy/ccpa) उपभोक्ताओं को उनके (व्यक्तिगत) डेटा पर अधिक _अधिकार_ देता है ।
* `२०२१`, चीन का [व्यक्तिगत सूचना संरक्षण कानून](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) अभी-अभी पारित हुआ, दुनिया भर में सबसे मजबूत ऑनलाइन डेटा गोपनीयता नियमों में से एक बना ।
> 🚨 यूरोपीय संघ परिभाषित GDPR (जनरल डेटा प्रोटेक्शन रेगुलेशन) आज सबसे प्रभावशाली डेटा गोपनीयता नियमों में से एक है । क्या आप जानते हैं कि यह नागरिकों की डिजिटल गोपनीयता और व्यक्तिगत डेटा की सुरक्षा के लिए [8 उपयोगकर्ता अधिकार](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) को भी परिभाषित करता है ? जानें कि ये क्या हैं, और क्यों मायने रखते हैं ।
### 4. नैतिकता संस्कृति
ध्यान दें कि _अनुपालन_ ("कानून के पत्र को पूरा करने के लिए पर्याप्त प्रयास करना") और [प्रणालीगत मुद्दों](https://www.coursera.org/learn/data-science-ethics/home/week) को संबोधित करने के बीच एक अमूर्त अंतर है । / 4) (जैसे ossification, सूचना विषमता, और वितरण संबंधी अनुचितता) जो AI के शस्त्रीकरण को गति दे सकता है ।
बाद वाले को [नैतिक संस्कृतियों को परिभाषित करने के लिए सहयोगात्मक दृष्टिकोण](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-drive-approach-26f451afa29f) की आवश्यकता होती है, जो पूरे संगठनों में भावनात्मक संबंध और सुसंगत साझा मूल्यों का निर्माण करते हैं । यह संगठनों में अधिक [औपचारिक डेटा नैतिकता संस्कृतियों](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) की मांग करता है - _किसी_ को [एंडोन कॉर्ड को खींचने](https://en.wikipedia.org/wiki/Andon_(manufacturing)) की अनुमति देता है (इस प्रक्रिया में नैतिकता संबंधी चिंताओं को जल्दी उठाने के लिए) और एआई परियोजनाओं में _नैतिक मूल्यांकन_ (उदाहरण के लिए, भर्ती में) एक मुख्य मानदंड टीम गठन करना ।
---
## [व्याख्यान के बाद प्रश्नोत्तरी](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/3) 🎯
## समीक्षा और स्व अध्ययन
पाठ्यक्रम और पुस्तकें मूल नैतिकता अवधारणाओं और चुनौतियों को समझने में मदद करती हैं, जबकि केस स्टडी और उपकरण वास्तविक दुनिया के संदर्भों में लागू नैतिकता प्रथाओं के साथ मदद करते हैं। शुरू करने के लिए यहां कुछ संसाधन दिए गए हैं।
* [शुरुआती के लिए मशीन लर्निंग](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - Microsoft से निष्पक्षता पर पाठ ।
* [जिम्मेदार एआई के सिद्धांत](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - माइक्रोसॉफ्ट लर्न की ओर से फ्री लर्निंग पाथ ।
* [नैतिकता और डेटा विज्ञान](https://resources.oreilly.com/examples/0636920203964) - O'Reilly EBook (M. Loukides, H. Mason et. al)
* [डेटा विज्ञान नैतिकता](https://www.coursera.org/learn/data-science-ethics#syllabus) - मिशिगन विश्वविद्यालय से ऑनलाइन पाठ्यक्रम ।
* [नैतिकता अलिखित](https://ethicsunwrapped.utexas.edu/case-studies) - टेक्सास विश्वविद्यालय से केस स्टडीज ।
# कार्यभार
<!-- need to change the link once assignment is translated -->
[डेटा एथिक्स केस स्टडी लिखें](assignment.hi.md)

@ -1,263 +0,0 @@
# 데이터 윤리 소개
| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/02-Ethics.png) |
| :-----------------------------------------------------------------------------------------------: |
| 데이터 과학 윤리 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
---
우리는 모두 데이터화된 세계(datafied world)에 살고 있는 데이터 시민(data citizens)입니다.
시장 동향에 따르면 2022년까지 3분의 1 규모의 대규모 조직이 온라인 [마켓플레이스 및 거래소](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/)를 통해 데이터를 사고 팔 것입니다. **앱 개발자**로서 우리는 데이터를 기반으로 한 인사이트(data-driven insight)와 알고리즘 기반 자동화(algorithm-driven automation)를 일상적인 사용자 경험에 통합하는 것이 더 쉽고, 더 저렴하다는 것을 알게 될 것입니다. 그러나 AI가 보편화 됨에 따라, 그러한 알고리즘이 규모적으로 [무기화](https://www.youtube.com/watch?v=TQHs8SA1qpk)로 인한 잠재적 위험을 지니고 있음을 이해해야 합니다.
또한 트렌드에 따르면 우리가 2025년까지 [180 제타 바이트](https://www.statista.com/statistics/871513/worldwide-data-created/) 이상의 데이터를 생성하고 사용할 것을 알려줍니다. **데이터 과학자**로서, 이러한 트렌드는 개인 데이터에 대한 전례 없는 수준의 접근을 제공합니다. 이는 사용자의 행동 프로파일(behavioral profiles)을 구축하고, 우리가 선호하는 결과로 사용자를 유도하는 [자유 선택의 환상](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice)을 만들어내므로 의사결정 과정에 영향을 미칩니다.
데이터 윤리는 이제 데이터 과학 및 데이터 엔지니어링에 _필수적인 가드레일_ 이 되어 데이터 기반 작업으로 인한 잠재적 피해와 의도하지 않은 결과를 최소화하는 데 도움이 됩니다. [가트너(Gartner)의 AI 하이프사이클(Hype Cycle)](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/)은 AI의 _민주화(democratization)__산업화(industrialization)_ 에 대한 더 큰 메가트렌드의 핵심 요인으로 디지털 윤리와 관련된 트렌드, 책임감 있는 AI(responsible AI), AI 거버넌스를 가리킵니다.
![가트너(Gartner)의 AI 하이프사이클(Hype Cycle) - 2020](https://images-cdn.newscred.com/Zz1mOWJhNzlkNDA2ZTMxMWViYjRiOGFiM2IyMjQ1YmMwZQ==)
이 강의에서는 핵심 개념 및 과제부터 사례 연구 및 거버넌스와 같은 응용 AI 개념에 이르기까지, 데이터와 AI를 사용하여 작업하는 팀과 조직에서 윤리 문화를 확립하는 데 도움이 되는 데이터 윤리의 멋진 영역을 살펴볼 것입니다.
## [강의 전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/2) 🎯
## 기본 정의
기본 용어를 이해하는 것부터 시작해보겠습니다.
윤리라는 단어는 _성격 또는 본성_ 을 의미하는 (그 어원은 "ethos"인) [그리스어 "ethikos"](https://en.wikipedia.org/wiki/Ethics)에서 유래했습니다.
**윤리**는 사회에서 우리의 행동을 지배하는 공유된 가치와 도덕적 원칙에 관한 것입니다. 윤리는 법에 근거한 것이 아니라
무엇이 "옳고 그른지"에 대해 널리 받아들여지는 규범에 근거합니다. 그러나 윤리적인 고려 사항은 규정 준수에 대한 더 많은 인센티브를 생성하는 기업 거버넌스 이니셔티브 및 정부 규정에 영향을 미칠 수 있습니다.
**데이터 윤리**는 "_데이터, 알고리즘, 그에 해당하는 실행(practice)_ 과 연관된 도덕적 문제를 측정하고 연구"하는 [윤리의 새로운 분과(branch)](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1)입니다. 여기서 **"데이터"** 는 생성, 기록, 큐레이션, 처리 보급, 공유 및 사용과 관련된 작업에 중점을 두고, **"알고리즘"** 은 AI, 에이전트, 머신러닝 및 로봇에 중점을 둡니다. **"실행(practice)"** 은 책임 있는 혁신, 프로그래밍, 해킹 및 윤리 강령과 같은 주제에 중점을 둡니다.
**응용 윤리**는 [도덕적 고려사항의 실제적인 적용](https://en.wikipedia.org/wiki/Applied_ethics)을 말합니다. 이는 _실제 행동, 제품 및 프로세스_ 의 맥락에서 윤리적 문제를 적극적으로 조사하고 우리가 정의한 윤리적 가치와 일치하도록 수정하는 조치를 취하는 과정입니다.
**윤리 문화**는 우리의 윤리 원칙과 관행이 다음과 같이 채택되도록 [_운영화_ 응용 윤리](https://hbr.org/2019/05/how-to-design-an-ethical-organization)에 관한 것입니다. 조직 전체에 걸쳐 일관되고 확장 가능한 방식. 성공적인 윤리 문화는 조직 전체의 윤리 원칙을 정의하고 준수를 위한 의미 있는 인센티브를 제공하며 조직의 모든 수준에서 바람직한 행동을 장려하고 증폭함으로써 윤리 규범을 강화합니다.
## 윤리적 개념
이 섹션에서는 데이터 윤리에 대한 **공유 가치**(원칙) 및 **윤리적 과제**(문제)와 같은 개념을 논의하고 이러한 개념을 이해하는 데 도움이 되는 **케이스 스터디**를 살펴볼 것입니다.
### 1. 윤리 원칙
모든 데이터 윤리에 대한 전략은 _윤리 원칙_-데이터 및 AI 프로젝트에서, 허용되는 행동을 설명하고 규정 준수 조치에 대해 설명하는 "공유된 가치"-이 무엇인지 정의하는 것으로부터 시작됩니다. 개인 또는 팀 단위로 정의할 수 있습니다. 그러나 대부분의 대규모 조직은 이런 _윤리적인 AI_ 의 Mission 선언문이나 프레임워크를 회사 차원에서 정의하고, 모든 팀에 일관되게 시행하므로 간략하게 정의합니다.
**예시:** 마이크로소프트의 [책임있는 AI](https://www.microsoft.com/en-us/ai/responsible-ai) Mission 선언문은 다음과 같습니다: _"우리는 사람을 최우선으로 하는 융리 원칙에 따라 AI 기반의 발전에 전념합니다."_ - 아래 프레임워크에서 6가지 윤리 원칙을 식별합니다.
![Microsoft의 책임있는 AI](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
이러한 원칙을 간략하게 살펴보겠습니다. _투명성__책임성_ 은 다른 원칙들의 기반이 되는 기본적인 가치입니다. 여기에서부터 시작하겠습니다.
* [**책임**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6)은 실무자가 데이터 및 AI 운영과 이러한 윤리적 원칙 준수에 대해 _책임_ 을 지도록 합니다.
* [**투명성**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6)은 데이터 및 AI 작업이 사용자에게 _이해 가능_(해석 가능)하도록 보장하여 결정의 배경과 이유를 설명합니다.
* [**공평성**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) - AI가 _모든 사람_ 을 공정하게 대하도록 하는 데 중점을 두고, 데이터 및 시스템의 모든 시스템적 또는 암묵적 사회∙기술적 편견을 해결합니다.
* [**신뢰성 & 안전**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6)은 AI가 정의된 값으로 _일관되게_ 동작하도록 하여 잠재적인 피해나 의도하지 않은 결과를 최소화합니다.
* [**프라이버시 & 보안**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6)는 데이터 계보(Data Lineage)를 이해하고, 사용자에게 _데이터 개인 정보 보호 및 관련 보호 기능_ 을 제공하는 것입니다.
* [**포용**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6)은 AI 솔루션을 의도적으로 설계하고 _광범위한 인간의 요구_ 와 기능을 충족하도록 조정하는 것 입니다.
> 🚨 데이터 윤리 Mission 선언문이 무엇인지 생각해보십시오. 다른 조직의 윤리적 AI 프레임워크를 탐색해보세요. - 다음과 같은 예시가 있습니다. [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) ,and [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/). 이들의 공통점은 무엇입니까? 이러한 원칙은 그들이 운영하는 AI 제품 또는 산업과 어떤 관련이 있습니까?
### 2. 윤리적 과제
윤리적 원칙이 정의되면 다음 단계는 데이터와 AI 작업을 평가하여 이러한 공유 가치와 일치하는지 확인하는 것입니다. _데이터 수집__알고리즘 디자인_, 이 두 가지 범주에서 당신의 행동(Action)을 생각해 보십시오.
데이터 수집을 통해, 그 행동에는 식별 가능한(idenitifiable) 살아있는 개인에 대한 **개인 데이터** 또는 개인 식별 정보(PII, Personally Identifiable Information)이 포함될 수 있습니다. 여기에는 종합적으로 개인을 식별할 수 있는 [비개인 데이터의 다양한 항목](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en)도 포함됩니다. 윤리적인 문제는 _데이터 프라이버시(개인 정보 보호)_, _데이터 소유권(ownership)_, 그리고 사용자의 _정보 제공 동의__지적 재산권_ 과 같은 관련된 주제와 연관될 수 있습니다.
알고리즘 설계(design)을 사용하면, **데이터 셋**을 수집 및 선별란 다음 이를 사용하여 결과를 예측하거나 실제 상황에서 의사결정을 자동화하는 **데이터 모델**을 교육 및 배포하는 작업이 포함됩니다. 윤리적인 문제는 본질적으로 시스템적인 일부 문제를 포함하여 알고리즘의 _데이터 셋 편향_, _데이터 품질_ 문제, _불공정__잘못된 표현_ 으로 인해 발생할 수 있습니다.
두 경우 모두 윤리 문제는 우리의 행동이 공유 가치와 충돌할 수 있는 영역을 강조합니다. 이러한 우려를 감지, 완화, 최소화 또는 제거하려면 우리의 행동과 관련된 도덕적 "예/아니오" 질문을 하고 필요에 따라 수정 조치를 취하십시오. 몇 가지 윤리적 챌린지와 그것이 제기하는 도덕적 질문을 살펴보겠습니다.
#### 2.1 데이터 소유권
데이터 수집에는 종종 데이터 주체를 식별할 수 있는 개인 데이터가 포함됩니다. [데이터 소유권](https://permission.io/blog/data-ownership)은 데이터의 생성, 처리 및 보급과 관련된 _제어(control)_ 와 [_사용자 권한_](https://permission.io/blog/data-ownership)에 관한 것입니다.
우리가 물어야 할 도덕적 질문은 다음과 같습니다.:
* 누가 데이터를 소유합니까? (사용자 또는 조직)
* 데이터 주체(data subjects)는 어떤 권리를 가지고 있나요? (예: 접근, 삭제, 이동성)
* 조직은 어떤 권리를 가지고 있습니까? (예: 악의적인 사용자 리뷰 수정)
#### 2.2 정보 제공 동의
[정보 제공 동의](https://legaldictionary.net/informed-consent/)는 목적, 잠재적 위험 및 대안을 포함한 관련 사실을 _완전히 이해_ 한 사용자가 데이터 수집과 같은 조치에 동의하는 행위를 말합니다.
여기에서 탐색할 질문은 다음과 같습니다.:
* 사용자(데이터 주체)가 데이터 캡처 및 사용에 대한 권한을 부여했습니까?
* 사용자가 해당 데이터가 수집된 목적을 이해했습니까?
* 사용자가 참여로 인한 잠재적 위험을 이해했습니까?
#### 2.3 지적 재산권
[지적 재산권](https://en.wikipedia.org/wiki/Intellectual_property)은 인간의 주도(human initiative)로 인해 생긴 개인이나 기업에 _경제적 가치가 있을 수 있는_ 무형의 창조물을 말합니다.
여기에서 탐색할 질문은 다음과 같습니다:
* 수집된 데이터가 사용자나 비즈니스에 경제적 가치가 있었습니까?
* **사용자**가 여기에 지적 재산권을 가지고 있습니까?
* **조직**에 지적 재산권이 있습니까?
* 이러한 권리가 존재한다면, 어떻게 보호가 됩니까?
#### 2.4 데이터 프라이버시
[데이터 프라이버시](https://www.northeastern.edu/graduate/blog/what-is-data-privacy/) 또는 정보 프라이버시는 개인 식별 정보에 대한 사용자 개인 정보 보호 및 사용자 신원 보호를 의미합니다.
여기서 살펴볼 질문은 다음과 같습니다:
* 사용자(개인) 데이터는 해킹 및 유출로부터 안전하게 보호되고 있습니까?
* 승인된 사용자 및 컨텍스트만 사용자 데이터에 액세스할 수 있습니까?
* 데이터를 공유하거나 유포할 때 사용자의 익명성이 유지됩니까?
* 익명화된 데이터 세트에서 사용자를 익명화할 수 있습니까?
#### 2.5 잊혀질 권리
[잊혀질 권리](https://en.wikipedia.org/wiki/Right_to_be_forgotten) 또는 [삭제할 권리](https://www.gdpreu.org/right-to-be-forgotten/)는 사용자에 대한 추가적인 개인 데이터 보호를 제공합니다. 특히, 사용자에게 _특정 상황에서_ 인터넷 검색 및 기타 위치에서 개인 데이터 삭제 또는 제거를 요청할 수 있는 권리를 부여하여, 사용자가 과거 조치(action)를 취하지 않고 온라인에서 새로운 출발을 할 수 있게 합니다.
여기서는 다음 질문들을 살펴볼 것입니다:
* 시스템에서 데이터 주체(Data Subject)가 삭제를 요청할 수 있습니까?
* 사용자 동의 철회 시 자동으로 데이터를 삭제해야 하나요?
* 데이터가 동의 없이 또는 불법적인 방법으로 수집되었나요?
* 우리는 데이터 개인 정보 보호에 대한 정부 규정을 준수합니까?
#### 2.6 데이터셋 편향(Bias)
데이터셋 또는 [데이터 콜렉션 편향](http://researcharticles.com/index.php/bias-in-data-collection-in-research/)은 알고리즘 개발을 위해 _대표적이지 않은(non-representative)_ 데이터 하위 집합을 선택하여, 다양한 그룹의 결과에서 잠재적인 불공정이 발생하는 것에 관한 것입니다. 편향의 유형에는 선택 또는 샘플링 편향, 자원자 편향, 도구 편향이 있습니다.
여기서는 다음 질문들을 살펴볼 것입니다:
* 데이터 주체의 대표적인 데이터들을 모집했는가?
* 다양한 편향에 대해 수집되거나 선별된 데이터 셋을 테스트 했습니까?
* 발견된 편향을 완화하거나 제거할 수 있습니까?
#### 2.7 데이터 품질
[데이터 품질](https://lakefs.io/data-quality-testing/)은 알고리즘을 개발하는 데 사용된 선별된 데이터 셋의 유효성을 살펴보고, 기능과 레코드가 우리의 AI 목적에 필요한 정확성 및 일관성 수준에 대한 요구사항을 충족하는 지 확인합니다.
여기서는 다음 질문들을 살펴볼 것입니다:
* 유스케이스(use case)에 대한 유효한 _기능_ 을 캡처했습니까?
* 다양한 데이터 소스에서 데이터가 _일관되게_ 캡처되었습니까?
* 데이터셋은 다양한 조건 또는 시나리오에 대해 _완전_ 합니까?
* 포착된 정보가 현실을 _정확하게_ 반영합니까?
#### 2.8 알고리즘 공정성
[알고리즘 공정성](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f)은, _할당(해당 그룹에서 리소스가 거부되거나 보류되는 경우)__서비스 품질(일부 하위 그룹의 경우 AI가 다른 그룹의 경우만큼 정확하지 않음)_ 에서, 알고리즘 설계가 [잠재적인 피해](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml)로 이어지는 데이터 주체의 특정 하위 그룹을 체계적으로 구별하는지 확인합니다.
여기서는 다음 질문들을 살펴볼 것입니다:
* 다양한 하위 그룹 및 조건에 대해 모델 정확도를 평가했습니까?
* 잠재적인 피해(예: 고정 관념)에 대해 시스템을 면밀히 조사했습니까?
* 식별된 피해를 완화하기 위해 데이터를 수정하거나 모델을 다시 학습시킬 수 있습니까?
더 알아보고 싶다면, 다음 자료를 살펴보세요: [AI 공정성 체크리스트](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA)
#### 2.9 와전(Misrepresentation)
[데이터 와전(Misrepresentation)](https://www.sciencedirect.com/topics/computer-science/misrepresentation)은 정직하게 보고된 데이터의 통찰력을, 원하는 내러티브(Narrative)에 맞춰 기만적인 방식으로 전달하고 있는지 묻는 것입니다.
여기서는 다음 질문들을 살펴볼 것입니다:
* 불완전하거나 부정확한 데이터를 보고하고 있습니까?
* 오해의 소지가 있는 결론을 도출하는 방식으로 데이터를 시각화하고 있습니까?
* 결과를 조작하기 위해 선택적 통계 기법을 사용하고 있습니까?
* 다른 결론을 제시할 수 있는 대안적인 설명이 있습니까?
#### 2.10 자유로운 선택
[자유롭게 선택하고 있다는 환상](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice)은 시스템 '선택 아키텍처'가 의사결정 알고리즘을 사용하여 사람들에게 선택권과 통제권을 주는 것처럼 하면서 시스템이 선호하는 결과를 선택하도록 유도할 때 발생합니다. 이런 [다크 패턴(dark pattern)](https://www.darkpatterns.org/)은 사용자에게 사회적, 경제적 피해를 줄 수 있습니다. 사용자 결정은 행동 프로파일에 영향을 미치기 때문에, 이러한 행동은 잠재적으로 이러한 피해의 영향을 증폭하거나 확장할 수 있는 향후의 선택을 유도합니다.
여기서는 다음 질문들을 살펴볼 것입니다:
* 사용자는 그 선택의 의미를 이해했습니까?
* 사용자는 (대안이 되는) 선택과 각각의 장단점을 알고 있습니까?
* 사용자가 나중에 자동화되거나 영향을 받은 선택을 되돌릴 수 있습니까?
### 3. 케이스 스터디
이러한 윤리적 문제를 실제 상황에 적용하려면, 그러한 윤리 위반이 간과 되었을 때 개인과 사회에 미칠 잠재적인 피해와 결과를 강조하는 케이스 스터디를 살펴보는 것이 도움이 됩니다.
다음은 몇 가지 예입니다.
| 윤리적 과제 | Case Study |
| ------------------------------ | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **통보 동의** | 1972 - [Tuskegee 매독 연구](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - 피험자로 연구에 참여한 아프리카계 미국인 남성은 피험자에게 진단이나 정보를 알려주지 않은 연구원들에게 무료 의료 서비스를 약속받았지만, 약속은 지켜지지 않았다. 많은 피험자가 사망하고 배우자와 자녀들이 영향을 받았습니다. 연구는 40년 동안 지속되었습니다. |
| **데이터 프라이버시(Privacy)** | 2007 - [넷플릭스 Data Prize](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/) 는 추천 알고리즘을 개선하기 위해 연구원들에게 _5만명 고객으로부터 수집한 1천만개의 비식별화된(anonymized) 영화 순위_를 제공했습니다. 그러나 연구원들은 비식별화된(anonymized) 데이터를 _외부 데이터셋_ (예를 들어, IMDb 댓글)에 있는 개인식별 데이터(personally-identifiable data)와 연관시킴으로, 효과적으로 일부 Netflix 가입자를 '비익명화(de-anonymizing)' 할 수 있었습니다. |
| **편향 수집** | 2013 - 보스턴 시는 시민들이 움푹 들어간 곳을 보고할 수 있는 앱인 [Street Bump](https://www.boston.gov/transportation/street-bump)를 개발하여 시에서 문제를 찾고 수정할 수 있는 더 나은 도로 데이터를 제공합니다. 그러나 [저소득층의 사람들은 자동차와 전화에 대한 접근성이 낮기 때문에](https://hbr.org/2013/04/the-hidden-biases-in-big-data) 이 앱에서 도로 문제를 볼 수 없었습니다. 개발자들은 학계와 협력하여 공정성을 위한 _공평한 접근 및 디지털 격차_ 문제를 해결했습니다. |
| **알고리즘 공정성** | 2018 - MIT [성별 유색인종 연구](http://gendershades.org/overview.html)에서 성별 분류 AI 제품의 정확도를 평가하여 여성과 유색인의 정확도 격차를 드러냈습니다. [2019년도 Apple Card](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/)는 남성보다 여성에게 신용을 덜 제공하는 것으로 보입니다. 둘 다 사회 경제적 피해로 이어지는 알고리즘 편향의 문제를 나타냅니다. |
| **데이터 허위 진술** | 2020년 - [조지아 보건부 코로나19 차트 발표](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid- 19건-거절-재개)의 x축이 시간순이 아닌 순서로 표시된 확인된 사례의 추세에 대해 시민들을 잘못된 방향으로 이끄는 것으로 나타났습니다. 이 발표 시각화 트릭을 통해 잘못된 표현을 나타냈습니다. |
| **자유 선택의 환상** | 2020 - 학습 앱인 [ABCmouse는 부모들이 취소할 수 없는 구독료에 빠지게 되는 FTC 불만 해결을 위해 1천만 달러 지불](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/) 했습니다. 이는 사용자가 잠재적으로 해로운 선택을 하도록 유도하는 선택 아키텍처의 어두운 패턴을 보여줍니다. |
| **데이터 개인정보 보호 및 사용자 권한** | 2021 - Facebook 의 [데이터 침해](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify- 사용자) 는 5억 3천만 명의 사용자의 데이터를 노출하여 FTC에 50억 달러의 합의금을 냈습니다. 그러나 데이터 투명성 및 액세스에 대한 사용자 권한을 위반하는 위반 사항을 사용자에게 알리는 것을 거부했습니다. |
더 많은 사례 연구를 살펴보고 싶으십니까? 다음 리소스를 확인하세요.:
* [윤리를 풀다(ethic unwrapped)](https://ethicsunwrapped.utexas.edu/case-studies) - 다양한 산업 분야의 윤리 딜레마
* [데이터 과학 윤리 과정](https://www.coursera.org/learn/data-science-ethics#syllabus) - 획기적인 사례 연구 탐구
* [문제가 발생한 곳](https://deon.drivendata.org/examples/) - 사례와 함께 살펴보는 데온(deon)의 체크리스트
> 🚨 당신이 본 사례 연구에 대해 생각해보십시오. 당신은 당신의 삶에서 유사한 윤리적 도전을 경험했거나 영향을 받은 적이 있습니까? 이 섹션에서 논의한 윤리적 문제 중 하나에 대한 다른 사례 연구를 하나 이상 생각할 수 있습니까?
## 응용 윤리(Applied Ethics)
우리는 실제 상황에서 윤리 개념, 도전 과제 및 사례 연구에 대해 이야기했습니다. 그러나 프로젝트에서 윤리적 원칙과 관행을 _적용_ 하기 시작하려면 어떻게 해야 합니까? 그리고 더 나은 거버넌스를 위해 이러한 관행을 어떻게 _운영_ 할 수 있습니까? 몇 가지 실제 솔루션을 살펴보겠습니다:
### 1. 전문 코드(Professional Codes)
전문 강령(Professional Codes)은 조직이 구성원의 윤리 원칙과 사명 선언문을 지지하도록 "인센티브"를 제공하는 하나의 옵션을 제공합니다. 강령은 직원이나 구성원이 조직의 원칙에 부합하는 결정을 내리는 데 도움이 되는 직업적 행동에 대한 _도덕적 지침_ 입니다. 이는 회원들의 자발적인 준수에 달려 있습니다. 그러나 많은 조직에서 구성원의 규정 준수를 유도하기 위해 추가 보상과 처벌을 제공합니다.
다음과 같은 사례가 있습니다:
* [Oxford Munich](http://www.code-of-ethics.org/code-of-conduct/) 윤리강령
* [데이터 과학 협회](http://datascienceassn.org/code-of-conduct.html) 행동강령 (2013년 제정)
* [ACM 윤리 및 직업 행동 강령](https://www.acm.org/code-of-ethics) (1993년 이후)
> 🚨 전문 엔지니어링 또는 데이터 과학 조직에 속해 있습니까? 그들의 사이트를 탐색하여 그들이 직업적 윤리 강령을 정의하는지 확인하십시오. 이것은 그들의 윤리적 원칙에 대해 무엇을 말합니까? 구성원들이 코드를 따르도록 "인센티브"를 제공하는 방법은 무엇입니까?
### 2. 윤리 체크리스트
전문 강령은 실무자에게 필요한 _윤리적 행동_ 을 정의하지만 특히 대규모 프로젝트 시행에서 [자주 사용되는 제한 사항이 있습니다](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md). 이로 인해 많은 데이터 과학 전문가들이 [체크리스트를 따름으로](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) 보다 결정적이고 실행 가능한 방식으로 **원칙과 사례를 연결** 할 수 있습니다.
체크리스트는 질문을 운영 가능한 "예/아니오" 작업으로 변환하여 표준 제품 릴리스 워크플로의 일부로 추적할 수 있도록 합니다.
다음과 같은 사례가 있습니다:
* [Deon](https://deon.drivendata.org/) - 쉬운 통합을 위한 Command Line Tool 형태의 범용적인 윤리 체크리스트 ([업계 권고사항](https://deon.drivedata.org/#checklist-citations)에서 만들어짐)
* [개인정보 감사 체크리스트](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - 법적 및 사회적 노출 관점에서 정보 처리 관행에 대한 일반적인 지침을 제공합니다.
* [AI 공정성 체크리스트](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - 공정성 검사의 채택 및 AI 개발 주기 통합을 지원하기 위해 AI 실무자가 작성.
* [데이터 및 AI의 윤리에 대한 22가지 질문](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - 디자인, 구현 및 조직적 맥락에서 윤리적 문제의 초기 탐색을 위한, 보다 개방적인 프레임워크, 구조화.
### 3. 윤리 규정
윤리는 공유 가치를 정의하고 옳은 일을 _자발적으로_ 하는 것입니다. **규정 준수**는 정의된 경우 _법률 준수_ 에 관한 것입니다. **거버넌스**는 조직이 윤리 원칙을 시행하고 확립된 법률을 준수하기 위해 운영하는 모든 방식을 광범위하게 포함합니다.
오늘날 거버넌스는 조직 내에서 두 가지 형태를 취합니다. 첫째, **윤리적 AI** 원칙을 정의하고 조직의 모든 AI 관련 프로젝트에서 채택을 운영하기 위한 관행을 수립하는 것입니다. 둘째, 사업을 영위하는 지역에 대해 정부에서 의무화한 모든 **데이터 보호 규정**을 준수하는 것입니다.
데이터 보호 및 개인 정보 보호 규정 사례:
* `1974`, [미국 개인 정보 보호법](https://www.justice.gov/opcl/privacy-act-1974) - _연방 정부_ 의 개인 정보 수집, 사용 및 공개를 규제합니다.
* `1996`, [미국 HIPAA(Health Insurance Portability & Accountability Act)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - 개인 건강 데이터를 보호합니다.
* `1998`, [미국 아동 온라인 개인정보 보호법(COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - 13세 미만 어린이의 데이터 프라이버시를 보호합니다.
* `2018`, [GDPR(일반 데이터 보호 규정)](https://gdpr-info.eu/) - 사용자 권한, 데이터 보호 및 개인 정보 보호를 제공합니다.
* `2018`, [캘리포니아 소비자 개인정보 보호법(CCPA)](https://www.oag.ca.gov/privacy/ccpa) 소비자에게 자신의 (개인) 데이터에 대해 더 많은 _권리_ 를 부여합니다.
* `2021`, 중국의 [개인정보보호법](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) 막 통과되어 전 세계적으로 가장 강력한 온라인 데이터 개인 정보 보호 규정 중 하나를 만들었습니다.
> 🚨 유럽 연합에서 정의한 GDPR(일반 데이터 보호 규정)은 오늘날 가장 영향력 있는 데이터 개인 정보 보호 규정 중 하나입니다. 시민의 디지털 프라이버시와 개인 데이터를 보호하기 위헌 [8가지 사용자 권한](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr)도 정의하고 있다는 사실을 알고 계셨습니까? 이것이 무엇이며 왜 중요한지 알아보십시오.
### 4. 윤리 문화
_준수_ ("법규"를 충족하기 위해 충분히 노력함)와 (골화, 정보 비대칭 및 분배 불공정과 같은) AI의 무기화를 가속화할 수 있는 [시스템 문제](https://www.coursera.org/learn/data-science-ethics/home/week) 해결 사이에는 무형의 격차가 있습니다.
후자는 산업에서 _조직 전체적으로_ 정서적 연결과 일관된 공유 가치를 구축하는 [윤리 문화를 정의하기 위한 협력적 접근 방식](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-driven-approach-26f451afa29f)이 필요합니다. 이것은 조직에서 더 많은 [공식화된 데이터 윤리 문화](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/)를 요구합니다. 이런 문화는 _누구나_ (프로세스 초기에 윤리 문제 제기를 위해) [Andon 강령을 사용하고](https://en.wikipedia.org/wiki/Andon_(manufacturing)) _윤리적 평가_ (예: 고용 시)를 AI 프로젝트의 핵심 기준 팀 구성으로 만듭니다.
---
## [강의 후 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/3) 🎯
## 복습 & 독학
과정과 책은 핵심 윤리 개념과 과제를 이해하는 데 도움이 되며, Case Study와 도구는 실제 상황에서 윤리 사항들을 적용하는 데 도움이 됩니다. 다음은 시작을 할 때 도움이 되는 몇가지 자료들입니다.
* [초보자를 위한 기계 학습](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - 공정성(fairness)에 대한 강의, from Microsoft.
* [책임있는 AI 원칙](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - 무료 학습 경로, from Microsoft Learn.
* [윤리와 데이터 과학](https://resources.oreilly.com/examples/0636920203964) - O'Reilly EBook (M. Loukides, H. Mason et. al)
* [데이터 과학 윤리](https://www.coursera.org/learn/data-science-ethics#syllabus) - 미시간 대학의 온라인 학습 과정.
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - 텍사스 대의 Case Study.
# 과제
[데이터 윤리 Case Study 작성](./assignment.ko.md)

@ -1,259 +0,0 @@
# Inleiding tot gegevensethiek
|![ Sketchnote door [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/02-Ethics.png)|
|:---:|
| Ethiek van gegevenswetenschap - _Sketchnote door [@nitya](https://twitter.com/nitya)_ |
---
We zijn allemaal databurgers die in een datafied wereld leven.
Markttrends vertellen ons dat tegen 2022 1-op-3 grote organisaties hun data zullen kopen en verkopen via online [Marketplaces and Exchanges](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020). Als **App-ontwikkelaars** zullen we het gemakkelijker en goedkoper vinden om gegevensgestuurde inzichten en algoritmegestuurde automatisering te integreren in dagelijkse gebruikerservaringen. Maar naarmate AI steeds meer voorkomt, moeten we ook de mogelijke schade begrijpen die wordt veroorzaakt door de [bewapening](https://www.youtube.com/watch?v=TQHs8SA1qpk) van dergelijke algoritmen op grote schaal.
Trends geven ook aan dat we tegen 2025 meer dan [180 zettabytes](https://www.statista.com/statistics/871513/worldwide-data-created/) aan gegevens zullen creëren en consumeren. Als **Data Scientists** geeft dit ons ongekende niveaus van toegang tot persoonlijke gegevens. Dit betekent dat we gedragsprofielen van gebruikers kunnen maken en de besluitvorming kunnen beïnvloeden op een manier die een [illusie van vrije keuze](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) creëert, terwijl gebruikers aangespoord worden naar resultaten die onze voorkeur hebben. Het roept ook bredere vragen op over gegevensprivacy en gebruikersbescherming.
Gegevensethiek is nu een _noodzakelijke vangrails_ voor datawetenschap en -engineering, waardoor we mogelijke schade en onbedoelde gevolgen van onze gegevensgestuurde acties kunnen minimaliseren. De [Gartner Hype Cycle for AI](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) identificeert relevante trends in digitale ethiek, verantwoorde AI en AI-governance als belangrijke drijfveren voor grotere megatrends rond _democratisering_ en _industrialisering_ van AI.
![Gartner's hypecyclus voor AI - 2020](https://images-cdn.newscred.com/Zz1mOWJhNzlkNDA2ZTMxMWViYjRiOGFiM2IyMjQ1YmMwZQ==)
In deze les verkennen we het fascinerende gebied van data-ethiek - van kernconcepten en uitdagingen tot casestudy's en toegepaste AI-concepten zoals governance - die helpen een ethische cultuur tot stand te brengen in teams en organisaties die met data en AI werken.
## [Pre-college quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/2) 🎯
## Basisdefinities
Laten we beginnen met het begrijpen van de basisterminologie.
Het woord "ethiek" komt van het [Griekse woord "ethikos"](https://en.wikipedia.org/wiki/Ethics) (en de wortel "ethos") wat _karakter of morele aard_ betekent.
**Ethiek** gaat over de gedeelde waarden en morele principes die ons gedrag in de samenleving bepalen. Ethiek is niet gebaseerd op wetten maar op
algemeen aanvaarde normen van wat "goed versus fout" is. Ethische overwegingen kunnen echter van invloed zijn op initiatieven op het gebied van corporate governance en overheidsregelgeving die meer prikkels voor compliance creëren.
**Data-ethiek** is een [nieuwe tak van ethiek](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1) die "morele problemen met betrekking tot _data, algoritmen en overeenkomstige praktijken_" bestudeerd. Hier richt **"data"** zich op acties met betrekking tot het genereren, opnemen, beheren, verwerken, verspreiden, delen en gebruiken. **"Algoritmen"** richt zich op AI, agents, machine learning en robots, en **"practices"** richt zich op onderwerpen als verantwoord innoveren, programmeren, hacken en ethische codes.
**Toegepaste ethiek** is de [praktische toepassing van morele overwegingen](https://en.wikipedia.org/wiki/Applied_ethics). Het is het proces van het actief onderzoeken van ethische kwesties in de context van _real-world acties, producten en processen_, en het nemen van corrigerende maatregelen om ervoor te zorgen dat deze in overeenstemming blijven met onze gedefinieerde ethische waarden.
**Ethische cultuur** gaat over [toegepaste ethiek _activeren_](https://hbr.org/2019/05/how-to-design-an-ethical-organization) om ervoor te zorgen dat onze ethische principes en praktijken worden toegepast in een consistente en schaalbare manier door de hele organisatie heen. Succesvolle ethische culturen definiëren organisatiebrede ethische principes, bieden zinvolle prikkels voor naleving en versterken ethische normen door gewenst gedrag op elk niveau van de organisatie aan te moedigen en te versterken.
## Ethische concepten
In dit gedeelte bespreken we concepten als **gedeelde waarden** (principes) en **ethische uitdagingen** (problemen) voor data-ethiek - en onderzoeken we **casestudy's** die je helpen deze concepten in context van de echte wereld te begrijpen.
### 1. Ethische principes
Elke data-ethiekstrategie begint met het definiëren van _ethische principes_ - de 'gedeelde waarden' die acceptabel gedrag beschrijven en richting geven aan daaraan conformerende acties in onze data- en AI-projecten. Je kunt deze op individueel of teamniveau definiëren. De meeste grote organisaties schetsen deze echter in een _ethische AI_-missieverklaring of -kader dat op bedrijfsniveau is gedefinieerd en consistent wordt gehandhaafd in alle teams.
**Voorbeeld:** Microsoft's [Responsible AI](https://www.microsoft.com/en-us/ai/responsible-ai) mission statement luidt: _"We zetten ons in voor de vooruitgang van AI-driven door ethische principes die de mens centraal stellen"_ - door middel van 6 ethische principes in het onderstaande kader:
![Verantwoordelijke AI bij Microsoft](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
Laten we deze principes kort onderzoeken. _Transparantie_ en _accountability_ zijn fundamentele waarden waarop andere principes voortbouwen - dus laten we daar beginnen:
* [**Verantwoording**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) maakt beoefenaars _verantwoordelijk_ voor hun gegevens- en AI-operaties, en naleving van deze ethische principes.
* [**Transparantie**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) zorgt ervoor dat gegevens en AI-acties _begrijpelijk_ (interpreteerbaar) zijn voor gebruikers, zoals het wat en waarom achter beslissingen.
* [**Eerlijkheid**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) - richt zich op het waarborgen dat AI _alle mensen_ eerlijk behandelt, waarbij alle systemische of impliciete socio-technische vooroordelen in data en systemen worden geaddresseerd.
* [**Betrouwbaarheid en veiligheid**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - zorgt ervoor dat AI zich _consistent_ gedraagt met gedefinieerde waarden, waardoor potentiële schade of onbedoelde gevolgen worden geminimaliseerd.
* [**Privacy en beveiliging**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - gaat over het begrijpen van gegevensafstamming en het bieden van _gegevensprivacy en gerelateerde beschermingen_ voor gebruikers.
* [**Inclusiviteit**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - gaat over het ontwerpen van AI-oplossingen met intentie, ze aanpassen om te voldoen aan een _brede scala aan menselijke behoeften_ en mogelijkheden.
> 🚨 Denk na over wat jouw missie voor gegevensethiek zou kunnen zijn. Verken ethische AI-kaders van andere organisaties - hier zijn voorbeelden van [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles), en [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/). Welke gedeelde waarden hebben ze gemeen? Hoe verhouden deze principes zich tot het AI-product of de industrie waarin ze actief zijn?
### 2. Ethische uitdagingen
Zodra we ethische principes hebben gedefinieerd, is de volgende stap het evalueren van onze gegevens en AI-acties om te zien of ze in overeenstemming zijn met die gedeelde waarden. Denk na over je acties in twee categorieën: _gegevensverzameling_ en _algoritmeontwerp_.
Bij het verzamelen van gegevens zullen acties waarschijnlijk betrekking hebben op **persoonlijke gegevens** of persoonlijk identificeerbare informatie (PII) voor identificeerbare levende personen. Dit omvat [diverse items van niet-persoonlijke gegevens](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en) die _collectief_ een persoon identificeren. Ethische uitdagingen kunnen betrekking hebben op _gegevensprivacy_, _eigendom van gegevens_ en gerelateerde onderwerpen zoals _geïnformeerde toestemming_ en _intellectuele eigendomsrechten_ voor gebruikers.
Bij het ontwerpen van algoritmen zullen acties bestaan uit het verzamelen en beheren van **datasets**, en deze vervolgens gebruiken om **datamodellen** te trainen en in te zetten die resultaten voorspellen of beslissingen automatiseren in reële contexten. Ethische uitdagingen kunnen ontstaan door _dataset bias_, _data quality_ issues, _unfairness_ en _misrepresentation_ (onvoldoende vertegenwoordiging) in algoritmen - inclusief enkele problemen die systemisch van aard zijn.
In beide gevallen wijzen ethische uitdagingen op gebieden waar onze acties in conflict kunnen komen met onze gedeelde waarden. Om deze zorgen op te sporen, te verminderen, te minimaliseren of weg te nemen, moeten we morele "ja/nee"-vragen stellen met betrekking tot onze acties en vervolgens corrigerende maatregelen nemen als dat nodig is. Laten we eens kijken naar enkele ethische uitdagingen en de morele vragen die ze oproepen:
#### 2.1 Gegevenseigendom
Bij het verzamelen van gegevens gaat het vaak om persoonsgegevens die de betrokkenen kunnen identificeren. [Data-eigendom](https://permission.io/blog/data-ownership) gaat over _controle_ en [_gebruikers rechten_](https://permission.io/blog/data-ownership) met betrekking tot het aanmaken, verwerken en verspreiding van gegevens.
De morele vragen die we moeten stellen zijn:
* Wie is eigenaar van de gegevens? (gebruiker of organisatie)
* Welke rechten hebben betrokkenen? (bijvoorbeeld: toegang, wissen, overdraagbaarheid)
* Welke rechten hebben organisaties? (bijvoorbeeld: kwaadwillende gebruikersrecensies corrigeren)
#### 2.2 Geïnformeerde toestemming
[Informed consent](https://legaldictionary.net/informed-consent/) definieert de handeling van gebruikers die instemmen met een actie (zoals gegevensverzameling) met een _volledig begrip_ van relevante feiten, waaronder het doel, potentiële risico's en alternatieven.
Vragen om hier te onderzoeken zijn:
* Heeft de gebruiker (betrokkene) toestemming gegeven voor het vastleggen en gebruiken van gegevens?
* Begreep de gebruiker het doel waarvoor die gegevens werden vastgelegd?
* Begreep de gebruiker de mogelijke risico's van zijn deelname?
#### 2.3 Intellectuele eigendom
[Intellectuele eigendom](https://en.wikipedia.org/wiki/Intellectual_property) verwijst naar immateriële creaties die het resultaat zijn van menselijk initiatief en die _economische waarde_ kunnen hebben voor individuen of bedrijven.
Vragen om hier te onderzoeken zijn:
* Hadden de verzamelde gegevens economische waarde voor een gebruiker of bedrijf?
* Heeft de **gebruiker** hier intellectueel eigendom?
* Heeft de **organisatie** hier intellectueel eigendom?
* Als deze rechten bestaan, hoe beschermen we ze dan?
#### 2.4 Gegevensprivacy
[Data privacy](https://www.northeastern.edu/graduate/blog/what-is-data-privacy/) of informatieprivacy verwijst naar het behoud van de gebruikersprivacy en bescherming van de gebruikersidentiteit met betrekking tot persoonlijk identificeerbare informatie.
Vragen om hier te onderzoeken zijn:
* Zijn (persoons)gegevens van gebruikers beveiligd tegen hacks en lekken?
* Zijn gebruikersgegevens alleen toegankelijk voor geautoriseerde gebruikers en contexten?
* Blijft de anonimiteit van gebruikers behouden wanneer gegevens worden gedeeld of verspreid?
* Kan een gebruiker worden geanonimiseerd voor een geanonimiseerde datasets?
#### 2.5 Recht om vergeten te worden
Het [Recht om te worden vergeten](https://en.wikipedia.org/wiki/Right_to_be_forgotten) of [Recht tot verwijdering](https://www.gdpreu.org/right-to-be-forgotten/) biedt aanvullende bescherming van persoonsgegevens voor gebruikers. Het geeft gebruikers met name het recht om _onder specifieke omstandigheden_ persoonlijke gegevens van zoekopdrachten op internet en andere locaties te verzoeken tot wissen of verwijdering van persoonlijke gegevens, waardoor ze een nieuwe start online kunnen maken zonder dat er eerdere acties tegen hen worden ondernomen.
Vragen om hier te onderzoeken zijn:
* Staat het systeem de betrokkenen toe om verwijdering aan te vragen?
* Moet het intrekken van de toestemming van de gebruiker leiden tot automatische verwijdering?
* Zijn er gegevens verzameld zonder toestemming of op onrechtmatige wijze?
* Voldoen we aan de overheidsvoorschriften voor gegevensprivacy?
#### 2.6 Gegevenssetbias
Dataset of [Verzamel Bias](http://researcharticles.com/index.php/bias-in-data-collection-in-research/) gaat over het selecteren van een _niet-representatieve_ subset van gegevens voor de ontwikkeling van algoritmen, waardoor potentiële oneerlijkheid in resultaatuitkomsten voor diverse groepen ontstaat. Soorten bias zijn onder meer selectie- , vrijwilligers- en instrumentbias.
Vragen om hier te onderzoeken zijn:
* Hebben we een representatieve set van betrokkenen geworven?
* Hebben we onze verzamelde of samengestelde dataset getest op verschillende vooroordelen?
* Kunnen we ontdekte vooroordelen verminderen of verwijderen?
#### 2.7 Gegevenskwaliteit
[Data Quality](https://lakefs.io/data-quality-testing/) kijkt naar de validiteit van de samengestelde dataset die is gebruikt om onze algoritmen te ontwikkelen en controleert of functies en records voldoen aan de vereisten voor het niveau van nauwkeurigheid en consistentie nodig voor ons AI-doel.
Vragen om hier te onderzoeken zijn:
* Hebben we geldige _features_ vastgelegd voor onze use case?
* Zijn gegevens _consistent_ vastgelegd in verschillende gegevensbronnen?
* Is de dataset _compleet_ voor diverse omstandigheden of scenario's?
* Wordt informatie _nauwkeurig_ vastgelegd in weerspiegeling van de werkelijkheid?
#### 2.8 Algoritme Eerlijkheid
[Algorithm Fairness](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) controleert of het ontwerp van het algoritme systematisch discrimineert tegen specifieke subgroepen van betrokkenen die leiden tot [potentiële schade](https://docs .microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) in _allocation_ (waar middelen worden geweigerd of onthouden aan die groep) en _quality of service_ (waar AI voor sommige subgroepen niet zo nauwkeurig is als het is voor anderen).
Vragen om hier te onderzoeken zijn:
* Hebben we de modelnauwkeurigheid geëvalueerd voor verschillende subgroepen en condities?
* Hebben we het systeem onderzocht op mogelijke schade (bijv. stereotypering)?
* Kunnen we gegevens herzien of modellen omscholen om geïdentificeerde schade te beperken?
Verken bronnen zoals [AI Fairness checklists](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA) voor meer informatie.
#### 2.9 Verkeerde voorstelling van zaken
[Vertegenwoordigende data](https://www.sciencedirect.com/topics/computer-science/misrepresentation) gaat over de vraag of we inzichten uit eerlijk gerapporteerde gegevens op een misleidende manier communiceren om een gewenst verhaal te ondersteunen.
Vragen om hier te onderzoeken zijn:
* Rapporteren we onvolledige of onjuiste gegevens?
* Visualiseren we gegevens op een manier die leidt tot misleidende conclusies?
* Gebruiken we selectieve statistische technieken om uitkomsten te manipuleren?
* Zijn er alternatieve verklaringen die tot een andere conclusie kunnen leiden?
#### 2.10 Vrije keuze
De [Illusie van Vrije Keuze](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) treedt op wanneer systeem-keuze-architecturen besluitvormingsalgoritmen gebruiken om mensen ertoe aan te zetten een gewenste uitkomst te kiezen terwijl het hen opties en controle lijkt te geven. Deze ['darkpatterns'](https://www.darkpatterns.org/) kunnen gebruikers sociale en economische schade toebrengen. Omdat beslissingen van gebruikers van invloed zijn op gedragsprofielen, kunnen deze acties toekomstige keuzes stimuleren die de impact van deze schade kunnen vergroten of uitbreiden.
Vragen om hier te onderzoeken zijn:
* Begreep de gebruiker de implicaties van het maken van die keuze?
* Was de gebruiker op de hoogte van (alternatieve) keuzes en de voor- en nadelen van elk?
* Kan de gebruiker een geautomatiseerde of beïnvloede keuze later terugdraaien?
### 3. Casestudy's
Om deze ethische uitdagingen in een reële context te plaatsen, helpt het om casestudies te bekijken die de potentiële schade en gevolgen voor individuen en de samenleving benadrukken, wanneer dergelijke ethische schendingen over het hoofd worden gezien.
Hier zijn een paar voorbeelden:
| Ethische uitdaging | Casestudy |
|--- |--- |
| **Informed Consent** | 1972 - [Tuskegee Syphilis Study](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - Afro-Amerikaanse mannen die deelnamen aan het onderzoek kregen gratis medische zorg beloofd _maar werden misleid_ door onderzoekers die de proefpersonen niet informeerden over hun diagnose of over beschikbaarheid van de behandeling. Veel proefpersonen stierven en ook partners en kinderen werden hierdoor getroffen; de studie duurde 40 jaar. |
| **Gegevensprivacy** | 2007 - De [Netflix-gegevensprijs](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/) voorzag onderzoekers van _10 miljoen geanonimiseerde filmranglijsten van 50.000 klanten_ om aanbevelingsalgoritmen te helpen verbeteren. Onderzoekers waren echter in staat om geanonimiseerde gegevens te correleren met persoonlijk identificeerbare gegevens in _externe datasets_ (bijv. IMDb-commentaren) - waardoor sommige Netflix-abonnees effectief te "de-anonimiseren" waren.|
| **Verzamelingsbias** | 2013 - De stad Boston [ontwikkelde Street Bump](https://www.boston.gov/transportation/street-bump), een app waarmee burgers kuilen kunnen melden, waardoor de stad betere weggegevens krijgt om problemen op te sporen en op te lossen. [mensen in lagere inkomensgroepen hadden echter minder toegang tot auto's en telefoons](https://hbr.org/2013/04/the-hidden-biases-in-big-data), waardoor hun problemen met de rijbaan onzichtbaar werden in deze app . Ontwikkelaars werkten samen met academici aan _gelijke toegang en digitale scheidslijnen_ kwesties voor eerlijkheid. |
| **Algoritmische eerlijkheid** | 2018 - De MIT [Gender Shades Study](http://gendershades.org/overview.html) evalueerde de nauwkeurigheid van AI-producten voor genderclassificatie, waarbij hiaten in de nauwkeurigheid voor vrouwen en personen van kleur werden blootgelegd. Een [Apple Card uit 2019](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) leek vrouwen minder krediet te bieden dan mannen. Beide illustreerden problemen in algoritmische bias die tot sociaaleconomische schade leiden.|
| **Onjuiste voorstelling van gegevens** | 2020 - Het [Departement van Volksgezondheid van Georgië heeft COVID-19-kaarten vrijgegeven](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid- 19-gevallen-afnemende-heropening) die burgers leek te misleiden over trends in bevestigde gevallen met niet-chronologische volgorde op de x-as. Dit illustreert een verkeerde voorstelling van zaken door middel van visualisatietrucs. |
| **Illusie van vrije keuze** | 2020 - Leerapp [ABCmouse betaalde $ 10 miljoen om een FTC-klacht op te lossen](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/) waar ouders aan een abonnementen vastzaten die ze niet konden opzeggen. Dit illustreert duistere patronen in keuzearchitecturen, waarbij gebruikers naar potentieel schadelijke keuzes werden gepusht. |
| **Gegevensprivacy en gebruikersrechten** | 2021 - Facebook [Data Breach](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify- gebruikers) gegevens van 530 miljoen gebruikers werden openbaar gemaakt, wat resulteerde in een schikking van $ 5 miljard aan de FTC. De organisatie weigerde echter gebruikers op de hoogte te stellen van de inbreuk die de gebruikersrechten rond gegevenstransparantie en -toegang schendt. |
Meer casestudy's bekijken? Bekijk deze bronnen:
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - ethische dilemma's in verschillende sectoren.
* [cursus Data Science Ethics](https://www.coursera.org/learn/data-science-ethics#syllabus) - baanbrekende casestudies onderzocht.
* [Waar het mis is gegaan](https://deon.drivendata.org/examples/) - deon checklist met voorbeelden
> 🚨 Denk eens aan de casestudies die u hebt gezien - heeft u in uw leven een soortgelijke ethische uitdaging meegemaakt of erdoor getroffen? Kun je ten minste één andere casestudy bedenken die een van de ethische uitdagingen illustreert die we in deze sectie hebben besproken?
## Toegepaste ethiek
We hebben gesproken over ethische concepten, uitdagingen en casestudy's in reële contexten. Maar hoe beginnen we met het _toepassen_ van ethische principes en praktijken in onze projecten? En hoe _operationaliseren_ we deze praktijken voor beter bestuur? Laten we enkele echte oplossingen verkennen:
### 1. Professionele codes
Beroepscodes bieden organisaties één mogelijkheid om leden te "stimuleren" om hun ethische principes en missieverklaring te ondersteunen. Codes zijn _morele richtlijnen_ voor professioneel gedrag en helpen werknemers of leden om beslissingen te nemen die in lijn zijn met de principes van hun organisatie. Ze zijn slechts zo goed als de vrijwillige medewerking van leden; veel organisaties bieden echter extra beloningen en boetes om naleving door leden te motiveren.
Voorbeelden zijn:
* [Oxford München](http://www.code-of-ethics.org/code-of-conduct/) Ethische code
* [Data Science Association](http://datascienceassn.org/code-of-conduct.html) Gedragscode (gemaakt in 2013)
* [ACM-code voor ethiek en professioneel gedrag](https://www.acm.org/code-of-ethics) (sinds 1993)
> 🚨 Behoor jij tot een professionele engineering- of datawetenschapsorganisatie? Verken hun site om te zien of ze een professionele ethische code definiëren. Wat zegt dit over hun ethische principes? Hoe "stimuleren" ze leden om de code te volgen?
### 2. Ethische checklists
Hoewel professionele richtlijnen _ethisch gedrag_ van beoefenaars definiëren, hebben ze [bekende beperkingen](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) bij de handhaving, met name bij grootschalige projecten. In plaats daarvan pleiten veel data Science-experts [voor checklists](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), die **principes kunnen verbinden met praktijken** in meer deterministische en bruikbare manieren.
Checklists zetten vragen om in "ja/nee"-taken die kunnen worden geoperationaliseerd, zodat ze kunnen worden gevolgd als onderdeel van standaard workflows voor productreleases.
Voorbeelden zijn:
* [Deon](https://deon.drivendata.org/) - een checklist voor gegevensethiek voor algemene doeleinden gemaakt op basis van [aanbevelingen voor de sector](https://deon.drivendata.org/#checklist-citations) met een opdracht- line tool voor eenvoudige integratie.
* [Privacy Audit Checklist](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - biedt algemene richtlijnen voor informatieverwerkingspraktijken vanuit juridische en sociale blootstellingsperspectieven.
* [AI Fairness Checklist](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - gemaakt door AI-beoefenaars ter ondersteuning van de invoering en integratie van eerlijkheidscontroles in AI-ontwikkelingscycli .
* [22 vragen voor ethiek in data en AI](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - meer open kader, gestructureerd voor de eerste verkenning van ethische kwesties in ontwerp-, implementatie- en organisatorische contexten.
### 3. Ethische voorschriften
Ethiek gaat over het definiëren van gedeelde waarden en het _vrijwillig_ doen van de juiste dingen. **Compliance** gaat over het _volgen van de wet_ indien en waar gedefinieerd. **Governance** omvat in grote lijnen alle manieren waarop organisaties handelen om ethische principes af te dwingen en te voldoen aan gevestigde wetten.
Tegenwoordig neemt governance binnen organisaties twee vormen aan. Ten eerste gaat het om het definiëren van **ethische AI**-principes en het vaststellen van praktijken om de acceptatie in alle AI-gerelateerde projecten in de organisatie te operationaliseren. Ten tweede gaat het om het naleven van alle door de overheid opgelegde **gegevensbeschermingsvoorschriften** voor de regio's waarin het actief is.
Voorbeelden van gegevensbescherming en privacyregelgeving:
* `1974`, [US Privacy Act](https://www.justice.gov/opcl/privacy-act-1974) - regelt de verzameling, het gebruik en de openbaarmaking van persoonlijke informatie door de federale overheid.
* `1996`, [US Health Insurance Portability & Accountability Act (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - beschermt persoonlijke gezondheidsgegevens.
* `1998`, [Amerikaanse Children's Online Privacy Protection Act (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - beschermt de gegevensprivacy van kinderen onder de 13 jaar.
* `2018`, [Algemene Verordening Gegevensbescherming (AVG)](https://gdpr-info.eu/) - biedt gebruikersrechten, gegevensbescherming en privacy.
* `2018`, [California Consumer Privacy Act (CCPA)](https://www.oag.ca.gov/privacy/ccpa) geeft consumenten meer _rechten_ over hun (persoonlijke) gegevens.
* `2021`, China's [wet ter bescherming van persoonsgegevens](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021 -08-20/) zojuist gepasseerd, waardoor een van de sterkste online gegevensprivacyregels ter wereld is gecreëerd.
> 🚨 De door de Europese Unie gedefinieerde AVG (Algemene Verordening Gegevensbescherming) blijft vandaag een van de meest invloedrijke regels voor gegevensprivacy. Wist u dat het ook [8 gebruikersrechten](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) definieert om de digitale privacy en persoonlijke gegevens van burgers te beschermen? Lees wat deze zijn en waarom ze belangrijk zijn.
### 4. Ethische cultuur
Onthoud dat er een ongrijpbare kloof blijft tussen _compliance_ (genoeg doen om te voldoen aan "de letter van de wet") en het aanpakken van [systeemproblemen](https://www.coursera.org/learn/data-science-ethics/home/week /4) (zoals ossificatie, informatieasymmetrie en oneerlijke verdeling) die de bewapening van AI kunnen versnellen.
Dit laatste vereist [samenwerkingsbenaderingen voor het definiëren van ethische culturen](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-driven-approach-26f451afa29f) die emotionele verbindingen en consistente gedeelde waarden _over organisaties_ in de industrie. Dit vraagt om meer [geformaliseerde data-ethiekculturen](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) in organisaties - waardoor _iedereen_ [aan het Andon-koord kan trekken](https:/ /en.wikipedia.org/wiki/Andon_(manufacturing)) (om ethische problemen vroeg in het proces aan de orde te stellen) en het maken van _ethische beoordelingen_ (bijvoorbeeld bij het aannemen) een kerncriterium voor teamvorming in AI-projecten.
---
## [Quiz voor na het college](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/3) 🎯
## Review & Zelfstudie
Cursussen en boeken helpen bij het begrijpen van kernconcepten en uitdagingen op het gebied van ethiek, terwijl casestudy's en hulpmiddelen helpen bij toegepaste ethische praktijken in echte contexten. Hier zijn een paar bronnen om mee te beginnen.
* [Machine Learning voor beginners](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - les over eerlijkheid, van Microsoft.
* [Principles of Responsible AI](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - gratis leertraject van Microsoft Learn.
* [Ethiek en gegevenswetenschap](https://resources.oreilly.com/examples/0636920203964) - O'Reilly EBook (M. Loukides, H. Mason et. al)
* [Data Science Ethics](https://www.coursera.org/learn/data-science-ethics#syllabus) - online cursus van de Universiteit van Michigan.
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - casestudy's van de Universiteit van Texas.
# Opdracht
[Schrijf een data-ethiek case study](/assignment.nl.md)

@ -1,262 +0,0 @@
# Introdução a Ética de Dados
|![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/02-Ethics.png)|
|:---:|
| Ética em Ciência de Dados - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
---
Nós somos todos cidadãos dos dados vivendo em um mundo de dados.
Tendências do mercado nos mostram que até 2022, 1 em 3 grandes organizações irá comprar e vender seus dados através de [Marketplaces e Exchanges](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/) online. Como **Desenvolvedores de Aplicativos**, nós vamos achar mais fácil e mais barato integrar insights baseados em dados e automações baseadas em algoritmos nas experiências diárias dos usuário. Mas conforme IA se torna mais difundida, nós também vamos precisar entender os danos potenciais causado pelo uso desses algoritmos [como uma arma](https://www.youtube.com/watch?v=TQHs8SA1qpk).
Tendências também indicam que nós vamos criar e consumir mais de [180 zettabytes](https://www.statista.com/statistics/871513/worldwide-data-created/) de dados em 2025. Como **Cientistas de Dados**, isso nos dará níveis de acesso sem precedentes à dados pessoais. Isso significa que poderemos construir perfis comportamentais dos usuário e influenciar tomadas de decisão de uma forma que crie a [ilusão da livre escolha](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) enquanto potencialmente direcionando os usuários na direção do resultado que nós preferimos. Isso também levanta questões mais amplas sobre privacidade dos dados e proteção dos usuários.
Ética dos dados é agora uma _proteção necessário_ para ciẽncia de dados e engenharia, nos ajudando a minimizar potenciais danos e consequências não intencionas das nossas ações realizadas com base em dados. O [Gartner Hype Cycle for AI](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) identifica tendências relevantes ná ética digital, IAs responsáveis, e governanças de IA como principais impulsionadores para grandes mega tendências sobre _democratização_ e _industrialização_ da IA.
![Gartner's Hype Cycle for AI - 2020](https://images-cdn.newscred.com/Zz1mOWJhNzlkNDA2ZTMxMWViYjRiOGFiM2IyMjQ1YmMwZQ==)
Nessa aula, nós vamos explorar a área fascinante de ética dos dados - desde conceitos essenciais e desafios, para estudos de caso e conceitos de IA aplicados como governança - isso ajuda a estabelecer a cultura da ética nos times e organizações que trabalham com dados e IA.
## [Quiz pré aula](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/2) 🎯
## Definição Básica
Vamos começar entendendo o básico da terminologia.
A palavra "ética" vem da [palavra Grega "ethikos"](https://en.wikipedia.org/wiki/Ethics) (e sua raíz "ethos") que significa _caráter ou natureza moral_.
**Ética** é sobre os valores e princípios morais compartilhados que governam o nosso comportamento em sociedade. Ética é baseada não nas leis mas nas normas amplamente aceitas sobre o que é "certo vs. errado". No entanto, considerações éticas podem influenciar iniciativas de governança corporativa e regulamentações governamentais que criam mais incentivos para conformidade (compliance).
**Ética de Dados** é uma [nova ramificação da ética](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1) que "estuda e avalia problemas morais relacionados a _dados, algoritmos e práticas correspondentes_". Aqui, **"dados"** focam nas ações relacionadas a geração, gravação, curadoria, disseminação de processamento, compartilhamento, e uso, **"algoritmos"** focam em IA, agentes, aprendizado de máquina, e robôs, e **"práticas"** focam em tópicos como inovação responsável, programação, hacking e códigos de ética.
**Ética Aplicada** é a [aplicação prática de considerações morais](https://en.wikipedia.org/wiki/Applied_ethics). É o processo de investigar ativamente problemáticas éticas no contexto de _ações do mundo real, produtos e processos_, e tomar medidas corretivas para fazer com que esses permanecam alianhados com o nossos valores éticos definidos.
**Cultura Ética** é sobre [operacionalizar a ética aplicada](https://hbr.org/2019/05/how-to-design-an-ethical-organization) para garantir que nossos princípios e práticas éticas sejam adotados de maneira consistente e escalável em toda a organização. Culturas éticas de sucesso definem princípios éticos em toda a organização, fornecem incentivos significativos para consistência, e reinforça as normas éticas encorajando e amplificando comportmentos desejados em todos os níveis da organização.
## Conceitos Éticos
Nessa seção, nós vamos discutir conceitos como **valores compartilhados** (princípios) e **desafios éticos** (problemas) para a ética de dados - e explorar **estudos de caso** que ajudam você a entender esses conceitos em contextos do mundo real.
### 1. Princípios Éticos
Toda estratégia de ética de dados começa definindo _pricípios éticos_ - os "valores compartilhados" que descrevem comportamentos aceitáveis, e guia ações complacentes, nos nossos dados e nos projetos de IA. Você pode definir eles individualmente ou com um time. No entando, a maioria das grandes organizações descreve eles em uma declaração de missão ou de estrutura de _IA ética_ que é definida em níveis corporativos e aplicadas consistentemente em todos os times.
**Exemplo:** a declaração de missão da [IA responsável](https://www.microsoft.com/pt-br/ai/responsible-ai?activetab=pivot1:primaryr6) da Microsoft afirma: _"Estamos comprometidos com o avanço da AI impulsionados por princípios éticos que colocam as pessoas em primeiro lugar."_ - identificando 6 princípios éticos na estrutura abaixo:
![IA Responśavel na Microsoft](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
Vamos explorar brevemente esses princípios. _Transparência_ e _responsabilidade_ são valores fundamentais nos quais outros princípios construíram sobre - então vamos começar aí:
* [**Responsabilidade**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) torna os profissionais _responsáveis_ pelos seus dados e operações da IA, e conformidade (compliance) com esses princípios éticos.
* [**Transparência**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) garante que os dados e as ações da IA são _compreesíveis_ (interpretáveis) para os usuários, explicando o que e o porquê por trás de cada decisão.
* [**Justiça**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) - foca em garantir que a IA _trate_ todas as pessoas de forma justa, abordando quaisquer preconceitos sociotécnicos implícitos ou sistêmicos nos dados e sistemas.
* [**Confiabilidade e Segurança**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - garante que a IA comporte de maneira _consistente_ com os valores definidos, minimizando potenciais danos ou consequências não pretendidas.
* [**Segurança e Privacidade**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - é sobre compreender as linhagem dos dados, e fornecer _privacidade de dados e proteções relacionadas_ aos usuários.
* [**Inclusão**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - é sobre projetar soluções de IA com intenção, adaptando elas para atender uma _vasta game de necessidades humanas_ & capacidades.
> 🚨 Pense sobre qual poderia ser a frase de missão da sua ética de dados. Explore estruturas éticas de IA de outras organizações - aqui estão alguns exemplos da [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles), e [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/). Quais valores compartilhados vocês tem em comum? Como esses princípios se relacionam ao produto de IA ou à indústria na qual eles operam?
### 2. Desafios de Ética
Uma vez que nossos princípios éticos estão definidos, o próximo passo é avaliar nossos dados e ações da IA para ver se eles estão alinhados com aqueles valores compartilhados. Pense sobre suas ações em duas categorias: _coleção de dados_ e _design de algoritmo_.
Com coleções dados, ações irão, provavelmente, envolver **dados pessoais** ou informação pessoalmente identificável (do Inglês, personally identifiable information, ou PII) para indivíduos vivos identificáveis. Isso inclui [itens diversos de dados não pessoais](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en) que _coletivamente_ identificam um indivíduo. Desafios éticos podem estar relacionados à _privacidade dos dados_, _qualidade dos dados_, e tópicos relacionados como _consentimento informado_ e _direitos de propriedades intelectuais_ para os usuários.
Com o design de algoritmo, as ações envolverão coleta e curadoria dos **datasets**, e então o uso deles para treinar e implantar **modelos de dados** que predizem resultados ou automatizam decisões em contextos do mundo real. Desafios éticos podem surgir de _vieses do dataset_ (biases), problemas com a _qualidade de dados_, _injustiça_, e _má representação_ nos algoritmos - incluindo alguns problemas que são sistêmicos na natureza.
Em ambos os casos, desafios de ética destacam áreas onde nossas ações podem conflitar com nossos valores compartilhados. Para detectar, mitigar, minimizar, ou eliminar, essas preocupações - nós precisamos perguntar questões morais de "sim ou não" relacionadas as nossas ações, e então tomar uma ação corretiva conforme necessário. Vamos olhar alguns desafios éticos e as questões morais que eles levantam:
#### 2.1 Propriedade de Dados
A coleta de dados geralmente envolve dados pessoais que podem identificar os titulares dos dados. [Propriedade de dados](https://permission.io/blog/data-ownership) é sobre o _controle_ e [_direitos dos usuários_](https://permission.io/blog/data-ownership) relacionados à criação, processamento, e disseminação dos dados.
As questões morais que precisamos nos perguntar são:
* Quem detêm/possui os dados? (usuário ou organização)
* Quais direitos os titulares dos dados tem? (ex: acesso, apagar, portabilidade)
* Quais direitos as organizações tem? (ex: retificar reviews maliciosas de usuários)
#### 2.2 Consentimento Informado
[Consentimento Informado](https://legaldictionary.net/informed-consent/) define o ato dos usuários aceitar uma ação (como a coleta de dados) com um _compreendimento total_ de fatos relevantes incluindo propósito, potenciais riscos, e alternativas.
Questões a se explorar aqui são:
* O usuário (titular dos dados) deu permissão para a captação e uso dos dados?
* O usuário entendeu o propósito para o qual aqueles dados foram coletados?
* O usuário entendeu os potenciais riscos de sua participação?
#### 2.3 Propriedade Intelectual
[Propriedade intelectual](https://en.wikipedia.org/wiki/Intellectual_property) se refere a criações intangíveis que foram resultados das iniciativas humanas, que podem _ter valor econômico_ para indivíduos ou negócios.
Questões a se explorar aqui são:
* Os dados coletados tem valor econômicos para um usuário ou negócio?
* O **usuário** tem propriedade intelectual aqui?
* As **organizações** tem propriedade intelectual aqui?
* Se esses direitos existem, como estamos protejendo eles?
#### 2.4 Privacidade de Dados
[Privacidade de dados](https://www.northeastern.edu/graduate/blog/what-is-data-privacy/) ou privacidade da informação se refere a preservação da privacidade do usuário e proteção da identidade do usuário com relação as informações de indentificação pessoal.
Questões a se explorar aqui são:
* Os dados (pessoais) dos usuários estão protegidos contra hacks e vazamentos?
* Os dados do usuário são acessíveis somente a usuários e contextos autorizados?
* A anonimidade do usuário são preservados quando os dados são compartilhados ou disseminados?
* Um usuário podem ser desindentificado de datasets anônimos?
#### 2.5 Direito a Ser Esquecido
o [Direito a Ser Esquecido](https://en.wikipedia.org/wiki/Right_to_be_forgotten) ou [Direito de Apagar](https://www.gdpreu.org/right-to-be-forgotten/) fornecem proteções de dados adicionais para os usuários. Especificamente, dá aos usuários o direito de pedir deleção ou remoção dos dados pessoais das buscas da Internet e outros locais, _sobre circunstâncias específicas_ - permitindo a eles um novo começo online sem que as ações passadas sejam colocadas contra eles.
Questões a se explorar aqui são:
* O sistema permite que os titulares dos dados peçam o apagamento dos mesmos?
* A retirada do consentimento do usuário deve acionar um apagamento automático?
* Dados foram colocados sem o consentimento ou por meios ilegais?
* Estamos de acordo com regulações governamentais para a privacidade de dados?
#### 2.6 Viéses dos Datasets
[Viéses da Coleção ou do Dataset](http://researcharticles.com/index.php/bias-in-data-collection-in-research/) é sobre selecionar um subset de dados _não representativos_ para o desenvolvimento de um algoritmo, criando potenciais injustiças nos resultados para grupos diversos. Os tipos de viéses incluem seleção ou viés da amostra, viés voluntário, e viés do instrumento.
Questões a se explorar aqui são:
* Recrutamos um conjunto representativo de titulares de dados?
* Nós testamos nossos datasets colecionados ou com curadoria para diversos viéses?
* Nós podemos mitigar ou remover quaisquer viéses descobertos?
#### 2.7 Qualidade de Dados
[Qualidade de Dados](https://lakefs.io/data-quality-testing/) procura pela validade do dataset com curadoria usado para desenvolver nossos algoritmos, checando para ver se recursos e registros atendem os requisitos para o nível de acurácia e consistência necessários para o propósito da nossa IA.
Questões a se explorar aqui são:
* Nós coletamos _features_ válidos para nosso caso de uso?
* Os dados foram coletados _consistentemente_ em diversas fontes de dados?
* O dataset é _completo_ para diversas condições e cenários?
* As informações capturadas refletem _com precisão_ a realidade?
#### 2.8 Justiça do Algoritmo
[Justiça do Algoritmo](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) checa para ver se o design do algoritmo discrimina sistematicamente subgrupos específicos dos titulares dos dados levando a [potenciais danos](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) em _alocação_ (onde recursos são negados ou detidos daquele grupo) e _qualidade de serviço_ (onde IA não é tão acurada para alguns subgrupos quanto é para outros).
Questões a se explorar aqui são:
* Nós avaliamos a acurácia do modelo para diversos subgrupos e condições?
* Nós examinamos o sistema em busca de danos potenciais (ex. estereótipos)?
* Nós podemos revisar os dados ou retreinar os modelos para mitigar danos identificados?
Explore recursos como [Checklist de Justiça de IA](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA) para saber mais.
#### 2.9 Má Representação
[Má Representação dos Dados](https://www.sciencedirect.com/topics/computer-science/misrepresentation) é sobre perguntar se nós estamos comunicando insights de dados honestamente relatados de uma maneira enganosa para suportar uma narrativa desejada.
Questões a se explorar aqui são:
* Estamos relatando dados completos ou inacurados?
* Estamos visualizando dados de uma maneira que conduz a uma conclusão errada?
* Estamos usando técnicas estatísticas seletivas para manipular os resultados?
* Existem explicações alternativas que podem oferecer uma conclusão diferente?
#### 2.10 Livre Escolha
A [Ilusão da Livre Escolha](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) ocorre quando as "arquiteturas de escolha" do sistema utiliza algoritmos de tomada de decisão para incentivar as pessoas a obterem um resultado preferido enquanto parece lhe dar opções e controle. Esses [dark patterns](https://www.darkpatterns.org/) podem causar danos sociais e econômicos aos usuários. Já que as decisões do usuário impactam perfis de comportamento, essas ações potencialmente conduzem as escolhas futuras que podem aplificar ou extender o impacto desses danos.
Questões a se explorar aqui são:
* O usuário entende as implicações de fazer aquela escolha?
* O usuário estava ciente das escolhas (alternativas) e dos prós e contras de cada uma?
* O usuário pode reverter um escolha automatizada ou influenciada depois?
### 3. Estudo de Casos
Para colocar esses desafios éticos em contextos do mundo real, ajuda olhar para estudo de casos que destacam potenciais danos e consequências para indivíduos e sociedade, quando essas violações éticas são negligenciadas.
Aqui estão alguns exemplos:
| Desafios de Éticas | Estudo de Caso |
|--- |--- |
| **Consentimento Informado** | 1972 - [Tuskegee Syphillis Study](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - Homens afro-americanos que participaram no estudo foram prometidos cuidados médicos livres de custo _mas foram enganados_ pelos pesquisadores que não informaram os participantes de seus diagnósticos ou sobre a avaliabilidade de tratamentos. Muitos participantes morreram e parceiros e ciranças foram afetados; oe studo durou por 40 anos. |
| **Privacidade de Dados** | 2007 - O [Netflix data prize](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/) forneceu a pesquisadores _10M de avaliações anônimas de filmes de 50K clientes_ para ajudar a melhorar os algoritmos de recomendação. No entanto, os pesquisadores conseguiram correlacionar os dados anônimos com dados de identificação pessoal em _datasets externos_ (ex. comentários no IMDb) - "desanonimizando" efetivamente alguns assinates da Netflix.|
| **Viéses dos Datasets** | 2013 - A Cidade de Boston [desenvolveu Street Bump](https://www.boston.gov/transportation/street-bump), um aplicativo que deixa os usuários relatarem burcos nas ruas, dando à cidade melhores dados rodoviários para encontrar e consertar problemas. No entanto, [pessoas que faziam parte de grupos de baixa renda tinham menos acesso a carros e celulares](https://hbr.org/2013/04/the-hidden-biases-in-big-data), fazendo com que os seus problema rodoviários fossem invisíveis nesse aplicativo. Desenvolvedores trabalharm com acadêmicos para questões de _acesso equitativo e divisões digitais_ para justiça. |
| **Justiça do Algoritmo** | 2018 - [O Gender Shades Study do MIT](http://gendershades.org/overview.html) avaliou a acurácia de produtos de IA de classificação de gêneros, expondo lacunas na acurácia para mulheres e pessoas não brancas. Um [Apple Card de 2019](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) parece oferecer menos créditos para mulheres do que oferece para homens. Ambos ilustraram questões de viés algorítmico levando a danos socioeconômicos.|
| **Má Representação de Dados** | 2020 - O [Departamento de Sáude Pública da Georgia (Georgia Department of Public Health) liberou gráficos da COVID-19](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening) que aparentam a levar os cidadãos a conclusões errôneas sobre as tendências em casos confirmados em uma ordem não cronológica no eixo x. Isso ilustra a má representação atráves de truques de visualização. |
| **Ilusão da Livre Escolha** | 2020 - Aplicativo de aprendizado [ABCmouse pagou $10M para resolver uma reclamação do FTC](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/) onde os pais foram enganados a pagar assinaturas que eles não podiam cancelar. Isso ilustra "dark patterns" em arquiteturas de escolha, onde usuários foram direcionados a escolhas potencialmente prejudiciais. |
| **Privacidade de Dados & Direitos do Usuário** | 2021 - [Violação de Dados do facebook](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) expôs dados de mais de 530M de usuários, resultando em um acordo de $5B com o FTC (Federal Trade Commission). No entanto, o Facebook se recusou a notificar os usuários sobre a violação dos dados violando os direitos dos usuários de transparência e acesso de dados. |
Gostaria de explorar mais estudos de caso? Confira:
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - dilemas éticos em indústrias diversas.
* [Data Science Ethics course](https://www.coursera.org/learn/data-science-ethics#syllabus) - estudos de caso marcantes explorados.
* [Where things have gone wrong](https://deon.drivendata.org/examples/) - checklists da deon com exemplos
> 🚨 Pense sobre estudos de caso que você ja viu - você ja experienciou, ou foi afetado por, um desafio ético similar em sua vida? Voce consegue pensar em pelo menos um estudo de caso que ilustre um ou mais desafios éticos que discutimos nessa seção?
## Ética aplicada
Nós falamos sobre conceitos de éticas, desafios, e casos de estudo em contextos do mundo real. Mas como nós começamos a _aplicar_ esses princípios éticos em nossos projetos? E como nós _operacionalizamos_ essas práticas para melhor governância? Vamos explorar algumas soluções do mundo real:
### 1. Códigos Profissionais
Códigos Profisionais oferecem uma opção para organizações para "incentivar" membros a apoiar os princípios éticos e frase de missão. Códigos são _diretrizes morais_ para comportamento profissional, ajudando funcionários ou membros a tomar decisões que alinhem com os princípios da sua organização. Eles são tão bons quanto a conformidade voluntária dos membros; no entanto, muitas organizações oferecem recompensas e penalidades adicionais para motivar a conformidade dos membros.
Exemplos incluem:
* [Oxford Munich](http://www.code-of-ethics.org/code-of-conduct/) Código de Ética
* [Data Science Association](http://datascienceassn.org/code-of-conduct.html) Código de Conduta (criado em 2013)
* [ACM Code of Ethics and Professional Conduct](https://www.acm.org/code-of-ethics) (desde 1993)
> 🚨 Você faz parte de uma organização profissional de engenharia ou de ciências de dados? Explore o site deles para ver se eles definem um código de ética profissional. O que diz sobre os princípios éticos deles? Como eles estão "incentivando" os membros a seguir o código?
### 2. Checklists de Éticas
Enquanto códigos profissionais definem _comportamentos ético_ requiridos de seus praticantes, eles [tem limitações conhecidas](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) na execução, particularmente em projetos de larga escala. Ao invés disso, muitos experts em Ciência de Dados [defendem as checklists](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), que podem **conectar princípios a práticas** de maneiras para determinísticas e acionáveis.
Checklists convertem as questões em tarefas de "sim/não" que podem ser operacionalizadas, permitindo eles serem rastreados como parte dos fluxos de trabalho de liberação de produtos padrão.
Exemplos incluem:
* [Deon](https://deon.drivendata.org/) - uma checklist de propósito gerak criado a partir de [recomendações da insústria](https://deon.drivendata.org/#checklist-citations) com uma ferramenta de linha de comando para fácil integração.
* [Privacy Audit Checklist](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - fornece orientação geral para práticas de manipulação de informação a partir de perspectivas de exposição legal e social.
* [AI Fairness Checklist](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - criado por praticantes de IA para apoiar a adoção e integração de verificações de justiça dentro dos ciclos de desenvolvimento de IA.
* [22 questions for ethics in data and AI](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - estrutura mais aberto-fechado, estrturado para exploração inicial de problemas éticos em contextos de design, implementação, e organizacional.
### 3. Regulações Éticas
Ética é sobre definir valores compartilhados e fazer a coisa certa _voluntariamente_. **Compliance (Conformidade)** é sobre _seguir a lei_ se e onde definida. **Governância** abrange amplamente todos as formas de como as organizações operam para garantir princípios éticos e cumprir as leis estabelecidas.
Hoje, governância assume duas formas dentro das organizações. Primeira, é sobre definir princípios de **IA ética** e estabelecer práticas para operacionalizar a adoção em todos os projetos de IA na organização. Segundo, trata-se de cumprir com todos os **regulamentos de proteção de dados** para as regiões em que operam.
Exemplos de proteção de dados e regulamentos de privacidade:
* `1974`, [US Privacy Act](https://www.justice.gov/opcl/privacy-act-1974) - regula a coleta, o uso, e divulgação de informações pessoais por parte do _governo federal_.
* `1996`, [US Health Insurance Portability & Accountability Act (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - protege dados de sáude pessoais.
* `1998`, [US Children's Online Privacy Protection Act (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - protege a privacidade de dados de crianças menores de 13 anos de idade.
* `2018`, [General Data Protection Regulation (GDPR)](https://gdpr-info.eu/) - fornece direitos aos usuário, proteção de dados, e privacidade.
* `2018`, [California Consumer Privacy Act (CCPA)](https://www.oag.ca.gov/privacy/ccpa) dá aos consumidores mais _direitos_ sobre seus dados (pessoais).
* `2021`, [A Lei de Proteção de Informação Pessoal](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) da China acabou de ser passado, criando uma das regulações de privacidade de dados online mais forte do mundo.
> 🚨 A GDPR (General Data Protection Regulation) da União Europia continua sendo umas das regulações de privacidade de dados mais influentes hoje em dia. Você sabia que a mesma também define [8 direitos dos usuário](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) para proteger a privacidade dos cidadãos e dados pessoais? Saiba mais sobre o que são e porque eles importam.
### 4. Cultura Ética
Note que existe uma lacuna intangível entre _compliance_ (fazer o suficiente para cumprir a "a carta da lei") e abordar [problemas sistêmicos](https://www.coursera.org/learn/data-science-ethics/home/week/4) (como ossificação, assimetria informacional, e injustiça distribucional) que podem acelerar o uso da IA como uma arma.
Este último requere [abordagens colaborativas para definir culturas éticas](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-driven-approach-26f451afa29f) que constrói conexões emocionais e valores compartilhados consistentes _em todas as organizações_ na indústria. Isso requere mais [culturas de ética de dados formalizadas](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) nas organizações - permitindo _qualquer um_ a [puxar o cordão Andom](https://en.wikipedia.org/wiki/Andon_(manufacturing)) (para aumentar as preocupações éticas mais cedo no processo) e fazendo _avaliações éticas_ (ex. na contratação) um critério fundamental na formação de times em projetos de IA.
---
## [Quiz pós aula](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/3) 🎯
## Revisão e Autoestudo
Cursos e livros ajudam a entender os conceitos essencias da ética, enquanto estudos de caso e ferramentas ajudam com práticas da ética aplicado em contextos do mundo real. Aqui estão alguns recursos para começar.
* [Machine Learning For Beginners](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - aula sobre Justiça, da Microsoft.
* [Principles of Responsible AI](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - programa de aprendizado gratuito da Microsoft Learn.
* [Ethics and Data Science](https://resources.oreilly.com/examples/0636920203964) - O'Reilly EBook (M. Loukides, H. Mason et. al)
* [Data Science Ethics](https://www.coursera.org/learn/data-science-ethics#syllabus) - curso online da Universidade de Michigan.
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - estudos de caso da Universidade do Texas.
# Tarefa
[Escreva um Caso de Uso de Ética de Dados](assignment.pt-br.md)

@ -1,273 +0,0 @@
# Введение в этику данных
|![ Рисунок [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/02-Ethics.png)|
|:---:|
| Этика в науке о данных - _Рисунок [@nitya](https://twitter.com/nitya)_ |
---
Мы все инфо-граждане, живущие в инфо-мире.
Из тенденций рынка следует, что к 2022 году одна из трёх крупных организаций будет покупать и продавать свои данные на онлайн [маркетплейсах и биржах](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/). Как **разработчики приложений**, мы интегрируем инсайты на основе данных и алгоритмы автоматизации в ежедневную жизнь пользователя более простым и дешёвым способом. Однако по мере распространения ИИ, нам необходимо осознавать потенциальную угрозу использования подобных алгоритмов в качестве [оружия](https://www.youtube.com/watch?v=TQHs8SA1qpk) в больших масштабах.
Тенденции также показывают, что мы создадим и потребим более [180 зеттабайт](https://www.statista.com/statistics/871513/worldwide-data-created/) данных к 2025 году. Нам, как **дата сайентистам - специалистам по данным**, открывается беспрецедентный уровень доступа к личным данным. Это означает, что мы сможем составлять поведенческие профили пользователей и влиять на принятие решений, создавая [иллюзию свободного выбора](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) и подталкивая пользователей делать то, что нам нужно. Также возникают широкие вопросы о приватности данных и защите пользователей.
В настоящее время, этика данных является еобходимым ограждением_ для специалистов и инженеров по данным, минимизирующим ущерб и непреднамеренные последствия от наших действий на основе данных. На [графике цикла популярности Gartner для ИИ](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) современные тренды в цифровой этике, ответственном ИИ и управлении ИИ обозначены как ключевые двигатели мегатрендов емократизации_ и _индустриализации_ искусственного интеллекта.
![Цикл популярности Gartner для ИИ - 2020 год](https://images-cdn.newscred.com/Zz1mOWJhNzlkNDA2ZTMxMWViYjRiOGFiM2IyMjQ1YmMwZQ==)
В данном уроке мы исследуем увлекательную область этики данных, от основных положений и проблем, до реальных примеров и прикладных концепции, таких как управление данными, которые помогают установить этическую культуру в командах и организациях, работающих с данными и ИИ.
## [Вступительный тест](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/2) 🎯
## Основные определения
Давайте начнём с базовых терминов.
Само слово "этика" происходит от [греческого слова "этикос"](https://ru.wikipedia.org/wiki/%D0%AD%D1%82%D0%B8%D0%BA%D0%B0) (и его корня "этос"), означающего _характер или моральная природа_.
**Этика** изучает общие ценности и моральные принципы, которые определяют наше поведение в обществе. Этика основывается не на законах, а на широких принятых нормах того, что хорошо, а что плохо. Однако, этические соображения могут влиять на политику компаний и государственное регулирование, которое создает больше стимулов для соблюдения этических норм.
**Этика данных** - это [новая ветвь этики](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1), которая "изучает и оценивает моральные вопросы связанные с анными, алгоритмами и соответствующими практиками_". Упомянутые здесь вопросы **"данных"** сосредоточены вокруг действий генерации, записи, курирования, обработки, распространения, предоставление доступа и использования. Вопросы **"алгоритмов"** сосредоточены вокруг ИИ, агентов, машинного обучения и роботов. Вопросы **"практик"** сфокусированы на темах ответственных инноваций, программирования, хакинга и этичного исходного кода.
**Прикладная этика** - это [практическое применение моральных соображений](https://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%B8%D0%BA%D0%BB%D0%B0%D0%B4%D0%BD%D0%B0%D1%8F_%D1%8D%D1%82%D0%B8%D0%BA%D0%B0). Это процесс активного исследования этических проблем в контексте ействий, товаров и процессов реального мира_, и принятия корректирующих мер по удержанию их в соответствии нашим принятым этическим ценностям.
**Этическая культура** - раздел об [спользовании_ прикладной этики](https://hbr.org/2019/05/how-to-design-an-ethical-organization) для того, чтобы убедиться, что наши этические принципы и порядки приняты полномасштабно в рамках всей организации и действуют постоянно. Успешные этические культуры определяют общеорганизационные этические принципы, обеспечивают ощутимые стимулы для их соблюдения и укрепляют этические нормы, поощряя желаемое поведение на каждом уровне организации.
## Этические концепции
В данном разделе мы обсудим такие понятия как **общие ценности** (принципы) и **этические вызовы** (проблемы) в этике данных, а также исследуем **реальные примеры**, которые помогут Вам понять эти концепции в реальном мире.
### 1. Принципы этики
Каждая стратегия в этике данных начинается с определения _этических принципов_ - "общих ценностей", которые описывают приемлемое поведение и регламентируют соответствующие действия в проектах, связанных с данными и ИИ. Вы можете определить их на индивидуальном уровне или на уровне команды. Однако, большинство крупных организаций выделяют их как миссию по созданию _этичного ИИ_ или набора правил, который определён на уровне компании и которому подчиняются все без исключения.
**Пример**: Формулировка миссии об [ответственном ИИ](https://www.microsoft.com/en-us/ai/responsible-ai) компании Майкрософт звучит так: _"Мы преданы идее продвижения ИИ на основе этических принципов, которые ставят людей во главу угла"_. Данный лозунг определяет 6 этических принципов, описанных далее.
![Ответсвенный ИИ в компании Майкрософт](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
Давайте кратко рассмотрим эти принципы. розрачность_ и _Ответственность_ являются основными, а остальные строятся поверх, поэтому начнем с главных:
* Принцип [**ответственности**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) накладывает ответственность на активных пользователей за использование данных и ИИ и требует согласия с данными этическими принципами.
* Принцип [**прозрачности**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) позволяет убедиться, что действия с данными и ИИ _понимаемы_ (осознаваемы) пользователями, разъясняя, что кроется за действиями и их последствия.
* Принцип [**справедливости**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) фокусируется на равном восприятии искусственным интеллектом сех людей_ и обращает внимание на системную и скрытую социально-техническую предвзятость в данных и информационных системах.
* Принцип [**надёжности и сохранности**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) обеспечивает _постоянное_ соответствие поведения ИИ заранее определённым ценностям, минимизируя потенциальный ущерб или неумышленные последствия.
* Принцип [**приватности и безопасности**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) говорит о необходимости понимания происхождения данных и обеспечивает _приватность данных и их защиту_ для пользователей.
* Принцип [**инклюзивности**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) гарантирует создание решений на основе ИИ с целью адаптировать их к уждам широкого круга людей с различными возможностями_.
> 🚨 Подумайте о том, какими могут быть формулировки миссий в этике данных. Познакомьтесь с подходами этичного ИИ в других организациях: [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) и [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/). Какие общие ценности являются схожими? Как эти принципы связаны с продуктами и отраслями этих компаний?
### 2. Проблемы этики
Как только мы определили этические принципы, следующим шагом становится оценить наши действия с данными и ИИ с точки зрения того, как они соотносятся с принятыми общими ценностями. Подумайте над Вашими действиями в разрезе двух категорий: _сбора данных_ и _разработка алгоритма_.
При сборе данных, список действий наверняка будет включать в себя **персональные данные** или персональные идентифицирующие данные для установления личностей. Они состоят из
[различных неперсональных данных](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en), которые совокупности_ определяются как персональные. Этические вызовы здесь могут относиться к _приватности данных_, _владению данными_ и связанным с ними вопросам _информированного согласия_, и _прав на интеллектуальную собственность_ пользователей.
При разработке алгоритма, действия включают в себя сбор и обработку **датасетов** и последующее использование их для тренировки и развёртывания одели данных_, способной выдавать прогнозы или автоматизировать принятие решений в реальном мире. Этические вызовы возникают из-за есбалансированного датасета_, ачества данных_, есправедливости модели_ и скажения фактов_ в алгоритмах, включая некоторые системные по своей природе вопросы.
В обоих случаях, этические проблемы подсвечивают области, в которых наши действия могут идти в разрез с нашими общими ценностями. Для того чтобы распознать, смягчить, сократить или устранить конфликты, нам необходимо задать моральные "да/нет" вопросы, связанные с нашими действиями, а затем скорректировать наши действия при необходимости. Давайте взглянем на некоторые этические вызовы и моральные вопросы, которые они поднимают:
#### 2.1 Право собственности на данные
Сбор данных часто включает в себя сбор персональных данных, которые могут идентифицировать действующих лиц. [Право собственности на данные](https://permission.io/blog/data-ownership) занимается вопросами онтроля_ и [_прав пользователя_](https://permission.io/blog/data-ownership) в области создания, обработки и распространения данных.
Моральные вопросы, которые мы должны задать себе здесь:
* Кто владеет данными (пользователь или организация)?
* Какие права имеют действующие лица, имеющие отношение к данным? (напр., доступ, стирание, перенос)
* Какие права имеет организация? (напр., редактирование злонамеренных пользовательских отзывов)
#### 2.2 Информированное согласие
[Информированное согласие](https://legaldictionary.net/informed-consent/) определяет согласие пользователя на действия (например, сбор данных) с _полным пониманием_ всех фактов, включая цель, потенциальные риски и альтернативы.
Вопросы для дискуссии:
* Предоставил ли пользователь (действующее лицо) соглашение на сбор и использование данных?
* Осознал ли пользователь цель сбора данных?
* Осознал ли пользователь возможные риски от использования данных?
#### 2.3 Интеллектуальная собственность
[Интеллектуальная собственность](https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D1%81%D0%BE%D0%B1%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D1%81%D1%82%D1%8C) относится к нематериальным творениям, произведенным по инициативе человека, которые могут _иметь экономическую ценность_ для физических или юридических лиц.
Вопросы для дискуссии:
* Имеют ли собранные данные экономическую ценность для пользователя или компании?
* Обладает ли **пользователь** интеллектуальной собственностью в данном случае?
* Обладает ли **компания** интеллектуальной собственностью в данном случае?
* Если права на собственность существуют, как мы защищаем их?
#### 2.4 Приватность данных
[Приватность данных](https://www.northeastern.edu/graduate/blog/what-is-data-privacy/) или информационная приватность относится к сохранению приватности пользователя и защиты его личности относительно пользовательской идентифицирующей информации.
Вопросы для дискуссии:
* Защищены ли пользовательские (персональные) данные от взломов и утечек?
* Доступны ли пользовательские данные только уполномоченным пользователям и окружениям?
* Сохраняется ли анонимность пользователя при передаче и распространении данных?
* Может ли пользователь быть идентифицирован из анонимизированного датасета?
#### 2.5 Право на забвение
[Право на забвение](https://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%B0%D0%B2%D0%BE_%D0%BD%D0%B0_%D0%B7%D0%B0%D0%B1%D0%B2%D0%B5%D0%BD%D0%B8%D0%B5) или [Право на стирание](https://www.gdpreu.org/right-to-be-forgotten/) обеспечивает дополнительную защиту данных пользователя. В особенности, данное право предоставляет пользователям возможность удаления персональных данных из поисковых систем сети Интернет и других мест, позволяя, при определённых обстоятельствах, начать онлайн-историю с чистого листа без учёта предыдущих событий.
Вопросы для дискуссии:
* Позволяет ли рассматриваемая система действующим лицам запрашивать удаление данных?
* Должен ли отзыв пользовательского соглашения вызывать автоматическое стирание данных?
* Были ли данные собраны без согласия или незаконными способами?
* Действуем ли мы согласно государственному регулированию в сфере приватности данных?
#### 2.6 Несбалансированный датасет
Проблема [несбалансированного датасета или коллекции данных](http://researcharticles.com/index.php/bias-in-data-collection-in-research/) появляется при использовании ерепрезентативной_ выборки для разработки алгоритма, создании потенциальной несправедливости в результатах модели для различных групп. Типы искажений включают в себя систематические ошибки, ошибки наблюдателя, погрешности инструментов.
Вопросы для дискуссии:
* Имеем ли мы дело с репрезентативным набором действующих лиц?
* Был ли протестирован собранный или созданный датасет на различные искажения?
* Можем ли мы уменьшить или избавиться от обнаруженных искажений?
#### 2.7 Качество данных
[Качество данных](https://lakefs.io/data-quality-testing/) отображает пригодность собранного датасета, используемого для разработки нашего алгоритма, проверяет, удовлетворяют ли признаки и записи требованиям качества и согласованности, необходимым для целей нашего ИИ.
Вопросы для дискуссии:
* Собрали ли мы _пригодные_ признаки для решения нашей задачи?
* Собраны ли данные _согласованно_ с различных источников?
* Является ли датасет _полным_ с точки зрения различных условий и сценариев?
* остоверно_ ли отображает собранная информация реальность?
#### 2.8 Справедливость алгоритма
[Справедливость алгоритма](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) указывает, дискриминирует ли созданный алгоритм отдельные группы действующих лиц и ведет ли это к [потенциальному ущербу](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) в _распределении_ (когда ресурсы недоступны или, наоборот, удерживаются отдельной группой) и в ачестве услуг_ (когда ИИ недостаточно точен для некоторых групп в отличие от других).
Вопросы для дискуссии:
* Правильно ли мы оценили точность модели для различных групп и условий?
* Внимательно ли мы изучили созданную систему на предмет потенциального ущерба (например, на стереотипизацию)?
* Можем ли мы перепроверить данные или перетренировать модель, чтобы сократить выявленный ущерб?
Изучите материалы, подобные [контрольному списку справедливости ИИ](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA), чтобы узнать больше.
#### 2.9 Искажение фактов
[Искажение фактов в данных](https://www.sciencedirect.com/topics/computer-science/misrepresentation) указывает, вводим ли мы в заблуждение инсайтами, чтобы поддержать желаемую точку зрения, несмотря на достоверные собранные данные.
Вопросы для дискуссии:
* Предоставляем ли мы неполные или неточные данные?
* Визуализируем ли мы данные таким образом, который ведет к ошибочным выводам?
* Используем ли мы статистические методы выборочно, чтобы манипулировать результатами?
* Существуют ли альтернативные суждения, которые могут привести к другим выводам?
#### 2.10 Свободный выбор
[Иллюзия свободного выбора](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) появляется, когда система, "проектирующая выбор", использует алгоритмы принятия решений, чтобы подтолкнуть к предподчтительным действиям, и в то же время обманчиво даёт выбор и контроль над ситуацией. Эти [нечестные уловки](https://www.darkpatterns.org/) могут нанести социальный и экономический вред пользователям. Поскольку решения пользователей влияют на поведенческие паттерны, подобные действия могут привести к последующим принятиям решений, которые приумножат или продлят действие нанесённого ущерба.
Вопросы для дискуссии:
* Понимает ли пользователь последствия принятия того или иного решения?
* Был ли пользователь осведомлён о (альтернативном) выборе и плюсах и минусах каждого исхода?
* Может ли пользователь изменить автоматический выбор или выбор, сделанный под влиянием, позднее?
### 3. Случаи из реальной практики
В решении упомянутых этических вызовов в контексте реального мира нам поможет взглянуть на случаи, когда потенциальные угрозы и последствия для личности и общества наиболее выражены, когда этические нарушения упущены из виду.
Вот некоторые примеры:
| Этический вызов | Реальный пример |
|--- |--- |
| **Информированное согласие** | 1972 год - [Исследование сифилиса в Таскиги](https://ru.wikipedia.org/wiki/%D0%98%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%81%D0%B8%D1%84%D0%B8%D0%BB%D0%B8%D1%81%D0%B0_%D0%B2_%D0%A2%D0%B0%D1%81%D0%BA%D0%B8%D0%B3%D0%B8) - Принявшим участие в исследовании афроамериканцам была обещана бесплатная медицинская помощь, однако их _обманули_ исследователи, не предоставив информацию о диагнозе или доступности лекарств. Многие участники умерли, заразив партнёров или детей. Исследование длилось 40 лет. |
| **Приватность данных** | 2007 год - В соревновании [от компании Netflix](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/) участникам предложили _10 миллионов анонимизированных оценок фильмов от 50 тысяч клиентов_ для улучшения алгоритма рекомендаций. Однако, участники оказались способны сопоставить анонимизированные данные с персональными данными из _внешнего источника данных_ (например, комментарии на сайте IMDb) и успешно де-анонимизировать некоторых подписчиков Netflix. |
| **Систематическая ошибка** | 2013 год - городские власти города Бостона [разработали Street Bump](https://www.boston.gov/transportation/street-bump), приложение, позволяющее гражданам сообщать о дорожных выбоинах, предоставляя властям более качественные данные для поиска и ремонта. Однако, [люди из группы с низким доходом имели ограниченный доступ к машинам и смартфонам](https://hbr.org/2013/04/the-hidden-biases-in-big-data), и их дорожные проблемы не отображались в этом приложении. Разработчики совместно с учеными исправили проблемы _равного доступа и цифрового неравенства_ для большей справедливости. |
| **Справедливость алгоритма** | 2018 год - В [исследовании гендерных оттенков](http://gendershades.org/overview.html) в университете MIT при оценке точности ИИ для задачи гендерной классификации товаров были обнаружены пробелы в точности для женщин и для "цветных" людей. В 2019 году [кредитная программа компании Apple](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) предлагала меньший кредитный лимит женщинам по сравнению с мужчинами. Оба случая иллюстрируют предвзятость, ведущую к социально-экономическому ущербу. |
| **Искажение фактов** | 2020 год - [Департамент штата Джорджия выпустил графики заболеваемости COVID-19](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening), которые ввели в заблуждение граждан насчёт трендов подтверждённых случаев своей хронологической неупорядоченностью. Данный пример показывает искажение фактов при помощи визуализации. |
| **Иллюзия свободного выбора** | 2020 год - Разработчики обучающего приложения [ABCmouse заплатили 10 миллионов долларов для урегулирования жалобы Федеральной торговой комиссии](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/), в которой родители были вынуждены платить за подписку, которую они не могли отменить. Данный случай иллюстрирует тёмную сторону систем с наличием выбора, в которых пользователей подталкивают к потенциально вредному выбору. |
| **Приватность данных и права пользователя** | 2021 год - [Утечка данных в компании Facebook](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) содержала данные 530 миллионов пользователей и повлекла штраф в 5 миллиардов долларов от Федеральной торговой комиссии. Компания отказалась предупреждать пользователей об утечке данных, нарушив тем самым права пользователей на прозрачность и приватный доступ. |
Хотите узнать больше случаев из реальной жизни? Познакомьтесь с данными ресурсами:
* [Этика без прикрас](https://ethicsunwrapped.utexas.edu/case-studies) - этические дилеммы в различных отраслях.
* [Курс этики в науке о данных](https://www.coursera.org/learn/data-science-ethics#syllabus) - рассматриваются ключевые примеры из реальной практики.
* [Место, где что-то пошло не так](https://deon.drivendata.org/examples/) - список примеров от Deon.
> 🚨 Вспомните реальные случаи из своей жизни. Сталкивались ли Вы сами или пострадали от подобных этических вызовов? Можете ли вы вспомнить по крайней мере ещё один случай, который иллюстрирует один из этических вызовов, которые мы обсудили в данном разделе?
## Прикладная этика
Мы рассмотрели этические концепции, вызовы и случаи из реальной жизни. Но как мы можем начать _применять_ этические принципы в наших проектах? И как мы должны _оперировать_ данными принципами для лучшего управления? Давайте рассмотрим некоторые решения проблем из реальной практики.
### 1. Профессиональные нормы поведения
Профессиональные нормы поведения в организации являются способом _стимулирования_ участников для поддержания её этических принципов и целей. Зафиксированные нормы являются оральным ориентиром_ для поведения на работе, помощи сотрудникам в принятии решений, которые соответствуют принципам их организации. Они имеют силу только при добровольном согласии участников, однако многие организации предлагают дополнительные вознаграждения и штрафы, чтобы мотивировать участников на согласие.
Примеры:
* Нормы этики в [университете Оксфорда в городе Мюнхен](http://www.code-of-ethics.org/code-of-conduct/)
* Нормы поведения в [Ассоциации науки о данных](http://datascienceassn.org/code-of-conduct.html) (написаны в 2013 году)
* Этические и профессиональные нормы в [Ассоциации вычислительной техники](https://www.acm.org/code-of-ethics) (действуют с 1993 года)
> 🚨 Имеете ли Вы отношение к организациям, занимающимся разработкой ПО и наукой о данных? Исследуйте их сайты на наличие зафиксированных норм этики. Какие этические принципы там определены? Как они "стимулируют" участников следовать принятым нормам?
### 2. Списки этических норм
В то время как нормы профессионального поведения определяют необходимое _этичное поведение_ участников, они также принуждают к соблюдению [установленных ограничений](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), особенно в крупных проектах. Вместо этого, многие эксперты в науке о данных [поддерживают использование списков](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), которые **соединяют принципы и реальные практики** более определённым и действенным методом.
Подобные списки конвертируют размытые вопросы в "да/нет" пункты, которые могут быть введены в действие и которые могут отслеживаться как часть стандартного процесса выпуска продукта.
Примеры:
* [Deon](https://deon.drivendata.org/) - список этических пунктов общего назначения, созданный по [промышленным рекомендациям](https://deon.drivendata.org/#checklist-citations) с поддержкой интерфейса командной строки для удобной интеграции.
* [Список аудита приватности](https://cyber.harvard.edu/ecommerce/privacyaudit.html) содержит общие рекомендации для обработки информации с точки зрения правового и социального воздействия.
* [Чеклист справедливого ИИ](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) создан разработчиками систем ИИ для поддержки интеграции проверок справедливости в цикл разработки продуктов с ИИ.
* [22 вопросв о этике в данных и ИИ](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - более открытый список, ориентированный на первоначальное обнаружение этических проблем в контексте структуры, реализации и организации.
### 3. Регулирование в области этики
Этика определяет общие ценности и правильные поступки а добровольной основе_. **Соглашение** в свою очередь принуждает _следовать закону_, если он определён, там, где он определён. **Руководство** покрывает широкий спектр способов, которыми организации пользуются для продвижения этических принципов и согласия с установленными законами.
На сегодняшний день, руководство по этике принимает две формы внутри организации. Во-первых, оно определяет принципы **этичного ИИ** и устанавливает правила его внедрения для всех проектов организации, связанных с ИИ. Во-вторых, оно действует в соглашении с государственным **регулированием в области защиты данных** в регионах представительства организации.
Примеры государственного регулирования в области защиты данных и конфиденциальности:
* `1974 год`, [Закон США о конфиденциальности](https://www.justice.gov/opcl/privacy-act-1974), регулирующий сбор, использование и раскрытие персональной информации а государственном уровне_.
* `1996 год`, [Закон США о переносимости и подотчетности медицинского страхования (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html), защищающий персональные данные в сфере здравоохранения.
* `1998 год`, [Закон США о защите конфиденциальности детей в Интернете (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule), защищающий конфиденциальность данных детей младше 13 лет.
* `2018 год`, [Общие правила защиты данных (GDPR)](https://gdpr-info.eu/), обеспечивающий пользовательские права, защиту данных и конфиденциальность.
* `2018`, [Закон Калифорнии о конфиденциальности потребителей (CCPA)](https://www.oag.ca.gov/privacy/ccpa), предоставляющий потребителям больше _прав_ в области своих (персональных) данных.
* `2021`, китайский [Закон о защите личной информации](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/), принятый в недавном времени, применяющий одно из самых строгих в мире регулирований в области конфиденциальности данных в сети Интернет.
> 🚨 Принятые Европейским Союзом Общие правила защиты данных (GDPR) остаются на сегодняшний день наиболее влиятельным регулированием в области приватности данных. Знали ли Вы, что они также определяют [8 прав пользователей](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) в области защиты конфиденциальности и персональных данных граждан? Узнайте подробнее, что они из себя представляют и почему они имеют значение.
### 4. Этичная культура
Отметим, что остаётся неосязаемый промежуток между _соглашением_ (делать достаточно, чтобы оставаться "в рамках закона") и [системными проблемами](https://www.coursera.org/learn/data-science-ethics/home/week/4) (такими, как потеря гибкости, информационная несимметричность и несправедливое распределение), который может ускорить применение ИИ в качестве оружия.
Решение этой проблемы кроется в [совместных подходах к определению этичных культур](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-driven-approach-26f451afa29f), которые выстраивают эмоциональные связи и постоянные общие ценности о всех организациях_ отрасли. Это требует более глубокой [формализации культуры в области этики данных](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) в организациях, позволяющей _любому_ [потянуть за ниточки](https://en.wikipedia.org/wiki/Andon_(manufacturing)) (чтобы поднять вопрос этики на ранней стадии) и провести _оценку этичности_ (например, при найме на работу) основных критериев формирования команд в проектах с ИИ.
---
## [Проверочный тест](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/3) 🎯
## Дополнительные источники
Курсы и книги помогут Вам понять основные этические принципы и вызовы, а примеры из реальной практики помогут с прикладными вопросами этики в контексте реального мира. Вот некоторые ресурсы, с которых можно начать:
* [Машинное обучение для начинающих (на англ.)](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - курс о справедливости от компании Microsoft.
* [Принципы ответственного ИИ](https://docs.microsoft.com/ru-ru/learn/modules/responsible-ai-principles/) - бесплатный курс от Microsoft Learn.
* [Этика в науке о данных](https://resources.oreilly.com/examples/0636920203964) - электронная книга издательства O'Reilly (M. Loukides, H. Mason и др.)
* [Этика науки о данных](https://www.coursera.org/learn/data-science-ethics#syllabus) - онлайн курс от Мичиганского университета.
* [Этика без прикрас](https://ethicsunwrapped.utexas.edu/case-studies) - случаи из реальной практики от Техасского университета.
# Домашнее задание
[Опишите реальный случай из этики в науке о данных](assignment.ru.md)

@ -1,19 +0,0 @@
## डेटा एथिक्स केस स्टडी लिखें
## निर्देश
आपने विभिन्न [डेटा नैतिकता चुनौतियों](README.hi.md#2-ethics-challenges) के बारे में सीखा है और [केस स्टडीज](README.hi.md#3-case-studies) के कुछ उदाहरण देखे हैं जो वास्तविक दुनिया में डेटा नैतिकता चुनौतियों को दर्शाते हैं। संदर्भ
इस असाइनमेंट में, आप अपना खुद का केस स्टडी लिखेंगे, जो आपके अपने अनुभव से, या एक प्रासंगिक वास्तविक दुनिया के संदर्भ से डेटा नैतिकता चुनौती को दर्शाता है जिससे आप परिचित हैं। बस इन चरणों का पालन करें:
1. `एक डेटा नैतिकता चुनौती चुनें'। प्रेरणा पाने के लिए [पाठ के उदाहरण](README.hi.md#2-ethics-challenges) देखें या [डीऑन चेकलिस्ट](https://deon.drivendata.org/examples/) जैसे ऑनलाइन उदाहरण देखें।
2. `एक वास्तविक विश्व उदाहरण का वर्णन करें`। ऐसी स्थिति के बारे में सोचें जिसके बारे में आपने सुना है (शीर्षक, शोध अध्ययन इत्यादि) या अनुभवी (स्थानीय समुदाय), जहां यह विशिष्ट चुनौती हुई। चुनौती से संबंधित डेटा नैतिकता के सवालों के बारे में सोचें - और इस मुद्दे के कारण उत्पन्न होने वाले संभावित नुकसान या अनपेक्षित परिणामों पर चर्चा करें। बोनस अंक: संभावित समाधानों या प्रक्रियाओं के बारे में सोचें जिन्हें इस चुनौती के प्रतिकूल प्रभाव को खत्म करने या कम करने में मदद के लिए यहां लागू किया जा सकता है।
3. `संबंधित संसाधन सूची प्रदान करें`। यह साबित करने के लिए कि यह एक वास्तविक दुनिया की घटना थी, एक या अधिक संसाधन (एक लेख, एक व्यक्तिगत ब्लॉग पोस्ट या छवि, ऑनलाइन शोध पत्र आदि के लिंक) साझा करें। बोनस अंक: संसाधनों को साझा करें जो घटना से संभावित नुकसान और परिणामों को भी प्रदर्शित करते हैं, या इसकी पुनरावृत्ति को रोकने के लिए उठाए गए सकारात्मक कदमों को उजागर करते हैं।
## सरनामा
अनुकरणीय | पर्याप्त | सुधार की जरूरत
--- | --- | -- |
एक या अधिक डेटा नैतिकता चुनौतियों की पहचान की जाती है। <br/> <br/> केस स्टडी स्पष्ट रूप से एक वास्तविक दुनिया की घटना का वर्णन करती है जो उस चुनौती को दर्शाती है, और अवांछनीय परिणामों या इससे होने वाले नुकसान को उजागर करती है। <br/><br/> यह साबित करने के लिए कम से कम एक लिंक किया गया संसाधन है। | एक डेटा नैतिकता चुनौती की पहचान की गई है। <br/><br/> कम से कम एक प्रासंगिक नुकसान या परिणाम पर संक्षेप में चर्चा की गई है। <br/><br/> हालांकि चर्चा सीमित है या वास्तविक दुनिया की घटना के प्रमाण का अभाव है। | एक डेटा चुनौती की पहचान की जाती है। <br/><br/> हालांकि विवरण या संसाधन चुनौती को पर्याप्त रूप से प्रतिबिंबित नहीं करते हैं या यह साबित नहीं करते हैं कि यह वास्तविक दुनिया की घटना है। |

@ -1,21 +0,0 @@
## 데이터 윤리 사례 연구 작성
## 지침
다양한 [데이터 윤리 과제](README?id=_2-ethics-challenges)에 대해 배웠고 실제 컨텍스트의 데이터 윤리 과제를 반영하는 [사례 연구](README?id=_3-case-studies)의 몇 가지 예를 보았습니다.
이 과제에서는 자신의 경험이나 친숙한 관련 실제 상황에서 데이터 윤리 문제를 반영하는 사례 연구를 작성합니다. 다음 단계를 따르세요.
1. `데이터 윤리 과제 선택`. [수업 예시](README?id=_2-ethics-challenges)를 보거나 [Deon 체크리스트](https://deon.drivedata.org/examples/)와 같은 온라인 예시를 탐색하여 영감을 얻으십시오.
2. `실제 사례 설명`. 이러한 특정 문제가 발생한 상황(헤드라인, 연구 연구 등) 또는 경험했던(지역 커뮤니티) 상황에 대해 생각해 보십시오. 문제와 관련된 데이터 윤리 질문에 대해 생각하고 이 문제로 인해 발생하는 잠재적인 피해 또는 의도하지 않은 결과에 대해 논의합니다. 보너스 포인트: 이 문제의 부정적인 영향을 제거하거나 완화하기 위해 여기에 적용될 수 있는 잠재적 솔루션 또는 프로세스에 대해 생각하십시오.
3. `관련 자료 목록 제공`. 하나 이상의 리소스(기사 링크, 개인 블로그 게시물 또는 이미지, 온라인 연구 논문 등)를 공유하여 이것이 실제 발생했음을 증명합니다. 보너스 포인트: 사고로 인한 잠재적 피해 및 결과를 보여주는 리소스를 공유하거나 재발을 방지하기 위해 취한 긍정적인 조치를 강조합니다.
## 기준표
모범 | 충분 | 개선 필요
--- | --- | -- |
하나 이상의 데이터 윤리 문제가 식별됩니다. <br/> <br/> 사례 연구는 그 도전을 반영하는 실제 사건을 명확하게 설명하고 그로 인해 야기된 바람직하지 않은 결과 또는 피해를 강조합니다. <br/><br/> 이 문제가 발생했음을 증명하는 연결된 리소스가 하나 이상 있습니다. | 하나의 데이터 윤리 과제가 식별됩니다. <br/><br/> 적어도 하나의 관련 피해 또는 결과가 간략하게 논의됩니다. <br/><br/> 그러나 논의가 제한적이거나 실제 발생에 대한 증거가 부족합니다. | 데이터 챌린지가 식별됩니다. <br/><br/> 그러나 설명이나 리소스가 문제를 적절하게 반영하지 않거나 실제 상황임을 증명하지 못합니다. |

@ -1,21 +0,0 @@
## Schrijf een case study over data-ethiek
## Instructies
Je hebt geleerd over verschillende [Data Ethics Challenges](../README.md#2-ethics-challenges) en enkele voorbeelden gezien van [Case Studies](../README.md#3-case-studies) die uitdagingen op het gebied van data-ethiek in de praktijk weerspiegelen.
In deze opdracht schrijf je je eigen case study die een uitdaging op het gebied van data-ethiek weerspiegelt vanuit je eigen ervaring, of vanuit een relevante echte-wereld context die je kent. Volg simpelweg deze stappen:
1. `Kies een uitdaging voor data-ethiek`. Bekijk de [lesvoorbeelden](../README.md#2-ethics-challenges) of verken online voorbeelden zoals [de Deon Checklist](https://deon.drivendata.org/examples/) om inspiratie op te doen.
2. `Beschrijf een voorbeeld uit de echte wereld`. Denk aan een situatie waarvan je hebt gehoord (koppen, onderzoek enz.) of die je hebt meegemaakt (lokale gemeenschap), waarin deze specifieke uitdaging zich voordeed. Denk na over de vragen over gegevensethiek met betrekking tot de uitdaging - en bespreek de mogelijke schade of onbedoelde gevolgen die zich voordoen als gevolg van dit probleem. Bonuspunten: denk na over mogelijke oplossingen of processen die hier kunnen worden toegepast om de negatieve impact van deze uitdaging te elimineren of te verminderen.
3. `Geef een lijst met gerelateerde bronnen`. Deel een of meer bronnen (links naar een artikel, een persoonlijke blogpost of afbeelding, online onderzoekspaper enz.) om te bewijzen dat dit een echt voorval was. Bonuspunten: deel bronnen die ook de mogelijke schade en gevolgen van het incident laten zien, of belicht positieve stappen die zijn genomen om herhaling te voorkomen.
## Rubriek
Uitstekend | Adquaat | Vereist verbetering
--- | --- | -- |
Er zijn een of meer uitdagingen op het gebied van data-ethiek geïdentificeerd. <br/> <br/> De casestudy beschrijft duidelijk een incident uit de echte wereld dat die uitdaging weerspiegelt, en benadrukt ongewenste gevolgen of schade die het veroorzaakte. <br/><br/> Er is ten minste één gekoppelde bron om te bewijzen dat dit is gebeurd. | Er wordt één uitdaging op het gebied van gegevensethiek geïdentificeerd. <br/><br/> Minstens één relevante schade of gevolg wordt kort besproken. <br/><br/> De discussie is echter beperkt of er is geen bewijs van echt voorkomen. | Er wordt een data-uitdaging geïdentificeerd. <br/><br/> De beschrijving of bronnen geven echter niet voldoende de uitdaging weer of bewijzen niet voldoende dat het in de praktijk voorkomt. |

@ -1,21 +0,0 @@
## Escreva um Caso de Estudo de Ética de Dados
## Instruções
Você aprendeu sobre vários [Desafios da Ética de Dados](README.pt-br.md#2-desafios-de-ética) e viu alguns exemplos de [Estudo de Casos](README.pt-br.md#3-estudo-de-casos) refletindo desafios da ética de dados em contextos do mundo real.
Nessa tarefa você irá escrever o seu próprio estudo de caso refletindo um desafio da ética de dados de seu própria experiência, ou de um contexto relevante do mundo real que você está familiarizado. Apenas siga esses passos:
1. `Escolha um Desafio da Ética de Dados`. Olhe [os exemplos da aula](README.pt-br.md#2-desafios-de-ética) ou explore exemplos onlines como [as Checklists da Deon](https://deon.drivendata.org/examples/) para se inspirar.
2. `Descreva um Exemplo do Mundo Real`. Pense sobre a situação que você ouviu sobre (manchetes, pesquisas etc.) ou experienciou (comunidade local), onde esse desafio em específico aconteceu. Pense sobre as questões de ética de dados relacionadas ao desafio - e discuta os danos potenciais ou consequências não-ntencionais que são levantados por causa desse problema. Pontos bônus: pense sobre potenciais soluções ou precessos que podem ser aplicados aqui para ajuda a eliminar ou mitigar o impacto adverso desse desafio.
3. `Forneça um Lista de Recursos Relacionados`. Compartilhe um ou mais recursos (links para artigos, posts ou imagens de blogs pessoais, artigos de pesquisa online etc.) para provar que isso acotnece no mundo real. Pontos bônus: compartilhe recursos que também mostrar potenciais danos e consequências de incidentes, ou destacam medidas positivas tomadas para prevenir sua recorrência.
## Rubrica
Exemplar | Adequado | Precisa melhorar
--- | --- | -- |
Um ou mais desafios de ética de dados são identificados. <br/> <br/> O estudo de caso descreve claramente um incidente do mundo real refletindo aquele desafio, e destaca consequências não desejáveis ou danos que causou. <br/><br/> Existe pelo menos um recurso linkado para provar que isso aconteceu. |Um desafio da ética de dados é identificado. <br/><br/> Pelo menos um dano ou consequência relevante é discutido brevemete. <br/><br/> No entanto a discussão é limitada ou falta provas de uma ocorrência no mundo real. | Um desafio de dados é identificado. <br/><br/> No entanto a descrição ou recursos não refletem adequadamente o desafio ou provam que aconteceu no mundo real. |

@ -1,21 +0,0 @@
## Опишите реальный случай из этики в науке о данных
## Порядок выполнения
Вы узнали о различных [проблемах в науке о данных](README.ru.md#2-проблемы-этики) и увидели некоторые [случаи из реальной практики](README.ru.md#3-случаи-из-реальной-практики), отражающие этические вызовы в контексте реального мира.
В данном домашнем задании Вам предстоит написать свой собственный пример, отражающий этический вызов, из Вашего личного опыта или окружения. Следуйте шагам:
1. `Выберите этический вызов, относящийся к науке о данных`. Взгляните на [примеры из лекции](README.ru.md#2-проблемы-этики) или ознакомьтесь с примерами из Интернета, например [список Deon](https://deon.drivendata.org/examples/).
2. `Опишите случай из реальной практики`. Вспомните ситуацию, о которой Вы слышали (заголовки, исследования и т.п.) или в которой принимали участие (на местном уровне), когда именно этот этический вызов проявился. Обдумайте вопросы в рамках этики данных и обсудите ущерб или непреднамеренные последствия, которые имели место вследствие этой проблемы. Дополнительный вопрос: подумайте о потенциальных решениях или процессах, которые могли бы помочь смягчить или устранить неблагоприятное воздействие этого вызова.
3. `Приведите список использованных источников`. Поделитесь одним или несколькими ресурсами (ссылки на статьи, пост в личном блоге или изображение, исследовательская онлайн статья и др.), чтобы подтвердить достоверность приведённого случая. Дополнительный вопрос: поделитесь ресурсами, которые описывают потенциальный ущерб и последствия от инцидента, или выделите положительные изменения для предотвращения его появления.
## Оценка
Отлично | Достаточно | Нуждается в улучшении
--- | --- | -- |
Найден один или более этических вызовов. <br/> <br/> Приведённый пример полно описывает случай из реальной жизни, отражающий выбранный этический вызов и подчёркивающий нежелательные последствия или ущерб, которые он вызвал. <br/><br/> Приведён по крайней мере один источник в доказательство существования данной проблемы. | Приведёт один этический вызов. <br/><br/> Кратко описан по крайне мере один нанесённый ущерб или одно последствие. <br/><br/> Приведены неубедительные доказательства существования данной проблемы или не приведены вообще. | Вызов верно определён. <br/><br/> Приведённое описание или источники не отображают или не подтверждают существование выбранной проблемы. |

@ -1,252 +0,0 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"## Introduction to Probability and Statistics\r\n",
"## Assignment\r\n",
"\r\n",
"In this assignment, we will use the dataset of diabetes patients taken [from here](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html)."
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 13,
"source": [
"import pandas as pd\r\n",
"import numpy as np\r\n",
"\r\n",
"df = pd.read_csv(\"../../data/diabetes.tsv\",sep='\\t')\r\n",
"df.head()"
],
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
" AGE SEX BMI BP S1 S2 S3 S4 S5 S6 Y\n",
"0 59 2 32.1 101.0 157 93.2 38.0 4.0 4.8598 87 151\n",
"1 48 1 21.6 87.0 183 103.2 70.0 3.0 3.8918 69 75\n",
"2 72 2 30.5 93.0 156 93.6 41.0 4.0 4.6728 85 141\n",
"3 24 1 25.3 84.0 198 131.4 40.0 5.0 4.8903 89 206\n",
"4 50 1 23.0 101.0 192 125.4 52.0 4.0 4.2905 80 135"
],
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>AGE</th>\n",
" <th>SEX</th>\n",
" <th>BMI</th>\n",
" <th>BP</th>\n",
" <th>S1</th>\n",
" <th>S2</th>\n",
" <th>S3</th>\n",
" <th>S4</th>\n",
" <th>S5</th>\n",
" <th>S6</th>\n",
" <th>Y</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>59</td>\n",
" <td>2</td>\n",
" <td>32.1</td>\n",
" <td>101.0</td>\n",
" <td>157</td>\n",
" <td>93.2</td>\n",
" <td>38.0</td>\n",
" <td>4.0</td>\n",
" <td>4.8598</td>\n",
" <td>87</td>\n",
" <td>151</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>48</td>\n",
" <td>1</td>\n",
" <td>21.6</td>\n",
" <td>87.0</td>\n",
" <td>183</td>\n",
" <td>103.2</td>\n",
" <td>70.0</td>\n",
" <td>3.0</td>\n",
" <td>3.8918</td>\n",
" <td>69</td>\n",
" <td>75</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>72</td>\n",
" <td>2</td>\n",
" <td>30.5</td>\n",
" <td>93.0</td>\n",
" <td>156</td>\n",
" <td>93.6</td>\n",
" <td>41.0</td>\n",
" <td>4.0</td>\n",
" <td>4.6728</td>\n",
" <td>85</td>\n",
" <td>141</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>24</td>\n",
" <td>1</td>\n",
" <td>25.3</td>\n",
" <td>84.0</td>\n",
" <td>198</td>\n",
" <td>131.4</td>\n",
" <td>40.0</td>\n",
" <td>5.0</td>\n",
" <td>4.8903</td>\n",
" <td>89</td>\n",
" <td>206</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>50</td>\n",
" <td>1</td>\n",
" <td>23.0</td>\n",
" <td>101.0</td>\n",
" <td>192</td>\n",
" <td>125.4</td>\n",
" <td>52.0</td>\n",
" <td>4.0</td>\n",
" <td>4.2905</td>\n",
" <td>80</td>\n",
" <td>135</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
]
},
"metadata": {},
"execution_count": 13
}
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"\r\n",
"In this dataset, columns as the following:\r\n",
"* Age and sex are self-explanatory\r\n",
"* BMI is body mass index\r\n",
"* BP is average blood pressure\r\n",
"* S1 through S6 are different blood measurements\r\n",
"* Y is the qualitative measure of disease progression over one year\r\n",
"\r\n",
"Let's study this dataset using methods of probability and statistics.\r\n",
"\r\n",
"### Task 1: Compute mean values and variance for all values"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"### Task 2: Plot boxplots for BMI, BP and Y depending on gender"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"### Task 3: What is the the distribution of Age, Sex, BMI and Y variables?"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"### Task 4: Test the correlation between different variables and disease progression (Y)\r\n",
"\r\n",
"> **Hint** Correlation matrix would give you the most useful information on which values are dependent."
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"### Task 5: Test the hypothesis that the degree of diabetes progression is different between men and women"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [],
"metadata": {}
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python",
"version": "3.8.8",
"mimetype": "text/x-python",
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"pygments_lexer": "ipython3",
"nbconvert_exporter": "python",
"file_extension": ".py"
},
"kernelspec": {
"name": "python3",
"display_name": "Python 3.8.8 64-bit (conda)"
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long
Loading…
Cancel
Save