History

leestott b3d803186c 🌐 Update translations via Co-op Translator		4 weeks ago
..
README.md	🌐 Update translations via Co-op Translator	4 weeks ago
assignment.md	🌐 Update translations via Co-op Translator	4 weeks ago

README.md

Introduktion till Dataetik


Dataetik inom Data Science - Sketchnote av @nitya

Vi är alla datamedborgare som lever i en datadriven värld.

Marknadstrender visar att år 2022 kommer 1 av 3 stora organisationer att köpa och sälja sin data via online-marknadsplatser och börser. Som apputvecklare kommer vi att upptäcka att det blir enklare och billigare att integrera datadrivna insikter och algoritmstyrd automation i dagliga användarupplevelser. Men när AI blir alltmer utbrett måste vi också förstå de potentiella skador som kan orsakas av vapenisering av sådana algoritmer i stor skala.

Trender visar också att vi kommer att skapa och konsumera över 180 zettabyte data år 2025. Som dataforskare ger detta oss enastående tillgång till personlig data. Det innebär att vi kan bygga beteendeprofiler av användare och påverka beslutsfattande på sätt som skapar en illusion av fritt val, samtidigt som vi potentiellt styr användare mot resultat vi föredrar. Detta väcker också bredare frågor om dataintegritet och användarskydd.

Dataetik är nu nödvändiga skyddsräcken för data science och ingenjörskonst, som hjälper oss att minimera potentiella skador och oavsiktliga konsekvenser av våra datadrivna handlingar. Gartner Hype Cycle för AI identifierar relevanta trender inom digital etik, ansvarsfull AI och AI-styrning som nyckeldrivkrafter för större megatrender kring demokratisering och industrialisering av AI.

I denna lektion kommer vi att utforska det fascinerande området dataetik - från grundläggande koncept och utmaningar till fallstudier och tillämpade AI-koncept som styrning - som hjälper till att etablera en etikkultur i team och organisationer som arbetar med data och AI.

Förtest innan föreläsning 🎯

Grundläggande Definitioner

Låt oss börja med att förstå den grundläggande terminologin.

Ordet "etik" kommer från det grekiska ordet "ethikos" (och dess rot "ethos") som betyder karaktär eller moralisk natur.

Etik handlar om de gemensamma värderingar och moraliska principer som styr vårt beteende i samhället. Etik baseras inte på lagar utan på allmänt accepterade normer för vad som är "rätt kontra fel". Etiska överväganden kan dock påverka företagsstyrningsinitiativ och regeringsregleringar som skapar fler incitament för efterlevnad.

Dataetik är en ny gren av etiken som "studerar och utvärderar moraliska problem relaterade till data, algoritmer och motsvarande praxis". Här fokuserar "data" på åtgärder relaterade till generering, registrering, kurering, bearbetning, spridning, delning och användning, "algoritmer" fokuserar på AI, agenter, maskininlärning och robotar, och "praxis" fokuserar på ämnen som ansvarsfull innovation, programmering, hacking och etiska koder.

Tillämpad etik är den praktiska tillämpningen av moraliska överväganden. Det är processen att aktivt undersöka etiska frågor i sammanhanget av verkliga handlingar, produkter och processer och vidta korrigerande åtgärder för att säkerställa att dessa förblir i linje med våra definierade etiska värderingar.

Etikkultur handlar om operationalisering av tillämpad etik för att säkerställa att våra etiska principer och praxis antas på ett konsekvent och skalbart sätt i hela organisationen. Framgångsrika etikkulturer definierar organisationsövergripande etiska principer, tillhandahåller meningsfulla incitament för efterlevnad och förstärker etiska normer genom att uppmuntra och förstärka önskade beteenden på alla nivåer i organisationen.

Etiska Koncept

I denna sektion kommer vi att diskutera koncept som gemensamma värderingar (principer) och etiska utmaningar (problem) för dataetik - och utforska fallstudier som hjälper dig att förstå dessa koncept i verkliga sammanhang.

1. Etiska Principer

Varje strategi för dataetik börjar med att definiera etiska principer - de "gemensamma värderingar" som beskriver acceptabla beteenden och vägleder efterlevnad i våra data- och AI-projekt. Du kan definiera dessa på individuell eller teamnivå. De flesta stora organisationer beskriver dock dessa i ett etiskt AI-uppdrag eller ramverk som definieras på företagsnivå och tillämpas konsekvent över alla team.

Exempel: Microsofts Ansvarsfull AI uppdrag lyder: "Vi är engagerade i att främja AI som drivs av etiska principer som sätter människor i första hand" - och identifierar 6 etiska principer i ramverket nedan:

Låt oss kortfattat utforska dessa principer. Transparens och ansvarighet är grundläggande värderingar som andra principer bygger på - så låt oss börja där:

Ansvarighet gör praktiker ansvariga för sina data- och AI-operationer och efterlevnad av dessa etiska principer.
Transparens säkerställer att data- och AI-åtgärder är förståeliga (tolkbara) för användare och förklarar vad och varför bakom beslut.
Rättvisa - fokuserar på att säkerställa att AI behandlar alla människor rättvist och adresserar eventuella systemiska eller implicita socio-tekniska fördomar i data och system.
Tillförlitlighet och Säkerhet - säkerställer att AI beter sig konsekvent med definierade värderingar och minimerar potentiella skador eller oavsiktliga konsekvenser.
Integritet och Säkerhet - handlar om att förstå datahärkomst och tillhandahålla dataintegritet och relaterade skydd för användare.
Inkludering - handlar om att designa AI-lösningar med avsikt och anpassa dem för att möta ett brett spektrum av mänskliga behov och förmågor.

🚨 Fundera på vad ditt dataetiska uppdrag skulle kunna vara. Utforska etiska AI-ramverk från andra organisationer - här är exempel från IBM, Google och Facebook. Vilka gemensamma värderingar har de? Hur relaterar dessa principer till AI-produkten eller branschen de verkar inom?

2. Etiska Utmaningar

När vi har definierat etiska principer är nästa steg att utvärdera våra data- och AI-åtgärder för att se om de är i linje med dessa gemensamma värderingar. Tänk på dina åtgärder i två kategorier: datainsamling och algoritmdesign.

Vid datainsamling kommer åtgärder sannolikt att involvera personlig data eller personligt identifierbar information (PII) för identifierbara levande individer. Detta inkluderar olika typer av icke-personlig data som tillsammans kan identifiera en individ. Etiska utmaningar kan relatera till dataintegritet, dataägande och relaterade ämnen som informerat samtycke och immateriella rättigheter för användare.

Vid algoritmdesign kommer åtgärder att involvera insamling och kurering av datamängder, och sedan använda dem för att träna och distribuera datamodeller som förutspår resultat eller automatiserar beslut i verkliga sammanhang. Etiska utmaningar kan uppstå från datamängdsfördomar, datakvalitetsproblem, orättvisor och missrepresentation i algoritmer - inklusive vissa problem som är systemiska till sin natur.

I båda fallen belyser etiska utmaningar områden där våra åtgärder kan komma i konflikt med våra gemensamma värderingar. För att upptäcka, mildra, minimera eller eliminera dessa bekymmer måste vi ställa moraliska "ja/nej"-frågor relaterade till våra åtgärder och sedan vidta korrigerande åtgärder vid behov. Låt oss titta på några etiska utmaningar och de moraliska frågor de väcker:

2.1 Dataägande

Datainsamling involverar ofta personlig data som kan identifiera datasubjekt. Dataägande handlar om kontroll och användarrättigheter relaterade till skapande, bearbetning och spridning av data.

De moraliska frågor vi behöver ställa är:

Vem äger datan? (användare eller organisation)
Vilka rättigheter har datasubjekt? (ex: åtkomst, radering, portabilitet)
Vilka rättigheter har organisationer? (ex: rätta illvilliga användarrecensioner)

2.2 Informerat Samtycke

Informerat samtycke definierar handlingen där användare samtycker till en åtgärd (som datainsamling) med en full förståelse av relevanta fakta inklusive syfte, potentiella risker och alternativ.

Frågor att utforska här är:

Gav användaren (datasubjektet) tillstånd för datainsamling och användning?
Förstod användaren syftet med att datan samlades in?
Förstod användaren de potentiella riskerna med sitt deltagande?

2.3 Immateriella Rättigheter

Immateriella rättigheter avser immateriella skapelser som härrör från mänskligt initiativ och som kan ha ekonomiskt värde för individer eller företag.

Frågor att utforska här är:

Hade den insamlade datan ekonomiskt värde för en användare eller ett företag?
Har användaren immateriella rättigheter här?
Har organisationen immateriella rättigheter här?
Om dessa rättigheter existerar, hur skyddar vi dem?

2.4 Dataintegritet

Dataintegritet eller informationsintegritet avser bevarandet av användarens integritet och skyddet av användarens identitet med avseende på personligt identifierbar information.

Frågor att utforska här är:

Är användarnas (personliga) data säkrad mot hack och läckor?
Är användarnas data endast tillgänglig för auktoriserade användare och sammanhang?
Bevaras användarnas anonymitet när data delas eller sprids?
Kan en användare avidentifieras från anonymiserade datamängder?

2.5 Rätten att Bli Glömd

Rätten att bli glömd eller Rätten till Radering ger ytterligare skydd för personlig data till användare. Specifikt ger det användare rätt att begära radering eller borttagning av personlig data från internetsökningar och andra platser, under specifika omständigheter - vilket ger dem en ny start online utan att tidigare handlingar hålls emot dem.

Frågor att utforska här är:

Tillåter systemet datasubjekt att begära radering?
Bör återkallande av användarsamtycke utlösa automatisk radering?
Samlades data in utan samtycke eller på olagliga sätt?
Är vi kompatibla med regeringsregler för dataintegritet?

2.6 Datamängdsfördomar

Datamängds- eller insamlingfördomar handlar om att välja en icke-representativ delmängd av data för algoritmutveckling, vilket skapar potentiell orättvisa i resultat för olika grupper. Typer av fördomar inkluderar urvals- eller samplingsfördomar, frivilligfördomar och instrumentfördomar.

Frågor att utforska här är:

Rekryterade vi en representativ uppsättning datasubjekt?
Testade vi vår insamlade eller kuraterade datamängd för olika fördomar?
Kan vi mildra eller ta bort några upptäckta fördomar?

2.7 Datakvalitet

Datakvalitet handlar om att kontrollera giltigheten hos den kuraterade datamängden som används för att utveckla våra algoritmer, och säkerställa att funktioner och poster uppfyller kraven för den nivå av noggrannhet och konsekvens som behövs för vårt AI-syfte.

Frågor att utforska här är:

Fångade vi giltiga funktioner för vårt användningsfall?
Samlades data in konsekvent över olika datakällor?
Är datamängden komplett för olika förhållanden eller scenarier?
Är informationen som samlades in korrekt i att återspegla verkligheten?

2.8 Algoritmisk Rättvisa

Algoritmisk rättvisa handlar om att undersöka om algoritmdesignen systematiskt diskriminerar specifika undergrupper av datamottagare, vilket kan leda till potentiella skador inom resursfördelning (där resurser nekas eller undanhålls från den gruppen) och servicekvalitet (där AI inte är lika exakt för vissa undergrupper som för andra).

Frågor att utforska här är:

Har vi utvärderat modellens noggrannhet för olika undergrupper och förhållanden?
Har vi granskat systemet för potentiella skador (t.ex. stereotyper)?
Kan vi revidera data eller träna om modeller för att minska identifierade skador?

Utforska resurser som AI Fairness checklists för att lära dig mer.

2.9 Missrepresentation

Datamissrepresentation handlar om att fråga om vi kommunicerar insikter från ärligt rapporterad data på ett vilseledande sätt för att stödja en önskad berättelse.

Frågor att utforska här är:

Rapporterar vi ofullständig eller felaktig data?
Visualiserar vi data på ett sätt som leder till vilseledande slutsatser?
Använder vi selektiva statistiska tekniker för att manipulera resultat?
Finns det alternativa förklaringar som kan ge en annan slutsats?

2.10 Fri vilja

Illusionen av fri vilja uppstår när systemets "valarkitekturer" använder beslutsalgoritmer för att påverka människor att ta ett föredraget resultat, samtidigt som det verkar ge dem alternativ och kontroll. Dessa mörka mönster kan orsaka social och ekonomisk skada för användare. Eftersom användarbeslut påverkar beteendeprofiler kan dessa handlingar potentiellt driva framtida val som förstärker eller förlänger effekten av dessa skador.

Frågor att utforska här är:

Förstod användaren konsekvenserna av att göra det valet?
Var användaren medveten om (alternativa) val och för- och nackdelarna med varje?
Kan användaren senare ändra ett automatiserat eller påverkat val?

3. Fallstudier

För att sätta dessa etiska utmaningar i verkliga sammanhang kan det vara hjälpsamt att titta på fallstudier som belyser potentiella skador och konsekvenser för individer och samhället när sådana etiska överträdelser förbises.

Här är några exempel:

Etisk utmaning	Fallstudie
Informerat samtycke	1972 - Tuskegee Syphilis Study - Afroamerikanska män som deltog i studien lovades gratis medicinsk vård men blev lurade av forskare som inte informerade deltagarna om deras diagnos eller om tillgänglig behandling. Många deltagare dog och deras partners eller barn påverkades; studien pågick i 40 år.
Datasekretess	2007 - Netflix data prize gav forskare 10M anonymiserade filmrankningar från 50K kunder för att förbättra rekommendationsalgoritmer. Forskare kunde dock korrelera anonymiserad data med personligt identifierbar data i externa dataset (t.ex. IMDb-kommentarer) - vilket effektivt "de-anonymiserade" vissa Netflix-abonnenter.
Insamlingsbias	2013 - Staden Boston utvecklade Street Bump, en app som lät medborgare rapportera potthål, vilket gav staden bättre vägdata för att hitta och åtgärda problem. Dock hade personer i låginkomstgrupper mindre tillgång till bilar och telefoner, vilket gjorde deras vägproblem osynliga i appen. Utvecklare samarbetade med akademiker för att hantera rättvis tillgång och digitala klyftor.
Algoritmisk rättvisa	2018 - MIT:s Gender Shades Study utvärderade noggrannheten hos AI-produkter för könsklassificering och avslöjade brister i noggrannhet för kvinnor och personer med mörkare hudton. Ett 2019 Apple Card verkade erbjuda mindre kredit till kvinnor än män. Båda exemplen illustrerade problem med algoritmisk bias som leder till socioekonomiska skador.
Datamissrepresentation	2020 - Georgia Department of Public Health släppte COVID-19-diagram som verkade vilseleda medborgare om trender i bekräftade fall med icke-kronologisk ordning på x-axeln. Detta illustrerar missrepresentation genom visualiseringstrick.
Illusionen av fri vilja	2020 - Läroappen ABCmouse betalade $10M för att lösa en FTC-klagan där föräldrar fastnade i att betala för abonnemang de inte kunde avsluta. Detta illustrerar mörka mönster i valarkitekturer, där användare påverkades att göra potentiellt skadliga val.
Datasekretess & användarrättigheter	2021 - Facebook Data Breach exponerade data från 530M användare, vilket resulterade i en $5B-uppgörelse med FTC. Företaget vägrade dock att informera användare om dataintrånget, vilket bröt mot användarrättigheter kring datatransparens och åtkomst.

Vill du utforska fler fallstudier? Kolla in dessa resurser:

Ethics Unwrapped - etiska dilemman inom olika branscher.
Data Science Ethics course - fallstudier som utforskas.
Where things have gone wrong - deon-checklista med exempel.

🚨 Tänk på de fallstudier du har sett - har du upplevt eller blivit påverkad av en liknande etisk utmaning i ditt liv? Kan du komma på minst en annan fallstudie som illustrerar en av de etiska utmaningarna vi har diskuterat i detta avsnitt?

Tillämpad etik

Vi har pratat om etiska koncept, utmaningar och fallstudier i verkliga sammanhang. Men hur börjar vi tillämpa etiska principer och praxis i våra projekt? Och hur operationaliserar vi dessa praxis för bättre styrning? Låt oss utforska några verkliga lösningar:

1. Professionella koder

Professionella koder erbjuder ett alternativ för organisationer att "motivera" medlemmar att stödja deras etiska principer och uppdragsbeskrivning. Koder är moraliska riktlinjer för professionellt beteende och hjälper anställda eller medlemmar att fatta beslut som överensstämmer med organisationens principer. De är endast effektiva om medlemmarna frivilligt följer dem; dock erbjuder många organisationer ytterligare belöningar och straff för att motivera efterlevnad.

Exempel inkluderar:

Oxford Munich Code of Ethics
Data Science Association Code of Conduct (skapad 2013)
ACM Code of Ethics and Professional Conduct (sedan 1993)

🚨 Tillhör du en professionell ingenjörs- eller datavetenskapsorganisation? Utforska deras webbplats för att se om de definierar en professionell etisk kod. Vad säger detta om deras etiska principer? Hur motiverar de medlemmar att följa koden?

2. Etiska checklistor

Medan professionella koder definierar nödvändigt etiskt beteende från praktiker, har de kända begränsningar i efterlevnad, särskilt i storskaliga projekt. Istället förespråkar många datavetenskapsexperter checklistor som kan koppla principer till praxis på mer deterministiska och handlingsbara sätt.

Checklistor omvandlar frågor till "ja/nej"-uppgifter som kan operationaliseras, vilket gör att de kan spåras som en del av standardarbetsflöden för produktlansering.

Exempel inkluderar:

Deon - en allmän datavetenskaplig etisk checklista skapad från branschrekommendationer med ett kommandoradsverktyg för enkel integration.
Privacy Audit Checklist - ger allmän vägledning för informationshantering ur juridiska och sociala perspektiv.
AI Fairness Checklist - skapad av AI-praktiker för att stödja adoption och integration av rättvisekontroller i AI-utvecklingscykler.
22 frågor för etik inom data och AI - en mer öppen ram, strukturerad för initial utforskning av etiska frågor i design, implementering och organisatoriska sammanhang.

3. Etiska regleringar

Etik handlar om att definiera gemensamma värderingar och göra det rätta frivilligt. Efterlevnad handlar om att följa lagen där den är definierad. Styrning täcker brett alla sätt som organisationer arbetar för att upprätthålla etiska principer och följa etablerade lagar.

Idag tar styrning två former inom organisationer. För det första handlar det om att definiera etiska AI-principer och etablera praxis för att operationalisera adoption över alla AI-relaterade projekt i organisationen. För det andra handlar det om att följa alla statligt föreskrivna dataskyddsregleringar för regioner där organisationen verkar.

Exempel på dataskydds- och sekretessregleringar:

1974, US Privacy Act - reglerar federala myndigheters insamling, användning och spridning av personlig information.
1996, US Health Insurance Portability & Accountability Act (HIPAA) - skyddar personlig hälsodata.
1998, US Children's Online Privacy Protection Act (COPPA) - skyddar datasekretess för barn under 13 år.
2018, General Data Protection Regulation (GDPR) - ger användarrättigheter, dataskydd och sekretess.
2018, California Consumer Privacy Act (CCPA) ger konsumenter fler rättigheter över deras (personliga) data.
2021, Kinas Personal Information Protection Law antogs nyligen och skapar en av de starkaste regleringarna för datasekretess online i världen.

🚨 Europeiska unionens GDPR (General Data Protection Regulation) är fortfarande en av de mest inflytelserika regleringarna för datasekretess idag. Visste du att den också definierar 8 användarrättigheter för att skydda medborgares digitala sekretess och personliga data? Lär dig vad dessa är och varför de är viktiga.

4. Etisk kultur

Observera att det fortfarande finns en immateriell klyfta mellan efterlevnad (att göra tillräckligt för att uppfylla "lagens bokstav") och att adressera systemiska problem (som stelbenthet, informationsasymmetri och orättvis fördelning) som kan påskynda vapeniseringen av AI.

Det senare kräver samarbetsmetoder för att definiera etiska kulturer som bygger känslomässiga kopplingar och konsekventa gemensamma värderingar över organisationer inom branschen. Detta kräver mer formaliserade datavetenskapliga etiska kulturer i organisationer - vilket gör det möjligt för vem som helst att dra Andon-snöret (för att lyfta etiska problem tidigt i processen) och göra etiska bedömningar (t.ex. vid rekrytering) till ett kärnkriterium för teamformation i AI-projekt.

Quiz efter föreläsningen 🎯

Granskning & Självstudier

Kurser och böcker hjälper till att förstå grundläggande etiska koncept och utmaningar, medan fallstudier och verktyg hjälper till med tillämpad etik i verkliga sammanhang. Här är några resurser att börja med.

Machine Learning For Beginners - lektion om rättvisa, från Microsoft.
Principer för Ansvarsfull AI - gratis utbildningsväg från Microsoft Learn.
Etik och Data Science - O'Reilly EBook (M. Loukides, H. Mason m.fl.)
Data Science Etik - onlinekurs från University of Michigan.
Ethics Unwrapped - fallstudier från University of Texas.

Uppgift

Skriv en fallstudie om dataetik

Ansvarsfriskrivning:
Detta dokument har översatts med hjälp av AI-översättningstjänsten Co-op Translator. Även om vi strävar efter noggrannhet, bör det noteras att automatiska översättningar kan innehålla fel eller inexaktheter. Det ursprungliga dokumentet på dess originalspråk bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för eventuella missförstånd eller feltolkningar som kan uppstå vid användning av denna översättning.