You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/da/1-Introduction/02-ethics
leestott b3d803186c
🌐 Update translations via Co-op Translator
4 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 4 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 4 weeks ago

README.md

Introduktion til Dataetik

 Sketchnote af (@sketchthedocs)
Data Science Ethics - Sketchnote af @nitya

Vi er alle databorger i en verden præget af data.

Markedsanalyser viser, at i 2022 vil 1 ud af 3 store organisationer købe og sælge deres data via online markedspladser og børser. Som appudviklere vil vi opleve, at det bliver lettere og billigere at integrere datadrevne indsigter og algoritmestyret automatisering i daglige brugeroplevelser. Men efterhånden som AI bliver allestedsnærværende, skal vi også forstå de potentielle skader, der kan opstå ved våbenisering af sådanne algoritmer i stor skala.

Tendenser viser også, at vi vil skabe og forbruge over 180 zettabytes data inden 2025. Som dataspecialister giver dette os en hidtil uset adgang til personlige data. Det betyder, at vi kan opbygge adfærdsprofiler af brugere og påvirke beslutningstagning på måder, der skaber en illusion af frit valg, mens vi potentielt skubber brugere mod resultater, vi foretrækker. Det rejser også bredere spørgsmål om databeskyttelse og brugerrettigheder.

Dataetik er nu nødvendige retningslinjer for datavidenskab og -teknik, der hjælper os med at minimere potentielle skader og utilsigtede konsekvenser af vores datadrevne handlinger. Gartner Hype Cycle for AI identificerer relevante tendenser inden for digital etik, ansvarlig AI og AI-styring som nøglefaktorer for større megatrends omkring demokratisering og industrialisering af AI.

Gartner's Hype Cycle for AI - 2020

I denne lektion vil vi udforske det fascinerende område dataetik - fra kernekoncepter og udfordringer til casestudier og anvendte AI-koncepter som styring - der hjælper med at etablere en etik-kultur i teams og organisationer, der arbejder med data og AI.

Quiz før lektionen 🎯

Grundlæggende Definitioner

Lad os starte med at forstå den grundlæggende terminologi.

Ordet "etik" stammer fra det græske ord "ethikos" (og dets rod "ethos"), der betyder karakter eller moralsk natur.

Etik handler om de fælles værdier og moralske principper, der styrer vores adfærd i samfundet. Etik er ikke baseret på love, men på bredt accepterede normer for, hvad der er "rigtigt vs. forkert". Dog kan etiske overvejelser påvirke virksomhedsledelse og regeringsreguleringer, der skaber flere incitamenter til overholdelse.

Dataetik er en ny gren af etik, der "undersøger og evaluerer moralske problemer relateret til data, algoritmer og tilsvarende praksis". Her fokuserer "data" på handlinger relateret til generering, registrering, kuratering, behandling, formidling, deling og brug, "algoritmer" på AI, agenter, maskinlæring og robotter, og "praksis" på emner som ansvarlig innovation, programmering, hacking og etiske kodekser.

Anvendt etik er den praktiske anvendelse af moralske overvejelser. Det er processen med aktivt at undersøge etiske spørgsmål i konteksten af virkelige handlinger, produkter og processer og tage korrigerende foranstaltninger for at sikre, at disse forbliver i overensstemmelse med vores definerede etiske værdier.

Etik-kultur handler om at operationalisere anvendt etik for at sikre, at vores etiske principper og praksisser bliver vedtaget på en konsekvent og skalerbar måde i hele organisationen. Succesfulde etik-kulturer definerer organisationens etiske principper, giver meningsfulde incitamenter til overholdelse og forstærker etiske normer ved at opmuntre og fremhæve ønsket adfærd på alle niveauer i organisationen.

Etiske Koncepter

I denne sektion vil vi diskutere koncepter som fælles værdier (principper) og etiske udfordringer (problemer) for dataetik - og udforske casestudier, der hjælper dig med at forstå disse koncepter i virkelige kontekster.

1. Etiske Principper

Enhver dataetikstrategi begynder med at definere etiske principper - de "fælles værdier", der beskriver acceptabel adfærd og guider overholdelse i vores data- og AI-projekter. Du kan definere disse på individuelt eller teamniveau. Dog skitserer de fleste store organisationer disse i en etisk AI-missionserklæring eller ramme, der er defineret på virksomhedsniveau og konsekvent håndhævet på tværs af alle teams.

Eksempel: Microsofts Responsible AI-missionserklæring lyder: "Vi er forpligtet til at fremme AI drevet af etiske principper, der sætter mennesker først" - og identificerer 6 etiske principper i nedenstående ramme:

Responsible AI hos Microsoft

Lad os kort udforske disse principper. Gennemsigtighed og ansvarlighed er grundlæggende værdier, som de andre principper bygger på - så lad os starte der:

  • Ansvarlighed gør praktikere ansvarlige for deres data- og AI-operationer og overholdelse af disse etiske principper.
  • Gennemsigtighed sikrer, at data- og AI-handlinger er forståelige (fortolkelige) for brugere og forklarer hvad og hvorfor bag beslutninger.
  • Retfærdighed fokuserer på at sikre, at AI behandler alle mennesker retfærdigt og adresserer eventuelle systemiske eller implicitte socio-tekniske skævheder i data og systemer.
  • Pålidelighed & Sikkerhed sikrer, at AI opfører sig konsekvent med definerede værdier og minimerer potentielle skader eller utilsigtede konsekvenser.
  • Privatliv & Sikkerhed handler om at forstå dataens oprindelse og give databeskyttelse og relaterede rettigheder til brugere.
  • Inklusion handler om at designe AI-løsninger med intention og tilpasse dem til at imødekomme et bredt spektrum af menneskelige behov og evner.

🚨 Overvej, hvad din dataetik-missionserklæring kunne være. Udforsk etiske AI-rammer fra andre organisationer - her er eksempler fra IBM, Google og Facebook. Hvilke fælles værdier har de? Hvordan relaterer disse principper sig til de AI-produkter eller industrier, de opererer i?

2. Etiske Udfordringer

Når vi har defineret etiske principper, er næste skridt at evaluere vores data- og AI-handlinger for at se, om de stemmer overens med disse fælles værdier. Tænk på dine handlinger i to kategorier: datainnsamling og algoritmedesign.

Ved datainnsamling vil handlinger sandsynligvis involvere personlige data eller personligt identificerbare oplysninger (PII) for identificerbare levende individer. Dette inkluderer forskellige typer ikke-personlige data, der samlet set kan identificere en person. Etiske udfordringer kan relateres til databeskyttelse, dataejerskab og relaterede emner som informeret samtykke og intellektuelle ejendomsrettigheder for brugere.

Ved algoritmedesign vil handlinger involvere indsamling og kuratering af datasæt, som derefter bruges til at træne og implementere datamodeller, der forudsiger resultater eller automatiserer beslutninger i virkelige kontekster. Etiske udfordringer kan opstå fra datasæt-skævhed, datakvalitetsproblemer, uretfærdighed og fejlrepræsentation i algoritmer - inklusive nogle problemer, der er systemiske af natur.

I begge tilfælde fremhæver etiske udfordringer områder, hvor vores handlinger kan komme i konflikt med vores fælles værdier. For at opdage, afbøde, minimere eller eliminere disse bekymringer skal vi stille moralske "ja/nej"-spørgsmål relateret til vores handlinger og derefter tage korrigerende handlinger efter behov. Lad os se på nogle etiske udfordringer og de moralske spørgsmål, de rejser:

2.1 Dataejerskab

Datainnsamling involverer ofte personlige data, der kan identificere datasubjekterne. Dataejerskab handler om kontrol og brugernes rettigheder i forhold til oprettelse, behandling og formidling af data.

De moralske spørgsmål, vi skal stille, er:

  • Hvem ejer dataene? (brugeren eller organisationen)
  • Hvilke rettigheder har datasubjekterne? (fx adgang, sletning, portabilitet)
  • Hvilke rettigheder har organisationer? (fx rette ondsindede brugeranmeldelser)

2.2 Informeret Samtykke

Informeret samtykke definerer handlingen, hvor brugere accepterer en handling (som datainnsamling) med en fuld forståelse af relevante fakta, herunder formål, potentielle risici og alternativer.

Spørgsmål at udforske her er:

  • Gav brugeren (datasubjektet) tilladelse til dataindsamling og brug?
  • Forstod brugeren formålet med, at dataene blev indsamlet?
  • Forstod brugeren de potentielle risici ved deres deltagelse?

2.3 Intellektuel Ejendomsret

Intellektuel ejendomsret refererer til immaterielle skabelser, der kan have økonomisk værdi for individer eller virksomheder.

Spørgsmål at udforske her er:

  • Havde de indsamlede data økonomisk værdi for en bruger eller virksomhed?
  • Har brugeren intellektuel ejendomsret her?
  • Har organisationen intellektuel ejendomsret her?
  • Hvis disse rettigheder eksisterer, hvordan beskytter vi dem?

2.4 Databeskyttelse

Databeskyttelse eller informationsbeskyttelse refererer til bevarelse af brugerens privatliv og beskyttelse af brugerens identitet i forhold til personligt identificerbare oplysninger.

Spørgsmål at udforske her er:

  • Er brugernes (personlige) data sikret mod hacking og lækager?
  • Er brugernes data kun tilgængelige for autoriserede brugere og kontekster?
  • Bevares brugernes anonymitet, når data deles eller formidles?
  • Kan en bruger blive de-identificeret fra anonymiserede datasæt?

2.5 Retten til at Blive Glemt

Retten til at blive glemt eller retten til sletning giver yderligere beskyttelse af personlige data til brugere. Specifikt giver det brugere ret til at anmode om sletning eller fjernelse af personlige data fra internetsøgninger og andre steder, under specifikke omstændigheder - hvilket giver dem en ny start online uden tidligere handlinger, der holdes imod dem.

Spørgsmål at udforske her er:

  • Tillader systemet datasubjekter at anmode om sletning?
  • Skal tilbagetrækning af brugerens samtykke udløse automatisk sletning?
  • Blev data indsamlet uden samtykke eller på ulovlig vis?
  • Overholder vi regeringsregler for databeskyttelse?

2.6 Datasæt-skævhed

Datasæt- eller indsamlingsskævhed handler om at vælge et ikke-repræsentativt datasæt til algoritmeudvikling, hvilket skaber potentiel uretfærdighed i resultatet for forskellige grupper. Typer af skævhed inkluderer udvælgelses- eller stikprøveskævhed, frivillighedsskævhed og instrumentel skævhed.

Spørgsmål at udforske her er:

  • Rekrutterede vi et repræsentativt sæt datasubjekter?
  • Testede vi vores indsamlede eller kuraterede datasæt for forskellige skævheder?
  • Kan vi afbøde eller fjerne eventuelle opdagede skævheder?

2.7 Datakvalitet

Datakvalitet ser på gyldigheden af det kuraterede datasæt, der bruges til at udvikle vores algoritmer, og kontrollerer, om funktioner og poster opfylder kravene til det niveau af nøjagtighed og konsistens, der er nødvendigt for vores AI-formål.

Spørgsmål at udforske her er:

  • Indfangede vi gyldige funktioner til vores brugssag?
  • Blev data indsamlet konsekvent på tværs af forskellige datakilder?
  • Er datasættet komplet for forskellige forhold eller scenarier?
  • Er information indfanget nøjagtigt i forhold til virkeligheden?

2.8 Algoritme-retfærdighed

Algorithmisk retfærdighed undersøger, om algoritmedesign systematisk diskriminerer specifikke undergrupper af datasubjekter, hvilket kan føre til potentielle skader inden for fordeling (hvor ressourcer nægtes eller tilbageholdes fra den gruppe) og kvaliteten af service (hvor AI ikke er lige så præcis for nogle undergrupper som for andre).

Spørgsmål, der kan udforskes her, er:

  • Evaluerede vi modelpræcision for forskellige undergrupper og forhold?
  • Undersøgte vi systemet for potentielle skader (f.eks. stereotyper)?
  • Kan vi revidere data eller genoptræne modeller for at afhjælpe identificerede skader?

Udforsk ressourcer som AI Fairness-tjeklister for at lære mere.

2.9 Fejlrepræsentation

Datafejlrepræsentation handler om at spørge, om vi kommunikerer indsigt fra ærligt rapporterede data på en vildledende måde for at understøtte en ønsket fortælling.

Spørgsmål, der kan udforskes her, er:

  • Rapporterer vi ufuldstændige eller unøjagtige data?
  • Visualiserer vi data på en måde, der fører til vildledende konklusioner?
  • Bruger vi selektive statistiske teknikker til at manipulere resultater?
  • Er der alternative forklaringer, der kan give en anden konklusion?

2.10 Fri vilje

Illusionen af fri vilje opstår, når systemets "valgarkitekturer" bruger beslutningsalgoritmer til at skubbe folk mod at tage et foretrukket resultat, mens det ser ud som om, de har valgmuligheder og kontrol. Disse mørke mønstre kan forårsage sociale og økonomiske skader for brugere. Fordi brugerbeslutninger påvirker adfærdsprofiler, kan disse handlinger potentielt drive fremtidige valg, der kan forstærke eller udvide virkningen af disse skader.

Spørgsmål, der kan udforskes her, er:

  • Forstod brugeren konsekvenserne af at træffe det valg?
  • Var brugeren opmærksom på (alternative) valg og fordele & ulemper ved hver?
  • Kan brugeren senere fortryde et automatiseret eller påvirket valg?

3. Case-studier

For at sætte disse etiske udfordringer i virkelige kontekster hjælper det at se på case-studier, der fremhæver de potentielle skader og konsekvenser for individer og samfund, når sådanne etiske overtrædelser overses.

Her er nogle eksempler:

Etisk udfordring Case-studie
Informeret samtykke 1972 - Tuskegee Syphilis Study - Afroamerikanske mænd, der deltog i undersøgelsen, blev lovet gratis lægehjælp men blev bedraget af forskere, der undlod at informere dem om deres diagnose eller om tilgængelig behandling. Mange døde, og partnere eller børn blev påvirket; undersøgelsen varede i 40 år.
Databeskyttelse 2007 - Netflix data prize gav forskere 10M anonymiserede filmvurderinger fra 50K kunder for at hjælpe med at forbedre anbefalingsalgoritmer. Forskere kunne dog korrelere anonymiserede data med personligt identificerbare data i eksterne datasæt (f.eks. IMDb-kommentarer) - effektivt "de-anonymiserende" nogle Netflix-abonnenter.
Indsamlingsbias 2013 - Boston City udviklede Street Bump, en app, der lod borgere rapportere huller i vejen, hvilket gav byen bedre data til at finde og løse problemer. Dog havde folk i lavindkomstgrupper mindre adgang til biler og telefoner, hvilket gjorde deres vejproblemer usynlige i denne app. Udviklere arbejdede med akademikere for at løse lighed i adgang og digitale skel for retfærdighed.
Algoritmisk retfærdighed 2018 - MIT Gender Shades Study evaluerede nøjagtigheden af AI-produkter til kønsidentifikation og afslørede mangler i nøjagtighed for kvinder og farvede personer. Et 2019 Apple Card syntes at tilbyde mindre kredit til kvinder end mænd. Begge illustrerede problemer med algoritmisk bias, der førte til socioøkonomiske skader.
Datafejlrepræsentation 2020 - Georgia Department of Public Health udgav COVID-19-diagrammer, der syntes at vildlede borgere om tendenser i bekræftede tilfælde med ikke-kronologisk rækkefølge på x-aksen. Dette illustrerer fejlrepræsentation gennem visualiseringstricks.
Illusionen af fri vilje 2020 - Læringsappen ABCmouse betalte $10M for at løse en FTC-klage, hvor forældre blev fanget i at betale for abonnementer, de ikke kunne annullere. Dette illustrerer mørke mønstre i valgarkitekturer, hvor brugere blev skubbet mod potentielt skadelige valg.
Databeskyttelse & brugerrettigheder 2021 - Facebook Data Breach afslørede data fra 530M brugere, hvilket resulterede i en $5B forlig med FTC. Det nægtede dog at informere brugere om bruddet og overtrådte brugerrettigheder omkring datatransparens og adgang.

Vil du udforske flere case-studier? Tjek disse ressourcer:

🚨 Tænk over de case-studier, du har set - har du oplevet eller været påvirket af en lignende etisk udfordring i dit liv? Kan du tænke på mindst én anden case-studie, der illustrerer en af de etiske udfordringer, vi har diskuteret i dette afsnit?

Anvendt etik

Vi har talt om etiske begreber, udfordringer og case-studier i virkelige kontekster. Men hvordan kommer vi i gang med at anvende etiske principper og praksisser i vores projekter? Og hvordan operationaliserer vi disse praksisser for bedre styring? Lad os udforske nogle løsninger fra den virkelige verden:

1. Professionelle kodekser

Professionelle kodekser tilbyder en mulighed for organisationer til at "incitamentere" medlemmer til at støtte deres etiske principper og mission. Kodekser er moralske retningslinjer for professionel adfærd, der hjælper medarbejdere eller medlemmer med at træffe beslutninger, der stemmer overens med organisationens principper. De er kun så gode som den frivillige overholdelse fra medlemmer; dog tilbyder mange organisationer yderligere belønninger og sanktioner for at motivere overholdelse.

Eksempler inkluderer:

🚨 Tilhører du en professionel ingeniør- eller data science-organisation? Udforsk deres hjemmeside for at se, om de definerer en professionel etisk kodeks. Hvad siger dette om deres etiske principper? Hvordan "incitamenterer" de medlemmer til at følge kodeksen?

2. Etiske tjeklister

Mens professionelle kodekser definerer krævet etisk adfærd fra praktikere, har de kendte begrænsninger i håndhævelse, især i storskala projekter. I stedet anbefaler mange data science-eksperter tjeklister, der kan forbinde principper med praksis på mere deterministiske og handlingsorienterede måder.

Tjeklister konverterer spørgsmål til "ja/nej"-opgaver, der kan operationaliseres, hvilket gør det muligt at spore dem som en del af standard produktudgivelsesarbejdsgange.

Eksempler inkluderer:

  • Deon - en generel dataetisk tjekliste oprettet fra brancheanbefalinger med et kommandolinjeværktøj for nem integration.
  • Privacy Audit Checklist - giver generel vejledning til informationshåndteringspraksis fra juridiske og sociale eksponeringsperspektiver.
  • AI Fairness Checklist - oprettet af AI-praktikere for at støtte adoption og integration af fairness-tjek i AI-udviklingscyklusser.
  • 22 spørgsmål om etik i data og AI - en mere åben ramme, struktureret til indledende udforskning af etiske spørgsmål i design, implementering og organisatoriske kontekster.

3. Etiske reguleringer

Etik handler om at definere fælles værdier og gøre det rigtige frivilligt. Overholdelse handler om at følge loven, hvis og hvor den er defineret. Styring dækker bredt alle de måder, hvorpå organisationer opererer for at håndhæve etiske principper og overholde etablerede love.

I dag tager styring to former inden for organisationer. For det første handler det om at definere etiske AI-principper og etablere praksisser for at operationalisere adoption på tværs af alle AI-relaterede projekter i organisationen. For det andet handler det om at overholde alle regeringsmandaterede databeskyttelsesreguleringer for de regioner, den opererer i.

Eksempler på databeskyttelses- og privatlivsreguleringer:

🚨 Den Europæiske Union definerede GDPR (General Data Protection Regulation) forbliver en af de mest indflydelsesrige databeskyttelsesreguleringer i dag. Vidste du, at den også definerer 8 brugerrettigheder for at beskytte borgernes digitale privatliv og personlige data? Lær om, hvad disse er, og hvorfor de betyder noget.

4. Etisk kultur

Bemærk, at der stadig er en uhåndgribelig kløft mellem overholdelse (at gøre nok for at opfylde "lovens bogstav") og adressering af systemiske problemer (som stivhed, informationsasymmetri og fordelingsmæssig uretfærdighed), der kan fremskynde våbeniseringen af AI.

Sidstnævnte kræver samarbejdsmetoder til at definere etiske kulturer, der bygger følelsesmæssige forbindelser og konsistente fælles værdier på tværs af organisationer i branchen. Dette kalder på mere formaliserede dataetiske kulturer i organisationer - hvilket giver enhver mulighed for at trække Andon-snoren (for at rejse etiske bekymringer tidligt i processen) og gøre etiske vurderinger (f.eks. ved ansættelse) til et kernekriterium for teamdannelse i AI-projekter.


Quiz efter forelæsning 🎯

Gennemgang & Selvstudie

Kurser og bøger hjælper med at forstå kerneetikbegreber og udfordringer, mens case-studier og værktøjer hjælper med anvendte etiske praksisser i virkelige kontekster. Her er nogle ressourcer at starte med.

Opgave

Skriv en case study om dataetik


Ansvarsfraskrivelse:
Dette dokument er blevet oversat ved hjælp af AI-oversættelsestjenesten Co-op Translator. Selvom vi bestræber os på nøjagtighed, skal du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det originale dokument på dets oprindelige sprog bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi er ikke ansvarlige for eventuelle misforståelser eller fejltolkninger, der måtte opstå som følge af brugen af denne oversættelse.