|
|
5 months ago | |
|---|---|---|
| .. | ||
| README.md | 5 months ago | |
| assignment.md | 6 months ago | |
README.md
Introduksjon til Dataetikk
![]() |
|---|
| Data Science Ethics - Sketchnote av @nitya |
Vi er alle databorgere som lever i en verden preget av data.
Markedsanalyser viser at innen 2022 vil én av tre store organisasjoner kjøpe og selge data gjennom online markedsplasser og utvekslinger. Som apputviklere vil vi oppleve at det blir enklere og billigere å integrere datadrevne innsikter og algoritmestyrt automatisering i daglige brukeropplevelser. Men ettersom AI blir mer utbredt, må vi også forstå de potensielle skadene som kan oppstå ved våpenisering av slike algoritmer i stor skala.
Trender antyder at innen 2025 vil vi generere og konsumere over 180 zettabyte med data. For dataforskere gir denne eksplosjonen av informasjon enestående tilgang til personlig og atferdsrelatert data. Med dette kommer makten til å bygge detaljerte brukerprofiler og subtilt påvirke beslutningstaking—ofte på måter som skaper en illusjon av fri vilje. Selv om dette kan brukes til å dytte brukere mot ønskede utfall, reiser det også kritiske spørsmål om dataprivacy, autonomi og de etiske grensene for algoritmisk påvirkning.
Dataetikk er nå nødvendige retningslinjer for dataforskning og ingeniørarbeid, som hjelper oss med å minimere potensielle skader og utilsiktede konsekvenser av våre datadrevne handlinger. Gartner Hype Cycle for AI identifiserer relevante trender innen digital etikk, ansvarlig AI og AI-styring som nøkkeldrivere for større megatrender rundt demokratisering og industrialisering av AI.
I denne leksjonen skal vi utforske det fascinerende området dataetikk - fra grunnleggende konsepter og utfordringer til casestudier og anvendte AI-konsepter som styring - som hjelper med å etablere en etisk kultur i team og organisasjoner som jobber med data og AI.
Quiz før forelesning 🎯
Grunnleggende definisjoner
La oss starte med å forstå grunnleggende terminologi.
Ordet "etikk" kommer fra det greske ordet "ethikos" (og dets rot "ethos") som betyr karakter eller moralsk natur.
Etikk handler om de delte verdiene og moralske prinsippene som styrer vår oppførsel i samfunnet. Etikk er ikke basert på lover, men på bredt aksepterte normer for hva som er "riktig vs. galt". Imidlertid kan etiske hensyn påvirke initiativer for selskapsstyring og myndighetsreguleringer som skaper flere insentiver for samsvar.
Dataetikk er en ny gren av etikk som "studerer og evaluerer moralske problemer knyttet til data, algoritmer og tilhørende praksis". Her fokuserer "data" på handlinger relatert til generering, registrering, kuratering, behandling, spredning, deling og bruk, "algoritmer" fokuserer på AI, agenter, maskinlæring og roboter, og "praksis" fokuserer på temaer som ansvarlig innovasjon, programmering, hacking og etiske koder.
Anvendt etikk er den praktiske anvendelsen av moralske hensyn. Det er prosessen med aktivt å undersøke etiske spørsmål i konteksten av virkelige handlinger, produkter og prosesser, og ta korrigerende tiltak for å sikre at disse forblir i tråd med våre definerte etiske verdier.
Etisk kultur handler om operasjonalisering av anvendt etikk for å sikre at våre etiske prinsipper og praksiser blir tatt i bruk på en konsekvent og skalerbar måte i hele organisasjonen. Vellykkede etiske kulturer definerer organisasjonsomfattende etiske prinsipper, gir meningsfulle insentiver for samsvar og forsterker etiske normer ved å oppmuntre og forsterke ønsket atferd på alle nivåer i organisasjonen.
Etiske konsepter
I denne delen skal vi diskutere konsepter som delte verdier (prinsipper) og etiske utfordringer (problemer) for dataetikk - og utforske casestudier som hjelper deg med å forstå disse konseptene i virkelige kontekster.
1. Etiske prinsipper
Hver dataetikkstrategi begynner med å definere etiske prinsipper - de "delte verdiene" som beskriver akseptabel oppførsel og veileder samsvarende handlinger i våre data- og AI-prosjekter. Du kan definere disse på individ- eller teamnivå. Imidlertid skisserer de fleste store organisasjoner disse i en etisk AI-misjonserklæring eller rammeverk som er definert på selskapsnivå og håndhevet konsekvent på tvers av alle team.
Eksempel: Microsofts Responsible AI-misjonserklæring lyder: "Vi er forpliktet til å fremme AI drevet av etiske prinsipper som setter mennesker først" - og identifiserer 6 etiske prinsipper i rammeverket nedenfor:
La oss kort utforske disse prinsippene. Åpenhet og ansvarlighet er grunnleggende verdier som de andre prinsippene bygger på - så la oss begynne der:
- Ansvarlighet gjør utøvere ansvarlige for sine data- og AI-operasjoner og samsvar med disse etiske prinsippene.
- Åpenhet sikrer at data- og AI-handlinger er forståelige (tolkbare) for brukere, og forklarer hva og hvorfor bak beslutninger.
- Rettferdighet fokuserer på å sikre at AI behandler alle mennesker rettferdig, og adresserer eventuelle systemiske eller implisitte sosio-tekniske skjevheter i data og systemer.
- Pålitelighet og sikkerhet sikrer at AI oppfører seg konsekvent med definerte verdier, og minimerer potensielle skader eller utilsiktede konsekvenser.
- Personvern og sikkerhet handler om å forstå dataenes opprinnelse og gi datapersonvern og relaterte beskyttelser til brukere.
- Inkludering handler om å designe AI-løsninger med intensjon, og tilpasse dem for å møte et bredt spekter av menneskelige behov og evner.
🚨 Tenk på hva din dataetikk-misjonerklæring kunne vært. Utforsk etiske AI-rammeverk fra andre organisasjoner - her er eksempler fra IBM, Google og Facebook. Hvilke delte verdier har de til felles? Hvordan relaterer disse prinsippene seg til AI-produktet eller industrien de opererer i?
2. Etiske utfordringer
Når vi har definert etiske prinsipper, er neste steg å evaluere våre data- og AI-handlinger for å se om de samsvarer med disse delte verdiene. Tenk på handlingene dine i to kategorier: datainnsamling og algoritmedesign.
Ved datainnsamling vil handlingene sannsynligvis involvere personlige data eller personlig identifiserbar informasjon (PII) for identifiserbare levende individer. Dette inkluderer mangfoldige elementer av ikke-personlige data som samlet sett identifiserer en person. Etiske utfordringer kan relatere seg til datapersonvern, dataeierskap og relaterte temaer som informert samtykke og immaterielle rettigheter for brukere.
Ved algoritmedesign vil handlingene involvere innsamling og kuratering av datasett, og deretter bruke dem til å trene og distribuere datamodeller som forutsier utfall eller automatiserer beslutninger i virkelige kontekster. Etiske utfordringer kan oppstå fra datasettbias, datakvalitetsproblemer, urettferdighet og feilrepresentasjon i algoritmer - inkludert noen problemer som er systemiske av natur.
I begge tilfeller fremhever etiske utfordringer områder der våre handlinger kan komme i konflikt med våre delte verdier. For å oppdage, redusere, minimere eller eliminere disse bekymringene - må vi stille moralske "ja/nei"-spørsmål knyttet til våre handlinger, og deretter ta korrigerende tiltak etter behov. La oss se på noen etiske utfordringer og de moralske spørsmålene de reiser:
2.1 Dataeierskap
Datainnsamling involverer ofte personlige data som kan identifisere datasubjektene. Dataeierskap handler om kontroll og brukerrettigheter knyttet til opprettelse, behandling og spredning av data.
De moralske spørsmålene vi må stille er:
- Hvem eier dataene? (bruker eller organisasjon)
- Hvilke rettigheter har datasubjektene? (f.eks. tilgang, sletting, portabilitet)
- Hvilke rettigheter har organisasjoner? (f.eks. rette opp ondsinnede brukeranmeldelser)
2.2 Informert samtykke
Informert samtykke definerer handlingen der brukere samtykker til en handling (som datainnsamling) med en full forståelse av relevante fakta, inkludert formål, potensielle risikoer og alternativer.
Spørsmål å utforske her er:
- Ga brukeren (datasubjektet) tillatelse til datainnsamling og bruk?
- Forsto brukeren formålet med at dataene ble samlet inn?
- Forsto brukeren de potensielle risikoene ved deres deltakelse?
2.3 Immaterielle rettigheter
Immaterielle rettigheter refererer til immaterielle skapelser som følge av menneskelig initiativ, som kan ha økonomisk verdi for individer eller bedrifter.
Spørsmål å utforske her er:
- Hadde de innsamlede dataene økonomisk verdi for en bruker eller bedrift?
- Har brukeren immaterielle rettigheter her?
- Har organisasjonen immaterielle rettigheter her?
- Hvis disse rettighetene eksisterer, hvordan beskytter vi dem?
2.4 Datapersonvern
Datapersonvern eller informasjonsvern refererer til bevaring av brukerens personvern og beskyttelse av brukerens identitet med hensyn til personlig identifiserbar informasjon.
Spørsmål å utforske her er:
- Er brukernes (personlige) data sikret mot hacking og lekkasjer?
- Er brukernes data kun tilgjengelig for autoriserte brukere og kontekster?
- Er brukernes anonymitet bevart når data deles eller spres?
- Kan en bruker bli avidentifisert fra anonymiserte datasett?
2.5 Rett til å bli glemt
Rett til å bli glemt eller rett til sletting gir ekstra beskyttelse av personlige data til brukere. Spesielt gir det brukere rett til å be om sletting eller fjerning av personlige data fra Internett-søk og andre steder, under spesifikke omstendigheter - slik at de kan få en ny start online uten at tidligere handlinger blir holdt mot dem.
Spørsmål å utforske her er:
- Tillater systemet datasubjekter å be om sletting?
- Bør tilbaketrekking av brukersamtykke utløse automatisk sletting?
- Ble data samlet inn uten samtykke eller på ulovlig vis?
- Er vi i samsvar med myndighetsreguleringer for dataprivacy?
2.6 Datasettbias
Datasett eller innsamlingsbias handler om å velge et ikke-representativt datasett for algoritmeutvikling, noe som kan skape potensielle urettferdigheter i resultatene for ulike grupper. Typer bias inkluderer utvalgsbias, frivillighetsbias og instrumentbias.
Spørsmål å utforske her er:
- Rekrutterte vi et representativt sett med datasubjekter?
- Testet vi vårt innsamlede eller kuraterte datasett for ulike bias?
- Kan vi redusere eller fjerne oppdagede bias?
2.7 Datakvalitet
Datakvalitet ser på gyldigheten av det kuraterte datasettet som brukes til å utvikle våre algoritmer, og sjekker om funksjoner og poster oppfyller kravene til nivået av nøyaktighet og konsistens som trengs for vårt AI-formål.
Spørsmål å utforske her er:
- Fanget vi gyldige funksjoner for vår brukssak?
- Ble data fanget konsekvent på tvers av ulike datakilder?
- Er datasettet komplett for ulike forhold eller scenarier?
- Blir informasjon fanget opp nøyaktig og reflekterer den virkeligheten?
2.8 Algoritmisk rettferdighet
Algoritmisk rettferdighet handler om å undersøke om algoritmedesign systematisk diskriminerer spesifikke undergrupper av datasubjekter, noe som kan føre til potensielle skader i fordeling (der ressurser nektes eller holdes tilbake fra den gruppen) og tjenestekvalitet (der AI ikke er like nøyaktig for noen undergrupper som for andre).
Spørsmål å utforske her:
- Evaluerte vi modellens nøyaktighet for ulike undergrupper og forhold?
- Undersøkte vi systemet for potensielle skader (f.eks. stereotypier)?
- Kan vi revidere data eller trene opp modeller på nytt for å redusere identifiserte skader?
Utforsk ressurser som AI Fairness-sjekklister for å lære mer.
2.9 Feilrepresentasjon
Feilrepresentasjon av data handler om å spørre om vi kommuniserer innsikter fra ærlig rapporterte data på en villedende måte for å støtte en ønsket fortelling.
Spørsmål å utforske her:
- Rapporterer vi ufullstendige eller unøyaktige data?
- Visualiserer vi data på en måte som gir villedende konklusjoner?
- Bruker vi selektive statistiske teknikker for å manipulere resultater?
- Finnes det alternative forklaringer som kan gi en annen konklusjon?
2.10 Fri vilje
Illusjonen av fri vilje oppstår når systemets "valgarkitekturer" bruker beslutningsalgoritmer for å påvirke folk til å ta et foretrukket utfall, samtidig som det ser ut som de har alternativer og kontroll. Disse mørke mønstrene kan forårsake sosial og økonomisk skade for brukere. Fordi brukerbeslutninger påvirker atferdsprofiler, kan disse handlingene potensielt drive fremtidige valg som forsterker eller utvider virkningen av disse skadene.
Spørsmål å utforske her:
- Forsto brukeren konsekvensene av å ta det valget?
- Var brukeren klar over (alternative) valg og fordeler og ulemper ved hvert?
- Kan brukeren reversere et automatisert eller påvirket valg senere?
3. Case-studier
For å sette disse etiske utfordringene i en virkelighetsnær kontekst, kan det være nyttig å se på case-studier som fremhever potensielle skader og konsekvenser for enkeltpersoner og samfunnet når slike etiske brudd blir oversett.
Her er noen eksempler:
| Etisk utfordring | Case-studie |
|---|---|
| Informert samtykke | 1972 - Tuskegee Syfilis-studien - Afroamerikanske menn som deltok i studien ble lovet gratis medisinsk behandling men ble lurt av forskere som unnlot å informere deltakerne om diagnosen eller tilgjengelig behandling. Mange døde, og partnere eller barn ble påvirket; studien varte i 40 år. |
| Datapersonvern | 2007 - Netflix data-prisen ga forskere 10M anonymiserte filmrangeringer fra 50K kunder for å forbedre anbefalingsalgoritmer. Imidlertid klarte forskere å korrelere anonymiserte data med personlig identifiserbare data i eksterne datasett (f.eks. IMDb-kommentarer) - effektivt "de-anonymiserte" noen Netflix-abonnenter. |
| Innsamlingsskjevhet | 2013 - Byen Boston utviklet Street Bump, en app som lot innbyggere rapportere hull i veien, og ga byen bedre data for å finne og fikse problemer. Imidlertid hadde folk i lavinntektsgrupper mindre tilgang til biler og telefoner, noe som gjorde deres veiproblemer usynlige i denne appen. Utviklerne samarbeidet med akademikere for å adressere rettferdig tilgang og digitale skiller. |
| Algoritmisk rettferdighet | 2018 - MIT Gender Shades-studien evaluerte nøyaktigheten til AI-produkter for kjønnsidentifikasjon, og avdekket mangler i nøyaktighet for kvinner og personer med mørk hud. Et 2019 Apple Card syntes å tilby mindre kreditt til kvinner enn menn. Begge eksemplene illustrerte problemer med algoritmisk skjevhet som førte til sosioøkonomiske skader. |
| Feilrepresentasjon av data | 2020 - Georgia Department of Public Health publiserte COVID-19-diagrammer som syntes å villede innbyggerne om trender i bekreftede tilfeller med ikke-kronologisk rekkefølge på x-aksen. Dette illustrerer feilrepresentasjon gjennom visualiseringstriks. |
| Illusjon av fri vilje | 2020 - Læringsappen ABCmouse betalte $10M for å løse en FTC-klage der foreldre ble fanget i abonnementer de ikke kunne kansellere. Dette illustrerer mørke mønstre i valgarkitekturer, der brukere ble påvirket til potensielt skadelige valg. |
| Datapersonvern og brukerrettigheter | 2021 - Facebook Data-lekkasje eksponerte data fra 530M brukere, noe som resulterte i et $5B forlik med FTC. Facebook nektet imidlertid å varsle brukere om lekkasjen, og brøt brukerrettigheter rundt datatransparens og tilgang. |
Vil du utforske flere case-studier? Sjekk ut disse ressursene:
- Ethics Unwrapped - etiske dilemmaer på tvers av ulike bransjer.
- Data Science Ethics-kurs - utforsker viktige case-studier.
- Hvor ting har gått galt - deon-sjekkliste med eksempler.
🚨 Tenk på case-studiene du har sett - har du opplevd, eller blitt påvirket av, en lignende etisk utfordring i ditt liv? Kan du komme på minst én annen case-studie som illustrerer en av de etiske utfordringene vi har diskutert i denne delen?
Anvendt etikk
Vi har snakket om etiske konsepter, utfordringer og case-studier i virkelighetsnære kontekster. Men hvordan kommer vi i gang med å anvende etiske prinsipper og praksiser i prosjektene våre? Og hvordan operasjonaliserer vi disse praksisene for bedre styring? La oss utforske noen virkelighetsnære løsninger:
1. Profesjonelle koder
Profesjonelle koder tilbyr én mulighet for organisasjoner til å "incentivere" medlemmer til å støtte deres etiske prinsipper og misjonserklæring. Kodene er moralske retningslinjer for profesjonell oppførsel, som hjelper ansatte eller medlemmer med å ta beslutninger som samsvarer med organisasjonens prinsipper. De er kun så gode som den frivillige etterlevelsen fra medlemmene; imidlertid tilbyr mange organisasjoner ekstra belønninger og straffer for å motivere etterlevelse.
Eksempler inkluderer:
- Oxford Munich Etisk kode
- Data Science Association Etisk kode (opprettet 2013)
- ACM Code of Ethics and Professional Conduct (siden 1993)
🚨 Tilhører du en profesjonell ingeniør- eller dataorganisasjon? Utforsk nettstedet deres for å se om de definerer en profesjonell etisk kode. Hva sier dette om deres etiske prinsipper? Hvordan "incentiverer" de medlemmene til å følge koden?
2. Etiske sjekklister
Mens profesjonelle koder definerer nødvendig etisk oppførsel fra utøvere, har de kjente begrensninger i håndheving, spesielt i storskala prosjekter. I stedet anbefaler mange dataeksperter sjekklister, som kan koble prinsipper til praksis på mer deterministiske og handlingsrettede måter.
Sjekklister konverterer spørsmål til "ja/nei"-oppgaver som kan operasjonaliseres, slik at de kan spores som en del av standard produktutgivelsesarbeidsflyter.
Eksempler inkluderer:
- Deon - en generell sjekkliste for dataetikk opprettet fra bransjeanbefalinger med et kommandolinjeverktøy for enkel integrasjon.
- Privacy Audit Checklist - gir generell veiledning for informasjonsbehandlingspraksis fra juridiske og sosiale eksponeringsperspektiver.
- AI Fairness Checklist - opprettet av AI-utøvere for å støtte adopsjon og integrering av rettferdighetssjekker i AI-utviklingssykluser.
- 22 spørsmål for etikk i data og AI - en mer åpen rammeverk, strukturert for innledende utforskning av etiske spørsmål i design, implementering og organisatoriske kontekster.
3. Etiske reguleringer
Etikk handler om å definere felles verdier og gjøre det rette frivillig. Etterlevelse handler om å følge loven der den er definert. Styring dekker bredt alle måter organisasjoner opererer for å håndheve etiske prinsipper og overholde etablerte lover.
I dag tar styring to former innen organisasjoner. For det første handler det om å definere etiske AI-prinsipper og etablere praksiser for å operasjonalisere adopsjon på tvers av alle AI-relaterte prosjekter i organisasjonen. For det andre handler det om å overholde alle myndighetsmandaterte databeskyttelsesreguleringer for regionene de opererer i.
Eksempler på databeskyttelse og personvernreguleringer:
1974, US Privacy Act - regulerer føderal regjering sin innsamling, bruk og offentliggjøring av personlig informasjon.1996, US Health Insurance Portability & Accountability Act (HIPAA) - beskytter personlig helsedata.1998, US Children's Online Privacy Protection Act (COPPA) - beskytter dataprivacy for barn under 13 år.2018, General Data Protection Regulation (GDPR) - gir brukerrettigheter, databeskyttelse og personvern.2018, California Consumer Privacy Act (CCPA) gir forbrukere flere rettigheter over deres (personlige) data.2021, Kinas Personopplysningsbeskyttelseslov ble nettopp vedtatt, og skaper en av de sterkeste online dataprivacy-reguleringene i verden.
🚨 Den europeiske unionens GDPR (General Data Protection Regulation) forblir en av de mest innflytelsesrike dataprivacy-reguleringene i dag. Visste du at den også definerer 8 brukerrettigheter for å beskytte borgernes digitale personvern og personlige data? Lær om hva disse er, og hvorfor de betyr noe.
4. Etisk kultur
Merk at det fortsatt er et immaterielt gap mellom etterlevelse (å gjøre nok for å oppfylle "lovens bokstav") og å adressere systemiske problemer (som ossifikasjon, informasjonsasymmetri og distribusjonsurettferdighet) som kan akselerere våpeniseringen av AI.
Det sistnevnte krever samarbeidende tilnærminger for å definere etiske kulturer som bygger emosjonelle forbindelser og konsistente felles verdier på tvers av organisasjoner i bransjen. Dette krever mer formaliserte dataetiske kulturer i organisasjoner - som lar hvem som helst trekke Andon-snoren (for å reise etiske bekymringer tidlig i prosessen) og gjøre etiske vurderinger (f.eks. ved ansettelser) til et kjernekrav for teamdannelse i AI-prosjekter.
Quiz etter forelesning 🎯
Gjennomgang og selvstudium
Kurs og bøker hjelper med å forstå kjerneetiske konsepter og utfordringer, mens case-studier og verktøy hjelper med anvendt etikk i virkelighetsnære kontekster. Her er noen ressurser for å komme i gang.
- Maskinlæring for nybegynnere - leksjon om rettferdighet, fra Microsoft.
- Prinsipper for ansvarlig AI - gratis læringssti fra Microsoft Learn.
- Etikk og datavitenskap - O'Reilly EBook (M. Loukides, H. Mason m.fl.)
- Etikk innen datavitenskap - nettkurs fra University of Michigan.
- Ethics Unwrapped - casestudier fra University of Texas.
Oppgave
Skriv en casestudie om dataetikk
Ansvarsfraskrivelse:
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten Co-op Translator. Selv om vi tilstreber nøyaktighet, vær oppmerksom på at automatiserte oversettelser kan inneholde feil eller unøyaktigheter. Det originale dokumentet på sitt opprinnelige språk bør anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.

