27 KiB

Raw Permalink Blame History

Introduksjon til Dataetikk


Data Science Ethics - Sketchnote av @nitya

Vi er alle databorgere som lever i en verden preget av data.

Markedsanalyser viser at innen 2022 vil én av tre store organisasjoner kjøpe og selge data gjennom online markedsplasser og utvekslinger. Som apputviklere vil vi oppleve at det blir enklere og billigere å integrere datadrevne innsikter og algoritmestyrt automatisering i daglige brukeropplevelser. Men etter hvert som AI blir mer utbredt, må vi også forstå de potensielle skadene som kan oppstå ved våpenisering av slike algoritmer i stor skala.

Trender viser også at vi vil skape og konsumere over 180 zettabyte med data innen 2025. Som dataforskere gir dette oss enestående tilgang til personlig data. Dette betyr at vi kan bygge atferdsprofiler av brukere og påvirke beslutningstaking på måter som skaper en illusjon av fri vilje, samtidig som vi potensielt dytter brukere mot utfall vi foretrekker. Det reiser også bredere spørsmål om databeskyttelse og brukerrettigheter.

Dataetikk er nå nødvendige retningslinjer for dataforskning og ingeniørarbeid, som hjelper oss med å minimere potensielle skader og utilsiktede konsekvenser av våre datadrevne handlinger. Gartner Hype Cycle for AI identifiserer relevante trender innen digital etikk, ansvarlig AI og AI-styring som nøkkeldrivere for større megatrender rundt demokratisering og industrialisering av AI.

I denne leksjonen skal vi utforske det fascinerende området dataetikk - fra grunnleggende konsepter og utfordringer, til casestudier og anvendte AI-konsepter som styring - som hjelper med å etablere en etikkultur i team og organisasjoner som jobber med data og AI.

Quiz før forelesning 🎯

Grunnleggende definisjoner

La oss starte med å forstå grunnleggende terminologi.

Ordet "etikk" kommer fra det greske ordet "ethikos" (og roten "ethos") som betyr karakter eller moralsk natur.

Etikk handler om de delte verdiene og moralske prinsippene som styrer vår oppførsel i samfunnet. Etikk er ikke basert på lover, men på allment aksepterte normer for hva som er "riktig vs. galt". Imidlertid kan etiske hensyn påvirke initiativer for selskapsstyring og myndighetsreguleringer som skaper flere insentiver for samsvar.

Dataetikk er en ny gren av etikk som "studerer og evaluerer moralske problemer knyttet til data, algoritmer og tilhørende praksis". Her fokuserer "data" på handlinger relatert til generering, registrering, kuratering, behandling, spredning, deling og bruk, "algoritmer" fokuserer på AI, agenter, maskinlæring og roboter, og "praksis" fokuserer på temaer som ansvarlig innovasjon, programmering, hacking og etiske koder.

Anvendt etikk er den praktiske anvendelsen av moralske hensyn. Det er prosessen med aktivt å undersøke etiske spørsmål i konteksten av virkelige handlinger, produkter og prosesser, og ta korrigerende tiltak for å sikre at disse forblir i tråd med våre definerte etiske verdier.

Etikkultur handler om operasjonalisering av anvendt etikk for å sikre at våre etiske prinsipper og praksiser blir tatt i bruk på en konsekvent og skalerbar måte i hele organisasjonen. Vellykkede etikkulturer definerer organisasjonsomfattende etiske prinsipper, gir meningsfulle insentiver for samsvar, og forsterker etiske normer ved å oppmuntre og forsterke ønsket atferd på alle nivåer i organisasjonen.

Etiske konsepter

I denne delen skal vi diskutere konsepter som delte verdier (prinsipper) og etiske utfordringer (problemer) for dataetikk - og utforske casestudier som hjelper deg med å forstå disse konseptene i virkelige kontekster.

1. Etiske prinsipper

Hver dataetikkstrategi begynner med å definere etiske prinsipper - de "delte verdiene" som beskriver akseptabel oppførsel og veileder samsvarende handlinger i våre data- og AI-prosjekter. Du kan definere disse på individ- eller teamnivå. Imidlertid skisserer de fleste store organisasjoner disse i en etisk AI-misjonserklæring eller rammeverk som er definert på selskapsnivå og håndhevet konsekvent på tvers av alle team.

Eksempel: Microsofts Responsible AI-misjonserklæring lyder: "Vi er forpliktet til å fremme AI drevet av etiske prinsipper som setter mennesker først" - og identifiserer 6 etiske prinsipper i rammeverket nedenfor:

La oss kort utforske disse prinsippene. Åpenhet og ansvarlighet er grunnleggende verdier som de andre prinsippene bygger på - så la oss begynne der:

Ansvarlighet gjør utøvere ansvarlige for sine data- og AI-operasjoner, og samsvar med disse etiske prinsippene.
Åpenhet sikrer at data- og AI-handlinger er forståelige (tolkbare) for brukere, og forklarer hva og hvorfor bak beslutninger.
Rettferdighet - fokuserer på å sikre at AI behandler alle mennesker rettferdig, og adresserer eventuelle systemiske eller implisitte sosio-tekniske skjevheter i data og systemer.
Pålitelighet og sikkerhet - sikrer at AI oppfører seg konsekvent med definerte verdier, og minimerer potensielle skader eller utilsiktede konsekvenser.
Personvern og sikkerhet - handler om å forstå dataopprinnelse og gi databeskyttelse og relaterte rettigheter til brukere.
Inkludering - handler om å designe AI-løsninger med intensjon, og tilpasse dem for å møte et bredt spekter av menneskelige behov og evner.

🚨 Tenk på hva din dataetikk-misjonserklæring kunne vært. Utforsk etiske AI-rammeverk fra andre organisasjoner - her er eksempler fra IBM, Google, og Facebook. Hvilke delte verdier har de til felles? Hvordan relaterer disse prinsippene seg til AI-produktet eller industrien de opererer i?

2. Etiske utfordringer

Når vi har definert etiske prinsipper, er neste steg å evaluere våre data- og AI-handlinger for å se om de samsvarer med disse delte verdiene. Tenk på handlingene dine i to kategorier: datainnsamling og algoritmedesign.

Ved datainnsamling vil handlingene sannsynligvis involvere personlig data eller personlig identifiserbar informasjon (PII) for identifiserbare levende individer. Dette inkluderer mangfoldige elementer av ikke-personlig data som samlet sett identifiserer en person. Etiske utfordringer kan relatere seg til databeskyttelse, dataeierskap, og relaterte temaer som informert samtykke og immaterielle rettigheter for brukere.

Ved algoritmedesign vil handlingene involvere innsamling og kuratering av datasett, og deretter bruke dem til å trene og distribuere datamodeller som forutsier utfall eller automatiserer beslutninger i virkelige kontekster. Etiske utfordringer kan oppstå fra datasett-skjevhet, datakvalitetsproblemer, urettferdighet, og feilrepresentasjon i algoritmer - inkludert noen problemer som er systemiske i natur.

I begge tilfeller fremhever etiske utfordringer områder der våre handlinger kan komme i konflikt med våre delte verdier. For å oppdage, redusere, minimere eller eliminere disse bekymringene - må vi stille moralske "ja/nei"-spørsmål relatert til våre handlinger, og deretter ta korrigerende tiltak etter behov. La oss se på noen etiske utfordringer og de moralske spørsmålene de reiser:

2.1 Dataeierskap

Datainnsamling involverer ofte personlig data som kan identifisere datasubjektene. Dataeierskap handler om kontroll og brukerrettigheter relatert til opprettelse, behandling og spredning av data.

De moralske spørsmålene vi må stille er:

Hvem eier dataene? (bruker eller organisasjon)
Hvilke rettigheter har datasubjektene? (f.eks. tilgang, sletting, portabilitet)
Hvilke rettigheter har organisasjoner? (f.eks. rette opp ondsinnede brukeranmeldelser)

2.2 Informert samtykke

Informert samtykke definerer handlingen der brukere samtykker til en handling (som datainnsamling) med en full forståelse av relevante fakta, inkludert formål, potensielle risikoer og alternativer.

Spørsmål å utforske her er:

Ga brukeren (datasubjektet) tillatelse til datainnsamling og bruk?
Forsto brukeren formålet med datainnsamlingen?
Forsto brukeren de potensielle risikoene ved deltakelsen?

2.3 Immaterielle rettigheter

Immaterielle rettigheter refererer til immaterielle skapelser som resultat av menneskelig initiativ, som kan ha økonomisk verdi for individer eller bedrifter.

Spørsmål å utforske her er:

Hadde de innsamlede dataene økonomisk verdi for en bruker eller bedrift?
Har brukeren immaterielle rettigheter her?
Har organisasjonen immaterielle rettigheter her?
Hvis disse rettighetene eksisterer, hvordan beskytter vi dem?

2.4 Databeskyttelse

Databeskyttelse eller informasjonsbeskyttelse refererer til bevaring av brukerens personvern og beskyttelse av brukerens identitet med hensyn til personlig identifiserbar informasjon.

Spørsmål å utforske her er:

Er brukernes (personlige) data sikret mot hacking og lekkasjer?
Er brukernes data kun tilgjengelig for autoriserte brukere og kontekster?
Bevares brukernes anonymitet når data deles eller spres?
Kan en bruker bli avidentifisert fra anonymiserte datasett?

2.5 Rett til å bli glemt

Rett til å bli glemt eller rett til sletting gir ekstra beskyttelse av personlig data til brukere. Spesielt gir det brukere rett til å be om sletting eller fjerning av personlig data fra internett-søk og andre steder, under spesifikke omstendigheter - slik at de kan få en ny start online uten at tidligere handlinger holdes mot dem.

Spørsmål å utforske her er:

Tillater systemet datasubjekter å be om sletting?
Bør tilbaketrekking av brukersamtykke utløse automatisk sletting?
Ble data samlet inn uten samtykke eller på ulovlig vis?
Er vi i samsvar med myndighetsreguleringer for databeskyttelse?

2.6 Datasett-skjevhet

Datasett eller innsamlingsskjevhet handler om å velge et ikke-representativt datasett for algoritmeutvikling, noe som kan skape potensielle urettferdigheter i resultatene for ulike grupper. Typer skjevhet inkluderer utvalgs- eller prøvetakingsskjevhet, frivillighetsskjevhet og instrumentell skjevhet.

Spørsmål å utforske her er:

Rekrutterte vi et representativt sett med datasubjekter?
Testet vi vårt innsamlede eller kuraterte datasett for ulike skjevheter?
Kan vi redusere eller fjerne oppdagede skjevheter?

2.7 Datakvalitet

Datakvalitet ser på gyldigheten av det kuraterte datasettet som brukes til å utvikle våre algoritmer, og sjekker om funksjoner og poster oppfyller kravene til nøyaktighet og konsistens som trengs for vårt AI-formål.

Spørsmål å utforske her er:

Fanget vi gyldige funksjoner for vårt brukstilfelle?
Ble data fanget konsekvent på tvers av ulike datakilder?
Er datasettet komplett for ulike forhold eller scenarier?
Er informasjonen fanget nøyaktig i å reflektere virkeligheten?

2.8 Algoritme-rettferdighet

Algorithmisk rettferdighet undersøker om algoritmedesign systematisk diskriminerer spesifikke undergrupper av datasubjekter, noe som kan føre til potensielle skader innen fordeling (der ressurser nektes eller holdes tilbake fra denne gruppen) og tjenestekvalitet (der AI ikke er like nøyaktig for noen undergrupper som for andre).

Spørsmål å utforske her er:

Evaluerte vi modellens nøyaktighet for ulike undergrupper og forhold?
Undersøkte vi systemet for potensielle skader (f.eks. stereotypier)?
Kan vi revidere data eller trene opp modeller på nytt for å redusere identifiserte skader?

Utforsk ressurser som AI Fairness-sjekklister for å lære mer.

2.9 Feilrepresentasjon

Datamisrepresentasjon handler om å spørre om vi kommuniserer innsikter fra ærlig rapporterte data på en villedende måte for å støtte en ønsket fortelling.

Spørsmål å utforske her er:

Rapporterer vi ufullstendige eller unøyaktige data?
Visualiserer vi data på en måte som fører til misvisende konklusjoner?
Bruker vi selektive statistiske teknikker for å manipulere resultater?
Finnes det alternative forklaringer som kan gi en annen konklusjon?

2.10 Fri vilje

Illusjonen av fri vilje oppstår når systemets "valgarkitekturer" bruker beslutningsalgoritmer for å påvirke folk til å ta et foretrukket utfall, samtidig som det ser ut som om de har alternativer og kontroll. Disse mørke mønstrene kan forårsake sosial og økonomisk skade for brukere. Fordi brukerbeslutninger påvirker atferdsprofiler, kan disse handlingene potensielt drive fremtidige valg som forsterker eller utvider virkningen av disse skadene.

Spørsmål å utforske her er:

Forsto brukeren konsekvensene av å ta det valget?
Var brukeren klar over (alternative) valg og fordeler og ulemper ved hvert?
Kan brukeren senere omgjøre et automatisert eller påvirket valg?

3. Case-studier

For å sette disse etiske utfordringene i en virkelighetsnær kontekst, er det nyttig å se på case-studier som fremhever potensielle skader og konsekvenser for enkeltpersoner og samfunnet når slike etiske brudd overses.

Her er noen eksempler:

Etisk utfordring	Case-studie
Informert samtykke	1972 - Tuskegee-syfilisstudien - Afroamerikanske menn som deltok i studien ble lovet gratis medisinsk behandling, men ble lurt av forskere som ikke informerte deltakerne om diagnosen eller tilgjengelig behandling. Mange døde, og partnere eller barn ble påvirket; studien varte i 40 år.
Datapersonvern	2007 - Netflix-dataprisen ga forskere 10 millioner anonymiserte filmvurderinger fra 50 000 kunder for å forbedre anbefalingsalgoritmer. Forskere klarte imidlertid å korrelere anonymiserte data med personlig identifiserbare data i eksterne datasett (f.eks. IMDb-kommentarer) - og "de-anonymiserte" dermed noen Netflix-abonnenter.
Innsamlingsskjevhet	2013 - Byen Boston utviklet Street Bump, en app som lot innbyggere rapportere hull i veien, og ga byen bedre data for å finne og fikse problemer. Imidlertid hadde folk i lavinntektsgrupper mindre tilgang til biler og telefoner, noe som gjorde deres veiproblemer usynlige i appen. Utviklere samarbeidet med akademikere for å løse rettferdig tilgang og digitale skiller.
Algoritmisk rettferdighet	2018 - MITs Gender Shades-studie evaluerte nøyaktigheten til AI-produkter for kjønnsidentifikasjon og avdekket forskjeller i nøyaktighet for kvinner og personer med mørk hud. Et 2019 Apple Card så ut til å tilby mindre kreditt til kvinner enn menn. Begge eksemplene illustrerer problemer med algoritmisk skjevhet som fører til sosioøkonomiske skader.
Datamisrepresentasjon	2020 - Georgia Department of Public Health publiserte COVID-19-diagrammer som så ut til å villede innbyggerne om trender i bekreftede tilfeller med ikke-kronologisk rekkefølge på x-aksen. Dette illustrerer feilrepresentasjon gjennom visualiseringstriks.
Illusjon av fri vilje	2020 - Læringsappen ABCmouse betalte $10M for å løse en FTC-klage der foreldre ble fanget i å betale for abonnementer de ikke kunne kansellere. Dette illustrerer mørke mønstre i valgarkitekturer, der brukere ble påvirket til potensielt skadelige valg.
Datapersonvern og brukerrettigheter	2021 - Facebook datainnbrudd eksponerte data fra 530 millioner brukere, noe som resulterte i et forlik på $5 milliarder med FTC. Facebook nektet imidlertid å varsle brukerne om bruddet, noe som brøt brukerrettigheter rundt datatransparens og tilgang.

Vil du utforske flere case-studier? Sjekk ut disse ressursene:

Ethics Unwrapped - etiske dilemmaer på tvers av ulike bransjer.
Data Science Ethics course - utforsker viktige case-studier.
Where things have gone wrong - deon-sjekkliste med eksempler.

🚨 Tenk på case-studiene du har sett - har du opplevd, eller blitt påvirket av, en lignende etisk utfordring i ditt liv? Kan du komme på minst én annen case-studie som illustrerer en av de etiske utfordringene vi har diskutert i denne delen?

Anvendt etikk

Vi har snakket om etiske konsepter, utfordringer og case-studier i virkelighetsnære kontekster. Men hvordan kommer vi i gang med å anvende etiske prinsipper og praksiser i prosjektene våre? Og hvordan kan vi operasjonalisere disse praksisene for bedre styring? La oss utforske noen løsninger fra virkeligheten:

1. Profesjonelle retningslinjer

Profesjonelle retningslinjer tilbyr en måte for organisasjoner å "inspirere" medlemmer til å støtte deres etiske prinsipper og misjonserklæring. Retningslinjer er moralske veiledninger for profesjonell atferd, som hjelper ansatte eller medlemmer med å ta beslutninger som samsvarer med organisasjonens prinsipper. De er kun effektive dersom medlemmene frivillig følger dem; mange organisasjoner tilbyr imidlertid også belønninger og sanksjoner for å motivere etterlevelse.

Eksempler inkluderer:

Oxford Munich Code of Ethics
Data Science Association Code of Conduct (opprettet 2013)
ACM Code of Ethics and Professional Conduct (siden 1993)

🚨 Tilhører du en profesjonell ingeniør- eller datavitenskapsorganisasjon? Utforsk nettsiden deres for å se om de definerer en profesjonell etisk kodeks. Hva sier dette om deres etiske prinsipper? Hvordan "inspirerer" de medlemmene til å følge koden?

2. Etiske sjekklister

Mens profesjonelle retningslinjer definerer nødvendig etisk atferd fra utøvere, har de kjente begrensninger i håndhevelse, spesielt i storskala prosjekter. I stedet anbefaler mange eksperter innen datavitenskap sjekklister, som kan koble prinsipper til praksis på mer deterministiske og handlingsrettede måter.

Sjekklister omgjør spørsmål til "ja/nei"-oppgaver som kan operasjonaliseres, slik at de kan spores som en del av standard arbeidsflyter for produktlansering.

Eksempler inkluderer:

Deon - en generell sjekkliste for dataetikk laget fra bransjeanbefalinger med et kommandolinjeverktøy for enkel integrasjon.
Privacy Audit Checklist - gir generell veiledning for informasjonsbehandling fra juridiske og sosiale eksponeringsperspektiver.
AI Fairness Checklist - laget av AI-utøvere for å støtte adopsjon og integrasjon av rettferdighetssjekker i AI-utviklingssykluser.
22 spørsmål for etikk i data og AI - et mer åpent rammeverk, strukturert for innledende utforskning av etiske problemstillinger i design, implementering og organisatoriske kontekster.

3. Etiske reguleringer

Etikk handler om å definere felles verdier og gjøre det rette frivillig. Etterlevelse handler om å følge loven der den er definert. Styring dekker bredt alle måtene organisasjoner opererer på for å håndheve etiske prinsipper og overholde etablerte lover.

I dag tar styring to former innen organisasjoner. For det første handler det om å definere etiske AI-prinsipper og etablere praksiser for å operasjonalisere adopsjon på tvers av alle AI-relaterte prosjekter i organisasjonen. For det andre handler det om å overholde alle myndighetspålagte databeskyttelsesreguleringer for regionene organisasjonen opererer i.

Eksempler på databeskyttelses- og personvernreguleringer:

1974, US Privacy Act - regulerer føderal regjering sin innsamling, bruk og deling av personlig informasjon.
1996, US Health Insurance Portability & Accountability Act (HIPAA) - beskytter personlig helsedata.
1998, US Children's Online Privacy Protection Act (COPPA) - beskytter dataprivacy for barn under 13 år.
2018, General Data Protection Regulation (GDPR) - gir brukerrettigheter, databeskyttelse og personvern.
2018, California Consumer Privacy Act (CCPA) gir forbrukere flere rettigheter over deres (personlige) data.
2021, Kinas Personopplysningsvernslov ble nettopp vedtatt, og skaper en av verdens sterkeste online databeskyttelsesreguleringer.

🚨 Den europeiske unionens GDPR (General Data Protection Regulation) forblir en av de mest innflytelsesrike databeskyttelsesreguleringene i dag. Visste du at den også definerer 8 brukerrettigheter for å beskytte borgernes digitale personvern og personopplysninger? Lær om hva disse er, og hvorfor de er viktige.

4. Etisk kultur

Merk at det fortsatt er et immaterielt gap mellom etterlevelse (å gjøre nok for å oppfylle "lovens bokstav") og å adressere systemiske problemer (som fastlåsthet, informasjonsasymmetri og fordelingsurettferdighet) som kan akselerere våpeniseringen av AI.

Det sistnevnte krever samarbeidsbaserte tilnærminger for å definere etiske kulturer som bygger emosjonelle forbindelser og konsistente felles verdier på tvers av organisasjoner i bransjen. Dette krever mer formaliserte dataetiske kulturer i organisasjoner - som lar hvem som helst trekke Andon-snoren (for å reise etiske bekymringer tidlig i prosessen) og gjøre etiske vurderinger (f.eks. i ansettelser) til et kjernekrav for teamdannelse i AI-prosjekter.

Etterforelesningsquiz 🎯

Gjennomgang og selvstudium

Kurs og bøker hjelper med å forstå kjernebegreper og utfordringer innen etikk, mens case-studier og verktøy hjelper med anvendt etikk i virkelige kontekster. Her er noen ressurser for å komme i gang:

Machine Learning For Beginners - leksjon om rettferdighet, fra Microsoft.
Prinsipper for ansvarlig AI - gratis læringssti fra Microsoft Learn.
Etikk og datavitenskap - O'Reilly EBook (M. Loukides, H. Mason m.fl.)
Etikk innen datavitenskap - nettkurs fra University of Michigan.
Ethics Unwrapped - casestudier fra University of Texas.

Oppgave

Skriv en casestudie om dataetikk

Ansvarsfraskrivelse:
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten Co-op Translator. Selv om vi tilstreber nøyaktighet, vennligst vær oppmerksom på at automatiske oversettelser kan inneholde feil eller unøyaktigheter. Det originale dokumentet på sitt opprinnelige språk bør anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for eventuelle misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.

27 KiB Raw Permalink Blame History

Introduksjon til Dataetikk

Quiz før forelesning 🎯

Grunnleggende definisjoner

Etiske konsepter

1. Etiske prinsipper

2. Etiske utfordringer

2.1 Dataeierskap

2.2 Informert samtykke

2.3 Immaterielle rettigheter

2.4 Databeskyttelse

2.5 Rett til å bli glemt

2.6 Datasett-skjevhet

2.7 Datakvalitet

2.8 Algoritme-rettferdighet

2.9 Feilrepresentasjon

2.10 Fri vilje

3. Case-studier

Anvendt etikk

1. Profesjonelle retningslinjer

2. Etiske sjekklister

3. Etiske reguleringer

4. Etisk kultur

Etterforelesningsquiz 🎯

Gjennomgang og selvstudium

Oppgave

27 KiB

Raw Permalink Blame History