|
4 weeks ago | |
---|---|---|
.. | ||
README.md | 4 weeks ago | |
assignment.md | 4 weeks ago |
README.md
Introductie tot Data-ethiek
![]() |
---|
Data Science Ethiek - Sketchnote door @nitya |
We zijn allemaal databurgers die leven in een wereld vol data.
Markttrends voorspellen dat tegen 2022, 1 op de 3 grote organisaties hun data zal kopen en verkopen via online marktplaatsen en beurzen. Als app-ontwikkelaars wordt het voor ons eenvoudiger en goedkoper om datagestuurde inzichten en algoritmegestuurde automatisering te integreren in dagelijkse gebruikerservaringen. Maar naarmate AI alomtegenwoordig wordt, moeten we ook de potentiële schade begrijpen die kan worden veroorzaakt door de bewapening van dergelijke algoritmen op grote schaal.
Trends geven ook aan dat we tegen 2025 meer dan 180 zettabytes aan data zullen creëren en consumeren. Als datawetenschappers geeft dit ons ongekende toegang tot persoonlijke gegevens. Dit betekent dat we gedragsprofielen van gebruikers kunnen opstellen en besluitvorming kunnen beïnvloeden op manieren die een illusie van vrije keuze creëren, terwijl we gebruikers mogelijk naar door ons gewenste uitkomsten sturen. Dit roept ook bredere vragen op over gegevensprivacy en gebruikersbescherming.
Data-ethiek is nu een noodzakelijke leidraad voor datawetenschap en engineering, die ons helpt potentiële schade en onbedoelde gevolgen van onze datagestuurde acties te minimaliseren. De Gartner Hype Cycle voor AI identificeert relevante trends in digitale ethiek, verantwoordelijke AI en AI-governance als belangrijke drijfveren voor grotere megatrends rond democratisering en industrialisering van AI.
In deze les verkennen we het fascinerende gebied van data-ethiek - van kernconcepten en uitdagingen tot casestudies en toegepaste AI-concepten zoals governance - die helpen een ethische cultuur te vestigen in teams en organisaties die met data en AI werken.
Pre-lecture quiz 🎯
Basisdefinities
Laten we beginnen met het begrijpen van de basisterminologie.
Het woord "ethiek" komt van het Griekse woord "ethikos" (en de wortel "ethos") wat karakter of morele aard betekent.
Ethiek gaat over de gedeelde waarden en morele principes die ons gedrag in de samenleving sturen. Ethiek is niet gebaseerd op wetten, maar op algemeen geaccepteerde normen van wat "goed versus fout" is. Echter, ethische overwegingen kunnen invloed hebben op initiatieven voor corporate governance en overheidsreguleringen die meer prikkels creëren voor naleving.
Data-ethiek is een nieuwe tak van ethiek die "morele problemen bestudeert en evalueert met betrekking tot data, algoritmen en bijbehorende praktijken". Hier richt "data" zich op acties zoals generatie, registratie, curatie, verwerking, verspreiding, delen en gebruik; "algoritmen" op AI, agenten, machine learning en robots; en "praktijken" op onderwerpen zoals verantwoord innoveren, programmeren, hacken en ethische codes.
Toegepaste ethiek is de praktische toepassing van morele overwegingen. Het is het proces van actief onderzoeken van ethische kwesties in de context van real-world acties, producten en processen, en het nemen van corrigerende maatregelen om ervoor te zorgen dat deze in lijn blijven met onze gedefinieerde ethische waarden.
Ethiekcultuur gaat over het operationeel maken van toegepaste ethiek om ervoor te zorgen dat onze ethische principes en praktijken consistent en schaalbaar worden toegepast in de hele organisatie. Succesvolle ethiekculturen definiëren organisatiebrede ethische principes, bieden zinvolle prikkels voor naleving en versterken ethische normen door gewenst gedrag op elk niveau van de organisatie aan te moedigen en te versterken.
Ethiekconcepten
In deze sectie bespreken we concepten zoals gedeelde waarden (principes) en ethische uitdagingen (problemen) voor data-ethiek - en verkennen we casestudies die je helpen deze concepten te begrijpen in real-world contexten.
1. Ethiekprincipes
Elke data-ethiekstrategie begint met het definiëren van ethische principes - de "gedeelde waarden" die acceptabel gedrag beschrijven en compliant acties sturen in onze data- en AI-projecten. Je kunt deze definiëren op individueel of teamniveau. Echter, de meeste grote organisaties schetsen deze in een ethische AI-missieverklaring of raamwerk dat op bedrijfsniveau wordt gedefinieerd en consistent wordt gehandhaafd in alle teams.
Voorbeeld: De Responsible AI-missieverklaring van Microsoft luidt: "We zijn toegewijd aan de vooruitgang van AI, gedreven door ethische principes die mensen op de eerste plaats zetten" - met daarin 6 ethische principes zoals hieronder weergegeven:
Laten we deze principes kort verkennen. Transparantie en verantwoordelijkheid zijn fundamentele waarden waarop andere principes zijn gebaseerd - dus laten we daar beginnen:
- Verantwoordelijkheid maakt beoefenaars verantwoordelijk voor hun data- en AI-operaties en naleving van deze ethische principes.
- Transparantie zorgt ervoor dat data- en AI-acties begrijpelijk (interpreteerbaar) zijn voor gebruikers, waarbij wordt uitgelegd wat en waarom beslissingen worden genomen.
- Eerlijkheid richt zich op het waarborgen dat AI alle mensen eerlijk behandelt, en eventuele systemische of impliciete sociaal-technische vooroordelen in data en systemen aanpakt.
- Betrouwbaarheid & Veiligheid zorgt ervoor dat AI zich consistent gedraagt met gedefinieerde waarden, en potentiële schade of onbedoelde gevolgen minimaliseert.
- Privacy & Beveiliging gaat over het begrijpen van de herkomst van data en het bieden van gegevensprivacy en gerelateerde bescherming aan gebruikers.
- Inclusiviteit gaat over het intentioneel ontwerpen van AI-oplossingen en deze aanpassen om te voldoen aan een breed scala aan menselijke behoeften en capaciteiten.
🚨 Denk na over wat jouw data-ethiek missieverklaring zou kunnen zijn. Verken ethische AI-raamwerken van andere organisaties - hier zijn voorbeelden van IBM, Google, en Facebook. Welke gedeelde waarden hebben ze gemeen? Hoe relateren deze principes aan het AI-product of de industrie waarin ze opereren?
2. Ethiekuitdagingen
Zodra we ethische principes hebben gedefinieerd, is de volgende stap om onze data- en AI-acties te evalueren om te zien of ze in lijn zijn met die gedeelde waarden. Denk aan je acties in twee categorieën: dataverzameling en algoritmeontwerp.
Bij dataverzameling zullen acties waarschijnlijk betrekking hebben op persoonlijke gegevens of persoonlijk identificeerbare informatie (PII) van identificeerbare levende individuen. Dit omvat diverse items van niet-persoonlijke gegevens die gezamenlijk een individu identificeren. Ethische uitdagingen kunnen betrekking hebben op gegevensprivacy, gegevensbezit en gerelateerde onderwerpen zoals geïnformeerde toestemming en intellectuele eigendomsrechten voor gebruikers.
Bij algoritmeontwerp zullen acties betrekking hebben op het verzamelen en samenstellen van datasets, en deze vervolgens gebruiken om datamodellen te trainen en in te zetten die uitkomsten voorspellen of beslissingen automatiseren in real-world contexten. Ethische uitdagingen kunnen voortkomen uit datasetbias, gegevenskwaliteit problemen, oneerlijkheid en verkeerde voorstelling in algoritmen - inclusief enkele problemen die systemisch van aard zijn.
In beide gevallen benadrukken ethische uitdagingen gebieden waar onze acties mogelijk in conflict komen met onze gedeelde waarden. Om deze zorgen te detecteren, te beperken, te minimaliseren of te elimineren, moeten we morele "ja/nee"-vragen stellen met betrekking tot onze acties en vervolgens corrigerende maatregelen nemen indien nodig. Laten we enkele ethische uitdagingen en de morele vragen die ze oproepen bekijken:
2.1 Gegevensbezit
Dataverzameling omvat vaak persoonlijke gegevens die de betrokkenen kunnen identificeren. Gegevensbezit gaat over controle en gebruikersrechten met betrekking tot de creatie, verwerking en verspreiding van gegevens.
De morele vragen die we moeten stellen zijn:
- Wie bezit de gegevens? (gebruiker of organisatie)
- Welke rechten hebben betrokkenen? (bijv. toegang, verwijdering, overdraagbaarheid)
- Welke rechten hebben organisaties? (bijv. rectificatie van schadelijke gebruikersbeoordelingen)
2.2 Geïnformeerde Toestemming
Geïnformeerde toestemming definieert de handeling waarbij gebruikers instemmen met een actie (zoals dataverzameling) met een volledig begrip van relevante feiten, inclusief het doel, de potentiële risico's en alternatieven.
Vragen om hier te onderzoeken zijn:
- Heeft de gebruiker (betrokkene) toestemming gegeven voor gegevensverzameling en -gebruik?
- Begrijpt de gebruiker het doel waarvoor die gegevens zijn verzameld?
- Begrijpt de gebruiker de potentiële risico's van hun deelname?
2.3 Intellectuele Eigendom
Intellectuele eigendom verwijst naar immateriële creaties die voortkomen uit menselijke initiatieven en mogelijk economische waarde hebben voor individuen of bedrijven.
Vragen om hier te onderzoeken zijn:
- Hadden de verzamelde gegevens economische waarde voor een gebruiker of bedrijf?
- Heeft de gebruiker hier intellectuele eigendom?
- Heeft de organisatie hier intellectuele eigendom?
- Als deze rechten bestaan, hoe beschermen we ze?
2.4 Gegevensprivacy
Gegevensprivacy of informatieprivacy verwijst naar het behoud van gebruikersprivacy en de bescherming van gebruikersidentiteit met betrekking tot persoonlijk identificeerbare informatie.
Vragen om hier te onderzoeken zijn:
- Zijn de (persoonlijke) gegevens van gebruikers beveiligd tegen hacks en lekken?
- Zijn de gegevens van gebruikers alleen toegankelijk voor geautoriseerde gebruikers en contexten?
- Wordt de anonimiteit van gebruikers behouden wanneer gegevens worden gedeeld of verspreid?
- Kan een gebruiker worden gedeïdentificeerd uit geanonimiseerde datasets?
2.5 Recht Om Vergeten Te Worden
Het Recht Om Vergeten Te Worden of Recht op Verwijdering biedt extra bescherming van persoonlijke gegevens aan gebruikers. Het geeft gebruikers specifiek het recht om verwijdering of verwijdering van persoonlijke gegevens te verzoeken uit internetzoekopdrachten en andere locaties, onder specifieke omstandigheden - zodat ze een nieuwe start online kunnen maken zonder dat eerdere acties tegen hen worden gebruikt.
Vragen om hier te onderzoeken zijn:
- Staat het systeem toe dat betrokkenen verwijdering aanvragen?
- Moet het intrekken van gebruikersinstemming automatische verwijdering activeren?
- Zijn gegevens verzameld zonder toestemming of op onwettige wijze?
- Voldoen we aan overheidsvoorschriften voor gegevensprivacy?
2.6 Datasetbias
Dataset- of verzamelbias gaat over het selecteren van een niet-representatieve subset van gegevens voor algoritmeontwikkeling, wat mogelijk oneerlijkheid creëert in uitkomsten voor diverse groepen. Soorten bias omvatten selectie- of steekproefbias, vrijwillige bias en instrumentbias.
Vragen om hier te onderzoeken zijn:
- Hebben we een representatieve set betrokkenen geworven?
- Hebben we onze verzamelde of samengestelde dataset getest op verschillende vormen van bias?
- Kunnen we ontdekte bias beperken of verwijderen?
2.7 Gegevenskwaliteit
Gegevenskwaliteit kijkt naar de geldigheid van de samengestelde dataset die wordt gebruikt om onze algoritmen te ontwikkelen, en controleert of kenmerken en records voldoen aan de vereisten voor het niveau van nauwkeurigheid en consistentie dat nodig is voor ons AI-doel.
Vragen om hier te onderzoeken zijn:
- Hebben we geldige kenmerken vastgelegd voor ons gebruiksscenario?
- Zijn gegevens consistent vastgelegd over diverse gegevensbronnen?
- Is de dataset volledig voor diverse omstandigheden of scenario's?
- Is informatie nauwkeurig vastgelegd in het weergeven van de werkelijkheid?
2.8 Algoritmische Eerlijkheid
Algorithmische Eerlijkheid onderzoekt of het ontwerp van een algoritme systematisch discrimineert tegen specifieke subgroepen van betrokkenen, wat kan leiden tot potentiële schade in toewijzing (waar middelen worden geweigerd of onthouden aan die groep) en kwaliteit van dienstverlening (waar AI minder nauwkeurig is voor sommige subgroepen dan voor anderen).
Vragen om hier te onderzoeken zijn:
- Hebben we de nauwkeurigheid van het model geëvalueerd voor diverse subgroepen en omstandigheden?
- Hebben we het systeem onderzocht op potentiële schade (bijv. stereotypering)?
- Kunnen we gegevens herzien of modellen opnieuw trainen om geïdentificeerde schade te verminderen?
Verken bronnen zoals AI Fairness checklists om meer te leren.
2.9 Misrepresentatie
Data Misrepresentatie gaat over de vraag of we inzichten uit eerlijk gerapporteerde gegevens op een misleidende manier communiceren om een gewenst narratief te ondersteunen.
Vragen om hier te onderzoeken zijn:
- Rapporteren we onvolledige of onnauwkeurige gegevens?
- Visualiseren we gegevens op een manier die misleidende conclusies stimuleert?
- Gebruiken we selectieve statistische technieken om uitkomsten te manipuleren?
- Zijn er alternatieve verklaringen die een andere conclusie kunnen bieden?
2.10 Vrije Keuze
De Illusie van Vrije Keuze ontstaat wanneer "keuze-architecturen" van systemen besluitvormingsalgoritmen gebruiken om mensen subtiel te sturen naar een voorkeursuitkomst, terwijl ze hen opties en controle lijken te geven. Deze dark patterns kunnen sociale en economische schade veroorzaken voor gebruikers. Omdat gebruikersbeslissingen gedragspatronen beïnvloeden, kunnen deze acties toekomstige keuzes sturen en de impact van deze schade versterken of verlengen.
Vragen om hier te onderzoeken zijn:
- Begrijpt de gebruiker de implicaties van het maken van die keuze?
- Is de gebruiker zich bewust van (alternatieve) keuzes en de voor- en nadelen van elke keuze?
- Kan de gebruiker een geautomatiseerde of beïnvloede keuze later terugdraaien?
3. Casestudies
Om deze ethische uitdagingen in een realistische context te plaatsen, helpt het om casestudies te bekijken die de potentiële schade en gevolgen voor individuen en de samenleving benadrukken wanneer dergelijke ethische schendingen over het hoofd worden gezien.
Hier zijn enkele voorbeelden:
Ethische Uitdaging | Casestudy |
---|---|
Informed Consent | 1972 - Tuskegee Syphilis Study - Afro-Amerikaanse mannen die deelnamen aan de studie kregen gratis medische zorg beloofd maar werden misleid door onderzoekers die hen niet informeerden over hun diagnose of de beschikbaarheid van behandeling. Veel deelnemers stierven en hun partners of kinderen werden getroffen; de studie duurde 40 jaar. |
Data Privacy | 2007 - De Netflix data prize bood onderzoekers 10M geanonimiseerde filmbeoordelingen van 50K klanten om aanbevelingsalgoritmen te verbeteren. Onderzoekers konden echter geanonimiseerde gegevens correleren met persoonlijk identificeerbare gegevens in externe datasets (bijv. IMDb-commentaren), waardoor sommige Netflix-abonnees effectief "gedeanonimiseerd" werden. |
Collection Bias | 2013 - De stad Boston ontwikkelde Street Bump, een app waarmee burgers kuilen konden melden, zodat de stad betere gegevens kreeg om problemen op de weg te vinden en op te lossen. Echter, mensen in lagere inkomensgroepen hadden minder toegang tot auto's en telefoons, waardoor hun wegproblemen onzichtbaar werden in deze app. Ontwikkelaars werkten samen met academici om gelijke toegang en digitale kloof kwesties aan te pakken voor eerlijkheid. |
Algorithmische Eerlijkheid | 2018 - De MIT Gender Shades Study evalueerde de nauwkeurigheid van AI-producten voor geslachtsclassificatie en onthulde hiaten in nauwkeurigheid voor vrouwen en mensen van kleur. Een 2019 Apple Card leek minder krediet te bieden aan vrouwen dan aan mannen. Beide illustreerden problemen in algoritmische bias die socio-economische schade veroorzaakten. |
Data Misrepresentatie | 2020 - Het Georgia Department of Public Health publiceerde COVID-19 grafieken die burgers leken te misleiden over trends in bevestigde gevallen met niet-chronologische ordening op de x-as. Dit illustreert misrepresentatie door visualisatietrucs. |
Illusie van vrije keuze | 2020 - Leerapp ABCmouse betaalde $10M om een FTC-klacht te schikken waarbij ouders werden vastgezet in abonnementen die ze niet konden annuleren. Dit illustreert dark patterns in keuze-architecturen, waarbij gebruikers werden gestuurd naar potentieel schadelijke keuzes. |
Data Privacy & Gebruikersrechten | 2021 - Facebook Data Breach onthulde gegevens van 530M gebruikers, wat resulteerde in een $5B schikking met de FTC. Het weigerde echter gebruikers te informeren over de schending, wat inbreuk maakte op gebruikersrechten rond gegevens transparantie en toegang. |
Wil je meer casestudies verkennen? Bekijk deze bronnen:
- Ethics Unwrapped - ethische dilemma's in diverse industrieën.
- Data Science Ethics course - landmark casestudies onderzocht.
- Waar dingen fout zijn gegaan - deon checklist met voorbeelden.
🚨 Denk na over de casestudies die je hebt gezien - heb je een soortgelijke ethische uitdaging in je leven ervaren of ondervonden? Kun je minstens één andere casestudy bedenken die een van de ethische uitdagingen illustreert die we in deze sectie hebben besproken?
Toegepaste Ethiek
We hebben gesproken over ethische concepten, uitdagingen en casestudies in realistische contexten. Maar hoe beginnen we met het toepassen van ethische principes en praktijken in onze projecten? En hoe operationeel maken we deze praktijken voor betere governance? Laten we enkele praktische oplossingen verkennen:
1. Professionele Codes
Professionele codes bieden een optie voor organisaties om leden te "stimuleren" om hun ethische principes en missieverklaring te ondersteunen. Codes zijn morele richtlijnen voor professioneel gedrag, die werknemers of leden helpen beslissingen te nemen die in lijn zijn met de principes van hun organisatie. Ze zijn alleen zo goed als de vrijwillige naleving door leden; veel organisaties bieden echter aanvullende beloningen en straffen om naleving te motiveren.
Voorbeelden zijn:
- Oxford Munich Code of Ethics
- Data Science Association Code of Conduct (gemaakt in 2013)
- ACM Code of Ethics and Professional Conduct (sinds 1993)
🚨 Behoor je tot een professionele ingenieurs- of data science-organisatie? Verken hun site om te zien of ze een professionele ethische code definiëren. Wat zegt dit over hun ethische principes? Hoe stimuleren ze leden om de code te volgen?
2. Ethiek Checklists
Hoewel professionele codes vereist ethisch gedrag van beoefenaars definiëren, hebben ze bekende beperkingen in handhaving, vooral in grootschalige projecten. In plaats daarvan pleiten veel data science-experts voor checklists, die principes verbinden met praktijken op meer deterministische en actiegerichte manieren.
Checklists zetten vragen om in "ja/nee"-taken die operationeel kunnen worden gemaakt, waardoor ze kunnen worden gevolgd als onderdeel van standaard productrelease-workflows.
Voorbeelden zijn:
- Deon - een algemene data ethiek checklist gemaakt op basis van industrie aanbevelingen met een command-line tool voor eenvoudige integratie.
- Privacy Audit Checklist - biedt algemene richtlijnen voor informatieverwerkingspraktijken vanuit juridische en sociale blootstellingsperspectieven.
- AI Fairness Checklist - gemaakt door AI-practitioners om de adoptie en integratie van eerlijkheidscontroles in AI-ontwikkelingscycli te ondersteunen.
- 22 vragen voor ethiek in data en AI - een meer open framework, gestructureerd voor initiële verkenning van ethische kwesties in ontwerp, implementatie en organisatorische contexten.
3. Ethiek Regels
Ethiek gaat over het definiëren van gedeelde waarden en vrijwillig het juiste doen. Naleving gaat over het volgen van de wet waar en indien gedefinieerd. Governance omvat in brede zin alle manieren waarop organisaties opereren om ethische principes te handhaven en te voldoen aan vastgestelde wetten.
Vandaag de dag neemt governance twee vormen aan binnen organisaties. Ten eerste gaat het om het definiëren van ethische AI-principes en het vaststellen van praktijken om adoptie te operationaliseren in alle AI-gerelateerde projecten binnen de organisatie. Ten tweede gaat het om naleving van alle door de overheid opgelegde gegevensbeschermingsregels voor regio's waarin het opereert.
Voorbeelden van gegevensbeschermings- en privacyregels:
1974
, US Privacy Act - reguleert federale overheid verzameling, gebruik en openbaarmaking van persoonlijke informatie.1996
, US Health Insurance Portability & Accountability Act (HIPAA) - beschermt persoonlijke gezondheidsgegevens.1998
, US Children's Online Privacy Protection Act (COPPA) - beschermt gegevensprivacy van kinderen onder de 13.2018
, General Data Protection Regulation (GDPR) - biedt gebruikersrechten, gegevensbescherming en privacy.2018
, California Consumer Privacy Act (CCPA) geeft consumenten meer rechten over hun (persoonlijke) gegevens.2021
, China's Personal Information Protection Law net aangenomen, een van de sterkste online gegevensprivacyregels wereldwijd.
🚨 De Europese Unie definieerde GDPR (General Data Protection Regulation) blijft een van de meest invloedrijke gegevensprivacyregels vandaag. Wist je dat het ook 8 gebruikersrechten definieert om de digitale privacy en persoonlijke gegevens van burgers te beschermen? Leer wat deze zijn en waarom ze belangrijk zijn.
4. Ethiek Cultuur
Let op dat er een ontastbare kloof blijft tussen naleving (genoeg doen om "de letter van de wet" te volgen) en het aanpakken van systemische problemen (zoals verstening, informatie-asymmetrie en distributionele oneerlijkheid) die de wapenisering van AI kunnen versnellen.
Het laatste vereist samenwerkingsbenaderingen om ethiekculturen te definiëren die emotionele verbindingen en consistente gedeelde waarden tussen organisaties in de industrie opbouwen. Dit vraagt om meer geformaliseerde data ethiek culturen in organisaties - waardoor iedereen de Andon-kabel kan trekken (om ethische zorgen vroeg in het proces aan te kaarten) en ethische beoordelingen (bijv. bij werving) een kerncriterium maken voor teamvorming in AI-projecten.
Post-lecture quiz 🎯
Review & Zelfstudie
Cursussen en boeken helpen bij het begrijpen van kernconcepten en uitdagingen in ethiek, terwijl casestudies en tools helpen bij toegepaste ethiekpraktijken in realistische contexten. Hier zijn enkele bronnen om mee te beginnen.
- Machine Learning For Beginners - les over eerlijkheid, van Microsoft.
- Principes van Verantwoordelijke AI - gratis leerpad van Microsoft Learn.
- Ethiek en Datawetenschap - O'Reilly EBook (M. Loukides, H. Mason et. al)
- Ethiek in Datawetenschap - online cursus van de Universiteit van Michigan.
- Ethiek Ontrafeld - casestudies van de Universiteit van Texas.
Opdracht
Schrijf Een Casestudy Over Data-Ethiek
Disclaimer:
Dit document is vertaald met behulp van de AI-vertalingsservice Co-op Translator. Hoewel we streven naar nauwkeurigheid, willen we u erop wijzen dat geautomatiseerde vertalingen fouten of onnauwkeurigheden kunnen bevatten. Het originele document in de oorspronkelijke taal moet worden beschouwd als de gezaghebbende bron. Voor kritieke informatie wordt professionele menselijke vertaling aanbevolen. Wij zijn niet aansprakelijk voor misverstanden of verkeerde interpretaties die voortvloeien uit het gebruik van deze vertaling.