|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 3 weeks ago |
README.md
Introductie tot Data-ethiek
![]() |
---|
Data Science Ethics - Sketchnote door @nitya |
We zijn allemaal databurgers die leven in een gedataficeerde wereld.
Markttrends laten zien dat tegen 2022, 1 op de 3 grote organisaties hun data zal kopen en verkopen via online marktplaatsen en beurzen. Als app-ontwikkelaars wordt het voor ons gemakkelijker en goedkoper om datagestuurde inzichten en algoritmegestuurde automatisering te integreren in dagelijkse gebruikerservaringen. Maar naarmate AI alomtegenwoordig wordt, moeten we ook de potentiële schade begrijpen die wordt veroorzaakt door de bewapening van dergelijke algoritmen op grote schaal.
Trends geven ook aan dat we tegen 2025 meer dan 180 zettabytes aan data zullen creëren en consumeren. Als datawetenschappers geeft dit ons ongekende toegang tot persoonlijke gegevens. Dit betekent dat we gedragsprofielen van gebruikers kunnen opbouwen en besluitvorming kunnen beïnvloeden op manieren die een illusie van vrije keuze creëren, terwijl we gebruikers mogelijk naar door ons gewenste uitkomsten sturen. Dit roept ook bredere vragen op over gegevensprivacy en gebruikersbescherming.
Data-ethiek is nu een noodzakelijke vangrail voor datawetenschap en -techniek, die ons helpt potentiële schade en onbedoelde gevolgen van onze datagestuurde acties te minimaliseren. De Gartner Hype Cycle voor AI identificeert relevante trends in digitale ethiek, verantwoordelijke AI en AI-governance als belangrijke drijfveren voor grotere megatrends rond democratisering en industrialisering van AI.
In deze les verkennen we het fascinerende gebied van data-ethiek - van kernconcepten en uitdagingen tot casestudy's en toegepaste AI-concepten zoals governance - die helpen een ethische cultuur te vestigen in teams en organisaties die met data en AI werken.
Quiz voorafgaand aan de les 🎯
Basisdefinities
Laten we beginnen met het begrijpen van de basisbegrippen.
Het woord "ethiek" komt van het Griekse woord "ethikos" (en de wortel "ethos") wat karakter of morele aard betekent.
Ethiek gaat over de gedeelde waarden en morele principes die ons gedrag in de samenleving sturen. Ethiek is niet gebaseerd op wetten, maar op algemeen geaccepteerde normen van wat "goed versus fout" is. Echter, ethische overwegingen kunnen invloed hebben op initiatieven voor corporate governance en overheidsreguleringen die meer prikkels creëren voor naleving.
Data-ethiek is een nieuwe tak van ethiek die "morele problemen bestudeert en evalueert met betrekking tot data, algoritmen en bijbehorende praktijken". Hier richt "data" zich op acties zoals het genereren, vastleggen, beheren, verwerken, verspreiden, delen en gebruiken van gegevens. "Algoritmen" richten zich op AI, agenten, machine learning en robots, en "praktijken" richten zich op onderwerpen zoals verantwoord innoveren, programmeren, hacken en ethische codes.
Toegepaste ethiek is de praktische toepassing van morele overwegingen. Het is het proces van actief onderzoeken van ethische kwesties in de context van real-world acties, producten en processen, en het nemen van corrigerende maatregelen om ervoor te zorgen dat deze in lijn blijven met onze gedefinieerde ethische waarden.
Ethische cultuur gaat over het operationeel maken van toegepaste ethiek om ervoor te zorgen dat onze ethische principes en praktijken op een consistente en schaalbare manier worden toegepast in de hele organisatie. Succesvolle ethische culturen definiëren organisatiebrede ethische principes, bieden zinvolle prikkels voor naleving en versterken ethische normen door gewenst gedrag op elk niveau van de organisatie aan te moedigen en te versterken.
Ethiekconcepten
In deze sectie bespreken we concepten zoals gedeelde waarden (principes) en ethische uitdagingen (problemen) voor data-ethiek - en verkennen we casestudy's die je helpen deze concepten in real-world contexten te begrijpen.
1. Ethiekprincipes
Elke data-ethiekstrategie begint met het definiëren van ethische principes - de "gedeelde waarden" die acceptabel gedrag beschrijven en compliant acties sturen in onze data- en AI-projecten. Je kunt deze definiëren op individueel of teamniveau. Echter, de meeste grote organisaties schetsen deze in een ethische AI-missieverklaring of kader dat op bedrijfsniveau wordt gedefinieerd en consequent wordt gehandhaafd in alle teams.
Voorbeeld: Microsoft's Responsible AI-missieverklaring luidt: "We zijn toegewijd aan de vooruitgang van AI, gedreven door ethische principes die mensen centraal stellen" - met daarin 6 ethische principes zoals hieronder weergegeven:
Laten we deze principes kort verkennen. Transparantie en verantwoordelijkheid zijn fundamentele waarden waarop andere principes zijn gebouwd - laten we daar beginnen:
- Verantwoordelijkheid maakt beoefenaars verantwoordelijk voor hun data- en AI-operaties, en naleving van deze ethische principes.
- Transparantie zorgt ervoor dat data- en AI-acties begrijpelijk (interpreteerbaar) zijn voor gebruikers, waarbij wordt uitgelegd wat en waarom beslissingen worden genomen.
- Eerlijkheid richt zich op het waarborgen dat AI alle mensen eerlijk behandelt, en systemische of impliciete sociaal-technische vooroordelen in data en systemen aanpakt.
- Betrouwbaarheid en veiligheid zorgt ervoor dat AI zich consistent gedraagt met gedefinieerde waarden, en potentiële schade of onbedoelde gevolgen minimaliseert.
- Privacy en beveiliging draait om het begrijpen van de herkomst van data en het bieden van gegevensprivacy en gerelateerde bescherming aan gebruikers.
- Inclusiviteit gaat over het ontwerpen van AI-oplossingen met intentie, en deze aanpassen om te voldoen aan een breed scala aan menselijke behoeften en mogelijkheden.
🚨 Denk na over wat jouw data-ethiek missieverklaring zou kunnen zijn. Verken ethische AI-kaders van andere organisaties - hier zijn voorbeelden van IBM, Google, en Facebook. Welke gedeelde waarden hebben ze gemeen? Hoe relateren deze principes aan het AI-product of de industrie waarin ze opereren?
2. Ethiekuitdagingen
Zodra we ethische principes hebben gedefinieerd, is de volgende stap om onze data- en AI-acties te evalueren om te zien of ze in lijn zijn met die gedeelde waarden. Denk aan je acties in twee categorieën: dataverzameling en algoritmeontwerp.
Bij dataverzameling zullen acties waarschijnlijk betrekking hebben op persoonlijke gegevens of persoonlijk identificeerbare informatie (PII) van identificeerbare levende individuen. Dit omvat diverse items van niet-persoonlijke gegevens die gezamenlijk een individu identificeren. Ethische uitdagingen kunnen betrekking hebben op gegevensprivacy, gegevensbezit en gerelateerde onderwerpen zoals geïnformeerde toestemming en intellectuele eigendomsrechten voor gebruikers.
Bij algoritmeontwerp zullen acties betrekking hebben op het verzamelen en beheren van datasets, en deze vervolgens gebruiken om datamodellen te trainen en in te zetten die uitkomsten voorspellen of beslissingen automatiseren in real-world contexten. Ethische uitdagingen kunnen voortkomen uit datasetbias, gegevenskwaliteit, oneerlijkheid en verkeerde voorstelling in algoritmen - inclusief enkele kwesties die systemisch van aard zijn.
In beide gevallen benadrukken ethische uitdagingen gebieden waar onze acties in conflict kunnen komen met onze gedeelde waarden. Om deze zorgen te detecteren, te beperken, te minimaliseren of te elimineren, moeten we morele "ja/nee"-vragen stellen met betrekking tot onze acties, en indien nodig corrigerende maatregelen nemen. Laten we enkele ethische uitdagingen en de morele vragen die ze oproepen bekijken:
2.1 Gegevensbezit
Dataverzameling omvat vaak persoonlijke gegevens die de betrokkenen kunnen identificeren. Gegevensbezit gaat over controle en gebruikersrechten met betrekking tot het creëren, verwerken en verspreiden van gegevens.
De morele vragen die we moeten stellen zijn:
- Wie bezit de gegevens? (gebruiker of organisatie)
- Welke rechten hebben betrokkenen? (bijv. toegang, verwijdering, overdraagbaarheid)
- Welke rechten hebben organisaties? (bijv. corrigeren van schadelijke gebruikersrecensies)
2.2 Geïnformeerde Toestemming
Geïnformeerde toestemming definieert de handeling waarbij gebruikers instemmen met een actie (zoals dataverzameling) met een volledig begrip van relevante feiten, inclusief het doel, potentiële risico's en alternatieven.
Vragen om hier te onderzoeken zijn:
- Heeft de gebruiker (betrokkene) toestemming gegeven voor gegevensverzameling en -gebruik?
- Begrijpt de gebruiker het doel waarvoor die gegevens zijn verzameld?
- Begrijpt de gebruiker de potentiële risico's van hun deelname?
2.3 Intellectuele Eigendom
Intellectuele eigendom verwijst naar immateriële creaties die voortkomen uit menselijke initiatieven en economische waarde kunnen hebben voor individuen of bedrijven.
Vragen om hier te onderzoeken zijn:
- Hadden de verzamelde gegevens economische waarde voor een gebruiker of bedrijf?
- Heeft de gebruiker hier intellectuele eigendom?
- Heeft de organisatie hier intellectuele eigendom?
- Als deze rechten bestaan, hoe beschermen we ze?
2.4 Gegevensprivacy
Gegevensprivacy of informatieprivacy verwijst naar het behoud van gebruikersprivacy en de bescherming van gebruikersidentiteit met betrekking tot persoonlijk identificeerbare informatie.
Vragen om hier te onderzoeken zijn:
- Zijn de (persoonlijke) gegevens van gebruikers beveiligd tegen hacks en lekken?
- Zijn de gegevens van gebruikers alleen toegankelijk voor geautoriseerde gebruikers en contexten?
- Wordt de anonimiteit van gebruikers behouden wanneer gegevens worden gedeeld of verspreid?
- Kan een gebruiker worden geanonimiseerd uit geanonimiseerde datasets?
2.5 Recht Om Vergeten Te Worden
Het Recht Om Vergeten Te Worden of Recht op Verwijdering biedt extra bescherming van persoonlijke gegevens aan gebruikers. Het geeft gebruikers specifiek het recht om verwijdering of verwijdering van persoonlijke gegevens van internetzoekopdrachten en andere locaties te verzoeken, onder specifieke omstandigheden - zodat ze een nieuwe start online kunnen maken zonder dat eerdere acties tegen hen worden gebruikt.
Vragen om hier te onderzoeken zijn:
- Staat het systeem betrokkenen toe om verwijdering te verzoeken?
- Moet het intrekken van gebruikersinstemming automatische verwijdering activeren?
- Zijn gegevens verzameld zonder toestemming of op onwettige wijze?
- Zijn we compliant met overheidsregels voor gegevensprivacy?
2.6 Datasetbias
Dataset- of verzamelbias gaat over het selecteren van een niet-representatieve subset van gegevens voor algoritmeontwikkeling, wat mogelijk oneerlijkheid in uitkomsten voor diverse groepen creëert. Soorten bias omvatten selectie- of steekproefbias, vrijwilligersbias en instrumentbias.
Vragen om hier te onderzoeken zijn:
- Hebben we een representatieve set van betrokkenen gerekruteerd?
- Hebben we onze verzamelde of samengestelde dataset getest op verschillende vormen van bias?
- Kunnen we ontdekte bias beperken of verwijderen?
2.7 Gegevenskwaliteit
Gegevenskwaliteit kijkt naar de geldigheid van de samengestelde dataset die wordt gebruikt voor de ontwikkeling van onze algoritmen, en controleert of kenmerken en records voldoen aan de vereisten voor het niveau van nauwkeurigheid en consistentie dat nodig is voor ons AI-doel.
Vragen om hier te onderzoeken zijn:
- Hebben we geldige kenmerken vastgelegd voor ons gebruiksscenario?
- Zijn gegevens consistent vastgelegd over diverse gegevensbronnen heen?
- Is de dataset compleet voor diverse omstandigheden of scenario's?
- Is informatie nauwkeurig vastgelegd in het weerspiegelen van de werkelijkheid?
2.8 Algoritmische Eerlijkheid
Algorithmische Eerlijkheid onderzoekt of het ontwerp van een algoritme systematisch discrimineert tegen specifieke subgroepen van gegevenssubjecten, wat kan leiden tot mogelijke schade in toewijzing (waar middelen worden geweigerd of onthouden aan die groep) en kwaliteit van dienstverlening (waar AI minder accuraat is voor sommige subgroepen dan voor anderen).
Vragen om hier te onderzoeken zijn:
- Hebben we de modelnauwkeurigheid geëvalueerd voor diverse subgroepen en omstandigheden?
- Hebben we het systeem onderzocht op mogelijke schade (bijv. stereotypering)?
- Kunnen we gegevens herzien of modellen opnieuw trainen om geïdentificeerde schade te beperken?
Verken bronnen zoals AI Fairness checklists om meer te leren.
2.9 Misrepresentatie
Gegevensmisrepresentatie gaat over de vraag of we inzichten uit eerlijk gerapporteerde gegevens op een misleidende manier communiceren om een gewenst narratief te ondersteunen.
Vragen om hier te onderzoeken zijn:
- Rapporteren we onvolledige of onnauwkeurige gegevens?
- Visualiseren we gegevens op een manier die tot misleidende conclusies leidt?
- Gebruiken we selectieve statistische technieken om uitkomsten te manipuleren?
- Zijn er alternatieve verklaringen die tot een andere conclusie kunnen leiden?
2.10 Vrije Keuze
De Illusie van Vrije Keuze ontstaat wanneer "keuzearchitecturen" in systemen besluitvormingsalgoritmen gebruiken om mensen subtiel te sturen naar een gewenste uitkomst, terwijl het lijkt alsof ze opties en controle hebben. Deze dark patterns kunnen sociale en economische schade veroorzaken voor gebruikers. Omdat gebruikersbeslissingen gedragsprofielen beïnvloeden, kunnen deze acties toekomstige keuzes sturen en de impact van deze schade versterken of verlengen.
Vragen om hier te onderzoeken zijn:
- Begrijpt de gebruiker de implicaties van het maken van die keuze?
- Was de gebruiker zich bewust van (alternatieve) keuzes en de voor- en nadelen van elke optie?
- Kan de gebruiker een geautomatiseerde of beïnvloede keuze later terugdraaien?
3. Casestudies
Om deze ethische uitdagingen in een real-world context te plaatsen, is het nuttig om casestudies te bekijken die de mogelijke schade en gevolgen voor individuen en de samenleving benadrukken wanneer dergelijke ethische schendingen over het hoofd worden gezien.
Hier zijn enkele voorbeelden:
Ethische Uitdaging | Casestudy |
---|---|
Informed Consent | 1972 - Tuskegee Syfilis Studie - Afro-Amerikaanse mannen die deelnamen aan de studie kregen gratis medische zorg beloofd, maar werden misleid door onderzoekers die hen niet informeerden over hun diagnose of de beschikbaarheid van behandeling. Veel deelnemers stierven en partners of kinderen werden getroffen; de studie duurde 40 jaar. |
Gegevensprivacy | 2007 - De Netflix data prijs gaf onderzoekers 10 miljoen geanonimiseerde filmbeoordelingen van 50.000 klanten om aanbevelingsalgoritmen te verbeteren. Onderzoekers konden echter geanonimiseerde gegevens correleren met persoonlijk identificeerbare gegevens in externe datasets (bijv. IMDb-reacties), waardoor sommige Netflix-abonnees effectief werden "gedeanonimiseerd". |
Verzamelingsbias | 2013 - De stad Boston ontwikkelde Street Bump, een app waarmee burgers kuilen konden melden, zodat de stad betere gegevens kreeg om problemen op wegen te vinden en op te lossen. Echter, mensen in lagere inkomensgroepen hadden minder toegang tot auto's en telefoons, waardoor hun wegproblemen onzichtbaar bleven in deze app. Ontwikkelaars werkten samen met academici om eerlijke toegang en digitale ongelijkheden aan te pakken. |
Algorithmische Eerlijkheid | 2018 - De MIT Gender Shades Studie evalueerde de nauwkeurigheid van AI-producten voor geslachtsclassificatie en onthulde hiaten in nauwkeurigheid voor vrouwen en mensen van kleur. Een 2019 Apple Card leek minder krediet te bieden aan vrouwen dan aan mannen. Beide illustreerden problemen met algoritmische bias die tot sociaal-economische schade leidden. |
Gegevensmisrepresentatie | 2020 - Het Georgia Department of Public Health bracht COVID-19-grafieken uit die burgers leken te misleiden over trends in bevestigde gevallen door niet-chronologische ordening op de x-as. Dit illustreert misrepresentatie door visualisatietrucs. |
Illusie van vrije keuze | 2020 - Leerapp ABCmouse betaalde $10M om een FTC-klacht te schikken waarbij ouders vastzaten aan abonnementen die ze niet konden annuleren. Dit illustreert dark patterns in keuzearchitecturen, waarbij gebruikers subtiel werden gestuurd naar potentieel schadelijke keuzes. |
Gegevensprivacy & Gebruikersrechten | 2021 - Facebook Data Lek lekte gegevens van 530 miljoen gebruikers, wat resulteerde in een schikking van $5 miljard met de FTC. Het weigerde echter gebruikers op de hoogte te stellen van het lek, wat in strijd was met gebruikersrechten rond gegevenstransparantie en toegang. |
Wil je meer casestudies verkennen? Bekijk deze bronnen:
- Ethics Unwrapped - ethische dilemma's in diverse industrieën.
- Data Science Ethics course - landmark casestudies onderzocht.
- Waar het misging - deon checklist met voorbeelden.
🚨 Denk na over de casestudies die je hebt gezien - heb je een vergelijkbare ethische uitdaging in je leven ervaren of ondervonden? Kun je minstens één andere casestudy bedenken die een van de ethische uitdagingen illustreert die we in deze sectie hebben besproken?
Toegepaste Ethiek
We hebben het gehad over ethische concepten, uitdagingen en casestudies in real-world contexten. Maar hoe beginnen we met het toepassen van ethische principes en praktijken in onze projecten? En hoe operationeel maken we deze praktijken voor betere governance? Laten we enkele real-world oplossingen verkennen:
1. Professionele Codes
Professionele codes bieden een optie voor organisaties om leden te "stimuleren" om hun ethische principes en missieverklaring te ondersteunen. Codes zijn morele richtlijnen voor professioneel gedrag, die werknemers of leden helpen beslissingen te nemen die in lijn zijn met de principes van hun organisatie. Ze zijn alleen zo effectief als de vrijwillige naleving door leden; veel organisaties bieden echter extra beloningen en sancties om naleving te motiveren.
Voorbeelden zijn:
- Oxford Munich Code of Ethics
- Data Science Association Code of Conduct (gecreëerd in 2013)
- ACM Code of Ethics and Professional Conduct (sinds 1993)
🚨 Behoor je tot een professionele ingenieurs- of datawetenschapsorganisatie? Verken hun site om te zien of ze een professionele gedragscode definiëren. Wat zegt dit over hun ethische principes? Hoe "stimuleren" ze leden om de code te volgen?
2. Ethiek Checklists
Hoewel professionele codes vereist ethisch gedrag van beoefenaars definiëren, hebben ze bekende beperkingen in handhaving, vooral in grootschalige projecten. In plaats daarvan pleiten veel datawetenschapsexperts voor checklists, die principes verbinden met praktijken op meer deterministische en actiegerichte manieren.
Checklists zetten vragen om in "ja/nee"-taken die operationeel kunnen worden gemaakt, zodat ze kunnen worden gevolgd als onderdeel van standaard productrelease-workflows.
Voorbeelden zijn:
- Deon - een algemene data-ethiek checklist, gemaakt op basis van industrieaanbevelingen met een command-line tool voor eenvoudige integratie.
- Privacy Audit Checklist - biedt algemene richtlijnen voor informatieverwerkingspraktijken vanuit juridische en sociale blootstellingsperspectieven.
- AI Fairness Checklist - gemaakt door AI-practitioners om de adoptie en integratie van eerlijkheidscontroles in AI-ontwikkelingscycli te ondersteunen.
- 22 vragen voor ethiek in data en AI - een meer open kader, gestructureerd voor initiële verkenning van ethische kwesties in ontwerp, implementatie en organisatorische contexten.
3. Ethiek Regelgeving
Ethiek gaat over het definiëren van gedeelde waarden en vrijwillig het juiste doen. Naleving gaat over het volgen van de wet waar en wanneer die is gedefinieerd. Governance omvat alle manieren waarop organisaties opereren om ethische principes af te dwingen en te voldoen aan vastgestelde wetten.
Tegenwoordig neemt governance twee vormen aan binnen organisaties. Ten eerste gaat het om het definiëren van ethische AI-principes en het vaststellen van praktijken om adoptie te operationaliseren in alle AI-gerelateerde projecten binnen de organisatie. Ten tweede gaat het om naleving van alle door de overheid opgelegde gegevensbeschermingsregelgeving voor de regio's waarin het opereert.
Voorbeelden van gegevensbeschermings- en privacyregelgeving:
1974
, US Privacy Act - reguleert federale overheid verzameling, gebruik en openbaarmaking van persoonlijke informatie.1996
, US Health Insurance Portability & Accountability Act (HIPAA) - beschermt persoonlijke gezondheidsgegevens.1998
, US Children's Online Privacy Protection Act (COPPA) - beschermt gegevensprivacy van kinderen onder de 13.2018
, General Data Protection Regulation (GDPR) - biedt gebruikersrechten, gegevensbescherming en privacy.2018
, California Consumer Privacy Act (CCPA) geeft consumenten meer rechten over hun (persoonlijke) gegevens.2021
, China's Personal Information Protection Law net aangenomen, een van de sterkste online gegevensprivacyregelgevingen wereldwijd.
🚨 De Europese Unie definieerde GDPR (General Data Protection Regulation) blijft een van de meest invloedrijke gegevensprivacyregelgevingen vandaag. Wist je dat het ook 8 gebruikersrechten definieert om de digitale privacy en persoonlijke gegevens van burgers te beschermen? Leer wat deze rechten zijn en waarom ze belangrijk zijn.
4. Ethiek Cultuur
Let op dat er een ongrijpbare kloof blijft tussen naleving (genoeg doen om "de letter van de wet" te volgen) en het aanpakken van systemische problemen (zoals verstarring, informatie-asymmetrie en verdelingsonrechtvaardigheid) die de wapenisering van AI kunnen versnellen.
Dit laatste vereist samenwerkingsbenaderingen om ethische culturen te definiëren die emotionele verbindingen en consistente gedeelde waarden binnen organisaties in de industrie opbouwen. Dit vraagt om meer geformaliseerde data-ethiek culturen in organisaties - waardoor iedereen de Andon-kabel kan trekken (om ethische zorgen vroeg in het proces aan te kaarten) en ethische beoordelingen (bijv. bij werving) een kerncriterium te maken voor teamvorming in AI-projecten.
Post-lecture quiz 🎯
Review & Zelfstudie
Cursussen en boeken helpen bij het begrijpen van kernconcepten en uitdagingen op het gebied van ethiek, terwijl casestudies en tools helpen bij toegepaste ethische praktijken in real-world contexten. Hier zijn enkele bronnen om mee te beginnen:
- Machine Learning For Beginners - les over eerlijkheid, van Microsoft.
- Principes van Verantwoorde AI - gratis leerpad van Microsoft Learn.
- Ethiek en Datawetenschap - O'Reilly EBook (M. Loukides, H. Mason et. al)
- Datawetenschap en Ethiek - online cursus van de Universiteit van Michigan.
- Ethics Unwrapped - casestudies van de Universiteit van Texas.
Opdracht
Schrijf Een Casestudy Over Data-Ethiek
Disclaimer:
Dit document is vertaald met behulp van de AI-vertalingsservice Co-op Translator. Hoewel we streven naar nauwkeurigheid, willen we u erop wijzen dat geautomatiseerde vertalingen fouten of onnauwkeurigheden kunnen bevatten. Het originele document in de oorspronkelijke taal moet worden beschouwd als de gezaghebbende bron. Voor kritieke informatie wordt professionele menselijke vertaling aanbevolen. Wij zijn niet aansprakelijk voor misverstanden of verkeerde interpretaties die voortvloeien uit het gebruik van deze vertaling.