You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/nl/1-Introduction/02-ethics
leestott a12f5d4c2d
🌐 Update translations via Co-op Translator
5 months ago
..
README.md 🌐 Update translations via Co-op Translator 5 months ago
assignment.md 🌐 Update translations via Co-op Translator 6 months ago

README.md

Introductie tot Data-ethiek

 Sketchnote door (@sketchthedocs)
Data Science Ethiek - Sketchnote door @nitya

We zijn allemaal databurgers die leven in een gedigitaliseerde wereld.

Markttrends voorspellen dat tegen 2022 één op de drie grote organisaties hun data zal kopen en verkopen via online marktplaatsen en beurzen. Als app-ontwikkelaars zullen we merken dat het eenvoudiger en goedkoper wordt om datagestuurde inzichten en algoritmische automatisering te integreren in dagelijkse gebruikerservaringen. Maar naarmate AI alomtegenwoordig wordt, zullen we ook de potentiële schade moeten begrijpen die wordt veroorzaakt door de bewapening van dergelijke algoritmen op grote schaal.

Trends suggereren dat we tegen 2025 meer dan 180 zettabytes aan data zullen genereren en consumeren. Voor datawetenschappers biedt deze explosie van informatie ongekende toegang tot persoonlijke en gedragsgegevens. Dit geeft de mogelijkheid om gedetailleerde gebruikersprofielen op te bouwen en subtiel besluitvorming te beïnvloeden—vaak op manieren die een illusie van vrije keuze creëren. Hoewel dit kan worden gebruikt om gebruikers naar gewenste uitkomsten te sturen, roept het ook kritische vragen op over gegevensprivacy, autonomie en de ethische grenzen van algoritmische invloed.

Data-ethiek zijn nu noodzakelijke vangrails voor datawetenschap en engineering, die ons helpen potentiële schade en onbedoelde gevolgen van onze datagestuurde acties te minimaliseren. De Gartner Hype Cycle voor AI identificeert relevante trends in digitale ethiek, verantwoorde AI en AI-governance als belangrijke drijfveren voor grotere megatrends rond democratisering en industrialisering van AI.

Gartner's Hype Cycle voor AI - 2020

In deze les verkennen we het fascinerende gebied van data-ethiek - van kernconcepten en uitdagingen tot casestudy's en toegepaste AI-concepten zoals governance - die helpen een ethische cultuur te vestigen in teams en organisaties die met data en AI werken.

Pre-lecture quiz 🎯

Basisdefinities

Laten we beginnen met het begrijpen van de basisbegrippen.

Het woord "ethiek" komt van het Griekse woord "ethikos" (en de wortel "ethos") wat karakter of morele aard betekent.

Ethiek gaat over de gedeelde waarden en morele principes die ons gedrag in de samenleving sturen. Ethiek is niet gebaseerd op wetten, maar op algemeen geaccepteerde normen van wat "goed versus fout" is. Echter, ethische overwegingen kunnen invloed hebben op initiatieven voor corporate governance en overheidsreguleringen die meer prikkels creëren voor naleving.

Data-ethiek is een nieuwe tak van ethiek die "morele problemen met betrekking tot data, algoritmen en bijbehorende praktijken bestudeert en evalueert". Hier richt "data" zich op acties met betrekking tot generatie, registratie, curatie, verwerking, verspreiding, delen en gebruik, "algoritmen" richt zich op AI, agenten, machine learning en robots, en "praktijken" richt zich op onderwerpen zoals verantwoordelijke innovatie, programmeren, hacken en ethische codes.

Toegepaste ethiek is de praktische toepassing van morele overwegingen. Het is het proces van actief onderzoeken van ethische kwesties in de context van real-world acties, producten en processen, en het nemen van corrigerende maatregelen om ervoor te zorgen dat deze in lijn blijven met onze gedefinieerde ethische waarden.

Ethiekcultuur gaat over het operationeel maken van toegepaste ethiek om ervoor te zorgen dat onze ethische principes en praktijken op een consistente en schaalbare manier worden toegepast in de hele organisatie. Succesvolle ethiekculturen definiëren organisatiebrede ethische principes, bieden zinvolle prikkels voor naleving en versterken ethische normen door gewenst gedrag op elk niveau van de organisatie aan te moedigen en te versterken.

Ethiekconcepten

In deze sectie bespreken we concepten zoals gedeelde waarden (principes) en ethische uitdagingen (problemen) voor data-ethiek - en verkennen we casestudy's die je helpen deze concepten te begrijpen in real-world contexten.

1. Ethiekprincipes

Elke data-ethiekstrategie begint met het definiëren van ethische principes - de "gedeelde waarden" die acceptabel gedrag beschrijven en compliant acties sturen in onze data- en AI-projecten. Je kunt deze definiëren op individueel of teamniveau. Echter, de meeste grote organisaties schetsen deze in een ethisch AI missieverklaring of raamwerk dat op bedrijfsniveau wordt gedefinieerd en consequent wordt gehandhaafd in alle teams.

Voorbeeld: Microsoft's Responsible AI missieverklaring luidt: "We zijn toegewijd aan de vooruitgang van AI, gedreven door ethische principes die mensen centraal stellen" - en identificeert 6 ethische principes in het onderstaande raamwerk:

Responsible AI bij Microsoft

Laten we deze principes kort verkennen. Transparantie en verantwoordelijkheid zijn fundamentele waarden waarop andere principes zijn gebouwd - laten we daar beginnen:

  • Verantwoordelijkheid maakt beoefenaars verantwoordelijk voor hun data- en AI-operaties en naleving van deze ethische principes.
  • Transparantie zorgt ervoor dat data- en AI-acties begrijpelijk (interpreteerbaar) zijn voor gebruikers, waarbij wordt uitgelegd wat en waarom beslissingen worden genomen.
  • Eerlijkheid - richt zich op het waarborgen dat AI alle mensen eerlijk behandelt, en pakt eventuele systemische of impliciete sociaal-technische vooroordelen in data en systemen aan.
  • Betrouwbaarheid en veiligheid - zorgt ervoor dat AI consistent handelt met gedefinieerde waarden, en potentiële schade of onbedoelde gevolgen minimaliseert.
  • Privacy en beveiliging - gaat over het begrijpen van de herkomst van data en het bieden van gegevensprivacy en gerelateerde bescherming aan gebruikers.
  • Inclusiviteit - gaat over het ontwerpen van AI-oplossingen met intentie, en het aanpassen ervan om te voldoen aan een breed scala aan menselijke behoeften en capaciteiten.

🚨 Denk na over wat jouw data-ethiek missieverklaring zou kunnen zijn. Verken ethische AI-raamwerken van andere organisaties - hier zijn voorbeelden van IBM, Google, en Facebook. Welke gedeelde waarden hebben ze gemeen? Hoe verhouden deze principes zich tot het AI-product of de industrie waarin ze opereren?

2. Ethiekuitdagingen

Zodra we ethische principes hebben gedefinieerd, is de volgende stap om onze data- en AI-acties te evalueren om te zien of ze in lijn zijn met die gedeelde waarden. Denk aan je acties in twee categorieën: dataverzameling en algoritmeontwerp.

Bij dataverzameling zullen acties waarschijnlijk betrekking hebben op persoonlijke gegevens of persoonlijk identificeerbare informatie (PII) van identificeerbare levende individuen. Dit omvat diverse soorten niet-persoonlijke gegevens die gezamenlijk een individu identificeren. Ethische uitdagingen kunnen betrekking hebben op gegevensprivacy, gegevensbezit en gerelateerde onderwerpen zoals geïnformeerde toestemming en intellectuele eigendomsrechten voor gebruikers.

Bij algoritmeontwerp zullen acties betrekking hebben op het verzamelen en cureren van datasets, en het gebruik ervan om datamodellen te trainen en in te zetten die uitkomsten voorspellen of beslissingen automatiseren in real-world contexten. Ethische uitdagingen kunnen voortkomen uit datasetbias, gegevenskwaliteit problemen, oneerlijkheid en verkeerde voorstelling in algoritmen - inclusief enkele problemen die systemisch van aard zijn.

In beide gevallen benadrukken ethische uitdagingen gebieden waar onze acties mogelijk in conflict komen met onze gedeelde waarden. Om deze zorgen te detecteren, te beperken, te minimaliseren of te elimineren, moeten we morele "ja/nee"-vragen stellen met betrekking tot onze acties en vervolgens corrigerende maatregelen nemen indien nodig. Laten we enkele ethische uitdagingen en de morele vragen die ze oproepen bekijken:

2.1 Gegevensbezit

Dataverzameling omvat vaak persoonlijke gegevens die de betrokken personen kunnen identificeren. Gegevensbezit gaat over controle en gebruikersrechten met betrekking tot de creatie, verwerking en verspreiding van gegevens.

De morele vragen die we moeten stellen zijn:

  • Wie bezit de gegevens? (gebruiker of organisatie)
  • Welke rechten hebben betrokkenen? (bijv. toegang, verwijdering, overdraagbaarheid)
  • Welke rechten hebben organisaties? (bijv. rectificatie van schadelijke gebruikersbeoordelingen)

2.2 Geïnformeerde toestemming

Geïnformeerde toestemming definieert de handeling waarbij gebruikers akkoord gaan met een actie (zoals dataverzameling) met een volledig begrip van relevante feiten, inclusief het doel, potentiële risico's en alternatieven.

Vragen om hier te verkennen zijn:

  • Heeft de gebruiker (betrokkene) toestemming gegeven voor gegevensverzameling en gebruik?
  • Begrijpt de gebruiker het doel waarvoor die gegevens zijn verzameld?
  • Begrijpt de gebruiker de potentiële risico's van zijn deelname?

2.3 Intellectuele eigendom

Intellectuele eigendom verwijst naar immateriële creaties die voortkomen uit menselijke initiatieven en economische waarde kunnen hebben voor individuen of bedrijven.

Vragen om hier te verkennen zijn:

  • Hadden de verzamelde gegevens economische waarde voor een gebruiker of bedrijf?
  • Heeft de gebruiker hier intellectuele eigendom?
  • Heeft de organisatie hier intellectuele eigendom?
  • Als deze rechten bestaan, hoe beschermen we ze?

2.4 Gegevensprivacy

Gegevensprivacy of informatieprivacy verwijst naar het behoud van gebruikersprivacy en bescherming van gebruikersidentiteit met betrekking tot persoonlijk identificeerbare informatie.

Vragen om hier te verkennen zijn:

  • Zijn de (persoonlijke) gegevens van gebruikers beveiligd tegen hacks en lekken?
  • Zijn de gegevens van gebruikers alleen toegankelijk voor geautoriseerde gebruikers en contexten?
  • Wordt de anonimiteit van gebruikers behouden wanneer gegevens worden gedeeld of verspreid?
  • Kan een gebruiker worden geanonimiseerd uit geanonimiseerde datasets?

2.5 Recht om vergeten te worden

Het Recht om vergeten te worden of Recht op verwijdering biedt extra bescherming van persoonlijke gegevens aan gebruikers. Het geeft gebruikers specifiek het recht om verwijdering of verwijdering van persoonlijke gegevens van internetzoekopdrachten en andere locaties te verzoeken, onder specifieke omstandigheden - waardoor ze een nieuwe start online kunnen maken zonder dat eerdere acties tegen hen worden gebruikt.

Vragen om hier te verkennen zijn:

  • Staat het systeem toe dat betrokkenen verwijdering aanvragen?
  • Moet het intrekken van gebruikers toestemming automatische verwijdering activeren?
  • Zijn gegevens verzameld zonder toestemming of op onwettige wijze?
  • Voldoen we aan overheidsvoorschriften voor gegevensprivacy?

2.6 Datasetbias

Dataset- of verzamelingsbias gaat over het selecteren van een niet-representatieve subset van gegevens voor algoritmeontwikkeling, wat mogelijk oneerlijkheid in resultaatuitkomsten voor diverse groepen creëert. Soorten bias zijn onder andere selectie- of steekproefbias, vrijwillige bias en instrumentbias.

Vragen om hier te verkennen zijn:

  • Hebben we een representatieve set van betrokkenen verzameld?
  • Hebben we onze verzamelde of gecureerde dataset getest op verschillende vormen van bias?
  • Kunnen we eventuele ontdekte bias beperken of verwijderen?

2.7 Gegevenskwaliteit

Gegevenskwaliteit kijkt naar de geldigheid van de gecureerde dataset die wordt gebruikt om onze algoritmen te ontwikkelen, en controleert of kenmerken en records voldoen aan de vereisten voor het niveau van nauwkeurigheid en consistentie dat nodig is voor ons AI-doel.

Vragen om hier te verkennen zijn:

  • Hebben we geldige kenmerken vastgelegd voor ons gebruiksdoel?
  • Zijn gegevens consistent vastgelegd over diverse gegevensbronnen?
  • Is de dataset volledig voor diverse omstandigheden of scenario's?
  • Wordt informatie nauwkeurig vastgelegd en weerspiegelt het de werkelijkheid?

2.8 Eerlijkheid van algoritmes

Eerlijkheid van algoritmes onderzoekt of het ontwerp van een algoritme systematisch discrimineert tegen specifieke subgroepen van datapunten, wat kan leiden tot mogelijke schade in toewijzing (waar middelen worden geweigerd of onthouden aan die groep) en kwaliteit van dienstverlening (waar AI minder nauwkeurig is voor sommige subgroepen dan voor anderen).

Vragen om hier te onderzoeken zijn:

  • Hebben we de nauwkeurigheid van het model geëvalueerd voor diverse subgroepen en omstandigheden?
  • Hebben we het systeem onderzocht op mogelijke schade (bijv. stereotypering)?
  • Kunnen we gegevens herzien of modellen opnieuw trainen om geïdentificeerde schade te verminderen?

Bekijk bronnen zoals AI Fairness checklists om meer te leren.

2.9 Misrepresentatie

Misrepresentatie van gegevens gaat over de vraag of we inzichten uit eerlijk gerapporteerde gegevens op een misleidende manier communiceren om een gewenst narratief te ondersteunen.

Vragen om hier te onderzoeken zijn:

  • Rapporteren we onvolledige of onnauwkeurige gegevens?
  • Visualiseren we gegevens op een manier die misleidende conclusies oproept?
  • Gebruiken we selectieve statistische technieken om uitkomsten te manipuleren?
  • Zijn er alternatieve verklaringen die een andere conclusie kunnen bieden?

2.10 Vrije keuze

De illusie van vrije keuze ontstaat wanneer "keuze-architecturen" van systemen besluitvormingsalgoritmes gebruiken om mensen subtiel te sturen naar een gewenste uitkomst, terwijl ze lijken opties en controle te bieden. Deze dark patterns kunnen sociale en economische schade veroorzaken voor gebruikers. Omdat gebruikersbeslissingen gedragspatronen beïnvloeden, kunnen deze acties toekomstige keuzes sturen en de impact van deze schade versterken of verlengen.

Vragen om hier te onderzoeken zijn:

  • Begrijpt de gebruiker de implicaties van het maken van die keuze?
  • Is de gebruiker zich bewust van (alternatieve) keuzes en de voor- en nadelen van elke keuze?
  • Kan de gebruiker een geautomatiseerde of beïnvloede keuze later terugdraaien?

3. Casestudies

Om deze ethische uitdagingen in een real-world context te plaatsen, helpt het om casestudies te bekijken die de mogelijke schade en gevolgen voor individuen en de samenleving benadrukken wanneer dergelijke ethische schendingen over het hoofd worden gezien.

Hier zijn enkele voorbeelden:

Ethische uitdaging Casestudy
Informed Consent 1972 - Tuskegee Syfilis Studie - Afro-Amerikaanse mannen die deelnamen aan de studie kregen gratis medische zorg beloofd, maar werden misleid door onderzoekers die hen niet informeerden over hun diagnose of de beschikbaarheid van behandeling. Veel deelnemers stierven en partners of kinderen werden getroffen; de studie duurde 40 jaar.
Gegevensprivacy 2007 - De Netflix data prijs bood onderzoekers 10M geanonimiseerde filmbeoordelingen van 50K klanten om aanbevelingsalgoritmes te verbeteren. Onderzoekers konden echter geanonimiseerde gegevens correleren met persoonlijk identificeerbare gegevens in externe datasets (bijv. IMDb-commentaren), waardoor sommige Netflix-abonnees effectief "gedeanonimiseerd" werden.
Verzamelingsbias 2013 - De stad Boston ontwikkelde Street Bump, een app waarmee burgers kuilen konden melden, zodat de stad betere gegevens kreeg om problemen op de weg te vinden en op te lossen. Echter, mensen in lagere inkomensgroepen hadden minder toegang tot auto's en telefoons, waardoor hun wegproblemen onzichtbaar werden in deze app. Ontwikkelaars werkten samen met academici om gelijke toegang en digitale kloof kwesties aan te pakken voor eerlijkheid.
Eerlijkheid van algoritmes 2018 - De MIT Gender Shades Studie evalueerde de nauwkeurigheid van AI-producten voor geslachtsclassificatie en onthulde hiaten in nauwkeurigheid voor vrouwen en mensen van kleur. Een 2019 Apple Card leek minder krediet te bieden aan vrouwen dan aan mannen. Beide illustreerden problemen in algoritmische bias die leiden tot sociaal-economische schade.
Misrepresentatie van gegevens 2020 - Het Georgia Department of Public Health publiceerde COVID-19 grafieken die burgers leken te misleiden over trends in bevestigde gevallen met niet-chronologische ordening op de x-as. Dit illustreert misrepresentatie door visualisatietrucs.
Illusie van vrije keuze 2020 - Leerapp ABCmouse betaalde $10M om een FTC-klacht te schikken waarbij ouders werden vastgezet in abonnementen die ze niet konden annuleren. Dit illustreert dark patterns in keuze-architecturen, waarbij gebruikers subtiel werden gestuurd naar potentieel schadelijke keuzes.
Gegevensprivacy & gebruikersrechten 2021 - Facebook Data Breach onthulde gegevens van 530M gebruikers, wat resulteerde in een schikking van $5B met de FTC. Het weigerde echter gebruikers te informeren over de schending, wat inbreuk maakte op gebruikersrechten rond gegevenstransparantie en toegang.

Wil je meer casestudies verkennen? Bekijk deze bronnen:

🚨 Denk na over de casestudies die je hebt gezien - heb je een soortgelijke ethische uitdaging in je leven ervaren of ben je erdoor beïnvloed? Kun je minstens één andere casestudy bedenken die een van de ethische uitdagingen illustreert die we in deze sectie hebben besproken?

Toegepaste ethiek

We hebben gesproken over ethische concepten, uitdagingen en casestudies in real-world contexten. Maar hoe beginnen we met het toepassen van ethische principes en praktijken in onze projecten? En hoe operationeel maken we deze praktijken voor betere governance? Laten we enkele real-world oplossingen verkennen:

1. Professionele codes

Professionele codes bieden een optie voor organisaties om leden te "stimuleren" om hun ethische principes en missieverklaring te ondersteunen. Codes zijn morele richtlijnen voor professioneel gedrag, die werknemers of leden helpen beslissingen te nemen die in lijn zijn met de principes van hun organisatie. Ze zijn alleen zo goed als de vrijwillige naleving door leden; veel organisaties bieden echter aanvullende beloningen en straffen om naleving door leden te motiveren.

Voorbeelden zijn:

🚨 Behoor je tot een professionele ingenieurs- of data science-organisatie? Verken hun site om te zien of ze een professionele ethische code definiëren. Wat zegt dit over hun ethische principes? Hoe stimuleren ze leden om de code te volgen?

2. Ethiek checklists

Hoewel professionele codes vereist ethisch gedrag van beoefenaars definiëren, hebben ze bekende beperkingen in handhaving, vooral in grootschalige projecten. In plaats daarvan pleiten veel data science-experts voor checklists, die principes verbinden met praktijken op meer deterministische en actiegerichte manieren.

Checklists zetten vragen om in "ja/nee"-taken die operationeel kunnen worden gemaakt, waardoor ze kunnen worden gevolgd als onderdeel van standaard productrelease-workflows.

Voorbeelden zijn:

  • Deon - een algemene data-ethiek checklist gemaakt op basis van industrie-aanbevelingen met een command-line tool voor eenvoudige integratie.
  • Privacy Audit Checklist - biedt algemene richtlijnen voor informatieverwerkingspraktijken vanuit juridische en sociale blootstellingsperspectieven.
  • AI Fairness Checklist - gemaakt door AI-beoefenaars om de adoptie en integratie van eerlijkheidscontroles in AI-ontwikkelingscycli te ondersteunen.
  • 22 vragen voor ethiek in data en AI - een meer open framework, gestructureerd voor initiële verkenning van ethische kwesties in ontwerp, implementatie en organisatorische contexten.

3. Ethiek regelgeving

Ethiek gaat over het definiëren van gedeelde waarden en het vrijwillig doen van het juiste. Naleving gaat over het volgen van de wet waar en indien gedefinieerd. Governance omvat in brede zin alle manieren waarop organisaties opereren om ethische principes te handhaven en te voldoen aan vastgestelde wetten.

Vandaag de dag neemt governance twee vormen aan binnen organisaties. Ten eerste gaat het om het definiëren van ethische AI-principes en het vaststellen van praktijken om adoptie te operationaliseren in alle AI-gerelateerde projecten binnen de organisatie. Ten tweede gaat het om naleving van alle door de overheid opgelegde gegevensbeschermingsregels voor regio's waarin het opereert.

Voorbeelden van gegevensbescherming en privacyregelgeving:

🚨 De Europese Unie definieerde GDPR (General Data Protection Regulation) blijft een van de meest invloedrijke gegevensprivacyregels vandaag. Wist je dat het ook 8 gebruikersrechten definieert om de digitale privacy en persoonlijke gegevens van burgers te beschermen? Leer wat deze zijn en waarom ze belangrijk zijn.

4. Ethiek cultuur

Merk op dat er een ontastbare kloof blijft bestaan tussen naleving (genoeg doen om "de letter van de wet" te volgen) en het aanpakken van systemische problemen (zoals verstening, informatie-asymmetrie en distributionele oneerlijkheid) die de wapenisering van AI kunnen versnellen.

Dit laatste vereist samenwerkingsbenaderingen om ethiekculturen te definiëren die emotionele verbindingen en consistente gedeelde waarden tussen organisaties in de industrie opbouwen. Dit vraagt om meer geformaliseerde data-ethiekculturen in organisaties - waardoor iedereen de Andon-kabel kan trekken (om ethische zorgen vroeg in het proces aan te kaarten) en ethische beoordelingen (bijv. bij werving) een kerncriterium te maken voor teamvorming in AI-projecten.


Post-lecture quiz 🎯

Review & Zelfstudie

Cursussen en boeken helpen bij het begrijpen van kernconcepten en uitdagingen op het gebied van ethiek, terwijl casestudies en tools helpen bij toegepaste ethiekpraktijken in real-world contexten. Hier zijn enkele bronnen om mee te beginnen.

Opdracht

Schrijf Een Casestudy Over Data-Ethiek


Disclaimer:
Dit document is vertaald met behulp van de AI-vertalingsservice Co-op Translator. Hoewel we streven naar nauwkeurigheid, dient u zich ervan bewust te zijn dat geautomatiseerde vertalingen fouten of onnauwkeurigheden kunnen bevatten. Het originele document in de oorspronkelijke taal moet worden beschouwd als de gezaghebbende bron. Voor cruciale informatie wordt professionele menselijke vertaling aanbevolen. Wij zijn niet aansprakelijk voor misverstanden of verkeerde interpretaties die voortvloeien uit het gebruik van deze vertaling.