29 KiB

Raw Blame History Unescape Escape

Inleiding tot gegevensethiek


Ethiek van gegevenswetenschap - Sketchnote door @nitya

We zijn allemaal databurgers die in een datafied wereld leven.

Markttrends vertellen ons dat tegen 2022 1-op-3 grote organisaties hun data zullen kopen en verkopen via online Marketplaces and Exchanges. Als App-ontwikkelaars zullen we het gemakkelijker en goedkoper vinden om gegevensgestuurde inzichten en algoritmegestuurde automatisering te integreren in dagelijkse gebruikerservaringen. Maar naarmate AI steeds meer voorkomt, moeten we ook de mogelijke schade begrijpen die wordt veroorzaakt door de bewapening van dergelijke algoritmen op grote schaal.

Trends geven ook aan dat we tegen 2025 meer dan 180 zettabytes aan gegevens zullen creëren en consumeren. Als Data Scientists geeft dit ons ongekende niveaus van toegang tot persoonlijke gegevens. Dit betekent dat we gedragsprofielen van gebruikers kunnen maken en de besluitvorming kunnen beïnvloeden op een manier die een illusie van vrije keuze creëert, terwijl gebruikers aangespoord worden naar resultaten die onze voorkeur hebben. Het roept ook bredere vragen op over gegevensprivacy en gebruikersbescherming.

Gegevensethiek is nu een noodzakelijke vangrails voor datawetenschap en -engineering, waardoor we mogelijke schade en onbedoelde gevolgen van onze gegevensgestuurde acties kunnen minimaliseren. De Gartner Hype Cycle for AI identificeert relevante trends in digitale ethiek, verantwoorde AI en AI-governance als belangrijke drijfveren voor grotere megatrends rond democratisering en industrialisering van AI.

In deze les verkennen we het fascinerende gebied van data-ethiek - van kernconcepten en uitdagingen tot casestudy's en toegepaste AI-concepten zoals governance - die helpen een ethische cultuur tot stand te brengen in teams en organisaties die met data en AI werken.

Pre-college quiz 🎯

Basisdefinities

Laten we beginnen met het begrijpen van de basisterminologie.

Het woord "ethiek" komt van het Griekse woord "ethikos" (en de wortel "ethos") wat karakter of morele aard betekent.

Ethiek gaat over de gedeelde waarden en morele principes die ons gedrag in de samenleving bepalen. Ethiek is niet gebaseerd op wetten maar op algemeen aanvaarde normen van wat "goed versus fout" is. Ethische overwegingen kunnen echter van invloed zijn op initiatieven op het gebied van corporate governance en overheidsregelgeving die meer prikkels voor compliance creëren.

Data-ethiek is een nieuwe tak van ethiek die "morele problemen met betrekking tot data, algoritmen en overeenkomstige praktijken" bestudeerd. Hier richt "data" zich op acties met betrekking tot het genereren, opnemen, beheren, verwerken, verspreiden, delen en gebruiken. "Algoritmen" richt zich op AI, agents, machine learning en robots, en "practices" richt zich op onderwerpen als verantwoord innoveren, programmeren, hacken en ethische codes.

Toegepaste ethiek is de praktische toepassing van morele overwegingen. Het is het proces van het actief onderzoeken van ethische kwesties in de context van real-world acties, producten en processen, en het nemen van corrigerende maatregelen om ervoor te zorgen dat deze in overeenstemming blijven met onze gedefinieerde ethische waarden.

Ethische cultuur gaat over toegepaste ethiek activeren om ervoor te zorgen dat onze ethische principes en praktijken worden toegepast in een consistente en schaalbare manier door de hele organisatie heen. Succesvolle ethische culturen definiëren organisatiebrede ethische principes, bieden zinvolle prikkels voor naleving en versterken ethische normen door gewenst gedrag op elk niveau van de organisatie aan te moedigen en te versterken.

Ethische concepten

In dit gedeelte bespreken we concepten als gedeelde waarden (principes) en ethische uitdagingen (problemen) voor data-ethiek - en onderzoeken we casestudy's die je helpen deze concepten in context van de echte wereld te begrijpen.

1. Ethische principes

Elke data-ethiekstrategie begint met het definiëren van ethische principes - de 'gedeelde waarden' die acceptabel gedrag beschrijven en richting geven aan daaraan conformerende acties in onze data- en AI-projecten. Je kunt deze op individueel of teamniveau definiëren. De meeste grote organisaties schetsen deze echter in een ethische AI-missieverklaring of -kader dat op bedrijfsniveau is gedefinieerd en consistent wordt gehandhaafd in alle teams.

Voorbeeld: Microsoft's Responsible AI mission statement luidt: "We zetten ons in voor de vooruitgang van AI-driven door ethische principes die de mens centraal stellen" - door middel van 6 ethische principes in het onderstaande kader:

Laten we deze principes kort onderzoeken. Transparantie en accountability zijn fundamentele waarden waarop andere principes voortbouwen - dus laten we daar beginnen:

Verantwoording maakt beoefenaars verantwoordelijk voor hun gegevens- en AI-operaties, en naleving van deze ethische principes.
Transparantie zorgt ervoor dat gegevens en AI-acties begrijpelijk (interpreteerbaar) zijn voor gebruikers, zoals het wat en waarom achter beslissingen.
Eerlijkheid - richt zich op het waarborgen dat AI alle mensen eerlijk behandelt, waarbij alle systemische of impliciete socio-technische vooroordelen in data en systemen worden geaddresseerd.
Betrouwbaarheid en veiligheid - zorgt ervoor dat AI zich consistent gedraagt met gedefinieerde waarden, waardoor potentiële schade of onbedoelde gevolgen worden geminimaliseerd.
Privacy en beveiliging - gaat over het begrijpen van gegevensafstamming en het bieden van gegevensprivacy en gerelateerde beschermingen voor gebruikers.
Inclusiviteit - gaat over het ontwerpen van AI-oplossingen met intentie, ze aanpassen om te voldoen aan een brede scala aan menselijke behoeften en mogelijkheden.

🚨 Denk na over wat jouw missie voor gegevensethiek zou kunnen zijn. Verken ethische AI-kaders van andere organisaties - hier zijn voorbeelden van IBM, Google, en Facebook. Welke gedeelde waarden hebben ze gemeen? Hoe verhouden deze principes zich tot het AI-product of de industrie waarin ze actief zijn?

2. Ethische uitdagingen

Zodra we ethische principes hebben gedefinieerd, is de volgende stap het evalueren van onze gegevens en AI-acties om te zien of ze in overeenstemming zijn met die gedeelde waarden. Denk na over je acties in twee categorieën: gegevensverzameling en algoritmeontwerp.

Bij het verzamelen van gegevens zullen acties waarschijnlijk betrekking hebben op persoonlijke gegevens of persoonlijk identificeerbare informatie (PII) voor identificeerbare levende personen. Dit omvat diverse items van niet-persoonlijke gegevens die collectief een persoon identificeren. Ethische uitdagingen kunnen betrekking hebben op gegevensprivacy, eigendom van gegevens en gerelateerde onderwerpen zoals geïnformeerde toestemming en intellectuele eigendomsrechten voor gebruikers.

Bij het ontwerpen van algoritmen zullen acties bestaan uit het verzamelen en beheren van datasets, en deze vervolgens gebruiken om datamodellen te trainen en in te zetten die resultaten voorspellen of beslissingen automatiseren in reële contexten. Ethische uitdagingen kunnen ontstaan door dataset bias, data quality issues, unfairness en misrepresentation (onvoldoende vertegenwoordiging) in algoritmen - inclusief enkele problemen die systemisch van aard zijn.

In beide gevallen wijzen ethische uitdagingen op gebieden waar onze acties in conflict kunnen komen met onze gedeelde waarden. Om deze zorgen op te sporen, te verminderen, te minimaliseren of weg te nemen, moeten we morele "ja/nee"-vragen stellen met betrekking tot onze acties en vervolgens corrigerende maatregelen nemen als dat nodig is. Laten we eens kijken naar enkele ethische uitdagingen en de morele vragen die ze oproepen:

2.1 Gegevenseigendom

Bij het verzamelen van gegevens gaat het vaak om persoonsgegevens die de betrokkenen kunnen identificeren. Data-eigendom gaat over controle en gebruikers rechten met betrekking tot het aanmaken, verwerken en verspreiding van gegevens.

De morele vragen die we moeten stellen zijn:

Wie is eigenaar van de gegevens? (gebruiker of organisatie)
Welke rechten hebben betrokkenen? (bijvoorbeeld: toegang, wissen, overdraagbaarheid)
Welke rechten hebben organisaties? (bijvoorbeeld: kwaadwillende gebruikersrecensies corrigeren)

2.2 Geïnformeerde toestemming

Informed consent definieert de handeling van gebruikers die instemmen met een actie (zoals gegevensverzameling) met een volledig begrip van relevante feiten, waaronder het doel, potentiële risico's en alternatieven.