28 KiB
Uvod u etiku podataka
![]() |
---|
Etika znanosti o podacima - Sketchnote od @nitya |
Svi smo mi građani podataka koji živimo u svijetu prepunom podataka.
Tržišni trendovi pokazuju da će do 2022. godine 1 od 3 velike organizacije kupovati i prodavati svoje podatke putem online tržnica i razmjena. Kao razvijatelji aplikacija, lakše ćemo i jeftinije integrirati uvide temeljene na podacima i automatizaciju vođenu algoritmima u svakodnevna korisnička iskustva. No, kako umjetna inteligencija (AI) postaje sveprisutna, morat ćemo razumjeti i potencijalne štete uzrokovane oružavanjem takvih algoritama u velikim razmjerima.
Trendovi također pokazuju da ćemo do 2025. godine stvoriti i konzumirati preko 180 zettabajta podataka. Kao znanstvenici o podacima, to nam daje neviđenu razinu pristupa osobnim podacima. To znači da možemo graditi profile ponašanja korisnika i utjecati na donošenje odluka na načine koji stvaraju iluziju slobodnog izbora, dok potencijalno usmjeravamo korisnike prema ishodima koji nama odgovaraju. To također otvara šira pitanja o privatnosti podataka i zaštiti korisnika.
Etika podataka sada su nužne smjernice za znanost o podacima i inženjering, pomažući nam da minimiziramo potencijalne štete i nenamjerne posljedice naših akcija temeljenih na podacima. Gartnerov Hype Cycle za AI identificira relevantne trendove u digitalnoj etici, odgovornoj AI i upravljanju AI-jem kao ključne pokretače većih megatrendova oko demokratizacije i industrijalizacije AI-ja.
U ovoj lekciji istražit ćemo fascinantno područje etike podataka - od osnovnih koncepata i izazova, do studija slučaja i primijenjenih AI koncepata poput upravljanja - koji pomažu uspostaviti kulturu etike u timovima i organizacijama koje rade s podacima i AI-jem.
Kviz prije predavanja 🎯
Osnovne definicije
Počnimo s razumijevanjem osnovne terminologije.
Riječ "etika" dolazi od grčke riječi "ethikos" (i njenog korijena "ethos") što znači karakter ili moralna priroda.
Etika se odnosi na zajedničke vrijednosti i moralna načela koja upravljaju našim ponašanjem u društvu. Etika se ne temelji na zakonima, već na široko prihvaćenim normama o tome što je "ispravno naspram pogrešnog". Međutim, etička razmatranja mogu utjecati na inicijative korporativnog upravljanja i vladine regulative koje stvaraju više poticaja za usklađenost.
Etika podataka je nova grana etike koja "proučava i procjenjuje moralne probleme povezane s podacima, algoritmima i odgovarajućim praksama". Ovdje se "podaci" fokusiraju na radnje povezane s generiranjem, bilježenjem, kuriranjem, obradom, širenjem, dijeljenjem i korištenjem, "algoritmi" na AI, agente, strojno učenje i robote, a "prakse" na teme poput odgovorne inovacije, programiranja, hakiranja i etičkih kodeksa.
Primijenjena etika je praktična primjena moralnih razmatranja. To je proces aktivnog istraživanja etičkih pitanja u kontekstu stvarnih radnji, proizvoda i procesa te poduzimanja korektivnih mjera kako bi se osiguralo da ostanu usklađeni s našim definiranim etičkim vrijednostima.
Kultura etike odnosi se na operacionalizaciju primijenjene etike kako bi se osiguralo da se naši etički principi i prakse dosljedno i skalabilno usvajaju u cijeloj organizaciji. Uspješne kulture etike definiraju etičke principe na razini organizacije, pružaju značajne poticaje za usklađenost i jačaju norme etike poticanjem i pojačavanjem željenih ponašanja na svakoj razini organizacije.
Koncepti etike
U ovom ćemo odjeljku raspraviti koncepte poput zajedničkih vrijednosti (principa) i etičkih izazova (problema) za etiku podataka - te istražiti studije slučaja koje vam pomažu razumjeti te koncepte u stvarnim kontekstima.
1. Etički principi
Svaka strategija etike podataka započinje definiranjem etičkih principa - "zajedničkih vrijednosti" koje opisuju prihvatljiva ponašanja i vode usklađene radnje u našim projektima s podacima i AI-jem. Možete ih definirati na individualnoj ili timskoj razini. Međutim, većina velikih organizacija ih navodi u misiji ili okviru etičkog AI-ja koji je definiran na korporativnoj razini i dosljedno proveden u svim timovima.
Primjer: Microsoftova Misija odgovornog AI-ja glasi: "Predani smo razvoju AI-ja vođenog etičkim principima koji stavljaju ljude na prvo mjesto" - identificirajući 6 etičkih principa u okviru ispod:
Pogledajmo ukratko ove principe. Transparentnost i odgovornost su temeljne vrijednosti na kojima se grade ostali principi - pa krenimo od njih:
- Odgovornost čini praktičare odgovornima za njihove operacije s podacima i AI-jem te usklađenost s ovim etičkim principima.
- Transparentnost osigurava da su radnje s podacima i AI-jem razumljive (interpretabilne) korisnicima, objašnjavajući što i zašto iza odluka.
- Pravednost - fokusira se na osiguravanje da AI tretira sve ljude pravedno, rješavajući bilo kakve sustavne ili implicitne socio-tehničke pristranosti u podacima i sustavima.
- Pouzdanost i sigurnost - osigurava da se AI ponaša dosljedno s definiranim vrijednostima, minimizirajući potencijalne štete ili nenamjerne posljedice.
- Privatnost i sigurnost - odnosi se na razumijevanje porijekla podataka i pružanje privatnosti podataka i povezanih zaštita korisnicima.
- Uključivost - odnosi se na dizajniranje AI rješenja s namjerom, prilagođavajući ih kako bi zadovoljila širok raspon ljudskih potreba i sposobnosti.
🚨 Razmislite o tome kakva bi mogla biti vaša misija etike podataka. Istražite okvire etičkog AI-ja drugih organizacija - ovdje su primjeri iz IBM-a, Googlea i Facebooka. Koje zajedničke vrijednosti dijele? Kako se ti principi odnose na AI proizvod ili industriju u kojoj djeluju?
2. Etički izazovi
Nakon što definiramo etičke principe, sljedeći korak je procijeniti naše radnje s podacima i AI-jem kako bismo vidjeli jesu li usklađene s tim zajedničkim vrijednostima. Razmislite o svojim radnjama u dvije kategorije: prikupljanje podataka i dizajn algoritama.
Kod prikupljanja podataka, radnje će vjerojatno uključivati osobne podatke ili osobno prepoznatljive informacije (PII) za identificirane žive pojedince. To uključuje različite stavke neosobnih podataka koje zajedno identificiraju pojedinca. Etički izazovi mogu se odnositi na privatnost podataka, vlasništvo nad podacima i povezane teme poput informiranog pristanka i prava intelektualnog vlasništva korisnika.
Kod dizajna algoritama, radnje će uključivati prikupljanje i kuriranje skupova podataka, a zatim njihovo korištenje za treniranje i implementaciju modela podataka koji predviđaju ishode ili automatiziraju odluke u stvarnim kontekstima. Etički izazovi mogu proizaći iz pristranosti skupa podataka, problema s kvalitetom podataka, nepravednosti i pogrešnog predstavljanja u algoritmima - uključujući neke probleme koji su sustavne prirode.
U oba slučaja, etički izazovi ističu područja gdje naše radnje mogu doći u sukob s našim zajedničkim vrijednostima. Kako bismo otkrili, ublažili, minimizirali ili eliminirali te zabrinutosti, trebamo postavljati moralna "da/ne" pitanja vezana uz naše radnje, a zatim poduzeti korektivne mjere prema potrebi. Pogledajmo neke etičke izazove i moralna pitanja koja postavljaju:
2.1 Vlasništvo nad podacima
Prikupljanje podataka često uključuje osobne podatke koji mogu identificirati subjekte podataka. Vlasništvo nad podacima odnosi se na kontrolu i prava korisnika vezana uz stvaranje, obradu i širenje podataka.
Moralna pitanja koja trebamo postaviti su:
- Tko posjeduje podatke? (korisnik ili organizacija)
- Koja prava imaju subjekti podataka? (npr. pristup, brisanje, prenosivost)
- Koja prava imaju organizacije? (npr. ispravljanje zlonamjernih korisničkih recenzija)
2.2 Informirani pristanak
Informirani pristanak definira čin korisnika koji pristaju na radnju (poput prikupljanja podataka) uz potpuno razumijevanje relevantnih činjenica, uključujući svrhu, potencijalne rizike i alternative.
Pitanja za istraživanje ovdje su:
- Je li korisnik (subjekt podataka) dao dopuštenje za prikupljanje i korištenje podataka?
- Je li korisnik razumio svrhu za koju su ti podaci prikupljeni?
- Je li korisnik razumio potencijalne rizike od svog sudjelovanja?
2.3 Intelektualno vlasništvo
Intelektualno vlasništvo odnosi se na nematerijalne kreacije koje proizlaze iz ljudske inicijative, a koje mogu imati ekonomsku vrijednost za pojedince ili tvrtke.
Pitanja za istraživanje ovdje su:
- Jesu li prikupljeni podaci imali ekonomsku vrijednost za korisnika ili tvrtku?
- Ima li korisnik intelektualno vlasništvo ovdje?
- Ima li organizacija intelektualno vlasništvo ovdje?
- Ako ta prava postoje, kako ih štitimo?
2.4 Privatnost podataka
Privatnost podataka ili informacijska privatnost odnosi se na očuvanje privatnosti korisnika i zaštitu identiteta korisnika u vezi s osobno prepoznatljivim informacijama.
Pitanja za istraživanje ovdje su:
- Jesu li korisnički (osobni) podaci zaštićeni od hakiranja i curenja?
- Jesu li korisnički podaci dostupni samo ovlaštenim korisnicima i kontekstima?
- Je li anonimnost korisnika očuvana kada se podaci dijele ili šire?
- Može li se korisnik deidentificirati iz anonimiziranih skupova podataka?
2.5 Pravo na zaborav
Pravo na zaborav ili Pravo na brisanje pruža dodatnu zaštitu osobnih podataka korisnicima. Konkretno, daje korisnicima pravo da zatraže brisanje ili uklanjanje osobnih podataka iz internetskih pretraživanja i drugih lokacija, pod određenim okolnostima - omogućujući im novi početak online bez da ih prošle radnje opterećuju.
Pitanja za istraživanje ovdje su:
- Omogućuje li sustav subjektima podataka da zatraže brisanje?
- Treba li povlačenje korisničkog pristanka automatski pokrenuti brisanje?
- Jesu li podaci prikupljeni bez pristanka ili nezakonitim sredstvima?
- Jesmo li usklađeni s vladinim regulativama za privatnost podataka?
2.6 Pristranost skupa podataka
Pristranost skupa podataka ili pristranost prikupljanja odnosi se na odabir nereprezentativnog podskupa podataka za razvoj algoritama, stvarajući potencijalnu nepravednost u ishodima za različite skupine. Vrste pristranosti uključuju pristranost odabira ili uzorkovanja, pristranost volontera i pristranost instrumenata.
Pitanja za istraživanje ovdje su:
- Jesmo li regrutirali reprezentativan skup subjekata podataka?
- Jesmo li testirali naš prikupljeni ili kurirani skup podataka na razne pristranosti?
- Možemo li ublažiti ili ukloniti otkrivene pristranosti?
2.7 Kvaliteta podataka
Kvaliteta podataka odnosi se na valjanost kuriranog skupa podataka korištenog za razvoj naših algoritama, provjeravajući zadovoljavaju li značajke i zapisi zahtjeve za razinom točnosti i dosljednosti potrebnom za našu AI svrhu.
Pitanja za istraživanje ovdje su:
- Jesmo li uhvatili valjane značajke za naš slučaj upotrebe?
- Jesu li podaci dosljedno prikupljeni iz različitih izvora podataka?
- Je li skup podataka potpun za različite uvjete ili scenarije?
- Jesu li informacije točno zabilježene u odražavanju stvarnosti?
2.8 Pravednost algoritama
Algorithm Fairness provjerava dizajn algoritma kako bi se utvrdilo diskriminira li sustavno određene podskupine ispitanika, što može dovesti do potencijalnih šteta u raspodjeli (kada se resursi uskraćuju ili odbijaju toj skupini) i kvaliteti usluge (kada AI nije jednako precizan za neke podskupine kao za druge).
Pitanja za istraživanje:
- Jesmo li procijenili točnost modela za različite podskupine i uvjete?
- Jesmo li detaljno analizirali sustav zbog potencijalnih šteta (npr. stereotipiziranja)?
- Možemo li revidirati podatke ili ponovno trenirati modele kako bismo ublažili identificirane štete?
Istražite resurse poput AI Fairness checklists za više informacija.
2.9 Pogrešno predstavljanje
Pogrešno predstavljanje podataka odnosi se na pitanje jesmo li komunikaciju utemeljenu na iskreno prijavljenim podacima koristili na obmanjujući način kako bismo podržali željeni narativ.
Pitanja za istraživanje:
- Prijavljujemo li nepotpune ili netočne podatke?
- Vizualiziramo li podatke na način koji vodi do pogrešnih zaključaka?
- Koristimo li selektivne statističke tehnike za manipulaciju rezultatima?
- Postoje li alternativna objašnjenja koja mogu ponuditi drugačiji zaključak?
2.10 Slobodan izbor
Iluzija slobodnog izbora događa se kada sustavi "arhitekture izbora" koriste algoritme za donošenje odluka kako bi usmjerili ljude prema preferiranom ishodu, dok im se pritom čini da imaju opcije i kontrolu. Ovi tamni obrasci mogu uzrokovati društvene i ekonomske štete korisnicima. Budući da odluke korisnika utječu na profile ponašanja, te radnje potencijalno oblikuju buduće izbore, što može pojačati ili proširiti utjecaj tih šteta.
Pitanja za istraživanje:
- Je li korisnik razumio implikacije donošenja tog izbora?
- Je li korisnik bio svjestan (alternativnih) izbora i prednosti i nedostataka svakog?
- Može li korisnik kasnije poništiti automatizirani ili utjecani izbor?
3. Studije slučaja
Kako bismo ove etičke izazove stavili u kontekst stvarnog svijeta, korisno je pogledati studije slučaja koje ističu potencijalne štete i posljedice za pojedince i društvo kada se zanemaruju etička kršenja.
Evo nekoliko primjera:
Etički izazov | Studija slučaja |
---|---|
Informirani pristanak | 1972 - Tuskegee Syphilis Study - Afroameričkim muškarcima koji su sudjelovali u studiji obećana je besplatna medicinska skrb ali su ih istraživači obmanuli ne informirajući ih o dijagnozi ili dostupnosti liječenja. Mnogi su umrli, a partneri i djeca su bili pogođeni; studija je trajala 40 godina. |
Privatnost podataka | 2007 - Netflix data prize omogućio je istraživačima pristup 10M anonimnih ocjena filmova od 50K korisnika kako bi poboljšali algoritme preporuka. Međutim, istraživači su uspjeli povezati anonimne podatke s osobno identificirajućim podacima u vanjskim skupovima podataka (npr. IMDb komentari) - učinkovito "deanonimizirajući" neke Netflix pretplatnike. |
Pristranost u prikupljanju podataka | 2013 - Grad Boston razvio Street Bump, aplikaciju koja je omogućila građanima da prijave rupe na cestama, dajući gradu bolje podatke o cestama za pronalaženje i popravak problema. Međutim, ljudi s nižim prihodima imali su manje pristupa automobilima i telefonima, čineći njihove probleme s cestama nevidljivima u ovoj aplikaciji. Programeri su surađivali s akademicima na pitanjima pravednog pristupa i digitalnih podjela radi pravednosti. |
Pravednost algoritma | 2018 - MIT Gender Shades Study procijenio je točnost AI proizvoda za klasifikaciju spola, otkrivajući nedostatke u točnosti za žene i osobe tamnije boje kože. Apple Card iz 2019. činilo se da nudi manje kredita ženama nego muškarcima. Oba primjera ilustriraju probleme pristranosti algoritma koji dovode do socio-ekonomskih šteta. |
Pogrešno predstavljanje podataka | 2020 - Odjel za javno zdravstvo Georgije objavio COVID-19 grafikone koji su izgledali kao da obmanjuju građane o trendovima potvrđenih slučajeva s ne-kronološkim redoslijedom na x-osi. Ovo ilustrira pogrešno predstavljanje kroz trikove vizualizacije. |
Iluzija slobodnog izbora | 2020 - Edukacijska aplikacija ABCmouse platila je $10M za nagodbu s FTC-om gdje su roditelji bili zarobljeni u plaćanju pretplata koje nisu mogli otkazati. Ovo ilustrira tamne obrasce u arhitekturi izbora, gdje su korisnici bili usmjereni prema potencijalno štetnim izborima. |
Privatnost podataka i prava korisnika | 2021 - Facebook curenje podataka otkrilo je podatke 530M korisnika, što je rezultiralo nagodbom od $5B s FTC-om. Međutim, odbili su obavijestiti korisnike o curenju, kršeći prava korisnika na transparentnost i pristup podacima. |
Želite istražiti više studija slučaja? Pogledajte ove resurse:
- Ethics Unwrapped - etičke dileme u raznim industrijama.
- Tečaj o etici u znanosti o podacima - ključne studije slučaja.
- Primjeri gdje su stvari krenule po zlu - Deon popis s primjerima.
🚨 Razmislite o studijama slučaja koje ste vidjeli - jeste li doživjeli ili bili pogođeni sličnim etičkim izazovom u svom životu? Možete li se sjetiti barem jedne druge studije slučaja koja ilustrira jedan od etičkih izazova koje smo raspravili u ovom odjeljku?
Primijenjena etika
Razgovarali smo o konceptima etike, izazovima i studijama slučaja u kontekstu stvarnog svijeta. No kako započeti primjenu etičkih načela i praksi u našim projektima? I kako operacionalizirati ove prakse za bolju upravu? Istražimo neka rješenja iz stvarnog svijeta:
1. Profesionalni kodeksi
Profesionalni kodeksi nude jednu opciju za organizacije da "potaknu" članove na podršku njihovim etičkim načelima i misiji. Kodeksi su moralne smjernice za profesionalno ponašanje, pomažući zaposlenicima ili članovima da donose odluke koje su u skladu s načelima njihove organizacije. Oni su učinkoviti koliko i dobrovoljna usklađenost članova; međutim, mnoge organizacije nude dodatne nagrade i kazne kako bi motivirale članove na usklađenost.
Primjeri uključuju:
- Oxford Munich Kodeks etike
- Data Science Association Kodeks ponašanja (kreiran 2013.)
- ACM Kodeks etike i profesionalnog ponašanja (od 1993.)
🚨 Pripadate li profesionalnoj organizaciji za inženjering ili znanost o podacima? Istražite njihovu stranicu kako biste vidjeli definiraju li profesionalni kodeks etike. Što to govori o njihovim etičkim načelima? Kako "potiču" članove na pridržavanje kodeksa?
2. Etički popisi za provjeru
Dok profesionalni kodeksi definiraju potrebna etička ponašanja od praktičara, oni imaju poznata ograničenja u provedbi, posebno u projektima velikih razmjera. Umjesto toga, mnogi stručnjaci za znanost o podacima zagovaraju popise za provjeru, koji mogu povezati načela s praksama na deterministički i provediv način.
Popisi za provjeru pretvaraju pitanja u zadatke "da/ne" koji se mogu operacionalizirati, omogućujući njihovo praćenje kao dio standardnih tijekova rada za izdavanje proizvoda.
Primjeri uključuju:
- Deon - opći popis za provjeru etike podataka kreiran prema preporukama industrije s alatom naredbenog retka za jednostavnu integraciju.
- Popis za provjeru privatnosti - pruža opće smjernice za praksu rukovanja informacijama iz pravne i društvene perspektive.
- Popis za provjeru pravednosti AI-a - kreiran od strane AI praktičara za podršku usvajanju i integraciji provjera pravednosti u razvojne cikluse AI-a.
- 22 pitanja za etiku u podacima i AI-u - otvoreniji okvir, strukturiran za početno istraživanje etičkih pitanja u dizajnu, implementaciji i organizacijskim kontekstima.
3. Etičke regulative
Etika se odnosi na definiranje zajedničkih vrijednosti i činjenje ispravnih stvari dobrovoljno. Usklađenost se odnosi na poštivanje zakona ako i gdje je definiran. Upravljanje općenito pokriva sve načine na koje organizacije djeluju kako bi provele etička načela i uskladile se s utvrđenim zakonima.
Danas upravljanje ima dva oblika unutar organizacija. Prvo, radi se o definiranju načela etičkog AI-a i uspostavljanju praksi za operacionalizaciju usvajanja u svim AI projektima organizacije. Drugo, radi se o usklađivanju sa svim vladinim propisima o zaštiti podataka za regije u kojima djeluje.
Primjeri propisa o zaštiti podataka i privatnosti:
1974
, US Privacy Act - regulira saveznu vladu u prikupljanju, korištenju i otkrivanju osobnih podataka.1996
, US Health Insurance Portability & Accountability Act (HIPAA) - štiti osobne zdravstvene podatke.1998
, US Children's Online Privacy Protection Act (COPPA) - štiti privatnost podataka djece mlađe od 13 godina.2018
, General Data Protection Regulation (GDPR) - pruža prava korisnicima, zaštitu podataka i privatnost.2018
, California Consumer Privacy Act (CCPA) daje potrošačima više prava nad njihovim (osobnim) podacima.2021
, Kineski Zakon o zaštiti osobnih podataka upravo je usvojen, stvarajući jedan od najjačih propisa o privatnosti podataka na internetu u svijetu.
🚨 Europska unija definirala je GDPR (Opća uredba o zaštiti podataka), koji ostaje jedan od najutjecajnijih propisa o privatnosti podataka danas. Jeste li znali da također definira 8 prava korisnika za zaštitu digitalne privatnosti i osobnih podataka građana? Saznajte koja su to prava i zašto su važna.
4. Kultura etike
Napominjemo da i dalje postoji nematerijalni jaz između usklađenosti (činjenja dovoljno da se zadovolji "slovo zakona") i rješavanja sustavnih problema (poput osifikacije, asimetrije informacija i distribucijske nepravednosti) koji mogu ubrzati upotrebu AI-a u štetne svrhe.
Potonje zahtijeva suradničke pristupe za definiranje kultura etike koje grade emocionalne veze i dosljedne zajedničke vrijednosti među organizacijama u industriji. To poziva na više formaliziranih kultura etike podataka u organizacijama - omogućujući svima da povuku Andon kabel (kako bi rano ukazali na etičke probleme) i čineći etičke procjene (npr. pri zapošljavanju) ključnim kriterijem za formiranje timova u AI projektima.
Post-lecture quiz 🎯
Pregled i samostalno učenje
Tečajevi i knjige pomažu u razumijevanju osnovnih etičkih koncepata i izazova, dok studije slučaja i alati pomažu u primjeni etičkih praksi u stvarnim kontekstima. Evo nekoliko resursa za početak.
- Machine Learning For Beginners - lekcija o pravednosti, od Microsofta.
- Principi odgovorne umjetne inteligencije - besplatni obrazovni put na Microsoft Learn platformi.
- Etika i znanost o podacima - O'Reilly e-knjiga (M. Loukides, H. Mason i dr.)
- Etika u znanosti o podacima - online tečaj Sveučilišta Michigan.
- Etika razotkrivena - studije slučaja sa Sveučilišta Texas.
Zadatak
Napišite studiju slučaja o etici podataka
Odricanje od odgovornosti:
Ovaj dokument je preveden korištenjem AI usluge za prevođenje Co-op Translator. Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati mjerodavnim izvorom. Za ključne informacije preporučuje se profesionalni prijevod od strane stručnjaka. Ne preuzimamo odgovornost za bilo kakve nesporazume ili pogrešne interpretacije proizašle iz korištenja ovog prijevoda.