You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/hr/1-Introduction/02-ethics/README.md

28 KiB

Uvod u etiku podataka

 Sketchnote by (@sketchthedocs)
Etika u znanosti o podacima - Sketchnote by @nitya

Svi smo mi građani podataka koji živimo u svijetu prepunom podataka.

Tržišni trendovi pokazuju da će do 2022. godine jedna od tri velike organizacije kupovati i prodavati svoje podatke putem online tržnica i burzi. Kao razvijatelji aplikacija, bit će nam lakše i jeftinije integrirati uvide temeljene na podacima i automatizaciju vođenu algoritmima u svakodnevna korisnička iskustva. No, kako AI postaje sveprisutna, morat ćemo razumjeti i potencijalne štete koje može prouzročiti oružavanje takvih algoritama u velikim razmjerima.

Trendovi također pokazuju da ćemo do 2025. godine stvoriti i konzumirati preko 180 zettabajta podataka. Kao znanstvenici podataka, to nam daje neviđenu razinu pristupa osobnim podacima. To znači da možemo graditi profile ponašanja korisnika i utjecati na donošenje odluka na načine koji stvaraju iluziju slobodnog izbora, dok potencijalno usmjeravamo korisnike prema ishodima koji nama odgovaraju. Također se postavljaju šira pitanja o privatnosti podataka i zaštiti korisnika.

Etika podataka sada su nužne zaštitne mjere za znanost o podacima i inženjering, pomažući nam da minimiziramo potencijalne štete i nenamjerne posljedice naših radnji vođenih podacima. Gartnerov Hype Cycle za AI identificira relevantne trendove u digitalnoj etici, odgovornoj AI i upravljanju AI-jem kao ključne pokretače većih megatrendova oko demokratizacije i industrijalizacije AI-ja.

Gartnerov Hype Cycle za AI - 2020

U ovoj lekciji istražit ćemo fascinantno područje etike podataka - od osnovnih pojmova i izazova, do studija slučaja i primijenjenih AI koncepata poput upravljanja - koji pomažu uspostaviti kulturu etike u timovima i organizacijama koje rade s podacima i AI-jem.

Kviz prije predavanja 🎯

Osnovne definicije

Započnimo razumijevanjem osnovne terminologije.

Riječ "etika" dolazi od grčke riječi "ethikos" (i njenog korijena "ethos") što znači karakter ili moralna priroda.

Etika se odnosi na zajedničke vrijednosti i moralna načela koja upravljaju našim ponašanjem u društvu. Etika se ne temelji na zakonima, već na široko prihvaćenim normama o tome što je "ispravno naspram pogrešnog". Međutim, etička razmatranja mogu utjecati na inicijative korporativnog upravljanja i vladine regulative koje stvaraju više poticaja za usklađenost.

Etika podataka je nova grana etike koja "proučava i procjenjuje moralne probleme povezane s podacima, algoritmima i odgovarajućim praksama". Ovdje se "podaci" fokusiraju na radnje povezane s generiranjem, snimanjem, kuriranjem, obradom, širenjem, dijeljenjem i korištenjem, "algoritmi" se fokusiraju na AI, agente, strojno učenje i robote, a "prakse" se fokusiraju na teme poput odgovorne inovacije, programiranja, hakiranja i etičkih kodeksa.

Primijenjena etika je praktična primjena moralnih razmatranja. To je proces aktivnog istraživanja etičkih pitanja u kontekstu stvarnih radnji, proizvoda i procesa te poduzimanja korektivnih mjera kako bi se osiguralo da ostanu usklađeni s našim definiranim etičkim vrijednostima.

Kultura etike odnosi se na operacionalizaciju primijenjene etike kako bi se osiguralo da se naši etički principi i prakse dosljedno i skalabilno usvajaju u cijeloj organizaciji. Uspješne kulture etike definiraju etičke principe na razini organizacije, pružaju značajne poticaje za usklađenost i jačaju norme etike poticanjem i amplifikacijom željenih ponašanja na svakoj razini organizacije.

Koncepti etike

U ovom dijelu raspravljat ćemo o konceptima poput zajedničkih vrijednosti (principa) i etičkih izazova (problema) za etiku podataka - te istražiti studije slučaja koje vam pomažu razumjeti ove koncepte u stvarnim kontekstima.

1. Principi etike

Svaka strategija etike podataka započinje definiranjem etičkih principa - "zajedničkih vrijednosti" koje opisuju prihvatljiva ponašanja i vode usklađene radnje u našim projektima podataka i AI-ja. Možete ih definirati na individualnoj ili timskoj razini. Međutim, većina velikih organizacija ih navodi u misiji etičkog AI-ja ili okviru koji je definiran na korporativnoj razini i dosljedno proveden u svim timovima.

Primjer: Microsoftova Misija odgovornog AI-ja glasi: "Posvećeni smo razvoju AI-ja vođenog etičkim principima koji stavljaju ljude na prvo mjesto" - identificirajući 6 etičkih principa u okviru ispod:

Odgovorni AI u Microsoftu

Kratko istražimo ove principe. Transparentnost i odgovornost su temeljne vrijednosti na kojima se grade ostali principi - pa krenimo od njih:

  • Odgovornost čini praktičare odgovornima za njihove operacije s podacima i AI-jem te usklađenost s ovim etičkim principima.
  • Transparentnost osigurava da su radnje s podacima i AI-jem razumljive korisnicima, objašnjavajući što i zašto iza odluka.
  • Pravednost - fokusira se na osiguravanje da AI sve ljude tretira pravedno, rješavajući sistemske ili implicitne socio-tehničke pristranosti u podacima i sustavima.
  • Pouzdanost i sigurnost - osigurava da se AI ponaša dosljedno s definiranim vrijednostima, minimizirajući potencijalne štete ili nenamjerne posljedice.
  • Privatnost i sigurnost - odnosi se na razumijevanje podrijetla podataka i pružanje privatnosti podataka i povezanih zaštita korisnicima.
  • Uključivost - odnosi se na dizajniranje AI rješenja s namjerom, prilagođavajući ih za zadovoljavanje širokog raspona ljudskih potreba i sposobnosti.

🚨 Razmislite o tome što bi mogla biti vaša misija etike podataka. Istražite okvire etičkog AI-ja drugih organizacija - evo primjera iz IBM-a, Googlea i Facebooka. Koje zajedničke vrijednosti imaju? Kako se ti principi odnose na AI proizvod ili industriju u kojoj djeluju?

2. Etički izazovi

Nakon što definiramo etičke principe, sljedeći korak je procjena naših radnji s podacima i AI-jem kako bismo vidjeli jesu li usklađene s tim zajedničkim vrijednostima. Razmislite o svojim radnjama u dvije kategorije: prikupljanje podataka i dizajn algoritama.

Kod prikupljanja podataka, radnje će vjerojatno uključivati osobne podatke ili osobno prepoznatljive informacije (PII) za identificirane žive pojedince. To uključuje različite stavke neosobnih podataka koje zajedno identificiraju pojedinca. Etički izazovi mogu se odnositi na privatnost podataka, vlasništvo podataka i povezane teme poput informiranog pristanka i prava intelektualnog vlasništva za korisnike.

Kod dizajna algoritama, radnje će uključivati prikupljanje i kuriranje skupova podataka, a zatim njihovo korištenje za treniranje i implementaciju modela podataka koji predviđaju ishode ili automatiziraju odluke u stvarnim kontekstima. Etički izazovi mogu se pojaviti zbog pristranosti skupa podataka, problema kvalitete podataka, nepravednosti i pogrešnog predstavljanja u algoritmima - uključujući neke probleme koji su sistemske prirode.

U oba slučaja, etički izazovi ističu područja gdje naše radnje mogu biti u sukobu s našim zajedničkim vrijednostima. Kako bismo otkrili, ublažili, minimizirali ili eliminirali te zabrinutosti - trebamo postavljati moralna "da/ne" pitanja vezana uz naše radnje, a zatim poduzeti korektivne mjere prema potrebi. Pogledajmo neke etičke izazove i moralna pitanja koja postavljaju:

2.1 Vlasništvo podataka

Prikupljanje podataka često uključuje osobne podatke koji mogu identificirati subjekte podataka. Vlasništvo podataka odnosi se na kontrolu i prava korisnika vezana uz stvaranje, obradu i širenje podataka.

Moralna pitanja koja trebamo postaviti su:

  • Tko posjeduje podatke? (korisnik ili organizacija)
  • Koja prava imaju subjekti podataka? (npr. pristup, brisanje, prenosivost)
  • Koja prava imaju organizacije? (npr. ispravljanje zlonamjernih korisničkih recenzija)

2.2 Informirani pristanak

Informirani pristanak definira čin korisnika koji pristaju na radnju (poput prikupljanja podataka) s potpunim razumijevanjem relevantnih činjenica, uključujući svrhu, potencijalne rizike i alternative.

Pitanja za istraživanje ovdje su:

  • Je li korisnik (subjekt podataka) dao dopuštenje za prikupljanje i korištenje podataka?
  • Je li korisnik razumio svrhu za koju su ti podaci prikupljeni?
  • Je li korisnik razumio potencijalne rizike od sudjelovanja?

2.3 Intelektualno vlasništvo

Intelektualno vlasništvo odnosi se na nematerijalne kreacije koje proizlaze iz ljudske inicijative, a koje mogu imati ekonomsku vrijednost za pojedince ili tvrtke.

Pitanja za istraživanje ovdje su:

  • Jesu li prikupljeni podaci imali ekonomsku vrijednost za korisnika ili tvrtku?
  • Ima li korisnik intelektualno vlasništvo ovdje?
  • Ima li organizacija intelektualno vlasništvo ovdje?
  • Ako ta prava postoje, kako ih štitimo?

2.4 Privatnost podataka

Privatnost podataka ili informacijska privatnost odnosi se na očuvanje privatnosti korisnika i zaštitu identiteta korisnika u vezi s osobno prepoznatljivim informacijama.

Pitanja za istraživanje ovdje su:

  • Jesu li korisnički (osobni) podaci zaštićeni od hakiranja i curenja?
  • Jesu li korisnički podaci dostupni samo ovlaštenim korisnicima i kontekstima?
  • Je li anonimnost korisnika očuvana kada se podaci dijele ili šire?
  • Može li se korisnik de-identificirati iz anonimiziranih skupova podataka?

2.5 Pravo na zaborav

Pravo na zaborav ili Pravo na brisanje pruža dodatnu zaštitu osobnih podataka korisnicima. Konkretno, daje korisnicima pravo da zatraže brisanje ili uklanjanje osobnih podataka iz internetskih pretraživanja i drugih lokacija, pod određenim okolnostima - omogućujući im novi početak online bez da se prošle radnje drže protiv njih.

Pitanja za istraživanje ovdje su:

  • Omogućava li sustav subjektima podataka da zatraže brisanje?
  • Treba li povlačenje korisničkog pristanka automatski pokrenuti brisanje?
  • Jesu li podaci prikupljeni bez pristanka ili nezakonitim sredstvima?
  • Jesmo li usklađeni s vladinim regulativama za privatnost podataka?

2.6 Pristranost skupa podataka

Pristranost skupa podataka ili pristranost prikupljanja odnosi se na odabir nereprezentativnog podskupa podataka za razvoj algoritama, stvarajući potencijalnu nepravednost u ishodima za različite skupine. Vrste pristranosti uključuju pristranost odabira ili uzorkovanja, pristranost volontera i pristranost instrumenata.

Pitanja za istraživanje ovdje su:

  • Jesmo li regrutirali reprezentativni skup subjekata podataka?
  • Jesmo li testirali naš prikupljeni ili kurirani skup podataka na razne pristranosti?
  • Možemo li ublažiti ili ukloniti otkrivene pristranosti?

2.7 Kvaliteta podataka

Kvaliteta podataka ispituje valjanost kuriranog skupa podataka korištenog za razvoj naših algoritama, provjeravajući jesu li značajke i zapisi u skladu s zahtjevima za razinu točnosti i dosljednosti potrebnu za naš AI cilj.

Pitanja za istraživanje ovdje su:

  • Jesmo li uhvatili valjane značajke za našu svrhu?
  • Jesu li podaci dosljedno prikupljeni iz različitih izvora podataka?
  • Je li skup podataka potpun za različite uvjete ili scenarije?
  • Jesu li informacije točno zabilježene u odražavanju stvarnosti?

2.8 Pravednost algoritma

Algorithm Fairness provjerava dizajn algoritma kako bi se utvrdilo diskriminira li sustavno određene podskupine subjekata podataka, što može dovesti do potencijalnih šteta u dodjeli (kada se resursi uskraćuju ili odbijaju toj skupini) i kvaliteti usluge (kada AI nije jednako precizan za neke podskupine kao za druge).

Pitanja za istraživanje:

  • Jesmo li procijenili točnost modela za različite podskupine i uvjete?
  • Jesmo li detaljno analizirali sustav zbog potencijalnih šteta (npr. stereotipiziranja)?
  • Možemo li revidirati podatke ili ponovno trenirati modele kako bismo ublažili identificirane štete?

Istražite resurse poput AI Fairness checklists za više informacija.

2.9 Pogrešno predstavljanje

Pogrešno predstavljanje podataka odnosi se na pitanje jesmo li komunikaciju utemeljenu na iskreno prijavljenim podacima koristili na obmanjujući način kako bismo podržali željeni narativ.

Pitanja za istraživanje:

  • Prijavljujemo li nepotpune ili netočne podatke?
  • Vizualiziramo li podatke na način koji vodi do pogrešnih zaključaka?
  • Koristimo li selektivne statističke tehnike za manipulaciju rezultatima?
  • Postoje li alternativna objašnjenja koja mogu ponuditi drugačiji zaključak?

2.10 Slobodan izbor

Iluzija slobodnog izbora događa se kada sustavi "arhitekture izbora" koriste algoritme za donošenje odluka kako bi usmjerili ljude prema preferiranom ishodu, dok im pritom daju privid opcija i kontrole. Ovi tamni obrasci mogu uzrokovati društvene i ekonomske štete korisnicima. Budući da odluke korisnika utječu na profile ponašanja, te radnje potencijalno oblikuju buduće izbore, što može pojačati ili proširiti utjecaj tih šteta.

Pitanja za istraživanje:

  • Je li korisnik razumio implikacije donošenja tog izbora?
  • Je li korisnik bio svjestan (alternativnih) izbora i prednosti i nedostataka svakog?
  • Može li korisnik kasnije poništiti automatizirani ili utjecani izbor?

3. Studije slučaja

Kako bismo ove etičke izazove stavili u kontekst stvarnog svijeta, korisno je pogledati studije slučaja koje ističu potencijalne štete i posljedice za pojedince i društvo kada se zanemaruju etička kršenja.

Evo nekoliko primjera:

Etički izazov Studija slučaja
Informirani pristanak 1972 - Tuskegee Syphilis Study - Afroameričkim muškarcima koji su sudjelovali u studiji obećana je besplatna medicinska skrb ali su ih istraživači obmanuli ne informirajući ih o dijagnozi ili dostupnosti liječenja. Mnogi su umrli, a partneri i djeca su bili pogođeni; studija je trajala 40 godina.
Privatnost podataka 2007 - Netflix data prize pružio je istraživačima 10M anonimnih ocjena filmova od 50K korisnika kako bi se poboljšali algoritmi preporuka. Međutim, istraživači su uspjeli povezati anonimne podatke s osobno identificirajućim podacima u vanjskim skupovima podataka (npr. IMDb komentari) - učinkovito "deanonimizirajući" neke Netflix pretplatnike.
Pristranost u prikupljanju podataka 2013 - Grad Boston razvio Street Bump, aplikaciju koja je omogućila građanima da prijave rupe na cestama, dajući gradu bolje podatke o cestama za pronalaženje i popravak problema. Međutim, ljudi s nižim prihodima imali su manje pristupa automobilima i telefonima, čineći njihove probleme na cestama nevidljivima u ovoj aplikaciji. Programeri su surađivali s akademicima na pitanjima pravednog pristupa i digitalnih podjela radi pravednosti.
Pravednost algoritama 2018 - MIT Gender Shades Study procijenila je točnost AI proizvoda za klasifikaciju spola, otkrivajući nedostatke u točnosti za žene i osobe tamnije boje kože. Apple Card iz 2019. činilo se da nudi manje kredita ženama nego muškarcima. Oba su primjera ilustrirala probleme pristranosti algoritama koji dovode do socio-ekonomskih šteta.
Pogrešno predstavljanje podataka 2020 - Georgia Department of Public Health objavio COVID-19 grafikone koji su izgledali kao da obmanjuju građane o trendovima potvrđenih slučajeva s ne-kronološkim redoslijedom na x-osi. Ovo ilustrira pogrešno predstavljanje kroz trikove vizualizacije.
Iluzija slobodnog izbora 2020 - Edukacijska aplikacija ABCmouse platila $10M za nagodbu s FTC-om gdje su roditelji bili zarobljeni u plaćanju pretplata koje nisu mogli otkazati. Ovo ilustrira tamne obrasce u arhitekturama izbora, gdje su korisnici bili usmjereni prema potencijalno štetnim izborima.
Privatnost podataka i prava korisnika 2021 - Facebook Data Breach izložio je podatke 530M korisnika, što je rezultiralo nagodbom od $5B s FTC-om. Međutim, odbio je obavijestiti korisnike o povredi, kršeći prava korisnika na transparentnost i pristup podacima.

Želite istražiti više studija slučaja? Pogledajte ove resurse:

🚨 Razmislite o studijama slučaja koje ste vidjeli - jeste li doživjeli ili bili pogođeni sličnim etičkim izazovom u svom životu? Možete li se sjetiti barem jedne druge studije slučaja koja ilustrira jedan od etičkih izazova koje smo raspravili u ovom odjeljku?

Primijenjena etika

Razgovarali smo o konceptima etike, izazovima i studijama slučaja u kontekstu stvarnog svijeta. Ali kako započeti primjenu etičkih principa i praksi u našim projektima? I kako operacionalizirati ove prakse za bolju upravu? Istražimo neka rješenja iz stvarnog svijeta:

1. Profesionalni kodeksi

Profesionalni kodeksi nude jednu opciju za organizacije da "potaknu" članove na podršku njihovim etičkim principima i misiji. Kodeksi su moralne smjernice za profesionalno ponašanje, pomažući zaposlenicima ili članovima da donose odluke koje su u skladu s principima organizacije. Oni su učinkoviti koliko i dobrovoljna usklađenost članova; međutim, mnoge organizacije nude dodatne nagrade i kazne kako bi motivirale usklađenost.

Primjeri uključuju:

🚨 Pripadate li profesionalnoj inženjerskoj ili organizaciji za podatkovnu znanost? Istražite njihovu stranicu kako biste vidjeli definiraju li profesionalni kodeks etike. Što to govori o njihovim etičkim principima? Kako "potiču" članove na pridržavanje kodeksa?

2. Etičke kontrolne liste

Dok profesionalni kodeksi definiraju potrebna etička ponašanja od praktičara, oni imaju poznata ograničenja u provedbi, posebno u projektima velikih razmjera. Umjesto toga, mnogi stručnjaci za podatkovnu znanost zagovaraju kontrolne liste, koje mogu povezati principe s praksama na deterministički i provediv način.

Kontrolne liste pretvaraju pitanja u zadatke "da/ne" koji se mogu operacionalizirati, omogućujući njihovo praćenje kao dio standardnih tijekova rada za izdavanje proizvoda.

Primjeri uključuju:

  • Deon - opća kontrolna lista za etiku podataka kreirana prema preporukama industrije s alatom naredbenog retka za jednostavnu integraciju.
  • Privacy Audit Checklist - pruža opće smjernice za praksu rukovanja informacijama iz pravne i društvene perspektive.
  • AI Fairness Checklist - kreirana od strane AI praktičara za podršku usvajanju i integraciji provjera pravednosti u cikluse razvoja AI-a.
  • 22 questions for ethics in data and AI - otvoreniji okvir, strukturiran za početno istraživanje etičkih pitanja u dizajnu, implementaciji i organizacijskim kontekstima.

3. Etičke regulative

Etika se odnosi na definiranje zajedničkih vrijednosti i činjenje ispravnih stvari dobrovoljno. Usklađenost se odnosi na poštivanje zakona ako i gdje je definiran. Upravljanje široko pokriva sve načine na koje organizacije djeluju kako bi provele etičke principe i uskladile se s utvrđenim zakonima.

Danas upravljanje ima dva oblika unutar organizacija. Prvo, radi se o definiranju etičkih AI principa i uspostavljanju praksi za operacionalizaciju usvajanja u svim AI projektima organizacije. Drugo, radi se o usklađivanju sa svim vladinim propisima o zaštiti podataka za regije u kojima djeluje.

Primjeri propisa o zaštiti podataka i privatnosti:

🚨 Europska unija definirala je GDPR (Opća uredba o zaštiti podataka), koji ostaje jedan od najutjecajnijih propisa o privatnosti podataka danas. Jeste li znali da također definira 8 prava korisnika za zaštitu digitalne privatnosti i osobnih podataka građana? Saznajte koja su to prava i zašto su važna.

4. Kultura etike

Napominjemo da i dalje postoji nematerijalni jaz između usklađenosti (činjenja dovoljno da se zadovolji "slovo zakona") i rješavanja sustavnih problema (poput osifikacije, asimetrije informacija i distribucijske nepravednosti) koji mogu ubrzati oružavanje AI-a.

Ovo drugo zahtijeva suradničke pristupe za definiranje kultura etike koje grade emocionalne veze i dosljedne zajedničke vrijednosti među organizacijama u industriji. To poziva na više formaliziranih kultura etike podataka u organizacijama - omogućujući svima da povuku Andon konopac (kako bi rano ukazali na etičke probleme) i čineći etičke procjene (npr. pri zapošljavanju) ključnim kriterijem za formiranje timova u AI projektima.


Post-lecture quiz 🎯

Pregled i samostalno učenje

Tečajevi i knjige pomažu u razumijevanju osnovnih etičkih koncepata i izazova, dok studije slučaja i alati pomažu u primjeni etičkih praksi u stvarnim kontekstima. Evo nekoliko resursa za početak.

Zadatak

Napišite studiju slučaja o etici podataka


Odricanje od odgovornosti:
Ovaj dokument je preveden pomoću AI usluge za prevođenje Co-op Translator. Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati autoritativnim izvorom. Za kritične informacije preporučuje se profesionalni prijevod od strane ljudskog prevoditelja. Ne preuzimamo odgovornost za nesporazume ili pogrešne interpretacije koje mogu proizaći iz korištenja ovog prijevoda.