You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/sl/1-Introduction/02-ethics
leestott a12f5d4c2d
🌐 Update translations via Co-op Translator
4 months ago
..
README.md 🌐 Update translations via Co-op Translator 4 months ago
assignment.md 🌐 Update translations via Co-op Translator 5 months ago

README.md

Uvod v podatkovno etiko

 Sketchnote avtorja (@sketchthedocs)
Etika podatkovne znanosti - Sketchnote avtorja @nitya

Vsi smo podatkovni državljani, ki živimo v svetu, prežetem s podatki.

Tržni trendi kažejo, da bo do leta 2022 ena od treh velikih organizacij kupovala in prodajala svoje podatke prek spletnih tržnic in izmenjav. Kot razvijalci aplikacij bomo lažje in ceneje vključili vpoglede, ki temeljijo na podatkih, ter avtomatizacijo, ki jo poganjajo algoritmi, v vsakodnevne uporabniške izkušnje. Toda z naraščajočo prisotnostjo umetne inteligence bomo morali razumeti tudi potencialne škodljive učinke uporabe algoritmov v škodljive namene v velikem obsegu.

Trend kaže, da bomo do leta 2025 ustvarili in porabili več kot 180 zettabajtov podatkov. Za podatkovne znanstvenike ta eksplozija informacij ponuja neprimerljiv dostop do osebnih in vedenjskih podatkov. S tem prihaja moč za gradnjo podrobnih uporabniških profilov in subtilno vplivanje na odločanje—pogosto na način, ki ustvarja iluzijo svobodne izbire. Čeprav to lahko uporabimo za usmerjanje uporabnikov k želenim rezultatom, pa odpira tudi ključna vprašanja o zasebnosti podatkov, avtonomiji in etičnih mejah algoritmičnega vpliva.

Podatkovna etika je zdaj nujna varovalka za podatkovno znanost in inženiring, ki nam pomaga zmanjšati potencialne škodljive učinke in nenamerne posledice naših dejanj, ki temeljijo na podatkih. Gartnerjev Hype Cycle za AI identificira pomembne trende v digitalni etiki, odgovorni AI in upravljanju AI kot ključne gonilnike večjih megatrendov okoli demokratizacije in industrializacije umetne inteligence.

Gartnerjev Hype Cycle za AI - 2020

V tej lekciji bomo raziskali fascinantno področje podatkovne etike—od osnovnih konceptov in izzivov do študij primerov in uporabljenih konceptov AI, kot je upravljanje—ki pomagajo vzpostaviti kulturo etike v ekipah in organizacijah, ki delajo s podatki in umetno inteligenco.

Predhodni kviz 🎯

Osnovne definicije

Začnimo z razumevanjem osnovne terminologije.

Beseda "etika" izhaja iz grške besede "ethikos" (in njenega korena "ethos"), ki pomeni značaj ali moralna narava.

Etika se nanaša na skupne vrednote in moralna načela, ki usmerjajo naše vedenje v družbi. Etika ne temelji na zakonih, temveč na splošno sprejetih normah, kaj je "prav vs. narobe". Vendar pa lahko etične premisleke vplivajo na pobude korporativnega upravljanja in vladne regulacije, ki ustvarjajo več spodbud za skladnost.

Podatkovna etika je nova veja etike, ki "preučuje in ocenjuje moralne probleme, povezane s podatki, algoritmi in ustreznimi praksami". Tukaj se "podatki" osredotočajo na dejanja, povezana z ustvarjanjem, beleženjem, kuriranjem, obdelavo, razširjanjem, deljenjem in uporabo, "algoritmi" osredotočajo na AI, agente, strojno učenje in robote, ter "prakse" osredotočajo na teme, kot so odgovorne inovacije, programiranje, hekanje in kodeks etike.

Uporabljena etika je praktična uporaba moralnih premislekov. Gre za proces aktivnega raziskovanja etičnih vprašanj v kontekstu dejanskih dejanj, izdelkov in procesov ter sprejemanja korektivnih ukrepov, da ostanejo skladni z našimi opredeljenimi etičnimi vrednotami.

Kultura etike se nanaša na operacionalizacijo uporabljene etike, da zagotovimo, da so naša etična načela in prakse dosledno in razširljivo sprejeta po celotni organizaciji. Uspešne kulture etike opredelijo organizacijsko široka etična načela, zagotavljajo smiselne spodbude za skladnost ter krepijo norme etike z vzpodbujanjem in amplifikacijo želenih vedenj na vseh ravneh organizacije.

Koncepti etike

V tem razdelku bomo obravnavali koncepte, kot so skupne vrednote (načela) in etični izzivi (problemi) za podatkovno etiko—ter raziskali študije primerov, ki vam pomagajo razumeti te koncepte v realnih kontekstih.

1. Načela etike

Vsaka strategija podatkovne etike se začne z opredelitvijo etičnih načel—"skupnih vrednot", ki opisujejo sprejemljiva vedenja in usmerjajo skladna dejanja v naših projektih, povezanih s podatki in umetno inteligenco. Ta lahko opredelite na individualni ali skupinski ravni. Vendar pa večina velikih organizacij te opredeli v etičnem AI misijskem izjavi ali okviru, ki je opredeljen na korporativni ravni in dosledno uveljavljen v vseh ekipah.

Primer: Microsoftova Odgovorna AI misijska izjava se glasi: "Zavezani smo k napredku AI, ki ga vodijo etična načela, ki postavljajo ljudi na prvo mesto"—opredeljuje 6 etičnih načel v spodnjem okviru:

Odgovorna AI pri Microsoftu

Na kratko raziščimo ta načela. Transparentnost in odgovornost sta temeljni vrednoti, na katerih so zgrajena druga načela—začnimo torej tukaj:

  • Odgovornost zahteva, da so praktiki odgovorni za svoje podatkovne in AI operacije ter skladnost s temi etičnimi načeli.
  • Transparentnost zagotavlja, da so dejanja, povezana s podatki in AI, razumljiva (interpretabilna) za uporabnike, pojasnjujoč kaj in zakaj za odločitvami.
  • Pravičnost se osredotoča na zagotavljanje, da AI obravnava vse ljudi pravično, obravnavajoč sistemske ali implicitne socio-tehnične pristranskosti v podatkih in sistemih.
  • Zanesljivost in varnost zagotavlja, da AI deluje dosledno z opredeljenimi vrednotami, zmanjšuje potencialne škodljive učinke ali nenamerne posledice.
  • Zasebnost in varnost se nanaša na razumevanje izvora podatkov ter zagotavljanje zasebnosti podatkov in povezanih zaščit za uporabnike.
  • Vključenost se nanaša na načrtovanje AI rešitev z namenom, prilagajanje za izpolnjevanje širokega spektra človeških potreb in sposobnosti.

🚨 Razmislite, kaj bi lahko bila vaša misijska izjava o podatkovni etiki. Raziščite etične AI okvire drugih organizacij—tukaj so primeri iz IBM, Google in Facebook. Katere skupne vrednote imajo? Kako se ta načela nanašajo na AI izdelke ali industrijo, v kateri delujejo?

2. Etični izzivi

Ko imamo opredeljena etična načela, je naslednji korak oceniti naša dejanja, povezana s podatki in AI, da vidimo, ali so skladna s temi skupnimi vrednotami. Razmislite o svojih dejanjih v dveh kategorijah: zbiranje podatkov in oblikovanje algoritmov.

Pri zbiranju podatkov bodo dejanja verjetno vključevala osebne podatke ali osebno prepoznavne informacije (PII) za prepoznavanje živih posameznikov. To vključuje različne vrste neosebnih podatkov, ki skupno identificirajo posameznika. Etični izzivi se lahko nanašajo na zasebnost podatkov, lastništvo podatkov in povezana vprašanja, kot so informirano soglasje ter pravice intelektualne lastnine za uporabnike.

Pri oblikovanju algoritmov bodo dejanja vključevala zbiranje in kuriranje naborov podatkov, nato pa njihovo uporabo za treniranje in implementacijo modelov podatkov, ki napovedujejo rezultate ali avtomatizirajo odločitve v realnih kontekstih. Etični izzivi se lahko pojavijo zaradi pristranskosti nabora podatkov, težav s kakovostjo podatkov, nepravičnosti in napačne predstavitve v algoritmih—vključno z nekaterimi sistemskimi vprašanji.

V obeh primerih etični izzivi izpostavljajo področja, kjer lahko naša dejanja naletijo na konflikt s skupnimi vrednotami. Za zaznavanje, ublažitev, zmanjšanje ali odpravo teh skrbi moramo postavljati moralna "da/ne" vprašanja, povezana z našimi dejanji, nato pa po potrebi sprejeti korektivne ukrepe. Poglejmo si nekaj etičnih izzivov in moralna vprašanja, ki jih sprožajo:

2.1 Lastništvo podatkov

Zbiranje podatkov pogosto vključuje osebne podatke, ki lahko identificirajo podatkovne subjekte. Lastništvo podatkov se nanaša na nadzor in pravice uporabnikov, povezane z ustvarjanjem, obdelavo in razširjanjem podatkov.

Moralna vprašanja, ki jih moramo zastaviti, so:

  • Kdo je lastnik podatkov? (uporabnik ali organizacija)
  • Katere pravice imajo podatkovni subjekti? (npr. dostop, izbris, prenosljivost)
  • Katere pravice imajo organizacije? (npr. popravljanje zlonamernih uporabniških ocen)

2.2 Informirano soglasje

Informirano soglasje opredeljuje dejanje, ko uporabniki privolijo v dejanje (kot je zbiranje podatkov) z polnim razumevanjem relevantnih dejstev, vključno z namenom, potencialnimi tveganji in alternativami.

Vprašanja, ki jih je treba raziskati, so:

  • Ali je uporabnik (podatkovni subjekt) dal dovoljenje za zajemanje in uporabo podatkov?
  • Ali je uporabnik razumel namen, za katerega so bili podatki zajeti?
  • Ali je uporabnik razumel potencialna tveganja zaradi svoje udeležbe?

2.3 Intelektualna lastnina

Intelektualna lastnina se nanaša na nematerialne stvaritve, ki izhajajo iz človeške pobude in lahko imajo ekonomsko vrednost za posameznike ali podjetja.

Vprašanja, ki jih je treba raziskati, so:

  • Ali imajo zbrani podatki ekonomsko vrednost za uporabnika ali podjetje?
  • Ali ima uporabnik tukaj intelektualno lastnino?
  • Ali ima organizacija tukaj intelektualno lastnino?
  • Če te pravice obstajajo, kako jih ščitimo?

2.4 Zasebnost podatkov

Zasebnost podatkov ali informacijska zasebnost se nanaša na ohranjanje zasebnosti uporabnikov in zaščito identitete uporabnikov glede osebno prepoznavnih informacij.

Vprašanja, ki jih je treba raziskati, so:

  • Ali so uporabnikovi (osebni) podatki zaščiteni pred vdori in uhajanjem?
  • Ali so uporabnikovi podatki dostopni le pooblaščenim uporabnikom in kontekstom?
  • Ali je uporabnikova anonimnost ohranjena, ko so podatki deljeni ali razširjeni?
  • Ali je mogoče uporabnika de-identificirati iz anonimiziranih naborov podatkov?

2.5 Pravica do pozabe

Pravica do pozabe ali pravica do izbrisa zagotavlja dodatno zaščito osebnih podatkov uporabnikom. Konkretno, daje uporabnikom pravico zahtevati izbris ali odstranitev osebnih podatkov iz internetnih iskanj in drugih lokacij, pod določenimi pogoji—kar jim omogoča nov začetek na spletu brez preteklih dejanj, ki bi jih bremenila.

Vprašanja, ki jih je treba raziskati, so:

  • Ali sistem omogoča podatkovnim subjektom zahtevo za izbris?
  • Ali bi morala umaknitev uporabniškega soglasja sprožiti avtomatiziran izbris?
  • Ali so bili podatki zbrani brez soglasja ali na nezakonit način?
  • Ali smo skladni z vladnimi regulacijami za zasebnost podatkov?

2.6 Pristranskost nabora podatkov

Nabor podatkov ali pristranskost zbiranja se nanaša na izbiro nereprezentativnega podnabora podatkov za razvoj algoritmov, kar ustvarja potencialno nepravičnost v rezultatih za različne skupine. Vrste pristranskosti vključujejo pristranskost izbire ali vzorčenja, pristranskost prostovoljcev in pristranskost instrumentov.

Vprašanja, ki jih je treba raziskati, so:

  • Ali smo pridobili reprezentativen nabor podatkovnih subjektov?
  • Ali smo testirali naš zbrani ali kurirani nabor podatkov za različne pristranskosti?
  • Ali lahko ublažimo ali odstranimo odkrite pristranskosti?

2.7 Kakovost podatkov

Kakovost podatkov preučuje veljavnost kuriranega nabora podatkov, uporabljenega za razvoj naših algoritmov, preverja, ali značilnosti in zapisi izpolnjujejo zahteve za raven natančnosti in doslednosti, ki je potrebna za naš AI namen.

Vprašanja, ki jih je treba raziskati, so:

  • Ali smo zajeli veljavne značilnosti za naš primer uporabe?
  • Ali so bili podatki zajeti dosledno iz različnih virov podatkov?
  • Ali je nabor podatkov popoln za različne pogoje ali scenar
  • Ali so informacije zajete natančno in odražajo resničnost?

2.8 Pravičnost algoritmov

Pravičnost algoritmov preverja, ali zasnova algoritma sistematično diskriminira določene podskupine podatkovnih subjektov, kar vodi do potencialnih škod pri dodeljevanju (kjer so sredstva zavrnjena ali zadržana za to skupino) in kakovosti storitev (kjer AI ni tako natančen za nekatere podskupine kot za druge).

Vprašanja, ki jih je treba raziskati:

  • Ali smo ocenili natančnost modela za različne podskupine in pogoje?
  • Ali smo podrobno preučili sistem glede potencialnih škod (npr. stereotipiziranje)?
  • Ali lahko spremenimo podatke ali ponovno usposobimo modele za zmanjšanje ugotovljenih škod?

Raziskujte vire, kot so kontrolni seznami za pravičnost AI, da izveste več.

2.9 Napačna predstavitev

Napačna predstavitev podatkov se nanaša na vprašanje, ali sporočamo vpoglede iz pošteno poročanih podatkov na zavajajoč način, da podpiramo želeno pripoved.

Vprašanja, ki jih je treba raziskati:

  • Ali poročamo o nepopolnih ali netočnih podatkih?
  • Ali vizualiziramo podatke na način, ki vodi do zavajajočih zaključkov?
  • Ali uporabljamo selektivne statistične tehnike za manipulacijo rezultatov?
  • Ali obstajajo alternativne razlage, ki bi lahko ponudile drugačen zaključek?

2.10 Svobodna izbira

Iluzija svobodne izbire se pojavi, ko "arhitekture izbire" sistema uporabljajo algoritme za sprejemanje odločitev, da ljudi usmerijo k želenemu izidu, medtem ko jim dajejo občutek, da imajo možnosti in nadzor. Ti temni vzorci lahko povzročijo socialno in ekonomsko škodo uporabnikom. Ker odločitve uporabnikov vplivajo na vedenjske profile, te akcije potencialno usmerjajo prihodnje izbire, ki lahko okrepijo ali podaljšajo vpliv teh škod.

Vprašanja, ki jih je treba raziskati:

  • Ali je uporabnik razumel posledice sprejemanja te odločitve?
  • Ali je bil uporabnik seznanjen z (alternativnimi) možnostmi in prednostmi ter slabostmi vsake?
  • Ali lahko uporabnik kasneje razveljavi avtomatizirano ali vplivano izbiro?

3. Študije primerov

Da bi te etične izzive postavili v kontekst resničnega sveta, je koristno pogledati študije primerov, ki poudarjajo potencialne škode in posledice za posameznike in družbo, kadar se takšne kršitve etike prezrejo.

Tukaj je nekaj primerov:

Etični izziv Študija primera
Informirano soglasje 1972 - Študija sifilisa v Tuskegeeju - Afroameriškim moškim, ki so sodelovali v študiji, so obljubili brezplačno zdravstveno oskrbo, vendar so jih raziskovalci zavajali, saj jih niso obvestili o njihovi diagnozi ali o razpoložljivosti zdravljenja. Mnogi udeleženci so umrli, partnerji in otroci pa so bili prizadeti; študija je trajala 40 let.
Zasebnost podatkov 2007 - Netflixova nagrada za podatke je raziskovalcem zagotovila 10M anonimiziranih ocen filmov od 50K strank, da bi izboljšali algoritme priporočanja. Vendar so raziskovalci uspeli povezati anonimizirane podatke z osebnimi podatki v zunanjih zbirkah podatkov (npr. komentarji na IMDb) - učinkovito "deanonimizirali" nekatere naročnike Netflixa.
Pristranskost pri zbiranju podatkov 2013 - Mesto Boston je razvilo Street Bump, aplikacijo, ki je prebivalcem omogočila prijavo lukenj na cestah, kar je mestu zagotovilo boljše podatke o cestah za iskanje in odpravljanje težav. Vendar pa ljudje v nižjih dohodkovnih skupinah niso imeli enakega dostopa do avtomobilov in telefonov, zaradi česar so njihove težave na cestah ostale nevidne v tej aplikaciji. Razvijalci so sodelovali z akademiki pri reševanju vprašanj enakopravnega dostopa in digitalnih vrzeli za pravičnost.
Pravičnost algoritmov 2018 - MIT Študija Gender Shades je ocenila natančnost AI produktov za klasifikacijo spola, razkrivajoč vrzeli v natančnosti za ženske in osebe barve. Apple Card iz leta 2019 je očitno ponujala manj kreditov ženskam kot moškim. Obe študiji sta pokazali težave algoritmične pristranskosti, ki vodijo do socio-ekonomskih škod.
Napačna predstavitev podatkov 2020 - Oddelek za javno zdravje Georgie je objavil COVID-19 grafe, ki so zavajali državljane glede trendov potrjenih primerov z ne-kronološkim razvrščanjem na x-osi. To ponazarja napačno predstavitev skozi vizualizacijske trike.
Iluzija svobodne izbire 2020 - Učna aplikacija ABCmouse je plačala 10M USD za poravnavo pritožbe FTC, kjer so bili starši ujeti v plačevanje naročnin, ki jih niso mogli preklicati. To ponazarja temne vzorce v arhitekturah izbire, kjer so bili uporabniki usmerjeni k potencialno škodljivim odločitvam.
Zasebnost podatkov in pravice uporabnikov 2021 - Facebook kršitev podatkov je razkrila podatke 530M uporabnikov, kar je privedlo do poravnave v višini 5B USD z FTC. Vendar pa ni obvestil uporabnikov o kršitvi, kar je kršilo pravice uporabnikov glede preglednosti podatkov in dostopa.

Želite raziskati več študij primerov? Oglejte si te vire:

🚨 Razmislite o študijah primerov, ki ste jih videli - ali ste doživeli ali bili prizadeti zaradi podobnega etičnega izziva v svojem življenju? Ali lahko pomislite na vsaj eno drugo študijo primera, ki ponazarja enega od etičnih izzivov, o katerih smo razpravljali v tem razdelku?

Uporabna etika

Govorili smo o konceptih etike, izzivih in študijah primerov v kontekstih resničnega sveta. Toda kako začeti uporabljati etična načela in prakse v naših projektih? In kako operacionalizirati te prakse za boljše upravljanje? Raziskujmo nekaj rešitev iz resničnega sveta:

1. Profesionalni kodeksi

Profesionalni kodeksi ponujajo eno možnost za organizacije, da "spodbujajo" člane k podpori njihovih etičnih načel in poslanstva. Kodeksi so moralne smernice za profesionalno vedenje, ki pomagajo zaposlenim ali članom sprejemati odločitve, ki so skladne z načeli njihove organizacije. Učinkovitost kodeksov je odvisna od prostovoljne skladnosti članov; vendar pa mnoge organizacije ponujajo dodatne nagrade in kazni za motivacijo skladnosti članov.

Primeri vključujejo:

🚨 Ali pripadate profesionalni inženirski ali podatkovno-znanstveni organizaciji? Raziščite njihovo spletno stran, da vidite, ali opredeljujejo profesionalni kodeks etike. Kaj to pove o njihovih etičnih načelih? Kako "spodbujajo" člane k upoštevanju kodeksa?

2. Etika kontrolni seznami

Medtem ko profesionalni kodeksi opredeljujejo zahtevano etično vedenje od praktikov, imajo znane omejitve pri uveljavljanju, zlasti pri velikih projektih. Namesto tega mnogi strokovnjaki za podatkovno znanost zagovarjajo kontrolne sezname, ki lahko povežejo načela s praksami na bolj deterministične in izvedljive načine.

Kontrolni seznami pretvorijo vprašanja v naloge "da/ne", ki jih je mogoče operacionalizirati, kar omogoča njihovo sledenje kot del standardnih delovnih tokov za izdajo izdelkov.

Primeri vključujejo:

3. Etika in regulacije

Etika je o opredeljevanju skupnih vrednot in prostovoljnem ravnanju pravilno. Skladnost je o upoštevanju zakonov, če in kjer so opredeljeni. Upravljanje na splošno zajema vse načine, kako organizacije delujejo za uveljavljanje etičnih načel in skladnost z uveljavljenimi zakoni.

Danes upravljanje poteka v dveh oblikah znotraj organizacij. Prvič, gre za opredelitev etičnih AI načel in vzpostavitev praks za operacionalizacijo sprejemanja v vseh projektih, povezanih z AI, v organizaciji. Drugič, gre za skladnost z vsemi vladno določenimi regulacijami varstva podatkov za regije, v katerih deluje.

Primeri regulacij varstva podatkov in zasebnosti:

🚨 Evropska unija je opredelila GDPR (Splošna uredba o varstvu podatkov), ki ostaja ena najbolj vplivnih regulacij zasebnosti podatkov danes. Ali ste vedeli, da opredeljuje tudi 8 pravic uporabnikov za zaščito digitalne zasebnosti in osebnih podatkov državljanov? Spoznajte, kaj so te pravice in zakaj so pomembne.

4. Kultura etike

Upoštevajte, da ostaja neoprijemljiva vrzel med skladnostjo (narediti dovolj za izpolnjevanje "črke zakona") in obravnavanjem sistemskih vprašanj (kot so okostenelost, asimetrija informacij in distribucijska nepravičnost), ki lahko pospešijo orožitev AI.

Slednje zahteva sodelovalne pristope k opredeljevanju kultur etike, ki gradijo čustvene povezave in dosledne skupne vrednote med organizacijami v industriji. To zahteva bolj formalizirane kulture etike podatkov v organizacijah - omogočanje komurkoli, da potegne Andon vrv (za zgodnje opozarjanje na etične pomisleke) in postavljanje etičnih ocen (npr. pri zaposlovanju) kot ključnega kriterija za oblikovanje ekip v AI projektih.


Kvizi po predavanju 🎯

Pregled in samostojno učenje

Tečaji in knjige pomagajo pri razumevanju osnovnih konceptov etike in izzivov, medtem ko študije primerov in orodja pomagajo pri uporabi etičnih praks v resničnih kontekstih. Tukaj je nekaj virov za začetek.

Naloga

Napišite študijo primera o etiki podatkov


Omejitev odgovornosti:
Ta dokument je bil preveden z uporabo storitve za prevajanje z umetno inteligenco Co-op Translator. Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da lahko avtomatizirani prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem izvirnem jeziku je treba obravnavati kot avtoritativni vir. Za ključne informacije priporočamo profesionalni človeški prevod. Ne prevzemamo odgovornosti za morebitne nesporazume ali napačne razlage, ki bi nastale zaradi uporabe tega prevoda.