28 KiB

Raw Permalink Blame History

Úvod do datové etiky


Etika datové vědy - Sketchnote od @nitya

Všichni jsme datoví občané žijící v datovém světě.

Tržní trendy naznačují, že do roku 2022 bude 1 z 3 velkých organizací nakupovat a prodávat svá data prostřednictvím online tržišť a burz. Jako vývojáři aplikací zjistíme, že je snazší a levnější integrovat poznatky založené na datech a automatizaci řízenou algoritmy do každodenních uživatelských zkušeností. Ale jak se AI stává všudypřítomnou, budeme také muset pochopit potenciální škody způsobené zneužitím těchto algoritmů ve velkém měřítku.

Trendy také ukazují, že do roku 2025 vytvoříme a spotřebujeme více než 180 zettabajtů dat. Jako datoví vědci získáme bezprecedentní přístup k osobním údajům. To znamená, že můžeme vytvářet behaviorální profily uživatelů a ovlivňovat rozhodování způsoby, které vytvářejí iluzi svobodné volby, přičemž potenciálně směřujeme uživatele k výsledkům, které preferujeme. To také vyvolává širší otázky týkající se ochrany soukromí a práv uživatelů.

Datová etika je nyní nezbytným ochranným opatřením pro datovou vědu a inženýrství, které nám pomáhá minimalizovat potenciální škody a neúmyslné důsledky našich akcí založených na datech. Gartnerův Hype Cycle pro AI identifikuje relevantní trendy v oblasti digitální etiky, odpovědné AI a správy AI jako klíčové faktory pro větší megatrendy kolem demokratizace a industrializace AI.

V této lekci prozkoumáme fascinující oblast datové etiky - od základních konceptů a výzev po případové studie a aplikované koncepty AI, jako je správa, které pomáhají vytvářet etickou kulturu v týmech a organizacích pracujících s daty a AI.

Kvíz před přednáškou 🎯

Základní definice

Začněme pochopením základní terminologie.

Slovo "etika" pochází z řeckého slova "ethikos" (a jeho kořene "ethos"), což znamená charakter nebo morální povaha.

Etika se týká sdílených hodnot a morálních principů, které řídí naše chování ve společnosti. Etika není založena na zákonech, ale na široce přijímaných normách toho, co je "správné vs. špatné". Etické úvahy však mohou ovlivnit iniciativy v oblasti správy společností a vládní regulace, které vytvářejí větší pobídky k dodržování pravidel.

Datová etika je nová větev etiky, která "studuje a hodnotí morální problémy související s daty, algoritmy a odpovídajícími praktikami". Zde se "data" zaměřují na akce související s generováním, zaznamenáváním, kurátorstvím, zpracováním, šířením, sdílením a používáním, "algoritmy" se zaměřují na AI, agenty, strojové učení a roboty a "praktiky" se zaměřují na témata jako odpovědné inovace, programování, hacking a etické kodexy.

Aplikovaná etika je praktická aplikace morálních úvah. Jde o proces aktivního zkoumání etických otázek v kontextu reálných akcí, produktů a procesů a přijímání nápravných opatření, aby tyto zůstaly v souladu s našimi definovanými etickými hodnotami.

Etická kultura se týká operacionalizace aplikované etiky, aby bylo zajištěno, že naše etické principy a praktiky jsou přijímány konzistentním a škálovatelným způsobem napříč celou organizací. Úspěšné etické kultury definují etické principy na úrovni celé organizace, poskytují smysluplné pobídky k dodržování pravidel a posilují etické normy tím, že podporují a zesilují žádoucí chování na každé úrovni organizace.

Koncepty etiky

V této sekci se budeme zabývat koncepty jako sdílené hodnoty (principy) a etické výzvy (problémy) v oblasti datové etiky - a prozkoumáme případové studie, které vám pomohou pochopit tyto koncepty v reálných kontextech.

1. Etické principy

Každá strategie datové etiky začíná definováním etických principů - "sdílených hodnot", které popisují přijatelné chování a řídí souladné akce v našich datových a AI projektech. Tyto principy můžete definovat na individuální nebo týmové úrovni. Nicméně většina velkých organizací je stanovuje v rámci mise nebo rámce etické AI, který je definován na korporátní úrovni a důsledně prosazován napříč všemi týmy.

Příklad: Prohlášení o misi Responsible AI společnosti Microsoft zní: "Jsme odhodláni k rozvoji AI řízené etickými principy, které staví lidi na první místo" - identifikující 6 etických principů v níže uvedeném rámci:

Pojďme si tyto principy stručně prozkoumat. Transparentnost a odpovědnost jsou základní hodnoty, na kterých jsou postaveny ostatní principy - začněme tedy u nich:

Odpovědnost činí praktiky zodpovědnými za jejich datové a AI operace a za dodržování těchto etických principů.
Transparentnost zajišťuje, že akce založené na datech a AI jsou srozumitelné (interpretovatelné) pro uživatele, vysvětlující co a proč za rozhodnutími stojí.
Spravedlnost se zaměřuje na zajištění, že AI zachází se všemi lidmi spravedlivě, řešící jakékoli systémové nebo implicitní socio-technické předsudky v datech a systémech.
Spolehlivost a bezpečnost zajišťuje, že AI se chová konzistentně s definovanými hodnotami, minimalizující potenciální škody nebo neúmyslné důsledky.
Soukromí a bezpečnost se týká pochopení původu dat a poskytování ochrany soukromí a souvisejících práv uživatelům.
Inkluzivita je o navrhování AI řešení s úmyslem, přizpůsobujících se tak, aby splňovala širokou škálu lidských potřeb a schopností.

🚨 Zamyslete se nad tím, jak by mohlo vypadat vaše prohlášení o misi datové etiky. Prozkoumejte rámce etické AI od jiných organizací - zde jsou příklady od IBM, Google a Facebook. Jaké sdílené hodnoty mají společné? Jak tyto principy souvisejí s AI produkty nebo průmyslem, ve kterém působí?

2. Etické výzvy

Jakmile máme definované etické principy, dalším krokem je vyhodnotit naše datové a AI akce, zda jsou v souladu s těmito sdílenými hodnotami. Zamyslete se nad svými akcemi ve dvou kategoriích: sběr dat a návrh algoritmů.

Při sběru dat budou akce pravděpodobně zahrnovat osobní údaje nebo osobně identifikovatelné informace (PII) pro identifikovatelné živé jednotlivce. To zahrnuje různé položky neosobních dat, které společně identifikují jednotlivce. Etické výzvy se mohou týkat ochrany soukromí, vlastnictví dat a souvisejících témat, jako je informovaný souhlas a práva duševního vlastnictví uživatelů.

Při návrhu algoritmů budou akce zahrnovat sběr a kurátorství datových sad, poté jejich použití k trénování a nasazení datových modelů, které předpovídají výsledky nebo automatizují rozhodování v reálných kontextech. Etické výzvy mohou vzniknout z předsudků v datových sadách, problémů s kvalitou dat, nespravedlnosti a zkreslení v algoritmech - včetně některých problémů, které jsou systémové povahy.

V obou případech etické výzvy zdůrazňují oblasti, kde naše akce mohou narazit na konflikt s našimi sdílenými hodnotami. Abychom tyto obavy odhalili, zmírnili, minimalizovali nebo odstranili, musíme si klást morální otázky typu "ano/ne" týkající se našich akcí a podle potřeby přijmout nápravná opatření. Podívejme se na některé etické výzvy a morální otázky, které vyvolávají:

2.1 Vlastnictví dat

Sběr dat často zahrnuje osobní údaje, které mohou identifikovat subjekty dat. Vlastnictví dat se týká kontroly a práv uživatelů souvisejících s vytvářením, zpracováním a šířením dat.

Morální otázky, které je třeba si položit:

Kdo vlastní data? (uživatel nebo organizace)
Jaká práva mají subjekty dat? (např. přístup, výmaz, přenositelnost)
Jaká práva mají organizace? (např. oprava škodlivých uživatelských recenzí)

2.2 Informovaný souhlas

Informovaný souhlas definuje akt, kdy uživatelé souhlasí s akcí (např. sběr dat) s plným pochopením relevantních faktů, včetně účelu, potenciálních rizik a alternativ.

Otázky k prozkoumání:

Dal uživatel (subjekt dat) povolení ke sběru a použití dat?
Rozuměl uživatel účelu, pro který byla data sbírána?
Rozuměl uživatel potenciálním rizikům spojeným s jeho účastí?

2.3 Duševní vlastnictví

Duševní vlastnictví se týká nehmotných výtvorů vzniklých z lidské iniciativy, které mohou mít ekonomickou hodnotu pro jednotlivce nebo podniky.

Otázky k prozkoumání:

Měla shromážděná data ekonomickou hodnotu pro uživatele nebo podnik?
Má zde uživatel duševní vlastnictví?
Má zde organizace duševní vlastnictví?
Pokud tato práva existují, jak je chráníme?

2.4 Ochrana soukromí

Ochrana soukromí nebo informační soukromí se týká zachování soukromí uživatelů a ochrany jejich identity ve vztahu k osobně identifikovatelným informacím.

Otázky k prozkoumání:

Jsou data uživatelů (osobní) zabezpečena proti hackům a únikům?
Jsou data uživatelů přístupná pouze oprávněným uživatelům a kontextům?
Je anonymita uživatelů zachována při sdílení nebo šíření dat?
Lze uživatele de-identifikovat z anonymizovaných datových sad?

2.5 Právo být zapomenut

Právo být zapomenut nebo právo na výmaz poskytuje uživatelům dodatečnou ochranu osobních údajů. Konkrétně dává uživatelům právo požadovat smazání nebo odstranění osobních údajů z internetových vyhledávání a dalších míst, za určitých okolností - což jim umožňuje nový začátek online bez toho, aby byly jejich minulé činy proti nim použity.

Otázky k prozkoumání:

Umožňuje systém subjektům dat požadovat výmaz?
Měl by odvolání souhlasu uživatele automaticky spustit výmaz?
Byla data shromážděna bez souhlasu nebo nezákonnými prostředky?
Jsme v souladu s vládními předpisy pro ochranu dat?

2.6 Předsudky v datových sadách

Předsudky v datových sadách nebo předsudky při sběru dat se týkají výběru nereprezentativního podmnožiny dat pro vývoj algoritmů, což může vést k nespravedlivým výsledkům pro různé skupiny. Typy předsudků zahrnují výběrové nebo vzorkovací předsudky, předsudky dobrovolníků a předsudky nástrojů.

Otázky k prozkoumání:

Najali jsme reprezentativní soubor subjektů dat?
Testovali jsme naši shromážděnou nebo kurátorovanou datovou sadu na různé předsudky?
Můžeme zmírnit nebo odstranit jakékoli zjištěné předsudky?

2.7 Kvalita dat

Kvalita dat se zaměřuje na platnost kurátorované datové sady použité k vývoji našich algoritmů, kontroluje, zda funkce a záznamy splňují požadavky na úroveň přesnosti a konzistence potřebné pro náš AI účel.

Otázky k prozkoumání:

Zachytili jsme platné funkce pro náš případ použití?
Byla data zachycena _kon Algorithmická spravedlnost zkoumá, zda návrh algoritmu systematicky nediskriminuje specifické podskupiny subjektů dat, což může vést k potenciálním škodám v alokaci (kdy jsou zdroje odepřeny nebo zadrženy této skupině) a kvalitě služeb (kdy AI není tak přesná pro některé podskupiny jako pro jiné).

Otázky k zamyšlení:

Hodnotili jsme přesnost modelu pro různé podskupiny a podmínky?
Zkoumali jsme systém kvůli možným škodám (např. stereotypizaci)?
Můžeme upravit data nebo znovu natrénovat modely, abychom zmírnili identifikované škody?

Prozkoumejte zdroje, jako jsou kontrolní seznamy spravedlnosti AI, abyste se dozvěděli více.

2.9 Zkreslení dat

Zkreslení dat se týká otázky, zda komunikujeme poznatky z poctivě hlášených dat klamavým způsobem, abychom podpořili požadovaný narativ.

Otázky k zamyšlení:

Zveřejňujeme neúplná nebo nepřesná data?
Vizualizujeme data způsobem, který vede k zavádějícím závěrům?
Používáme selektivní statistické techniky k manipulaci s výsledky?
Existují alternativní vysvětlení, která mohou nabídnout jiný závěr?

2.10 Svobodná volba

Iluze svobodné volby nastává, když "architektury volby" systému používají algoritmy rozhodování k ovlivnění lidí, aby přijali preferovaný výsledek, zatímco jim zdánlivě dávají možnosti a kontrolu. Tyto temné vzory mohou způsobit sociální a ekonomické škody uživatelům. Protože rozhodnutí uživatelů ovlivňují profily chování, tyto akce mohou potenciálně řídit budoucí volby, které mohou zesílit nebo rozšířit dopad těchto škod.

Otázky k zamyšlení:

Rozuměl uživatel důsledkům svého rozhodnutí?
Byl uživatel informován o (alternativních) možnostech a jejich výhodách a nevýhodách?
Může uživatel později zvrátit automatizované nebo ovlivněné rozhodnutí?

3. Případové studie

Abychom uvedli tyto etické výzvy do kontextu reálného světa, je užitečné podívat se na případové studie, které zdůrazňují potenciální škody a důsledky pro jednotlivce a společnost, pokud jsou tyto etické problémy přehlíženy.

Zde je několik příkladů:

Etická výzva	Případová studie
Informovaný souhlas	1972 - Studie syfilis v Tuskegee - Afroameričtí muži, kteří se studie zúčastnili, byli slibováni bezplatnou lékařskou péči, ale byli podvedeni výzkumníky, kteří jim neřekli o jejich diagnóze ani o dostupnosti léčby. Mnoho subjektů zemřelo a jejich partneři nebo děti byli ovlivněni; studie trvala 40 let.
Ochrana dat	2007 - Netflix data prize poskytla výzkumníkům 10M anonymizovaných hodnocení filmů od 50K zákazníků, aby pomohla zlepšit doporučovací algoritmy. Výzkumníci však byli schopni propojit anonymizovaná data s osobně identifikovatelnými daty v externích datových sadách (např. komentáře na IMDb) - efektivně "de-anonymizovali" některé předplatitele Netflixu.
Sběr dat s předsudky	2013 - Město Boston vyvinulo Street Bump, aplikaci, která umožnila občanům hlásit výmoly, čímž město získalo lepší údaje o silnicích pro identifikaci a opravu problémů. Nicméně lidé z nižších příjmových skupin měli menší přístup k autům a telefonům, což činilo jejich problémy na silnicích neviditelnými v této aplikaci. Vývojáři spolupracovali s akademiky na problémech spravedlivého přístupu a digitálních rozdílů.
Algoritmická spravedlnost	2018 - MIT Gender Shades Study hodnotila přesnost AI produktů pro klasifikaci pohlaví, odhalila mezery v přesnosti pro ženy a osoby jiné barvy pleti. Apple Card z roku 2019 se zdála nabízet méně úvěru ženám než mužům. Oba případy ilustrují problémy algoritmické zaujatosti vedoucí k socio-ekonomickým škodám.
Zkreslení dat	2020 - Ministerstvo zdravotnictví státu Georgia zveřejnilo grafy COVID-19, které se zdály zavádět občany ohledně trendů potvrzených případů s nechronologickým uspořádáním na ose x. To ilustruje zkreslení prostřednictvím vizualizačních triků.
Iluze svobodné volby	2020 - Vzdělávací aplikace ABCmouse zaplatila 10M USD za urovnání stížnosti FTC, kde rodiče byli uvězněni v placení za předplatné, které nemohli zrušit. To ilustruje temné vzory v architekturách volby, kde byli uživatelé ovlivněni k potenciálně škodlivým rozhodnutím.
Ochrana dat a práva uživatelů	2021 - Facebook Únik dat odhalil data 530M uživatelů, což vedlo k urovnání ve výši 5B USD s FTC. Nicméně odmítl informovat uživatele o úniku, čímž porušil práva uživatelů na transparentnost a přístup k datům.

Chcete prozkoumat více případových studií? Podívejte se na tyto zdroje:

Ethics Unwrapped - etické dilemata napříč různými odvětvími.
Kurz etiky datové vědy - přehled klíčových případových studií.
Kde se věci pokazily - kontrolní seznam Deon s příklady.

🚨 Zamyslete se nad případovými studiemi, které jste viděli - zažili jste nebo byli ovlivněni podobnou etickou výzvou ve svém životě? Dokážete si vzpomenout na alespoň jednu další případovou studii, která ilustruje jednu z etických výzev, o kterých jsme diskutovali v této sekci?

Aplikovaná etika

Diskutovali jsme o etických konceptech, výzvách a případových studiích v kontextu reálného světa. Ale jak začít aplikovat etické principy a praktiky ve svých projektech? A jak zavést tyto praktiky pro lepší řízení? Pojďme prozkoumat některá řešení z praxe:

1. Profesní kodexy

Profesní kodexy nabízejí jednu možnost, jak organizace mohou "motivovat" členy k podpoře jejich etických principů a poslání. Kodexy jsou morálními pokyny pro profesionální chování, které pomáhají zaměstnancům nebo členům činit rozhodnutí v souladu s principy jejich organizace. Jsou však účinné pouze tehdy, pokud členové dobrovolně dodržují; mnoho organizací však nabízí další odměny a sankce, aby motivovaly členy k dodržování.

Příklady zahrnují:

Oxford Munich Etický kodex
Data Science Association Kodex chování (vytvořen 2013)
ACM Code of Ethics and Professional Conduct (od roku 1993)

🚨 Jste členem profesní organizace pro inženýry nebo datové vědce? Prozkoumejte jejich web, zda definují profesní kodex etiky. Co říká o jejich etických principech? Jak motivují členy k dodržování kodexu?

2. Etické kontrolní seznamy

Zatímco profesní kodexy definují požadované etické chování od praktikujících, mají známé limity v prosazování, zejména u rozsáhlých projektů. Místo toho mnoho odborníků na datovou vědu doporučuje kontrolní seznamy, které mohou propojit principy s praxí deterministickým a akceschopným způsobem.

Kontrolní seznamy převádějí otázky na úkoly "ano/ne", které lze zavést do standardních pracovních postupů při vydávání produktů.

Příklady zahrnují:

Deon - obecný kontrolní seznam etiky dat vytvořený na základě doporučení z průmyslu s nástrojem příkazového řádku pro snadnou integraci.
Kontrolní seznam auditu ochrany soukromí - poskytuje obecné pokyny pro nakládání s informacemi z právního a sociálního hlediska.
Kontrolní seznam spravedlnosti AI - vytvořený odborníky na AI na podporu zavádění a integrace kontrol spravedlnosti do vývojových cyklů AI.
22 otázek pro etiku v datech a AI - otevřenější rámec, strukturovaný pro počáteční zkoumání etických problémů v návrhu, implementaci a organizačních kontextech.

3. Etické regulace

Etika se týká definování sdílených hodnot a dobrovolného dělání správných věcí. Soulad se týká dodržování zákona, pokud je definován. Řízení obecně pokrývá všechny způsoby, jakými organizace fungují, aby prosazovaly etické principy a dodržovaly stanovené zákony.

Dnes řízení probíhá ve dvou formách v rámci organizací. Za prvé, jde o definování etických principů AI a zavádění praktik pro jejich přijetí napříč všemi projekty souvisejícími s AI v organizaci. Za druhé, jde o dodržování všech vládou nařízených regulací ochrany dat pro regiony, ve kterých organizace působí.

Příklady regulací ochrany dat a soukromí:

1974, US Privacy Act - reguluje federální vládní sběr, použití a zveřejňování osobních informací.
1996, US Health Insurance Portability & Accountability Act (HIPAA) - chrání osobní zdravotní údaje.
1998, US Children's Online Privacy Protection Act (COPPA) - chrání soukromí dat dětí mladších 13 let.
2018, General Data Protection Regulation (GDPR) - poskytuje práva uživatelů, ochranu dat a soukromí.
2018, California Consumer Privacy Act (CCPA) dává spotřebitelům více práv nad jejich (osobními) daty.
2021, Čína Zákon o ochraně osobních údajů právě schválila, čímž vytvořila jednu z nejsilnějších regulací online ochrany soukromí na světě.

🚨 Evropská unie definovala GDPR (General Data Protection Regulation), který zůstává jednou z nejvlivnějších regulací ochrany dat dnes. Věděli jste, že také definuje 8 práv uživatelů na ochranu digitálního soukromí a osobních dat občanů? Zjistěte, co to jsou a proč jsou důležitá.

4. Etická kultura

Je třeba poznamenat, že stále existuje nehmotná mezera mezi souladem (děláním dostatečného pro splnění "litery zákona") a řešením systémových problémů (jako je zkostnatělost, informační asymetrie a distribuční nespravedlnost), které mohou urychlit zneužití AI.

To druhé vyžaduje spolupráci na definování etických kultur, které budují emocionální spojení a konzistentní sdílené hodnoty napříč organizacemi v průmyslu. To volá po více formalizovaných kulturách etiky dat v organizacích - umožňující komukoli zatáhnout za Andon šňůru (aby včas upozornil na etické problémy) a učinit etické hodnocení (např. při náboru) klíčovým kritériem pro formování týmů v projektech AI.

Kvíz po přednášce 🎯

Přehled & Samostudium

Kurzy a knihy pomáhají pochopit základní etické koncepty a výzvy, zatímco případové studie a nástroje pomáhají s aplikovanými etickými praktikami v reálných kontextech. Zde je několik zdrojů, kde začít.

Strojové učení pro začátečníky - lekce o spravedlnosti od Microsoftu.
Principy odpovědné AI - bezplatná vzdělávací cesta od Microsoft Learn.
Etika a datová věda - EBook od O'Reilly (M. Loukides, H. Mason a kol.)
Etika datové vědy - online kurz od University of Michigan.
Etika v praxi - případové studie od University of Texas.

Zadání

Vypracujte případovou studii o etice dat

Prohlášení:
Tento dokument byl přeložen pomocí služby pro automatický překlad Co-op Translator. Ačkoli se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Neodpovídáme za žádná nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.

28 KiB Raw Permalink Blame History

Úvod do datové etiky

Kvíz před přednáškou 🎯

Základní definice

Koncepty etiky

1. Etické principy

2. Etické výzvy

2.1 Vlastnictví dat

2.2 Informovaný souhlas

2.3 Duševní vlastnictví

2.4 Ochrana soukromí

2.5 Právo být zapomenut

2.6 Předsudky v datových sadách

2.7 Kvalita dat

2.9 Zkreslení dat

2.10 Svobodná volba

3. Případové studie

Aplikovaná etika

1. Profesní kodexy

2. Etické kontrolní seznamy

3. Etické regulace

4. Etická kultura

Kvíz po přednášce 🎯

Přehled & Samostudium

Zadání

28 KiB

Raw Permalink Blame History