You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/cs/1-Introduction/02-ethics/README.md

28 KiB

Úvod do datové etiky

 Sketchnote od (@sketchthedocs)
Etika datové vědy - Sketchnote od @nitya

Jsme všichni občané datového světa, žijící v době, kdy data hrají klíčovou roli.

Tržní trendy naznačují, že do roku 2022 bude 1 z 3 velkých organizací nakupovat a prodávat svá data prostřednictvím online tržišť a burz. Jako vývojáři aplikací zjistíme, že je jednodušší a levnější integrovat poznatky založené na datech a automatizaci řízenou algoritmy do každodenních uživatelských zkušeností. Ale jak se AI stává všudypřítomnou, budeme také muset pochopit potenciální škody způsobené zneužitím těchto algoritmů ve velkém měřítku.

Trendy také ukazují, že do roku 2025 vytvoříme a spotřebujeme přes 180 zettabytů dat. Jako datoví vědci získáme bezprecedentní přístup k osobním údajům. To nám umožní vytvářet behaviorální profily uživatelů a ovlivňovat rozhodování způsoby, které mohou vytvářet iluzi svobodné volby, zatímco potenciálně směřujeme uživatele k výsledkům, které preferujeme. To také vyvolává širší otázky týkající se ochrany soukromí a práv uživatelů.

Datová etika je nyní nezbytným ochranným opatřením pro datovou vědu a inženýrství, které nám pomáhá minimalizovat potenciální škody a nechtěné důsledky našich akcí založených na datech. Gartnerův Hype Cycle pro AI identifikuje relevantní trendy v digitální etice, odpovědné AI a správě AI jako klíčové faktory pro větší megatrendy kolem demokratizace a industrializace AI.

Gartnerův Hype Cycle pro AI - 2020

V této lekci prozkoumáme fascinující oblast datové etiky - od základních konceptů a výzev, přes případové studie až po aplikované koncepty AI, jako je správa, které pomáhají vytvářet kulturu etiky v týmech a organizacích pracujících s daty a AI.

Kvíz před přednáškou 🎯

Základní definice

Začněme pochopením základní terminologie.

Slovo "etika" pochází z řeckého slova "ethikos" (a jeho kořene "ethos"), což znamená charakter nebo morální povaha.

Etika se týká sdílených hodnot a morálních principů, které řídí naše chování ve společnosti. Etika není založena na zákonech, ale na široce přijímaných normách toho, co je "správné vs. špatné". Etické úvahy však mohou ovlivnit iniciativy korporátní správy a vládní regulace, které vytvářejí více pobídek k dodržování pravidel.

Datová etika je nová odnož etiky, která "studuje a hodnotí morální problémy související s daty, algoritmy a odpovídajícími praktikami". Zde se "data" zaměřují na akce spojené s generováním, zaznamenáváním, kurátorstvím, zpracováním, šířením, sdílením a používáním, "algoritmy" se zaměřují na AI, agenty, strojové učení a roboty a "praktiky" se zaměřují na témata jako odpovědné inovace, programování, hacking a etické kodexy.

Aplikovaná etika je praktická aplikace morálních úvah. Je to proces aktivního zkoumání etických otázek v kontextu reálných akcí, produktů a procesů a přijímání nápravných opatření, aby zůstaly v souladu s našimi definovanými etickými hodnotami.

Kultura etiky se týká operacionalizace aplikované etiky, aby bylo zajištěno, že naše etické principy a praktiky jsou přijímány konzistentním a škálovatelným způsobem napříč celou organizací. Úspěšné kultury etiky definují etické principy na úrovni celé organizace, poskytují smysluplné pobídky k dodržování pravidel a posilují normy etiky podporou a zesilováním žádoucího chování na každé úrovni organizace.

Koncepty etiky

V této části budeme diskutovat koncepty jako sdílené hodnoty (principy) a etické výzvy (problémy) v oblasti datové etiky - a prozkoumáme případové studie, které vám pomohou pochopit tyto koncepty v reálných kontextech.

1. Principy etiky

Každá strategie datové etiky začíná definováním etických principů - "sdílených hodnot", které popisují přijatelné chování a řídí dodržování pravidel v našich projektech zaměřených na data a AI. Tyto principy můžete definovat na individuální nebo týmové úrovni. Nicméně většina velkých organizací je uvádí v etickém AI prohlášení nebo rámci, který je definován na korporátní úrovni a důsledně prosazován napříč všemi týmy.

Příklad: Microsoftovo odpovědné AI prohlášení zní: "Jsme odhodláni k rozvoji AI řízené etickými principy, které staví lidi na první místo" - identifikující 6 etických principů v níže uvedeném rámci:

Odpovědné AI v Microsoftu

Pojďme si stručně prozkoumat tyto principy. Transparentnost a odpovědnost jsou základní hodnoty, na kterých jsou postaveny ostatní principy - začněme tedy zde:

  • Odpovědnost činí praktiky odpovědnými za jejich operace s daty a AI a za dodržování těchto etických principů.
  • Transparentnost zajišťuje, že akce s daty a AI jsou srozumitelné (interpretovatelné) pro uživatele, vysvětlující co a proč za rozhodnutími.
  • Spravedlnost - zaměřuje se na zajištění, že AI zachází se všemi lidmi spravedlivě, řešící jakékoli systémové nebo implicitní socio-technické předsudky v datech a systémech.
  • Spolehlivost a bezpečnost - zajišťuje, že AI se chová konzistentně s definovanými hodnotami, minimalizuje potenciální škody nebo nechtěné důsledky.
  • Soukromí a bezpečnost - se týká pochopení původu dat a poskytování ochrany soukromí a souvisejících práv uživatelům.
  • Inkluzivita - se týká navrhování AI řešení s úmyslem, přizpůsobení je tak, aby splňovala širokou škálu lidských potřeb a schopností.

🚨 Zamyslete se nad tím, jaké by mohlo být vaše prohlášení o datové etice. Prozkoumejte etické AI rámce jiných organizací - zde jsou příklady od IBM, Google a Facebook. Jaké sdílené hodnoty mají společné? Jak se tyto principy vztahují k AI produktům nebo odvětví, ve kterém působí?

2. Výzvy etiky

Jakmile máme definované etické principy, dalším krokem je zhodnotit naše akce v oblasti dat a AI, zda jsou v souladu s těmito sdílenými hodnotami. Zamyslete se nad svými akcemi ve dvou kategoriích: sběr dat a návrh algoritmů.

Při sběru dat budou akce pravděpodobně zahrnovat osobní údaje nebo osobně identifikovatelné informace (PII) pro identifikovatelné živé jednotlivce. To zahrnuje různé položky neosobních dat, které společně identifikují jednotlivce. Etické výzvy se mohou týkat ochrany soukromí, vlastnictví dat a souvisejících témat, jako je informovaný souhlas a práva duševního vlastnictví uživatelů.

Při návrhu algoritmů budou akce zahrnovat sběr a kurátorství datových sad, poté jejich použití k trénování a nasazení datových modelů, které předpovídají výsledky nebo automatizují rozhodování v reálných kontextech. Etické výzvy mohou vzniknout z předsudků v datových sadách, problémů s kvalitou dat, nespravedlnosti a zkreslení v algoritmech - včetně některých problémů, které jsou systémové povahy.

V obou případech etické výzvy zdůrazňují oblasti, kde naše akce mohou být v konfliktu s našimi sdílenými hodnotami. Abychom tyto obavy detekovali, zmírnili, minimalizovali nebo eliminovali, musíme si klást morální otázky typu "ano/ne" týkající se našich akcí a poté přijmout nápravná opatření podle potřeby. Podívejme se na některé etické výzvy a morální otázky, které vyvolávají:

2.1 Vlastnictví dat

Sběr dat často zahrnuje osobní údaje, které mohou identifikovat subjekty dat. Vlastnictví dat se týká kontroly a práv uživatelů souvisejících s vytvářením, zpracováním a šířením dat.

Morální otázky, které je třeba si položit:

  • Kdo vlastní data? (uživatel nebo organizace)
  • Jaká práva mají subjekty dat? (např. přístup, vymazání, přenositelnost)
  • Jaká práva mají organizace? (např. oprava škodlivých uživatelských recenzí)

2.2 Informovaný souhlas

Informovaný souhlas definuje akt, kdy uživatelé souhlasí s akcí (např. sběrem dat) s plným pochopením relevantních faktů, včetně účelu, potenciálních rizik a alternativ.

Otázky k prozkoumání:

  • Dal uživatel (subjekt dat) povolení ke sběru a použití dat?
  • Rozuměl uživatel účelu, pro který byla data sbírána?
  • Rozuměl uživatel potenciálním rizikům spojeným s jeho účastí?

2.3 Duševní vlastnictví

Duševní vlastnictví se týká nehmotných výtvorů vzniklých z lidské iniciativy, které mohou mít ekonomickou hodnotu pro jednotlivce nebo firmy.

Otázky k prozkoumání:

  • Měla shromážděná data ekonomickou hodnotu pro uživatele nebo firmu?
  • uživatel zde duševní vlastnictví?
  • organizace zde duševní vlastnictví?
  • Pokud tato práva existují, jak je chráníme?

2.4 Ochrana soukromí

Ochrana soukromí nebo informační soukromí se týká zachování soukromí uživatelů a ochrany jejich identity ve vztahu k osobně identifikovatelným informacím.

Otázky k prozkoumání:

  • Jsou osobní data uživatelů zabezpečena proti hackům a únikům?
  • Jsou data uživatelů přístupná pouze autorizovaným uživatelům a kontextům?
  • Je anonymita uživatelů zachována při sdílení nebo šíření dat?
  • Může být uživatel de-identifikován z anonymizovaných datových sad?

2.5 Právo být zapomenut

Právo být zapomenut nebo Právo na vymazání poskytuje uživatelům dodatečnou ochranu osobních údajů. Konkrétně dává uživatelům právo požadovat smazání nebo odstranění osobních údajů z internetových vyhledávání a jiných míst, za specifických okolností - umožňující jim nový začátek online bez toho, aby byly jejich minulé akce proti nim použity.

Otázky k prozkoumání:

  • Umožňuje systém subjektům dat požadovat vymazání?
  • Měl by odvolání souhlasu uživatele automaticky spustit vymazání?
  • Byla data sbírána bez souhlasu nebo nezákonnými prostředky?
  • Jsme v souladu s vládními regulacemi pro ochranu soukromí dat?

2.6 Předsudky v datových sadách

Předsudky v datových sadách nebo předsudky při sběru dat se týkají výběru nereprezentativního podmnožiny dat pro vývoj algoritmů, což může vytvářet potenciální nespravedlnost ve výsledcích pro různé skupiny. Typy předsudků zahrnují výběrové nebo vzorkovací předsudky, dobrovolnické předsudky a předsudky nástrojů.

Otázky k prozkoumání:

  • Rekrutovali jsme reprezentativní soubor subjektů dat?
  • Testovali jsme naši shromážděnou nebo kurátorovanou datovou sadu na různé předsudky?
  • Můžeme zmírnit nebo odstranit jakékoli objevené předsudky?

2.7 Kvalita dat

Kvalita dat se zaměřuje na validitu kurátorované datové sady použité k vývoji našich algoritmů, kontroluje, zda funkce a záznamy splňují požadavky na úroveň přesnosti a konzistence potřebnou pro náš AI účel.

Otázky k prozkoumání:

  • Zachytili jsme platné funkce pro ná Algorithm Fairness zkoumá, zda návrh algoritmu systematicky nediskriminuje specifické podskupiny subjektů, což může vést k potenciálním škodám v alokaci (kdy jsou zdroje odepřeny nebo zadrženy této skupině) a kvalitě služeb (kdy AI není tak přesná pro některé podskupiny jako pro jiné).

Otázky k zamyšlení:

  • Vyhodnotili jsme přesnost modelu pro různé podskupiny a podmínky?
  • Prozkoumali jsme systém kvůli potenciálním škodám (např. stereotypizaci)?
  • Můžeme upravit data nebo znovu natrénovat modely, abychom zmírnili identifikované škody?

Prozkoumejte zdroje jako AI Fairness checklists, abyste se dozvěděli více.

2.9 Zkreslení dat

Zkreslení dat se týká otázky, zda komunikujeme poznatky z poctivě hlášených dat klamavým způsobem, abychom podpořili požadovaný narativ.

Otázky k zamyšlení:

  • Hlásíme neúplná nebo nepřesná data?
  • Vizualizujeme data způsobem, který vede k zavádějícím závěrům?
  • Používáme selektivní statistické techniky k manipulaci s výsledky?
  • Existují alternativní vysvětlení, která mohou nabídnout jiný závěr?

2.10 Svobodná volba

Iluze svobodné volby nastává, když "architektury volby" systému používají algoritmy rozhodování k ovlivnění lidí, aby přijali preferovaný výsledek, zatímco jim zdánlivě dávají možnosti a kontrolu. Tyto temné vzorce mohou způsobit sociální a ekonomické škody uživatelům. Protože rozhodnutí uživatelů ovlivňují profily chování, tyto akce mohou potenciálně řídit budoucí volby, které mohou zesílit nebo rozšířit dopad těchto škod.

Otázky k zamyšlení:

  • Rozuměl uživatel důsledkům svého rozhodnutí?
  • Byl uživatel informován o (alternativních) možnostech a jejich výhodách a nevýhodách?
  • Může uživatel později zvrátit automatizované nebo ovlivněné rozhodnutí?

3. Případové studie

Abychom tyto etické výzvy zasadili do reálného kontextu, je užitečné podívat se na případové studie, které zdůrazňují potenciální škody a důsledky pro jednotlivce a společnost, pokud jsou etické problémy přehlíženy.

Zde je několik příkladů:

Etická výzva Případová studie
Informovaný souhlas 1972 - Tuskegee Syphilis Study - Afroameričtí muži, kteří se účastnili studie, byli slibováni bezplatnou lékařskou péči, ale byli podvedeni výzkumníky, kteří jim neřekli o jejich diagnóze nebo dostupnosti léčby. Mnoho subjektů zemřelo a jejich partneři či děti byli ovlivněni; studie trvala 40 let.
Ochrana dat 2007 - Netflix data prize poskytla výzkumníkům 10M anonymizovaných hodnocení filmů od 50K zákazníků, aby pomohla zlepšit doporučovací algoritmy. Výzkumníci však byli schopni propojit anonymizovaná data s osobně identifikovatelnými daty v externích datových sadách (např. komentáře na IMDb), čímž efektivně "de-anonymizovali" některé předplatitele Netflixu.
Sběr dat s předsudky 2013 - Město Boston vyvinulo Street Bump, aplikaci, která umožnila občanům hlásit výmoly, čímž město získalo lepší údaje o silnicích pro identifikaci a opravu problémů. Nicméně lidé z nižších příjmových skupin měli menší přístup k autům a telefonům, což činilo jejich problémy na silnicích neviditelnými v této aplikaci. Vývojáři spolupracovali s akademiky na problémech spravedlivého přístupu a digitálních rozdílů.
Spravedlnost algoritmů 2018 - MIT Gender Shades Study hodnotila přesnost AI produktů pro klasifikaci pohlaví, odhalila mezery v přesnosti pro ženy a osoby jiné barvy pleti. Apple Card z roku 2019 se zdála nabízet méně úvěru ženám než mužům. Oba případy ilustrují problémy s předsudky v algoritmech vedoucí k socio-ekonomickým škodám.
Zkreslení dat 2020 - Georgia Department of Public Health zveřejnila COVID-19 grafy, které se zdály zavádět občany ohledně trendů potvrzených případů s nechronologickým uspořádáním na ose x. To ilustruje zkreslení prostřednictvím vizualizačních triků.
Iluze svobodné volby 2020 - Výuková aplikace ABCmouse zaplatila $10M za urovnání stížnosti FTC, kde rodiče byli uvězněni v platbě za předplatné, které nemohli zrušit. To ilustruje temné vzorce v architekturách volby, kde byli uživatelé ovlivněni k potenciálně škodlivým rozhodnutím.
Ochrana dat a práva uživatelů 2021 - Facebook Data Breach odhalil data 530M uživatelů, což vedlo k urovnání $5B s FTC. Nicméně odmítl informovat uživatele o úniku dat, čímž porušil práva uživatelů na transparentnost a přístup k datům.

Chcete prozkoumat více případových studií? Podívejte se na tyto zdroje:

🚨 Zamyslete se nad případovými studiemi, které jste viděli - zažili jste nebo byli ovlivněni podobnou etickou výzvou ve svém životě? Dokážete si vybavit alespoň jednu další případovou studii, která ilustruje jednu z etických výzev, o kterých jsme diskutovali v této sekci?

Aplikovaná etika

Diskutovali jsme o etických konceptech, výzvách a případových studiích v reálném kontextu. Ale jak začít aplikovat etické principy a praktiky ve svých projektech? A jak zavést tyto praktiky pro lepší řízení? Pojďme prozkoumat některá reálná řešení:

1. Profesní kodexy

Profesní kodexy nabízejí jednu možnost, jak organizace mohou "motivovat" členy k podpoře svých etických principů a poslání. Kodexy jsou morálními pokyny pro profesní chování, které pomáhají zaměstnancům nebo členům činit rozhodnutí v souladu s principy organizace. Jsou však účinné pouze tehdy, pokud členové dobrovolně dodržují pravidla; mnoho organizací však nabízí další odměny a sankce, aby motivovaly členy k dodržování pravidel.

Příklady zahrnují:

🚨 Jste členem profesní organizace pro inženýry nebo datové vědce? Prozkoumejte jejich webové stránky a zjistěte, zda definují profesní kodex etiky. Co říká o jejich etických principech? Jak motivují členy k dodržování kodexu?

2. Etické kontrolní seznamy

Zatímco profesní kodexy definují požadované etické chování od praktikujících, mají známá omezení v prosazování, zejména u rozsáhlých projektů. Místo toho mnoho odborníků na datovou vědu doporučuje kontrolní seznamy, které mohou propojit principy s praxí deterministickým a akceschopným způsobem.

Kontrolní seznamy převádějí otázky na úkoly "ano/ne", které lze operacionalizovat, což umožňuje jejich sledování jako součást standardních pracovních postupů při vydávání produktů.

Příklady zahrnují:

  • Deon - obecný kontrolní seznam datové etiky vytvořený na základě doporučení z průmyslu s nástrojem příkazového řádku pro snadnou integraci.
  • Privacy Audit Checklist - poskytuje obecné pokyny pro nakládání s informacemi z právního a sociálního hlediska.
  • AI Fairness Checklist - vytvořený odborníky na AI na podporu přijetí a integrace kontrol spravedlnosti do vývojových cyklů AI.
  • 22 otázek pro etiku v datech a AI - otevřenější rámec, strukturovaný pro počáteční zkoumání etických problémů v návrhu, implementaci a organizačních kontextech.

3. Etické regulace

Etika je o definování sdílených hodnot a dobrovolném dělání správných věcí. Dodržování předpisů je o dodržování zákona, pokud je definován. Řízení obecně pokrývá všechny způsoby, jakými organizace fungují, aby prosazovaly etické principy a dodržovaly stanovené zákony.

Dnes řízení probíhá ve dvou formách v rámci organizací. Za prvé, jde o definování principů etické AI a zavedení praktik pro operacionalizaci přijetí napříč všemi projekty souvisejícími s AI v organizaci. Za druhé, jde o dodržování všech vládou stanovených regulací ochrany dat pro regiony, ve kterých organizace působí.

Příklady regulací ochrany dat a soukromí:

🚨 Evropská unie definovala GDPR (General Data Protection Regulation), který zůstává jednou z nejvlivnějších regulací ochrany dat dnes. Věděli jste, že také definuje 8 práv uživatelů na ochranu digitálního soukromí a osobních dat občanů? Zjistěte, co to jsou a proč jsou důležitá.

4. Etická kultura

Poznamenejte, že stále existuje nehmotná mezera mezi dodržováním předpisů (děláním dostatečného pro splnění "litery zákona") a řešením systémových problémů (jako je zkostnatělost, informační asymetrie a distribuční nespravedlnost), které mohou urychlit zneužití AI.

To druhé vyžaduje spolupráci na definování etických kultur, které budují emocionální spojení a konzistentní sdílené hodnoty napříč organizacemi v průmyslu. To volá po více formalizovaných kulturách datové etiky v organizacích - umožňující komukoliv zatáhnout za Andon šňůru (aby včas upozornil na etické problémy) a učinit etické hodnocení (např. při náboru) klíčovým kritériem pro formování týmů v AI projektech.


Post-lecture quiz 🎯

Přehled a samostudium

Kurzy a knihy pomáhají pochopit základní etické koncepty a výzvy, zatímco případové studie a nástroje pomáhají s aplikovanými etickými praktikami v reálném kontextu. Zde je několik zdrojů, kde začít.

Zadání

Vypracujte případovou studii o etice dat


Prohlášení:
Tento dokument byl přeložen pomocí služby pro automatický překlad Co-op Translator. Ačkoli se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace doporučujeme profesionální lidský překlad. Neodpovídáme za žádná nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.