|
|
1 month ago | |
|---|---|---|
| .. | ||
| README.md | 1 month ago | |
| assignment.md | 1 month ago | |
README.md
Въведение в етиката на данните
![]() |
|---|
| Етика в науката за данни - Скетч от @nitya |
Всички сме граждани на света на данните.
Пазарните тенденции показват, че до 2022 г. една от три големи организации ще купува и продава данни чрез онлайн пазари и борси. Като разработчици на приложения, ще ни бъде по-лесно и по-евтино да интегрираме прозрения, базирани на данни, и автоматизация, управлявана от алгоритми, в ежедневния потребителски опит. Но с разпространението на AI ще трябва да разберем и потенциалните вреди, причинени от оръжейната употреба на такива алгоритми в голям мащаб.
Тенденциите сочат, че до 2025 г. ще генерираме и консумираме над 180 зетабайта данни. За учените в областта на данните, този взрив от информация предоставя безпрецедентен достъп до лични и поведенчески данни. С това идва и силата да се изграждат подробни потребителски профили и да се влияе на решенията по фин начин — често по начини, които създават илюзия за свободен избор. Макар това да може да се използва за насочване на потребителите към предпочитани резултати, то също така повдига важни въпроси за поверителността на данните, автономията и етичните граници на алгоритмичното влияние.
Етиката на данните вече е необходима защита за науката за данни и инженерството, помагайки ни да минимизираме потенциалните вреди и непредвидените последици от действията ни, базирани на данни. Цикълът на хиперболата на Gartner за AI идентифицира релевантни тенденции в дигиталната етика, отговорния AI и управлението на AI като ключови двигатели за по-големи мегатенденции около демократизацията и индустриализацията на AI.
В този урок ще разгледаме завладяващата област на етиката на данните - от основни концепции и предизвикателства до казуси и приложни AI концепции като управление, които помагат за установяване на култура на етика в екипи и организации, работещи с данни и AI.
Тест преди лекцията 🎯
Основни дефиниции
Нека започнем с разбирането на основната терминология.
Думата "етика" произлиза от гръцката дума "ethikos" (и нейния корен "ethos"), означаваща характер или морална природа.
Етиката се отнася до споделените ценности и морални принципи, които управляват поведението ни в обществото. Етиката не се основава на закони, а на широко приети норми за това кое е "правилно срещу грешно". Въпреки това, етичните съображения могат да влияят на инициативите за корпоративно управление и правителствените регулации, които създават повече стимули за съответствие.
Етиката на данните е нов клон на етиката, който "изучава и оценява морални проблеми, свързани с данни, алгоритми и съответните практики". Тук "данни" се фокусират върху действия, свързани с генериране, записване, обработка, разпространение, споделяне и използване, "алгоритми" се фокусират върху AI, агенти, машинно обучение и роботи, а "практики" се фокусират върху теми като отговорна иновация, програмиране, хакерство и кодекси на етика.
Приложна етика е практическото приложение на морални съображения. Това е процесът на активно изследване на етични въпроси в контекста на реални действия, продукти и процеси и предприемане на коригиращи мерки, за да се гарантира, че те остават съобразени с определените ни етични ценности.
Култура на етика се отнася до операционализиране на приложната етика, за да се гарантира, че нашите етични принципи и практики се приемат последователно и мащабируемо в цялата организация. Успешните култури на етика определят етични принципи на ниво организация, предоставят значими стимули за съответствие и укрепват етичните норми, като насърчават и усилват желаното поведение на всяко ниво в организацията.
Концепции за етика
В този раздел ще обсъдим концепции като споделени ценности (принципи) и етични предизвикателства (проблеми) за етиката на данните - и ще разгледаме казуси, които ще ви помогнат да разберете тези концепции в реални контексти.
1. Принципи на етиката
Всяка стратегия за етика на данните започва с дефиниране на етични принципи - "споделените ценности", които описват приемливото поведение и насочват съответните действия в нашите проекти за данни и AI. Можете да ги дефинирате на индивидуално или екипно ниво. Въпреки това, повечето големи организации ги очертават в мисия или рамка за етичен AI, която е дефинирана на корпоративно ниво и се прилага последователно във всички екипи.
Пример: Мисията на Microsoft за Отговорен AI гласи: "Ние сме ангажирани с напредъка на AI, ръководен от етични принципи, които поставят хората на първо място" - идентифицирайки 6 етични принципа в рамката по-долу:
Нека накратко разгледаме тези принципи. Прозрачността и отговорността са основни ценности, върху които се изграждат останалите принципи - така че нека започнем с тях:
- Отговорност прави практикуващите отговорни за своите операции с данни и AI и за съответствието с тези етични принципи.
- Прозрачност гарантира, че действията с данни и AI са разбираеми (интерпретируеми) за потребителите, обяснявайки какво и защо стои зад решенията.
- Справедливост - фокусира се върху гарантирането, че AI третира всички хора справедливо, адресирайки всякакви системни или имплицитни социално-технически предразсъдъци в данните и системите.
- Надеждност и безопасност - гарантира, че AI се държи последователно с определените ценности, минимизирайки потенциалните вреди или непредвидените последици.
- Поверителност и сигурност - се отнася до разбирането на произхода на данните и предоставянето на защита на поверителността на данните на потребителите.
- Инклузивност - се отнася до проектирането на AI решения с намерение, адаптирайки ги да отговарят на широк спектър от човешки нужди и способности.
🚨 Помислете каква би могла да бъде вашата мисия за етика на данните. Разгледайте рамките за етичен AI от други организации - ето примери от IBM, Google и Facebook. Какви споделени ценности имат те? Как тези принципи се отнасят към AI продуктите или индустрията, в която оперират?
2. Етични предизвикателства
След като сме дефинирали етичните принципи, следващата стъпка е да оценим действията си с данни и AI, за да видим дали те съответстват на тези споделени ценности. Помислете за действията си в две категории: събиране на данни и проектиране на алгоритми.
При събирането на данни действията вероятно ще включват лични данни или лична идентификационна информация (PII) за идентифицируеми живи индивиди. Това включва разнообразни елементи от нелични данни, които колективно идентифицират индивид. Етичните предизвикателства могат да се отнасят до поверителност на данните, собственост на данните и свързани теми като информирано съгласие и права върху интелектуалната собственост на потребителите.
При проектирането на алгоритми действията ще включват събиране и обработка на набори от данни, след което използването им за обучение и внедряване на модели на данни, които предсказват резултати или автоматизират решения в реални контексти. Етичните предизвикателства могат да възникнат от предразсъдъци в набора от данни, проблеми с качеството на данните, несправедливост и погрешно представяне в алгоритмите - включително някои въпроси, които са системни по природа.
И в двата случая етичните предизвикателства подчертават области, в които действията ни могат да влязат в конфликт с нашите споделени ценности. За да открием, смекчим, минимизираме или елиминираме тези проблеми, трябва да задаваме морални "да/не" въпроси, свързани с действията ни, и да предприемаме коригиращи действия, когато е необходимо. Нека разгледаме някои етични предизвикателства и моралните въпроси, които те повдигат:
2.1 Собственост на данните
Събирането на данни често включва лични данни, които могат да идентифицират субектите на данните. Собствеността на данните се отнася до контрола и правата на потребителите, свързани със създаването, обработката и разпространението на данни.
Моралните въпроси, които трябва да зададем, са:
- Кой притежава данните? (потребител или организация)
- Какви права имат субектите на данните? (напр. достъп, изтриване, преносимост)
- Какви права имат организациите? (напр. коригиране на злонамерени потребителски отзиви)
2.2 Информирано съгласие
Информираното съгласие определя акта на потребителите да се съгласяват с действие (като събиране на данни) с пълно разбиране на релевантните факти, включително целта, потенциалните рискове и алтернативите.
Въпроси за разглеждане тук са:
- Дал ли е потребителят (субектът на данните) разрешение за събиране и използване на данни?
- Разбрал ли е потребителят целта, за която са събрани данните?
- Разбрал ли е потребителят потенциалните рискове от участието си?
2.3 Интелектуална собственост
Интелектуалната собственост се отнася до нематериални творения, произтичащи от човешка инициатива, които могат да имат икономическа стойност за индивиди или бизнеси.
Въпроси за разглеждане тук са:
- Имат ли събраните данни икономическа стойност за потребител или бизнес?
- Има ли потребителят интелектуална собственост тук?
- Има ли организацията интелектуална собственост тук?
- Ако тези права съществуват, как ги защитаваме?
2.4 Поверителност на данните
Поверителността на данните или информационната поверителност се отнася до запазването на поверителността на потребителите и защитата на тяхната идентичност по отношение на личната идентификационна информация.
Въпроси за разглеждане тук са:
- Защитени ли са личните данни на потребителите от хакерски атаки и течове?
- Достъпни ли са данните на потребителите само за упълномощени потребители и контексти?
- Запазена ли е анонимността на потребителите, когато данните се споделят или разпространяват?
- Може ли потребител да бъде деидентифициран от анонимизирани набори от данни?
2.5 Право да бъдеш забравен
Правото да бъдеш забравен или Правото на изтриване предоставя допълнителна защита на личните данни на потребителите. Специално, то дава право на потребителите да поискат изтриване или премахване на лични данни от интернет търсения и други места, при специфични обстоятелства - позволявайки им ново начало онлайн без минали действия да бъдат използвани срещу тях.
Въпроси за разглеждане тук са:
- Позволява ли системата на субектите на данни да поискат изтриване?
- Трябва ли оттеглянето на съгласието на потребителя да задейства автоматично изтриване?
- Събрани ли са данни без съгласие или чрез незаконни средства?
- Съответстваме ли на правителствените регулации за поверителност на данните?
2.6 Предразсъдъци в набора от данни
Пред
- Дали информацията е уловена точно, отразявайки реалността?
2.8 Справедливост на алгоритмите
Справедливост на алгоритмите проверява дали дизайнът на алгоритъма систематично дискриминира определени подгрупи от субекти на данни, водейки до потенциални вреди в разпределението (когато ресурси се отказват или задържат от тази група) и качеството на услугата (когато ИИ не е толкова точен за някои подгрупи, колкото за други).
Въпроси за разглеждане тук са:
- Оценихме ли точността на модела за различни подгрупи и условия?
- Проверихме ли системата за потенциални вреди (например, стереотипи)?
- Можем ли да преработим данните или да обучим отново моделите, за да смекчим идентифицираните вреди?
Разгледайте ресурси като контролни списъци за справедливост на ИИ, за да научите повече.
2.9 Заблуда
Заблуда в данните се отнася до въпроса дали представяме прозрения от честно докладвани данни по подвеждащ начин, за да подкрепим желан разказ.
Въпроси за разглеждане тук са:
- Докладваме ли непълни или неточни данни?
- Визуализираме ли данни по начин, който води до подвеждащи заключения?
- Използваме ли селективни статистически техники за манипулиране на резултатите?
- Има ли алтернативни обяснения, които могат да предложат различно заключение?
2.10 Свободен избор
Илюзията за свободен избор възниква, когато "архитектурите на избор" в системата използват алгоритми за вземане на решения, за да насочат хората към предпочитан резултат, докато изглежда, че им дават опции и контрол. Тези тъмни модели могат да причинят социални и икономически вреди на потребителите. Тъй като решенията на потребителите влияят върху профилите на поведение, тези действия потенциално задвижват бъдещи избори, които могат да усилят или разширят въздействието на тези вреди.
Въпроси за разглеждане тук са:
- Разбра ли потребителят последиците от вземането на този избор?
- Беше ли потребителят наясно с (алтернативните) опции и плюсовете и минусите на всяка?
- Може ли потребителят да отмени автоматизиран или повлиян избор по-късно?
3. Казуси
За да поставим тези етични предизвикателства в контекста на реалния свят, е полезно да разгледаме казуси, които подчертават потенциалните вреди и последици за индивидите и обществото, когато такива етични нарушения се пренебрегват.
Ето няколко примера:
| Етично предизвикателство | Казус |
|---|---|
| Информирано съгласие | 1972 - Изследване на сифилис в Тъскиги - Афроамерикански мъже, които участвали в изследването, били обещани безплатна медицинска грижа, но били измамени от изследователи, които не информирали субектите за диагнозата им или за наличието на лечение. Много субекти починали, а партньорите или децата им били засегнати; изследването продължило 40 години. |
| Поверителност на данните | 2007 - Награда за данни на Netflix предоставила на изследователите 10 милиона анонимизирани оценки на филми от 50 хиляди клиенти, за да помогне за подобряване на алгоритмите за препоръки. Въпреки това, изследователите успели да свържат анонимизираните данни с лично идентифицируеми данни в външни набори от данни (например, коментари в IMDb) - ефективно "деанонимизирайки" някои абонати на Netflix. |
| Пристрастие в събирането на данни | 2013 - Град Бостън разработил Street Bump, приложение, което позволявало на гражданите да докладват за дупки, предоставяйки на града по-добри данни за пътната инфраструктура. Въпреки това, хората с по-ниски доходи имали по-малък достъп до автомобили и телефони, което правело техните проблеми с пътищата невидими в това приложение. Разработчиците работили с академици за решаване на проблеми с равен достъп и дигитални разделения за справедливост. |
| Справедливост на алгоритмите | 2018 - MIT Gender Shades Study оценило точността на AI продукти за класификация на пола, разкривайки пропуски в точността за жени и хора с различен цвят на кожата. Apple Card от 2019 изглежда предлагала по-малко кредит на жени, отколкото на мъже. И двата случая илюстрират проблеми с пристрастия в алгоритмите, водещи до социално-икономически вреди. |
| Заблуда в данните | 2020 - Департаментът за обществено здраве на Джорджия публикувал графики за COVID-19, които изглеждали подвеждащи за гражданите относно тенденциите в потвърдените случаи с не-хронологично подреждане на x-оста. Това илюстрира заблуда чрез визуализационни трикове. |
| Илюзия за свободен избор | 2020 - Образователното приложение ABCmouse платило $10 милиона за уреждане на жалба от FTC, където родителите били принудени да плащат за абонаменти, които не можели да отменят. Това илюстрира тъмни модели в архитектурите на избор, където потребителите били насочени към потенциално вредни избори. |
| Поверителност на данните и права на потребителите | 2021 - Facebook изтичане на данни разкрило данни от 530 милиона потребители, което довело до уреждане на $5 милиарда с FTC. Въпреки това, компанията отказала да уведоми потребителите за изтичането, нарушавайки правата им за прозрачност и достъп до данни. |
Искате ли да разгледате още казуси? Вижте тези ресурси:
- Ethics Unwrapped - етични дилеми в различни индустрии.
- Курс по етика в науката за данни - разглеждане на знакови казуси.
- Къде нещата са се объркали - контролен списък Deon с примери.
🚨 Помислете за казусите, които сте видели - изпитвали ли сте или били ли сте засегнати от подобно етично предизвикателство в живота си? Можете ли да се сетите за поне един друг казус, който илюстрира едно от етичните предизвикателства, които обсъдихме в този раздел?
Приложна етика
Говорихме за концепции, предизвикателства и казуси в реалния свят, свързани с етиката. Но как да започнем прилагането на етични принципи и практики в нашите проекти? И как да операционализираме тези практики за по-добро управление? Нека разгледаме някои реални решения:
1. Професионални кодекси
Професионалните кодекси предлагат една опция за организациите да "стимулират" членовете си да подкрепят техните етични принципи и мисия. Кодексите са морални насоки за професионално поведение, помагащи на служителите или членовете да вземат решения, които съответстват на принципите на организацията. Те са толкова добри, колкото доброволното спазване от членовете; въпреки това, много организации предлагат допълнителни награди и наказания, за да мотивират спазването от членовете.
Примери включват:
- Oxford Munich Кодекс на етиката
- Data Science Association Кодекс на поведение (създаден през 2013 г.)
- ACM Кодекс на етиката и професионалното поведение (от 1993 г.)
🚨 Членувате ли в професионална инженерна или организация за наука за данни? Разгледайте техния сайт, за да видите дали дефинират професионален кодекс на етиката. Какво казва това за техните етични принципи? Как "стимулират" членовете да следват кодекса?
2. Контролни списъци за етика
Докато професионалните кодекси дефинират изискваното етично поведение от практикуващите, те имат известни ограничения в прилагането, особено в мащабни проекти. Вместо това, много експерти в науката за данни препоръчват контролни списъци, които могат да свържат принципите с практиките по по-детерминиран и приложим начин.
Контролните списъци превръщат въпросите в задачи "да/не", които могат да бъдат операционализирани, позволявайки им да бъдат проследявани като част от стандартните работни потоци за пускане на продукти.
Примери включват:
- Deon - общопрактичен контролен списък за етика в данните, създаден от препоръки от индустрията с инструмент за команден ред за лесна интеграция.
- Контролен списък за одит на поверителността - предоставя общи насоки за практики за обработка на информация от правна и социална перспектива.
- Контролен списък за справедливост на ИИ - създаден от практикуващи в ИИ, за да подкрепи приемането и интеграцията на проверки за справедливост в цикли за разработка на ИИ.
- 22 въпроса за етика в данните и ИИ - по-отворена рамка, структурирана за първоначално разглеждане на етични въпроси в дизайна, изпълнението и организационните контексти.
3. Регулации за етика
Етиката е за дефиниране на споделени ценности и правене на правилното нещо доброволно. Съответствие е за спазване на закона, ако и където е дефиниран. Управление обхваща всички начини, по които организациите работят за прилагане на етични принципи и спазване на установените закони.
Днес управлението приема две форми в рамките на организациите. Първо, става въпрос за дефиниране на етични принципи за ИИ и установяване на практики за операционализиране на приемането им във всички проекти, свързани с ИИ, в организацията. Второ, става въпрос за спазване на всички правителствено наложени регулации за защита на данните за регионите, в които оперира.
Примери за регулации за защита на данните и поверителност:
1974, US Privacy Act - регулира събирането, използването и разкриването на лична информация от федералното правителство.1996, US Health Insurance Portability & Accountability Act (HIPAA) - защитава личните здравни данни.1998, US Children's Online Privacy Protection Act (COPPA) - защитава поверителността на данните на деца под 13 години.2018, Общ регламент за защита на данните (GDPR) - предоставя права на потребителите, защита на данните и поверителност.2018, Закон за поверителност на потребителите в Калифорния (CCPA) - дава на потребителите повече права върху техните (лични) данни.2021, Китайският Закон за защита на личната информация - създава една от най-силните регулации за поверителност на данните онлайн в света.
🚨 Европейският съюз дефинира GDPR (Общ регламент за защита на данните), който остава един от най-влиятелните регулации за поверителност на данните днес. Знаете ли, че той също дефинира 8 права на потребителите, за да защити цифровата поверителност и личните данни на гражданите? Научете какви са те и защо са важни.
4. Култура на етиката
Имайте предвид, че остава нематериална разлика между съответствие (правене на достатъчно, за да се спази "буквата на закона") и адресиране на системни проблеми (като осификация, информационна асиметрия и разпределителна несправедливост), които могат да ускорят оръжейната употреба на ИИ.
Последното изисква съвместни подходи за дефиниране на култури на етика, които изграждат емоционални връзки и последователни споделени ценности в рамките на организациите в индустрията. Това изисква повече [формализирани култури на етика в данните](https://www.codeforamerica.org/news/formalizing-an
- Машинно обучение за начинаещи - урок за справедливост от Microsoft.
- Принципи на отговорния AI - безплатен учебен курс от Microsoft Learn.
- Етика и наука за данни - електронна книга от O'Reilly (М. Лукидес, Х. Мейсън и др.)
- Етика в науката за данни - онлайн курс от Университета на Мичиган.
- Етика без маски - казуси от Университета на Тексас.
Задача
Напишете казус за етика на данните
Отказ от отговорност:
Този документ е преведен с помощта на AI услуга за превод Co-op Translator. Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за недоразумения или погрешни интерпретации, произтичащи от използването на този превод.

