You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/bg/1-Introduction/02-ethics
leestott b83ba9ded4
🌐 Update translations via Co-op Translator
4 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 4 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 4 weeks ago

README.md

Въведение в етиката на данните

 Скетч от (@sketchthedocs)
Етика в науката за данни - Скетч от @nitya

Всички ние сме граждани на данните, живеещи в свят, наситен с данни.

Пазарните тенденции показват, че до 2022 г. 1 от 3 големи организации ще купува и продава своите данни чрез онлайн пазари и борси. Като разработчици на приложения, ще ни бъде по-лесно и по-евтино да интегрираме прозрения, базирани на данни, и автоматизация, управлявана от алгоритми, в ежедневния потребителски опит. Но с разпространението на изкуствения интелект ще трябва също така да разберем потенциалните вреди, причинени от оръжието на такива алгоритми в голям мащаб.

Тенденциите също така показват, че до 2025 г. ще създаваме и консумираме над 180 зетабайта данни. Като учени в областта на данните, това ни дава безпрецедентен достъп до лични данни. Това означава, че можем да изграждаме поведенчески профили на потребителите и да влияем върху вземането на решения по начини, които създават илюзия за свободен избор, като същевременно потенциално насочваме потребителите към предпочитани от нас резултати. Това също така повдига по-широки въпроси за поверителността на данните и защитата на потребителите.

Етиката на данните вече е необходима защита за науката за данни и инженерството, която ни помага да минимизираме потенциалните вреди и непредвидените последици от нашите действия, базирани на данни. Цикълът на хиперболата на Гартнър за ИИ идентифицира релевантни тенденции в дигиталната етика, отговорния ИИ и управлението на ИИ като ключови двигатели за по-големи мегатенденции около демократизацията и индустриализацията на ИИ.

Цикъл на хиперболата на Гартнър за ИИ - 2020

В този урок ще изследваме завладяващата област на етиката на данните - от основни концепции и предизвикателства до казуси и приложни концепции за ИИ като управление - които помагат за установяване на култура на етика в екипи и организации, работещи с данни и ИИ.

Тест преди лекцията 🎯

Основни дефиниции

Нека започнем с разбирането на основната терминология.

Думата "етика" произлиза от гръцката дума "ethikos" (и нейния корен "ethos"), което означава характер или морална природа.

Етиката се отнася до споделените ценности и морални принципи, които управляват нашето поведение в обществото. Етиката не се основава на закони, а на широко приети норми за това кое е "правилно срещу грешно". Въпреки това, етичните съображения могат да повлияят на корпоративните управленски инициативи и правителствените регулации, които създават повече стимули за съответствие.

Етиката на данните е нов клон на етиката, който "изучава и оценява моралните проблеми, свързани с данни, алгоритми и съответните практики". Тук "данни" се фокусират върху действия, свързани с генериране, записване, куриране, обработка, разпространение, споделяне и използване, "алгоритми" се фокусират върху ИИ, агенти, машинно обучение и роботи, а "практики" се фокусират върху теми като отговорни иновации, програмиране, хакерство и етични кодекси.

Приложната етика е практическото приложение на морални съображения. Това е процесът на активно изследване на етични въпроси в контекста на реални действия, продукти и процеси и предприемане на коригиращи мерки, за да се гарантира, че те остават в съответствие с нашите дефинирани етични ценности.

Културата на етиката се отнася до операционализирането на приложната етика, за да се гарантира, че нашите етични принципи и практики се приемат последователно и мащабируемо в цялата организация. Успешните култури на етика дефинират етични принципи на ниво организация, предоставят значими стимули за съответствие и укрепват етичните норми, като насърчават и усилват желаните поведения на всяко ниво в организацията.

Концепции за етика

В този раздел ще обсъдим концепции като споделени ценности (принципи) и етични предизвикателства (проблеми) за етиката на данните - и ще разгледаме казуси, които ще ви помогнат да разберете тези концепции в реални контексти.

1. Принципи на етиката

Всяка стратегия за етика на данните започва с дефиниране на етични принципи - "споделените ценности", които описват приемливите поведения и насочват съответните действия в нашите проекти за данни и ИИ. Можете да ги дефинирате на индивидуално или екипно ниво. Въпреки това, повечето големи организации ги очертават в мисия или рамка за етичен ИИ, която е дефинирана на корпоративно ниво и се прилага последователно във всички екипи.

Пример: Мисията на Microsoft за Отговорен ИИ гласи: "Ние сме ангажирани с напредъка на ИИ, ръководен от етични принципи, които поставят хората на първо място" - идентифицирайки 6 етични принципа в рамката по-долу:

Отговорен ИИ в Microsoft

Нека разгледаме накратко тези принципи. Прозрачността и отговорността са основни ценности, върху които се изграждат останалите принципи - затова нека започнем с тях:

  • Отговорност прави практикуващите отговорни за своите операции с данни и ИИ и за съответствието с тези етични принципи.
  • Прозрачност гарантира, че действията с данни и ИИ са разбираеми (интерпретируеми) за потребителите, обяснявайки какво и защо стои зад решенията.
  • Справедливост - фокусира се върху гарантирането, че ИИ третира всички хора справедливо, адресирайки всякакви системни или имплицитни социално-технически пристрастия в данните и системите.
  • Надеждност и безопасност - гарантира, че ИИ се държи последователно с дефинираните ценности, минимизирайки потенциалните вреди или непредвидените последици.
  • Поверителност и сигурност - се отнася до разбирането на произхода на данните и предоставянето на защита на поверителността на данните на потребителите.
  • Инклузивност - се отнася до проектирането на ИИ решения с намерение, адаптирайки ги, за да отговорят на широк спектър от човешки нужди и способности.

🚨 Помислете каква би могла да бъде вашата мисия за етика на данните. Разгледайте рамки за етичен ИИ от други организации - ето примери от IBM, Google и Facebook. Какви споделени ценности имат те? Как тези принципи се отнасят до ИИ продуктите или индустрията, в която оперират?

2. Етични предизвикателства

След като дефинираме етичните принципи, следващата стъпка е да оценим нашите действия с данни и ИИ, за да видим дали те съответстват на тези споделени ценности. Помислете за действията си в две категории: събиране на данни и проектиране на алгоритми.

При събирането на данни действията вероятно ще включват лични данни или лична идентификационна информация (PII) за идентифицируеми живи лица. Това включва разнообразни елементи от нелични данни, които колективно идентифицират индивид. Етичните предизвикателства могат да се отнасят до поверителност на данните, собственост на данните и свързани теми като информирано съгласие и права върху интелектуалната собственост на потребителите.

При проектирането на алгоритми действията ще включват събиране и куриране на набори от данни, след което използването им за обучение и внедряване на модели на данни, които предсказват резултати или автоматизират решения в реални контексти. Етичните предизвикателства могат да възникнат от пристрастия в набора от данни, проблеми с качеството на данните, несправедливост и погрешно представяне в алгоритмите - включително някои проблеми, които са системни по природа.

И в двата случая етичните предизвикателства подчертават области, в които нашите действия могат да влязат в конфликт с нашите споделени ценности. За да открием, смекчим, минимизираме или елиминираме тези опасения, трябва да задаваме морални "да/не" въпроси, свързани с нашите действия, и след това да предприемем коригиращи действия, ако е необходимо. Нека разгледаме някои етични предизвикателства и моралните въпроси, които те повдигат:

2.1 Собственост на данните

Събирането на данни често включва лични данни, които могат да идентифицират субектите на данните. Собствеността на данните се отнася до контрола и правата на потребителите, свързани със създаването, обработката и разпространението на данни.

Моралните въпроси, които трябва да зададем, са:

  • Кой притежава данните? (потребител или организация)
  • Какви права имат субектите на данните? (напр. достъп, изтриване, преносимост)
  • Какви права имат организациите? (напр. коригиране на злонамерени потребителски отзиви)

2.2 Информирано съгласие

Информираното съгласие определя акта на потребителите да се съгласят с дадено действие (като събиране на данни) с пълно разбиране на съответните факти, включително целта, потенциалните рискове и алтернативите.

Въпроси за разглеждане тук са:

  • Дал ли е потребителят (субектът на данните) разрешение за събиране и използване на данни?
  • Разбрал ли е потребителят целта, за която са събрани данните?
  • Разбрал ли е потребителят потенциалните рискове от участието си?

2.3 Интелектуална собственост

Интелектуалната собственост се отнася до нематериални творения, произтичащи от човешка инициатива, които могат да имат икономическа стойност за индивиди или бизнеси.

Въпроси за разглеждане тук са:

  • Имат ли събраните данни икономическа стойност за потребител или бизнес?
  • Има ли потребителят интелектуална собственост тук?
  • Има ли организацията интелектуална собственост тук?
  • Ако тези права съществуват, как ги защитаваме?

2.4 Поверителност на данните

Поверителността на данните или информационната поверителност се отнася до запазването на поверителността на потребителите и защитата на тяхната идентичност по отношение на личната идентификационна информация.

Въпроси за разглеждане тук са:

  • Защитени ли са данните на потребителите (лични) от хакове и изтичания?
  • Достъпни ли са данните на потребителите само за оторизирани потребители и контексти?
  • Запазена ли е анонимността на потребителите, когато данните се споделят или разпространяват?
  • Може ли потребител да бъде деидентифициран от анонимизирани набори от данни?

2.5 Право да бъдеш забравен

Правото да бъдеш забравен или правото на изтриване предоставя допълнителна защита на личните данни на потребителите. По-конкретно, то дава право на потребителите да поискат изтриване или премахване на лични данни от интернет търсения и други места, при определени обстоятелства - позволявайки им ново начало онлайн, без минали действия да бъдат използвани срещу тях.

Въпроси за разглеждане тук са:

  • Позволява ли системата на субектите на данни да поискат изтриване?
  • Трябва ли оттеглянето на съгласието на потребителя да задейства автоматично изтриване?
  • Събрани ли са данни без съглас Algorithm Fairness проверява дали дизайнът на алгоритъма систематично дискриминира определени подгрупи от субекти на данни, водейки до потенциални вреди в разпределението (когато ресурси се отказват или задържат от тази група) и качеството на услугата (когато AI не е толкова точен за някои подгрупи, колкото за други).

Въпроси за разглеждане тук са:

  • Оценихме ли точността на модела за различни подгрупи и условия?
  • Анализирахме ли системата за потенциални вреди (например, стереотипизиране)?
  • Можем ли да преработим данните или да обучим отново моделите, за да смекчим идентифицираните вреди?

Разгледайте ресурси като AI Fairness checklists, за да научите повече.

2.9 Заблуда

Заблуда в данните се отнася до въпроса дали представяме прозрения от честно докладвани данни по подвеждащ начин, за да подкрепим желан разказ.

Въпроси за разглеждане тук са:

  • Докладваме ли непълни или неточни данни?
  • Визуализираме ли данни по начин, който води до подвеждащи заключения?
  • Използваме ли селективни статистически техники за манипулиране на резултатите?
  • Съществуват ли алтернативни обяснения, които могат да предложат различно заключение?

2.10 Свободен избор

Илюзията за свободен избор възниква, когато "архитектурите на избор" в системата използват алгоритми за вземане на решения, за да насочат хората към предпочитан резултат, докато изглежда, че им дават опции и контрол. Тези тъмни модели могат да причинят социални и икономически вреди на потребителите. Тъй като решенията на потребителите влияят върху профилите на поведение, тези действия потенциално задвижват бъдещи избори, които могат да усилят или разширят въздействието на тези вреди.

Въпроси за разглеждане тук са:

  • Разбра ли потребителят последиците от вземането на този избор?
  • Беше ли потребителят наясно с (алтернативните) опции и плюсовете и минусите на всяка?
  • Може ли потребителят да отмени автоматизиран или повлиян избор по-късно?

3. Казуси

За да поставим тези етични предизвикателства в контекста на реалния свят, е полезно да разгледаме казуси, които подчертават потенциалните вреди и последствия за индивидите и обществото, когато такива етични нарушения се пренебрегват.

Ето няколко примера:

Етично предизвикателство Казус
Информирано съгласие 1972 - Изследване на сифилис в Тъскиги - Афроамерикански мъже, които участвали в изследването, били обещани безплатна медицинска грижа, но били измамени от изследователи, които не информирали субектите за диагнозата им или за наличието на лечение. Много субекти починали, а партньорите или децата им били засегнати; изследването продължило 40 години.
Поверителност на данните 2007 - Награда за данни на Netflix предоставила на изследователи 10 милиона анонимизирани оценки на филми от 50 хиляди клиенти, за да помогне за подобряване на алгоритмите за препоръки. Въпреки това, изследователите успели да свържат анонимизирани данни с лични данни в външни набори от данни (например, коментари в IMDb) - ефективно "деанонимизирайки" някои абонати на Netflix.
Пристрастие при събиране на данни 2013 - Град Бостън разработил Street Bump, приложение, което позволявало на гражданите да докладват за дупки, предоставяйки на града по-добри данни за пътната инфраструктура. Въпреки това, хората от по-ниски доходни групи имали по-малък достъп до автомобили и телефони, което правело техните проблеми с пътищата невидими в това приложение. Разработчиците работили с академици за решаване на проблеми с равен достъп и дигитални разделения за справедливост.
Алгоритмична справедливост 2018 - MIT Gender Shades Study оценило точността на AI продукти за класификация на пола, разкривайки пропуски в точността за жени и хора с различен цвят на кожата. Apple Card от 2019 изглежда предлагала по-малко кредит на жени, отколкото на мъже. И двата случая илюстрират проблеми с алгоритмичното пристрастие, водещо до социално-икономически вреди.
Заблуда в данните 2020 - Департаментът за обществено здраве на Джорджия публикувал графики за COVID-19, които изглеждали подвеждащи за гражданите относно тенденциите в потвърдените случаи с не-хронологично подреждане на x-оста. Това илюстрира заблуда чрез визуализационни трикове.
Илюзия за свободен избор 2020 - Образователното приложение ABCmouse платило $10 милиона за уреждане на жалба от FTC, където родителите били принудени да плащат за абонаменти, които не можели да отменят. Това илюстрира тъмни модели в архитектурите на избор, където потребителите били насочени към потенциално вредни избори.
Поверителност на данните и права на потребителите 2021 - Facebook Изтичане на данни разкрило данни от 530 милиона потребители, водейки до уреждане от $5 милиарда с FTC. Въпреки това, компанията отказала да уведоми потребителите за изтичането, нарушавайки правата им за прозрачност и достъп до данни.

Искате ли да разгледате още казуси? Вижте тези ресурси:

🚨 Помислете за казусите, които сте видели - изпитвали ли сте или били ли сте засегнати от подобно етично предизвикателство в живота си? Можете ли да се сетите за поне един друг казус, който илюстрира едно от етичните предизвикателства, които обсъдихме в този раздел?

Приложна етика

Говорихме за концепции, предизвикателства и казуси в контекста на реалния свят. Но как да започнем прилагането на етични принципи и практики в нашите проекти? И как да операционализираме тези практики за по-добро управление? Нека разгледаме някои реални решения:

1. Професионални кодекси

Професионалните кодекси предлагат една опция за организациите да "стимулират" членовете си да подкрепят техните етични принципи и мисия. Кодексите са морални насоки за професионално поведение, помагащи на служителите или членовете да вземат решения, които съответстват на принципите на организацията. Те са толкова добри, колкото доброволното спазване от членовете; въпреки това, много организации предлагат допълнителни награди и наказания, за да мотивират спазването.

Примери включват:

🚨 Членувате ли в професионална инженерна или организация за наука за данни? Разгледайте техния сайт, за да видите дали дефинират професионален кодекс на етиката. Какво казва това за техните етични принципи? Как стимулират членовете да следват кодекса?

2. Етични списъци за проверка

Докато професионалните кодекси дефинират изискваното етично поведение от практикуващите, те имат известни ограничения в прилагането, особено в мащабни проекти. Вместо това, много експерти в науката за данни препоръчват списъци за проверка, които могат да свържат принципите с практиките по по-определен и приложим начин.

Списъците за проверка превръщат въпросите в задачи "да/не", които могат да бъдат операционализирани, позволявайки им да бъдат проследявани като част от стандартните работни потоци за пускане на продукти.

Примери включват:

3. Етични регулации

Етиката е за дефиниране на споделени ценности и правене на правилното нещо доброволно. Съответствието е за спазване на закона, ако и където е дефиниран. Управлението обхваща всички начини, по които организациите работят за прилагане на етични принципи и спазване на установените закони.

Днес управлението приема две форми в рамките на организациите. Първо, става въпрос за дефиниране на принципи за етичен AI и установяване на практики за операционализиране на приемането им във всички AI-свързани проекти в организацията. Второ, става въпрос за спазване на всички правителствено наложени регулации за защита на данните за регионите, в които тя оперира.

Примери за регулации за защита на данните и поверителност:

🚨 Европейският съюз дефинира GDPR (Общ регламент за защита на данните), който остава един от най-влиятелните регулации за поверителност на данните днес. Знаете ли, че той също дефинира 8 права на потребителите, за да защити цифровата поверителност и личните данни на гражданите? Научете какви са те и защо са важни.

4. Етична култура

Имайте предвид, че остава нематериална разлика между съответствие (правене на достатъчно, за да се спази "буквата на закона") и адресиране на системни проблеми (като осификация, информационна асиметрия и разпределителна несправедливост), които могат да ускорят оръжейната употреба на AI.

Последното изисква съвместни подходи за дефиниране на етични култури, които изграждат емоционални връзки и последователни споделени ценности в рамките на организациите в индустрията. Това изисква повече формализирани култури на етика в данните в организациите - позволявайки всеки да дръпне въжето на Андон (за да повдигне етични проблеми рано в процеса) и правейки _етичните оценки

Задача

Напишете казус за етика в данните


Отказ от отговорност:
Този документ е преведен с помощта на AI услуга за превод Co-op Translator. Въпреки че се стремим към точност, моля, имайте предвид, че автоматичните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия изходен език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален превод от човек. Ние не носим отговорност за каквито и да е недоразумения или погрешни интерпретации, произтичащи от използването на този превод.