|
|
8 months ago | |
|---|---|---|
| .. | ||
| README.md | 8 months ago | |
| assignment.md | 8 months ago | |
README.md
Вступ до етики даних
![]() |
|---|
| Етика науки про дані - Скетчноут від @nitya |
Ми всі є громадянами даних, які живуть у світі, де дані відіграють ключову роль.
Ринкові тенденції показують, що до 2022 року кожна третя велика організація буде купувати та продавати свої дані через онлайн Маркетплейси та Біржі. Як розробники додатків, ми зможемо легше та дешевше інтегрувати інсайти, отримані з даних, та автоматизацію, керовану алгоритмами, у щоденні користувацькі досвіди. Але з поширенням штучного інтелекту нам також потрібно буде розуміти потенційні шкоди, які можуть виникнути через використання алгоритмів у шкідливих цілях у великому масштабі.
Тенденції також вказують на те, що до 2025 року ми створимо та споживатимемо понад 180 зетабайтів даних. Як науковці з даних, це дає нам безпрецедентний рівень доступу до персональних даних. Це означає, що ми можемо створювати поведінкові профілі користувачів і впливати на прийняття рішень таким чином, що створює ілюзію вільного вибору, водночас потенційно підштовхуючи користувачів до бажаних для нас результатів. Це також піднімає ширші питання щодо конфіденційності даних та захисту користувачів.
Етика даних тепер є необхідними обмеженнями для науки про дані та інженерії, які допомагають мінімізувати потенційні шкоди та непередбачені наслідки наших дій, керованих даними. Цикл хайпу Gartner для AI визначає відповідні тенденції в цифровій етиці, відповідальному AI та управлінні AI як ключові рушії для більших мегатрендів навколо демократизації та індустріалізації AI.
У цьому уроці ми дослідимо захоплюючу область етики даних - від основних концепцій і викликів до кейсів і прикладних концепцій AI, таких як управління, які допомагають створити культуру етики в командах і організаціях, що працюють з даними та AI.
Тест перед лекцією 🎯
Основні визначення
Почнемо з розуміння базової термінології.
Слово "етика" походить від грецького слова "ethikos" (та його кореня "ethos"), що означає характер або моральна природа.
Етика стосується спільних цінностей та моральних принципів, які регулюють нашу поведінку в суспільстві. Етика базується не на законах, а на широко прийнятих нормах того, що є "правильним проти неправильного". Однак етичні міркування можуть впливати на ініціативи корпоративного управління та урядові регуляції, які створюють більше стимулів для дотримання.
Етика даних є новою галуззю етики, яка "вивчає та оцінює моральні проблеми, пов'язані з даними, алгоритмами та відповідними практиками". Тут "дані" зосереджуються на діях, пов'язаних із створенням, записом, кураторством, обробкою, поширенням, обміном та використанням, "алгоритми" зосереджуються на AI, агентів, машинному навчанні та роботах, а "практики" зосереджуються на таких темах, як відповідальні інновації, програмування, хакінг та кодекси етики.
Прикладна етика є практичним застосуванням моральних міркувань. Це процес активного дослідження етичних питань у контексті реальних дій, продуктів та процесів і вжиття коригувальних заходів для забезпечення їх відповідності визначеним етичним цінностям.
Культура етики стосується операціоналізації прикладної етики, щоб переконатися, що наші етичні принципи та практики приймаються послідовно та масштабовано по всій організації. Успішні культури етики визначають етичні принципи на рівні організації, забезпечують значущі стимули для дотримання та підсилюють норми етики, заохочуючи та підсилюючи бажану поведінку на кожному рівні організації.
Концепції етики
У цьому розділі ми обговоримо такі концепції, як спільні цінності (принципи) та етичні виклики (проблеми) для етики даних - і дослідимо кейси, які допоможуть вам зрозуміти ці концепції в реальних контекстах.
1. Принципи етики
Кожна стратегія етики даних починається з визначення етичних принципів - "спільних цінностей", які описують прийнятну поведінку та спрямовують дії, що відповідають нормам, у наших проектах з даними та AI. Ви можете визначити їх на індивідуальному або командному рівні. Однак більшість великих організацій окреслюють їх у місії або рамках етичного AI, які визначаються на корпоративному рівні та послідовно впроваджуються у всіх командах.
Приклад: Місія Відповідального AI Microsoft звучить: "Ми прагнемо до розвитку AI, керованого етичними принципами, які ставлять людей на перше місце" - визначаючи 6 етичних принципів у наведеній нижче рамці:
Давайте коротко розглянемо ці принципи. Прозорість та відповідальність є основними цінностями, на яких будуються інші принципи - тому почнемо з них:
- Відповідальність робить практиків відповідальними за їхні операції з даними та AI, а також за дотримання цих етичних принципів.
- Прозорість забезпечує, щоб дії з даними та AI були зрозумілими (інтерпретованими) для користувачів, пояснюючи що і чому стоїть за рішеннями.
- Справедливість - зосереджується на забезпеченні того, щоб AI ставився до всіх людей справедливо, вирішуючи будь-які системні або приховані соціально-технічні упередження в даних та системах.
- Надійність та безпека - забезпечує, що AI поводиться послідовно з визначеними цінностями, мінімізуючи потенційні шкоди або непередбачені наслідки.
- Конфіденційність та безпека - стосується розуміння походження даних та забезпечення конфіденційності даних та пов'язаних із цим захистів для користувачів.
- Інклюзивність - стосується розробки AI-рішень з наміром адаптувати їх для задоволення широкого спектру людських потреб та можливостей.
🚨 Подумайте, якою могла б бути ваша місія етики даних. Досліджуйте рамки етичного AI інших організацій - ось приклади від IBM, Google та Facebook. Які спільні цінності вони мають? Як ці принципи пов'язані з продуктом AI або галуззю, в якій вони працюють?
2. Виклики етики
Після того, як ми визначили етичні принципи, наступним кроком є оцінка наших дій з даними та AI, щоб побачити, чи відповідають вони цим спільним цінностям. Подумайте про свої дії у двох категоріях: збір даних та розробка алгоритмів.
Під час збору даних дії, ймовірно, будуть включати персональні дані або персонально ідентифіковану інформацію (PII) для ідентифікованих живих осіб. Це включає різноманітні елементи неперсональних даних, які колективно ідентифікують особу. Етичні виклики можуть стосуватися конфіденційності даних, власності даних та пов'язаних тем, таких як усвідомлена згода та права інтелектуальної власності для користувачів.
Під час розробки алгоритмів дії будуть включати збір та кураторство наборів даних, а потім їх використання для навчання та розгортання моделей даних, які прогнозують результати або автоматизують рішення в реальних контекстах. Етичні виклики можуть виникати через упередженість набору даних, проблеми якості даних, несправедливість та спотворення в алгоритмах - включаючи деякі проблеми, які є системними за своєю природою.
В обох випадках етичні виклики висвітлюють області, де наші дії можуть вступати в конфлікт із нашими спільними цінностями. Щоб виявити, пом'якшити, мінімізувати або усунути ці проблеми, нам потрібно ставити моральні "так/ні" питання щодо наших дій, а потім вживати коригувальних заходів за потреби. Давайте розглянемо деякі етичні виклики та моральні питання, які вони піднімають:
2.1 Власність даних
Збір даних часто включає персональні дані, які можуть ідентифікувати суб'єктів даних. Власність даних стосується контролю та прав користувачів, пов'язаних зі створенням, обробкою та поширенням даних.
Моральні питання, які потрібно поставити:
- Хто володіє даними? (користувач чи організація)
- Які права мають суб'єкти даних? (наприклад, доступ, видалення, перенесення)
- Які права мають організації? (наприклад, виправлення шкідливих відгуків користувачів)
2.2 Усвідомлена згода
Усвідомлена згода визначає акт, коли користувачі погоджуються на дію (наприклад, збір даних) з повним розумінням відповідних фактів, включаючи мету, потенційні ризики та альтернативи.
Питання для дослідження:
- Чи дав користувач (суб'єкт даних) дозвіл на збір та використання даних?
- Чи зрозумів користувач мету, для якої ці дані були зібрані?
- Чи зрозумів користувач потенційні ризики від своєї участі?
2.3 Інтелектуальна власність
Інтелектуальна власність стосується нематеріальних творінь, що виникають внаслідок людської ініціативи, які можуть мати економічну цінність для осіб або бізнесу.
Питання для дослідження:
- Чи мали зібрані дані економічну цінність для користувача або бізнесу?
- Чи має користувач інтелектуальну власність тут?
- Чи має організація інтелектуальну власність тут?
- Якщо ці права існують, як ми їх захищаємо?
2.4 Конфіденційність даних
Конфіденційність даних або інформаційна конфіденційність стосується збереження конфіденційності користувачів та захисту їхньої ідентичності щодо персонально ідентифікованої інформації.
Питання для дослідження:
- Чи захищені персональні дані користувачів від хакерських атак та витоків?
- Чи доступні дані користувачів лише авторизованим користувачам та в контекстах?
- Чи збережена анонімність користувачів під час обміну або поширення даних?
- Чи можна деідентифікувати користувача з анонімізованих наборів даних?
2.5 Право бути забутим
Право бути забутим або Право на видалення забезпечує додатковий захист персональних даних для користувачів. Зокрема, це дає користувачам право вимагати видалення або вилучення персональних даних з пошукових систем Інтернету та інших місць, за певних обставин, дозволяючи їм новий старт онлайн без того, щоб минулі дії використовувалися проти них.
Питання для дослідження:
- Чи дозволяє система суб'єктам даних вимагати видалення?
- Чи повинно відкликання згоди користувача автоматично запускати видалення?
- Чи були дані зібрані без згоди або незаконними засобами?
- Чи відповідаємо ми урядовим регуляціям щодо конфіденційності даних?
2.6 Упередженість набору даних
Упередженість набору даних або упередженість збору стосується вибору нерепрезентативного підмножини даних для розробки алгоритму, створюючи потенційну несправедливість у результатах для різних груп. Типи упередженості включають упередженість вибірки, упередженість добровольців та упередженість інструментів.
Питання для дослідження:
- Чи залучили ми реп Algorithm Fairness перевіряє, чи дизайн алгоритму систематично дискримінує певні підгрупи суб’єктів даних, що може призвести до потенційної шкоди у розподілі ресурсів (коли ресурси відмовляють або утримують для цієї групи) та якості обслуговування (коли ШІ менш точний для одних підгруп, ніж для інших).
Питання для розгляду:
- Чи оцінювали ми точність моделі для різних підгруп і умов?
- Чи аналізували ми систему на предмет потенційної шкоди (наприклад, стереотипізації)?
- Чи можемо ми переглянути дані або перенавчити моделі, щоб зменшити виявлену шкоду?
Досліджуйте ресурси, такі як AI Fairness checklists, щоб дізнатися більше.
2.9 Викривлення даних
Викривлення даних стосується питання, чи передаємо ми висновки з чесно представлених даних у спосіб, що вводить в оману, щоб підтримати бажаний наратив.
Питання для розгляду:
- Чи повідомляємо ми неповні або неточні дані?
- Чи візуалізуємо ми дані так, що це може призвести до хибних висновків?
- Чи використовуємо ми вибіркові статистичні методи для маніпуляції результатами?
- Чи існують альтернативні пояснення, які можуть запропонувати інший висновок?
2.10 Ілюзія вільного вибору
Ілюзія вільного вибору виникає, коли "архітектури вибору" системи використовують алгоритми прийняття рішень, щоб підштовхнути людей до бажаного результату, створюючи видимість вибору та контролю. Ці темні патерни можуть завдати соціальної та економічної шкоди користувачам. Оскільки рішення користувачів впливають на профілі поведінки, ці дії потенційно формують майбутні вибори, що можуть посилити або продовжити вплив цієї шкоди.
Питання для розгляду:
- Чи розумів користувач наслідки свого вибору?
- Чи був користувач обізнаний про (альтернативні) варіанти вибору та їхні переваги й недоліки?
- Чи може користувач скасувати автоматизований або впливовий вибір пізніше?
3. Кейси
Щоб розглянути ці етичні виклики в реальних контекстах, корисно звернутися до кейсів, які демонструють потенційну шкоду та наслідки для окремих осіб і суспільства, якщо такі порушення етики ігноруються.
Ось кілька прикладів:
| Етичний виклик | Кейси |
|---|---|
| Поінформована згода | 1972 - Дослідження сифілісу в Таскігі - афроамериканським чоловікам, які брали участь у дослідженні, обіцяли безкоштовну медичну допомогу, але обманювали, не повідомляючи про їхній діагноз або доступність лікування. Багато учасників померли, а їхні партнери чи діти постраждали; дослідження тривало 40 років. |
| Конфіденційність даних | 2007 - Netflix Data Prize надав дослідникам 10 млн анонімізованих оцінок фільмів від 50 тис. клієнтів, щоб покращити алгоритми рекомендацій. Однак дослідники змогли зіставити анонімізовані дані з персонально ідентифікованими даними з зовнішніх наборів даних (наприклад, коментарів IMDb), фактично "деанонімізуючи" деяких підписників Netflix. |
| Упередженість у зборі даних | 2013 - Місто Бостон розробило Street Bump, додаток, який дозволяв громадянам повідомляти про ями на дорогах, надаючи місту кращі дані для виявлення та усунення проблем. Однак люди з низьким рівнем доходу мали менший доступ до автомобілів і телефонів, що робило їхні проблеми з дорогами невидимими для цього додатка. Розробники співпрацювали з науковцями, щоб вирішити питання рівного доступу та цифрового розриву для забезпечення справедливості. |
| Справедливість алгоритмів | 2018 - Дослідження MIT Gender Shades оцінювало точність продуктів ШІ для класифікації статі, виявляючи прогалини в точності для жінок і людей з кольоровою шкірою. У 2019 році Apple Card здавалося, пропонувала менший кредит жінкам, ніж чоловікам. Обидва випадки ілюструють проблеми алгоритмічної упередженості, що призводить до соціально-економічної шкоди. |
| Викривлення даних | 2020 - Департамент охорони здоров’я Джорджії опублікував графіки COVID-19, які, здавалося, вводили громадян в оману щодо тенденцій підтверджених випадків через не хронологічний порядок на осі x. Це ілюструє викривлення через маніпуляції з візуалізацією. |
| Ілюзія вільного вибору | 2020 - Навчальний додаток ABCmouse сплатив $10 млн для врегулювання скарги FTC, де батьки були змушені платити за підписки, які вони не могли скасувати. Це ілюструє темні патерни в архітектурі вибору, де користувачів підштовхували до потенційно шкідливих рішень. |
| Конфіденційність даних та права користувачів | 2021 - Витік даних Facebook розкрив дані 530 млн користувачів, що призвело до врегулювання на $5 млрд з FTC. Однак компанія відмовилася повідомити користувачів про витік, порушуючи їхні права на прозорість і доступ до даних. |
Хочете дослідити більше кейсів? Ознайомтеся з цими ресурсами:
- Ethics Unwrapped - етичні дилеми в різних галузях.
- Курс з етики в Data Science - аналіз знакових кейсів.
- Де все пішло не так - чекліст Deon із прикладами.
🚨 Подумайте про кейси, які ви бачили - чи стикалися ви або були під впливом подібного етичного виклику у своєму житті? Чи можете ви навести хоча б один інший кейс, що ілюструє один із етичних викликів, обговорених у цьому розділі?
Прикладна етика
Ми обговорили концепції етики, виклики та кейси в реальних контекстах. Але як почати застосовувати етичні принципи та практики у своїх проєктах? І як операціоналізувати ці практики для кращого управління? Давайте розглянемо деякі реальні рішення:
1. Професійні кодекси
Професійні кодекси пропонують один із варіантів для організацій "стимулювати" членів підтримувати їхні етичні принципи та місію. Кодекси є моральними орієнтирами для професійної поведінки, допомагаючи працівникам або членам приймати рішення, що відповідають принципам організації. Вони ефективні настільки, наскільки члени добровільно їх дотримуються; однак багато організацій пропонують додаткові винагороди та санкції для мотивації.
Приклади:
- Oxford Munich Кодекс етики
- Data Science Association Кодекс поведінки (створений у 2013 році)
- ACM Code of Ethics and Professional Conduct (з 1993 року)
🚨 Чи належите ви до професійної організації інженерів або спеціалістів з даних? Дослідіть їхній сайт, щоб дізнатися, чи визначають вони професійний кодекс етики. Що це говорить про їхні етичні принципи? Як вони "стимулюють" членів дотримуватися кодексу?
2. Етичні чеклісти
Хоча професійні кодекси визначають необхідну етичну поведінку для практиків, вони мають відомі обмеження у забезпеченні дотримання, особливо в масштабних проєктах. Натомість багато експертів з даних закликають до використання чеклістів, які можуть перевести принципи в практичні дії.
Чеклісти перетворюють питання на завдання "так/ні", які можна операціоналізувати, дозволяючи відстежувати їх як частину стандартних робочих процесів випуску продукту.
Приклади:
- Deon - універсальний чекліст етики даних, створений на основі рекомендацій галузі із командним інструментом для легкої інтеграції.
- Privacy Audit Checklist - надає загальні рекомендації щодо практик обробки інформації з юридичної та соціальної точок зору.
- AI Fairness Checklist - створений практиками ШІ для підтримки впровадження перевірок справедливості в цикли розробки ШІ.
- 22 питання для етики в даних та ШІ - більш відкритий фреймворк, структурований для початкового дослідження етичних питань у дизайні, впровадженні та організаційних контекстах.
3. Етичні регуляції
Етика стосується визначення спільних цінностей і добровільного дотримання "правильних" дій. Дотримання стосується виконання закону, якщо він визначений. Управління охоплює всі способи, якими організації забезпечують дотримання етичних принципів і відповідність встановленим законам.
Сьогодні управління має дві форми в організаціях. По-перше, це визначення етичних принципів ШІ та встановлення практик для їх впровадження у всі проєкти, пов’язані з ШІ. По-друге, це дотримання всіх урядових регуляцій захисту даних у регіонах, де вони працюють.
Приклади регуляцій захисту даних і конфіденційності:
1974, Закон США про конфіденційність - регулює федеральний уряд у зборі, використанні та розкритті персональної інформації.1996, HIPAA - захищає персональні медичні дані.1998, COPPA - захищає конфіденційність даних дітей до 13 років.2018, GDPR - забезпечує права користувачів, захист даних і конфіденційність.2018, CCPA - надає споживачам більше прав щодо їхніх (персональних) даних.2021, Закон Китаю про захист персональної інформації - один із найсуворіших регуляцій конфіденційності даних у світі.
🚨 Європейський Союз визначив GDPR (Загальний регламент захисту даних), який залишається одним із найвпливовіших регуляцій конфіденційності даних сьогодні. Чи знали ви, що він також визначає 8 прав користувачів для захисту цифрової конфіденційності та персональних даних громадян? Дізнайтеся, що це за права і чому вони важливі.
4. Культура етики
Зверніть увагу, що існує невловимий розрив між дотриманням (виконанням "букви закону") та вирішенням системних проблем (таких як закостенілість, інформаційна асиметрія та розподільна несправедливість), які можуть прискорити використання ШІ у шкідливих цілях.
Останнє вимагає спільних підходів до визначення культури етики, які створюють емоційні зв’язки та послідовні спільні цінності в організаціях галузі. Це закликає до більш формалізованих культур етики даних в організаціях - дозволяючи будь-кому потягнути за шнур Андон (щоб підняти етичні питання на ранніх етапах процесу) і зробити етичні оцінки (наприклад, при наймі) основним критерієм формування команди в проєктах ШІ.
Післялекційний тест 🎯
Огляд і самостійне навчання
Курси та книги допомагають зрозуміти основні концепції етики та виклики, тоді як кейси та інструменти допомагають застосовувати етичні практики в реальних контекстах. Ось кілька ресурсів для початку:
- Machine Learning For Beginners - урок про справедливість від Microsoft.
- Принципи відповідального штучного інтелекту - безкоштовний навчальний курс від Microsoft Learn.
- Етика та наука про дані - електронна книга від O'Reilly (М. Лоукідес, Х. Мейсон та інші).
- Етика науки про дані - онлайн-курс від Університету Мічигану.
- Етика без прикрас - кейс-стадії від Університету Техасу.
Завдання
Напишіть кейс-стадію з етики даних
Відмова від відповідальності:
Цей документ був перекладений за допомогою сервісу автоматичного перекладу Co-op Translator. Хоча ми прагнемо до точності, звертаємо вашу увагу, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ на його рідній мові слід вважати авторитетним джерелом. Для критично важливої інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу.

