|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 3 weeks ago |
README.md
Вступ до етики даних
![]() |
---|
Етика науки про дані - Скетчноут від @nitya |
Ми всі є громадянами даних, які живуть у світі, де дані відіграють ключову роль.
Ринкові тенденції показують, що до 2022 року кожна третя велика організація буде купувати та продавати свої дані через онлайн Маркетплейси та Біржі. Як розробники додатків, ми зможемо легше та дешевше інтегрувати аналітику, засновану на даних, та автоматизацію, керовану алгоритмами, у щоденні користувацькі досвіди. Але з поширенням штучного інтелекту нам також потрібно буде розуміти потенційні шкоди, які можуть виникнути через використання алгоритмів у шкідливих цілях у великому масштабі.
Тенденції також вказують на те, що до 2025 року ми створимо та споживатимемо понад 180 зетабайтів даних. Як науковці з даних, це дає нам безпрецедентний рівень доступу до персональних даних. Це означає, що ми можемо створювати поведінкові профілі користувачів і впливати на прийняття рішень таким чином, що створює ілюзію вільного вибору, водночас потенційно підштовхуючи користувачів до бажаних для нас результатів. Це також піднімає ширші питання щодо конфіденційності даних та захисту користувачів.
Етика даних тепер є необхідними обмеженнями для науки про дані та інженерії, які допомагають мінімізувати потенційні шкоди та непередбачені наслідки наших дій, заснованих на даних. Цикл гіперболічних очікувань Gartner для ШІ визначає актуальні тенденції в цифровій етиці, відповідальному ШІ та управлінні ШІ як ключові рушії для більших мегатрендів навколо демократизації та індустріалізації ШІ.
У цьому уроці ми дослідимо захоплюючу сферу етики даних - від основних концепцій і викликів до кейсів та прикладних концепцій ШІ, таких як управління, які допомагають створити культуру етики в командах та організаціях, що працюють з даними та ШІ.
Тест перед лекцією 🎯
Основні визначення
Почнемо з розуміння базової термінології.
Слово "етика" походить від грецького слова "ethikos" (та його кореня "ethos"), що означає характер або моральну природу.
Етика стосується спільних цінностей та моральних принципів, які регулюють нашу поведінку в суспільстві. Етика базується не на законах, а на широко прийнятих нормах того, що є "правильним проти неправильного". Однак етичні міркування можуть впливати на ініціативи корпоративного управління та урядові регуляції, які створюють більше стимулів для дотримання.
Етика даних є новою галуззю етики, яка "вивчає та оцінює моральні проблеми, пов'язані з даними, алгоритмами та відповідними практиками". Тут "дані" зосереджуються на діях, пов'язаних із створенням, записом, обробкою, поширенням, обміном та використанням, "алгоритми" - на ШІ, агентів, машинне навчання та роботів, а "практики" - на темах, таких як відповідальні інновації, програмування, хакінг та кодекси етики.
Прикладна етика - це практичне застосування моральних міркувань. Це процес активного дослідження етичних питань у контексті реальних дій, продуктів та процесів і вжиття коригувальних заходів для забезпечення їх відповідності визначеним етичним цінностям.
Культура етики стосується операціоналізації прикладної етики, щоб переконатися, що наші етичні принципи та практики приймаються послідовно та масштабовано в усій організації. Успішні культури етики визначають загальноорганізаційні етичні принципи, забезпечують значущі стимули для дотримання та підсилюють норми етики, заохочуючи та підсилюючи бажану поведінку на кожному рівні організації.
Концепції етики
У цьому розділі ми обговоримо такі концепції, як спільні цінності (принципи) та етичні виклики (проблеми) для етики даних - і дослідимо кейси, які допоможуть вам зрозуміти ці концепції в реальних контекстах.
1. Принципи етики
Кожна стратегія етики даних починається з визначення етичних принципів - "спільних цінностей", які описують прийнятну поведінку та спрямовують дії, що відповідають нормам, у наших проектах з даними та ШІ. Ви можете визначити їх на індивідуальному або командному рівні. Однак більшість великих організацій окреслюють їх у місії або рамках етичного ШІ, які визначаються на корпоративному рівні та послідовно впроваджуються у всіх командах.
Приклад: Місія Відповідального ШІ Microsoft звучить: "Ми прагнемо до розвитку ШІ, керованого етичними принципами, які ставлять людей на перше місце" - визначаючи 6 етичних принципів у наведеній нижче рамці:
Давайте коротко розглянемо ці принципи. Прозорість та відповідальність є основними цінностями, на яких будуються інші принципи - тому почнемо з них:
- Відповідальність робить практиків відповідальними за їхні операції з даними та ШІ, а також за дотримання цих етичних принципів.
- Прозорість забезпечує, щоб дії з даними та ШІ були зрозумілими (інтерпретованими) для користувачів, пояснюючи що і чому стоїть за рішеннями.
- Справедливість - зосереджується на забезпеченні того, щоб ШІ ставився до всіх людей справедливо, вирішуючи будь-які системні або приховані соціально-технічні упередження в даних та системах.
- Надійність та безпека - забезпечує, що ШІ поводиться послідовно з визначеними цінностями, мінімізуючи потенційні шкоди або непередбачені наслідки.
- Конфіденційність та безпека - стосується розуміння походження даних та забезпечення конфіденційності даних та пов'язаних із цим захистів для користувачів.
- Інклюзивність - стосується розробки рішень ШІ з наміром, адаптуючи їх для задоволення широкого спектру людських потреб та можливостей.
🚨 Подумайте, якою могла б бути ваша місія етики даних. Досліджуйте рамки етичного ШІ інших організацій - ось приклади від IBM, Google та Facebook. Які спільні цінності вони мають? Як ці принципи пов'язані з продуктом ШІ або галуззю, в якій вони працюють?
2. Виклики етики
Після того, як ми визначили етичні принципи, наступним кроком є оцінка наших дій з даними та ШІ, щоб побачити, чи відповідають вони цим спільним цінностям. Подумайте про свої дії у двох категоріях: збір даних та розробка алгоритмів.
Під час збору даних дії, ймовірно, будуть включати персональні дані або персонально ідентифіковану інформацію (PII) для ідентифікованих живих осіб. Це включає різноманітні елементи неперсональних даних, які колективно ідентифікують особу. Етичні виклики можуть стосуватися конфіденційності даних, власності даних та пов'язаних тем, таких як усвідомлена згода та права інтелектуальної власності для користувачів.
Під час розробки алгоритмів дії будуть включати збір та створення наборів даних, а потім їх використання для навчання та розгортання моделей даних, які прогнозують результати або автоматизують рішення в реальних контекстах. Етичні виклики можуть виникати через упередженість набору даних, проблеми якості даних, несправедливість та спотворення в алгоритмах - включаючи деякі системні проблеми.
В обох випадках етичні виклики висвітлюють області, де наші дії можуть вступати в конфлікт із нашими спільними цінностями. Щоб виявити, пом'якшити, мінімізувати або усунути ці проблеми, нам потрібно ставити моральні "так/ні" питання щодо наших дій, а потім вживати коригувальних заходів за потреби. Давайте розглянемо деякі етичні виклики та моральні питання, які вони піднімають:
2.1 Власність даних
Збір даних часто включає персональні дані, які можуть ідентифікувати суб'єктів даних. Власність даних стосується контролю та прав користувачів, пов'язаних зі створенням, обробкою та поширенням даних.
Моральні питання, які потрібно поставити:
- Хто володіє даними? (користувач чи організація)
- Які права мають суб'єкти даних? (наприклад, доступ, видалення, перенесення)
- Які права мають організації? (наприклад, виправлення шкідливих відгуків користувачів)
2.2 Усвідомлена згода
Усвідомлена згода визначає акт, коли користувачі погоджуються на дію (наприклад, збір даних) з повним розумінням відповідних фактів, включаючи мету, потенційні ризики та альтернативи.
Питання для дослідження:
- Чи дав користувач (суб'єкт даних) дозвіл на збір та використання даних?
- Чи зрозумів користувач мету, для якої ці дані були зібрані?
- Чи зрозумів користувач потенційні ризики від своєї участі?
2.3 Інтелектуальна власність
Інтелектуальна власність стосується нематеріальних творінь, що виникають внаслідок людської ініціативи, які можуть мати економічну цінність для осіб або бізнесу.
Питання для дослідження:
- Чи мали зібрані дані економічну цінність для користувача або бізнесу?
- Чи має користувач інтелектуальну власність тут?
- Чи має організація інтелектуальну власність тут?
- Якщо ці права існують, як ми їх захищаємо?
2.4 Конфіденційність даних
Конфіденційність даних або інформаційна конфіденційність стосується збереження конфіденційності користувачів та захисту їхньої ідентичності щодо персонально ідентифікованої інформації.
Питання для дослідження:
- Чи захищені персональні дані користувачів від зломів та витоків?
- Чи доступні дані користувачів лише для авторизованих користувачів та контекстів?
- Чи збережена анонімність користувачів під час обміну або поширення даних?
- Чи може користувач бути деідентифікований з анонімних наборів даних?
2.5 Право бути забутим
Право бути забутим або Право на видалення забезпечує додатковий захист персональних даних для користувачів. Зокрема, це дає користувачам право вимагати видалення або вилучення персональних даних з Інтернету та інших місць, за певних обставин, дозволяючи їм почати з чистого аркуша без того, щоб минулі дії використовувалися проти них.
Питання для дослідження:
- Чи дозволяє система суб'єктам даних вимагати видалення?
- Чи повинно відкликання згоди користувача автоматично запускати видалення?
- Чи були дані зібрані без згоди або незаконними засобами?
- Чи відповідаємо ми урядовим регуляціям щодо конфіденційності даних?
2.6 Упередженість набору даних
Упередженість набору даних або упередженість збору стосується вибору нерепрезентативного підмножини даних для розробки алгоритму, що створює потенційну несправедливість у результатах для різних груп. Типи упередженості включають упередженість вибірки, упередженість добровольців та упередженість інструментів.
П Algorithm Fairness перевіряє, чи дизайн алгоритму систематично дискримінує певні підгрупи суб'єктів даних, що може призводити до потенційної шкоди у розподілі (коли ресурси відмовляють або утримують від цієї групи) та якості обслуговування (коли штучний інтелект менш точний для деяких підгруп порівняно з іншими).
Питання для розгляду:
- Чи ми оцінювали точність моделі для різноманітних підгруп і умов?
- Чи ми аналізували систему на предмет потенційної шкоди (наприклад, стереотипів)?
- Чи можемо ми переглянути дані або перенавчити моделі для зменшення виявленої шкоди?
Досліджуйте ресурси, такі як AI Fairness checklists, щоб дізнатися більше.
2.9 Неправильне представлення
Неправильне представлення даних стосується питання, чи ми передаємо висновки з чесно представлених даних у спосіб, що вводить в оману, щоб підтримати бажаний наратив.
Питання для розгляду:
- Чи ми повідомляємо неповні або неточні дані?
- Чи ми візуалізуємо дані таким чином, що це сприяє хибним висновкам?
- Чи ми використовуємо вибіркові статистичні методи для маніпулювання результатами?
- Чи існують альтернативні пояснення, які можуть запропонувати інший висновок?
2.10 Свобода вибору
Ілюзія свободи вибору виникає, коли "архітектура вибору" системи використовує алгоритми прийняття рішень, щоб підштовхнути людей до прийняття бажаного результату, водночас створюючи видимість варіантів і контролю. Ці темні патерни можуть завдати соціальної та економічної шкоди користувачам. Оскільки рішення користувачів впливають на профілі поведінки, ці дії потенційно формують майбутні вибори, що можуть посилити або продовжити вплив цієї шкоди.
Питання для розгляду:
- Чи користувач розумів наслідки прийняття цього рішення?
- Чи користувач був обізнаний про (альтернативні) варіанти вибору та їхні переваги й недоліки?
- Чи може користувач скасувати автоматизований або впливовий вибір пізніше?
3. Кейси
Щоб розглянути ці етичні виклики в реальних контекстах, корисно звернутися до кейсів, які демонструють потенційну шкоду та наслідки для окремих осіб і суспільства, коли такі порушення етики залишаються без уваги.
Ось кілька прикладів:
Етичний виклик | Кейси |
---|---|
Інформована згода | 1972 - Дослідження сифілісу в Таскігі - афроамериканським чоловікам, які брали участь у дослідженні, обіцяли безкоштовну медичну допомогу, але обманювали, не повідомляючи про діагноз або доступність лікування. Багато учасників померли, а їхні партнери чи діти постраждали; дослідження тривало 40 років. |
Конфіденційність даних | 2007 - Конкурс даних Netflix надав дослідникам 10 млн анонімних оцінок фільмів від 50 тис. клієнтів, щоб покращити алгоритми рекомендацій. Однак дослідники змогли зіставити анонімні дані з персонально ідентифікованими даними в зовнішніх наборах даних (наприклад, коментарі IMDb), фактично "деанонімізуючи" деяких підписників Netflix. |
Упередженість у зборі даних | 2013 - Місто Бостон розробило Street Bump, додаток, який дозволяв громадянам повідомляти про ями, надаючи місту кращі дані про дороги для вирішення проблем. Однак люди з низьким рівнем доходу мали менший доступ до автомобілів і телефонів, що робило їхні проблеми з дорогами невидимими для цього додатка. Розробники співпрацювали з академіками для вирішення питань справедливого доступу та цифрових розривів. |
Справедливість алгоритмів | 2018 - Дослідження MIT Gender Shades оцінювало точність продуктів AI для класифікації статі, виявляючи прогалини в точності для жінок і людей кольору. У 2019 році Apple Card здавалося, пропонувала менший кредит жінкам, ніж чоловікам. Обидва випадки ілюструють проблеми упередженості алгоритмів, що призводять до соціально-економічної шкоди. |
Неправильне представлення даних | 2020 - Департамент охорони здоров'я Джорджії опублікував графіки COVID-19, які, здається, вводили громадян в оману щодо тенденцій підтверджених випадків через не-хронологічне упорядкування на осі x. Це ілюструє неправильне представлення через візуалізаційні трюки. |
Ілюзія свободи вибору | 2020 - Навчальний додаток ABCmouse заплатив $10 млн для врегулювання скарги FTC, де батьки були змушені платити за підписки, які вони не могли скасувати. Це ілюструє темні патерни в архітектурі вибору, де користувачів підштовхували до потенційно шкідливих рішень. |
Конфіденційність даних та права користувачів | 2021 - Витік даних Facebook розкрив дані 530 млн користувачів, що призвело до штрафу $5 млрд від FTC. Однак компанія відмовилася повідомити користувачів про витік, порушуючи права користувачів щодо прозорості даних і доступу. |
Хочете дослідити більше кейсів? Ознайомтеся з цими ресурсами:
- Ethics Unwrapped - етичні дилеми в різних галузях.
- Курс з етики в Data Science - аналіз ключових кейсів.
- Де все пішло не так - чекліст Deon з прикладами.
🚨 Подумайте про кейси, які ви бачили - чи стикалися ви або були під впливом подібного етичного виклику у своєму житті? Чи можете ви згадати хоча б один інший кейс, який ілюструє один із етичних викликів, обговорених у цьому розділі?
Прикладна етика
Ми обговорили концепції етики, виклики та кейси в реальних контекстах. Але як почати застосовувати етичні принципи та практики у своїх проектах? І як операціоналізувати ці практики для кращого управління? Давайте розглянемо деякі реальні рішення:
1. Професійні кодекси
Професійні кодекси пропонують один із варіантів для організацій "стимулювати" членів підтримувати їхні етичні принципи та місію. Кодекси є моральними орієнтирами для професійної поведінки, допомагаючи співробітникам або членам приймати рішення, які відповідають принципам організації. Вони ефективні настільки, наскільки добровільно дотримуються членами; однак багато організацій пропонують додаткові винагороди та штрафи для мотивації дотримання.
Приклади:
- Oxford Munich Кодекс етики
- Data Science Association Кодекс поведінки (створений у 2013 році)
- ACM Code of Ethics and Professional Conduct (з 1993 року)
🚨 Чи ви є членом професійної організації з інженерії або Data Science? Досліджуйте їхній сайт, щоб побачити, чи вони визначають професійний кодекс етики. Що це говорить про їхні етичні принципи? Як вони "стимулюють" членів дотримуватися кодексу?
2. Етичні чеклісти
Хоча професійні кодекси визначають необхідну етичну поведінку від практиків, вони мають відомі обмеження у забезпеченні виконання, особливо в масштабних проектах. Натомість багато експертів з Data Science рекомендують чеклісти, які можуть з'єднувати принципи з практиками більш детермінованим і дієвим способом.
Чеклісти перетворюють питання на завдання "так/ні", які можна операціоналізувати, дозволяючи їх відстежувати як частину стандартних робочих процесів випуску продукту.
Приклади:
- Deon - загальний чекліст з етики даних, створений на основі рекомендацій галузі з інструментом командного рядка для легкої інтеграції.
- Privacy Audit Checklist - надає загальні рекомендації щодо практик обробки інформації з юридичної та соціальної точки зору.
- AI Fairness Checklist - створений практиками AI для підтримки впровадження перевірок справедливості в цикли розробки AI.
- 22 питання для етики в даних та AI - більш відкритий формат, структурований для початкового дослідження етичних питань у дизайні, впровадженні та організаційних контекстах.
3. Етичні регуляції
Етика стосується визначення спільних цінностей і добровільного виконання правильних дій. Дотримання стосується виконання закону, якщо він визначений. Управління охоплює всі способи, якими організації працюють для забезпечення етичних принципів і дотримання встановлених законів.
Сьогодні управління має дві форми в організаціях. По-перше, це визначення принципів етичного AI та встановлення практик для операціоналізації їхнього впровадження у всіх проектах, пов'язаних з AI, в організації. По-друге, це дотримання всіх урядових регуляцій щодо захисту даних, які діють у регіонах, де організація працює.
Приклади регуляцій щодо захисту даних і конфіденційності:
1974
, US Privacy Act - регулює федеральний уряд у зборі, використанні та розкритті персональної інформації.1996
, US Health Insurance Portability & Accountability Act (HIPAA) - захищає персональні медичні дані.1998
, US Children's Online Privacy Protection Act (COPPA) - захищає конфіденційність даних дітей до 13 років.2018
, General Data Protection Regulation (GDPR) - забезпечує права користувачів, захист даних і конфіденційність.2018
, California Consumer Privacy Act (CCPA) - надає споживачам більше прав щодо їхніх (персональних) даних.2021
, Китайський Закон про захист персональної інформації щойно прийнятий, створюючи один із найсильніших регуляцій щодо конфіденційності даних онлайн у світі.
🚨 Європейський Союз визначив GDPR (General Data Protection Regulation), який залишається одним із найвпливовіших регуляцій щодо конфіденційності даних сьогодні. Чи знали ви, що він також визначає 8 прав користувачів для захисту цифрової конфіденційності та персональних даних громадян? Дізнайтеся, що це за права і чому вони важливі.
4. Культура етики
Зверніть увагу, що залишається невловима різниця між дотриманням (виконанням "букви закону") та вирішенням системних проблем (таких як закостенілість, інформаційна асиметрія та розподільна несправедливість), які можуть прискорити використання AI у шкідливих цілях.
Останнє вимагає спільних підходів до визначення культури етики, які створюють емоційні зв'язки та послідовні спільні цінності в організаціях у галузі. Це закликає до більш формалізованих культур етики даних в організаціях - дозволяючи будь-кому потягнути шнур Андон (щоб підняти етичні питання на ранніх етапах процесу) і роблячи етичні оцінки (наприклад, при наймі) основним критерієм формування команди в проектах AI.
Післялекційний тест 🎯
Огляд і самостійне навчання
Курси та книги допомагають зрозуміти основні концепції етики та виклики, а кейси та інструменти допомагають у застосуванні етичних практик у реальних контекстах. Ось кілька ресурсів для початку:
- [Machine Learning For Beginners](https://github.com/microsoft/ML-
- Принципи відповідального штучного інтелекту - безкоштовний навчальний курс від Microsoft Learn.
- Етика та наука про дані - електронна книга від O'Reilly (М. Лоукідес, Х. Мейсон та інші).
- Етика науки про дані - онлайн-курс від Університету Мічигану.
- Етика без прикрас - кейс-стадії від Університету Техасу.
Завдання
Напишіть кейс-стадію з етики даних
Відмова від відповідальності:
Цей документ був перекладений за допомогою сервісу автоматичного перекладу Co-op Translator. Хоча ми прагнемо до точності, будь ласка, майте на увазі, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ на його рідній мові слід вважати авторитетним джерелом. Для критичної інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникають внаслідок використання цього перекладу.