42 KiB

Raw Permalink Blame History Unescape Escape

Вступ до етики даних


Етика науки про дані - Скетчноут від @nitya

Ми всі є громадянами даних, які живуть у світі, де дані відіграють ключову роль.

Ринкові тенденції показують, що до 2022 року кожна третя велика організація буде купувати та продавати свої дані через онлайн Маркетплейси та Біржі. Як розробники додатків, ми зможемо легше та дешевше інтегрувати аналітику, засновану на даних, та автоматизацію, керовану алгоритмами, у щоденний досвід користувачів. Але з поширенням штучного інтелекту нам також потрібно буде розуміти потенційні шкоди, які можуть виникнути через використання алгоритмів у шкідливих цілях у великому масштабі.

Тенденції також показують, що до 2025 року ми створимо та споживатимемо понад 180 зетабайтів даних. Як науковці з даних, це дає нам безпрецедентний рівень доступу до персональних даних. Це означає, що ми можемо створювати поведінкові профілі користувачів і впливати на прийняття рішень таким чином, що створює ілюзію вільного вибору, водночас потенційно підштовхуючи користувачів до бажаних для нас результатів. Це також піднімає ширші питання щодо конфіденційності даних та захисту користувачів.

Етика даних тепер є необхідними обмеженнями для науки про дані та інженерії, допомагаючи нам мінімізувати потенційні шкоди та непередбачені наслідки наших дій, заснованих на даних. Цикл хайпу Gartner для ШІ визначає актуальні тенденції в цифровій етиці, відповідальному ШІ та управлінні ШІ як ключові рушії для більших мегатрендів навколо демократизації та індустріалізації ШІ.

У цьому уроці ми дослідимо захоплюючу сферу етики даних - від основних концепцій і викликів до кейсів та прикладних концепцій ШІ, таких як управління, які допомагають створити культуру етики в командах та організаціях, що працюють з даними та ШІ.

Тест перед лекцією 🎯

Основні визначення

Почнемо з розуміння базової термінології.

Слово "етика" походить від грецького слова "ethikos" (та його кореня "ethos"), що означає характер або моральна природа.

Етика стосується спільних цінностей та моральних принципів, які регулюють нашу поведінку в суспільстві. Етика базується не на законах, а на широко прийнятих нормах того, що є "правильним проти неправильного". Однак етичні міркування можуть впливати на ініціативи корпоративного управління та урядові регуляції, які створюють більше стимулів для дотримання.

Етика даних є новою галуззю етики, яка "вивчає та оцінює моральні проблеми, пов'язані з даними, алгоритмами та відповідними практиками". Тут "дані" зосереджуються на діях, пов'язаних із створенням, записом, кураторством, обробкою, поширенням, обміном та використанням, "алгоритми" зосереджуються на ШІ, агентах, машинному навчанні та роботах, а "практики" зосереджуються на таких темах, як відповідальні інновації, програмування, хакінг та кодекси етики.

Прикладна етика є практичним застосуванням моральних міркувань. Це процес активного дослідження етичних питань у контексті реальних дій, продуктів та процесів і вжиття коригувальних заходів для забезпечення їх відповідності визначеним етичним цінностям.

Культура етики стосується операціоналізації прикладної етики, щоб переконатися, що наші етичні принципи та практики приймаються послідовно та масштабовано по всій організації. Успішні культури етики визначають етичні принципи на рівні організації, забезпечують значущі стимули для дотримання та підсилюють норми етики, заохочуючи та підсилюючи бажану поведінку на кожному рівні організації.

Концепції етики

У цьому розділі ми обговоримо такі концепції, як спільні цінності (принципи) та етичні виклики (проблеми) для етики даних - і дослідимо кейс-стадії, які допоможуть вам зрозуміти ці концепції в реальних контекстах.

1. Принципи етики

Кожна стратегія етики даних починається з визначення етичних принципів - "спільних цінностей", які описують прийнятну поведінку та керують діями, що відповідають нормам, у наших проектах з даними та ШІ. Ви можете визначити їх на індивідуальному або командному рівні. Однак більшість великих організацій окреслюють їх у місії етичного ШІ або рамках, які визначаються на корпоративному рівні та послідовно впроваджуються у всіх командах.

Приклад: Місія Відповідального ШІ Microsoft звучить: "Ми прагнемо до розвитку ШІ, керованого етичними принципами, які ставлять людей на перше місце" - визначаючи 6 етичних принципів у наведеній нижче рамці:

Давайте коротко розглянемо ці принципи. Прозорість та відповідальність є основними цінностями, на яких будуються інші принципи - тому почнемо з них:

Відповідальність робить практиків відповідальними за їхні операції з даними та ШІ, а також за дотримання цих етичних принципів.
Прозорість забезпечує, щоб дії з даними та ШІ були зрозумілими (інтерпретованими) для користувачів, пояснюючи що і чому стоїть за рішеннями.
Справедливість - зосереджується на забезпеченні того, щоб ШІ ставився до всіх людей справедливо, вирішуючи будь-які системні або приховані соціально-технічні упередження в даних та системах.
Надійність та безпека - забезпечує, щоб ШІ поводився послідовно з визначеними цінностями, мінімізуючи потенційні шкоди або непередбачені наслідки.
Конфіденційність та безпека - стосується розуміння походження даних та забезпечення конфіденційності даних та пов'язаних із цим захистів для користувачів.
Інклюзивність - стосується розробки рішень ШІ з наміром, адаптуючи їх для задоволення широкого спектру людських потреб та можливостей.

🚨 Подумайте, якою могла б бути ваша місія етики даних. Досліджуйте рамки етичного ШІ інших організацій - ось приклади від IBM, Google та Facebook. Які спільні цінності вони мають? Як ці принципи пов'язані з продуктом ШІ або галуззю, в якій вони працюють?

2. Виклики етики

Після визначення етичних принципів наступним кроком є оцінка наших дій з даними та ШІ, щоб переконатися, що вони відповідають цим спільним цінностям. Подумайте про свої дії у двох категоріях: збір даних та розробка алгоритмів.

Під час збору даних дії, ймовірно, будуть включати персональні дані або персонально ідентифіковану інформацію (PII) для ідентифікованих живих осіб. Це включає різноманітні елементи неперсональних даних, які колективно ідентифікують особу. Етичні виклики можуть стосуватися конфіденційності даних, власності даних та пов'язаних тем, таких як інформована згода та права інтелектуальної власності для користувачів.

Під час розробки алгоритмів дії будуть включати збір та кураторство наборів даних, а потім їх використання для навчання та розгортання моделей даних, які прогнозують результати або автоматизують рішення в реальних контекстах. Етичні виклики можуть виникати через упередженість набору даних, проблеми якості даних, несправедливість та спотворення в алгоритмах - включаючи деякі системні проблеми.

В обох випадках етичні виклики висвітлюють області, де наші дії можуть вступати в конфлікт із нашими спільними цінностями. Щоб виявити, пом'якшити, мінімізувати або усунути ці проблеми, нам потрібно ставити моральні "так/ні" питання щодо наших дій, а потім вживати коригувальних заходів за потреби. Давайте розглянемо деякі етичні виклики та моральні питання, які вони піднімають:

2.1 Власність даних

Збір даних часто включає персональні дані, які можуть ідентифікувати суб'єктів даних. Власність даних стосується контролю та прав користувачів, пов'язаних зі створенням, обробкою та поширенням даних.

Моральні питання, які потрібно поставити:

Хто володіє даними? (користувач чи організація)
Які права мають суб'єкти даних? (наприклад, доступ, видалення, перенесення)
Які права мають організації? (наприклад, виправлення шкідливих відгуків користувачів)

2.2 Інформована згода

Інформована згода визначає акт, коли користувачі погоджуються на дію (наприклад, збір даних) з повним розумінням відповідних фактів, включаючи мету, потенційні ризики та альтернативи.

Питання для дослідження:

Чи дав користувач (суб'єкт даних) дозвіл на збір та використання даних?
Чи зрозумів користувач мету, для якої ці дані були зібрані?
Чи зрозумів користувач потенційні ризики від своєї участі?

2.3 Інтелектуальна власність

Інтелектуальна власність стосується нематеріальних творінь, що виникають внаслідок людської ініціативи, які можуть мати економічну цінність для осіб або бізнесу.

Питання для дослідження:

Чи мали зібрані дані економічну цінність для користувача або бізнесу?
Чи має користувач інтелектуальну власність тут?
Чи має організація інтелектуальну власність тут?
Якщо ці права існують, як ми їх захищаємо?

2.4 Конфіденційність даних

Конфіденційність даних або інформаційна конфіденційність стосується збереження конфіденційності користувачів та захисту їхньої ідентичності щодо персонально ідентифікованої інформації.

Питання для дослідження:

Чи захищені персональні дані користувачів від зломів та витоків?
Чи доступні дані користувачів лише для авторизованих користувачів та контекстів?
Чи збережена анонімність користувачів при обміні або поширенні даних?
Чи може користувач бути деідентифікований з анонімних наборів даних?

2.5 Право бути забутим

Право бути забутим або Право на видалення забезпечує додатковий захист персональних даних для користувачів. Зокрема, це дає користувачам право вимагати видалення або усунення персональних даних з Інтернету та інших місць, за певних обставин, дозволяючи їм почати нове життя онлайн без того, щоб минулі дії були використані проти них.

Питання для дослідження:

Чи дозволяє система суб'єктам даних запитувати видалення?
Чи повинно відкликання згоди користувача автоматично запускати видалення?
Чи були дані зібрані без згоди або незаконними засобами?
Чи відповідаємо ми урядовим регуляціям щодо конфіденційності даних?

2.6 Упередженість набору даних

Упередженість набору даних або упередженість збору стосується вибору нерепрезентативного підмножини даних для розробки алгоритму, що створює потенційну несправедливість у результатах для різних груп. Типи упередженості включають упередженість вибірки, упередженість добровольців та упередженість інструментів.

Питання для дослідж Algorithm Fairness перевіряє, чи дизайн алгоритму систематично дискримінує певні підгрупи суб'єктів даних, що може призводити до потенційних шкод у розподілі (коли ресурси відмовляють або утримують від цієї групи) та якості обслуговування (коли штучний інтелект менш точний для деяких підгруп порівняно з іншими).

Питання для розгляду:

Чи ми оцінювали точність моделі для різноманітних підгруп і умов?
Чи ми аналізували систему на предмет потенційних шкод (наприклад, стереотипів)?
Чи можемо ми переглянути дані або перенавчити моделі для зменшення виявлених шкод?

Досліджуйте ресурси, такі як AI Fairness checklists, щоб дізнатися більше.

2.9 Викривлення даних

Викривлення даних стосується питання, чи ми передаємо інсайти з чесно представлених даних у маніпулятивний спосіб для підтримки бажаного наративу.

Питання для розгляду:

Чи ми повідомляємо неповні або неточні дані?
Чи ми візуалізуємо дані так, що це сприяє хибним висновкам?
Чи ми використовуємо вибіркові статистичні методи для маніпуляції результатами?
Чи існують альтернативні пояснення, які можуть запропонувати інший висновок?

2.10 Ілюзія вільного вибору

Ілюзія вільного вибору виникає, коли "архітектури вибору" системи використовують алгоритми прийняття рішень, щоб підштовхнути людей до прийняття бажаного результату, водночас створюючи видимість варіантів і контролю. Ці темні патерни можуть завдати соціальної та економічної шкоди користувачам. Оскільки рішення користувачів впливають на профілі поведінки, ці дії потенційно формують майбутні вибори, що може посилити або продовжити вплив цих шкод.

Питання для розгляду:

Чи користувач розумів наслідки прийняття цього рішення?
Чи користувач був обізнаний про (альтернативні) варіанти та їхні переваги й недоліки?
Чи може користувач скасувати автоматизований або впливовий вибір пізніше?

3. Кейси

Щоб розглянути ці етичні виклики в реальних контекстах, корисно звернутися до кейсів, які демонструють потенційні шкоди та наслідки для окремих осіб і суспільства, коли такі порушення етики ігноруються.

Ось кілька прикладів:

Етичний виклик	Кейси
Інформована згода	1972 - Дослідження сифілісу в Таскігі - афроамериканські чоловіки, які брали участь у дослідженні, отримали обіцянку безкоштовного медичного обслуговування, але були обмануті дослідниками, які не повідомили їм про діагноз або доступність лікування. Багато учасників померли, а їхні партнери чи діти постраждали; дослідження тривало 40 років.
Конфіденційність даних	2007 - Конкурс даних Netflix надав дослідникам 10 млн анонімних оцінок фільмів від 50 тис. клієнтів, щоб покращити алгоритми рекомендацій. Однак дослідники змогли зіставити анонімні дані з персонально ідентифікованими даними в зовнішніх наборах даних (наприклад, коментарі IMDb), фактично "деанонімізуючи" деяких підписників Netflix.
Упередженість у зборі даних	2013 - Місто Бостон розробило Street Bump, додаток, який дозволяв громадянам повідомляти про ями, надаючи місту кращі дані про дороги для вирішення проблем. Однак люди з низьким рівнем доходу мали менший доступ до автомобілів і телефонів, що робило їхні проблеми з дорогами невидимими в цьому додатку. Розробники співпрацювали з академіками для вирішення питань справедливого доступу та цифрових розривів.
Справедливість алгоритмів	2018 - Дослідження MIT Gender Shades оцінювало точність продуктів AI для класифікації гендеру, виявляючи прогалини в точності для жінок і людей кольору. У 2019 році Apple Card здавалося, пропонувала менший кредит жінкам, ніж чоловікам. Обидва випадки ілюструють проблеми упередженості алгоритмів, що призводять до соціально-економічних шкод.
Викривлення даних	2020 - Департамент охорони здоров'я Джорджії опублікував графіки COVID-19, які, здається, вводили громадян в оману щодо тенденцій підтверджених випадків через не-хронологічне упорядкування на осі x. Це ілюструє викривлення через трюки візуалізації.
Ілюзія вільного вибору	2020 - Навчальний додаток ABCmouse заплатив $10 млн для врегулювання скарги FTC, де батьки були змушені платити за підписки, які вони не могли скасувати. Це ілюструє темні патерни в архітектурах вибору, де користувачів підштовхували до потенційно шкідливих рішень.
Конфіденційність даних та права користувачів	2021 - Витік даних Facebook розкрив дані 530 млн користувачів, що призвело до штрафу $5 млрд від FTC. Однак компанія відмовилася повідомити користувачів про витік, порушуючи права користувачів щодо прозорості даних і доступу.

Хочете дослідити більше кейсів? Ознайомтеся з цими ресурсами:

Ethics Unwrapped - етичні дилеми в різних галузях.
Курс з етики в Data Science - аналіз ключових кейсів.
Де все пішло не так - чекліст Deon з прикладами.

🚨 Подумайте про кейси, які ви бачили - чи ви стикалися або були під впливом подібного етичного виклику у своєму житті? Чи можете ви згадати хоча б один інший кейс, який ілюструє один із етичних викликів, обговорених у цьому розділі?

Прикладна етика

Ми обговорили концепції етики, виклики та кейси в реальних контекстах. Але як почати застосовувати етичні принципи та практики у своїх проєктах? І як операціоналізувати ці практики для кращого управління? Давайте розглянемо деякі реальні рішення:

1. Професійні кодекси

Професійні кодекси пропонують один із варіантів для організацій "стимулювати" членів підтримувати їхні етичні принципи та місію. Кодекси є моральними орієнтирами для професійної поведінки, допомагаючи співробітникам або членам приймати рішення, які відповідають принципам організації. Вони ефективні настільки, наскільки добровільно дотримуються членами; однак багато організацій пропонують додаткові винагороди та санкції для мотивації дотримання.

Приклади:

Oxford Munich Кодекс етики
Data Science Association Кодекс поведінки (створений у 2013 році)
ACM Code of Ethics and Professional Conduct (з 1993 року)

🚨 Ви є членом професійної інженерної або організації з Data Science? Досліджуйте їхній сайт, щоб дізнатися, чи вони визначають професійний кодекс етики. Що це говорить про їхні етичні принципи? Як вони "стимулюють" членів дотримуватися кодексу?

2. Етичні чеклісти

Хоча професійні кодекси визначають необхідну етичну поведінку від практиків, вони мають відомі обмеження у забезпеченні виконання, особливо в масштабних проєктах. Натомість багато експертів з Data Science рекомендують чеклісти, які можуть з'єднувати принципи з практиками більш детермінованим і дієвим способом.

Чеклісти перетворюють питання на "так/ні" завдання, які можна операціоналізувати, дозволяючи їх відстежувати як частину стандартних робочих процесів випуску продукту.

Приклади:

Deon - універсальний чекліст етики даних, створений на основі рекомендацій галузі з інструментом командного рядка для легкої інтеграції.
Privacy Audit Checklist - надає загальні рекомендації щодо практик обробки інформації з юридичної та соціальної точки зору.
AI Fairness Checklist - створений практиками AI для підтримки впровадження перевірок справедливості в цикли розробки AI.
22 питання для етики в даних та AI - більш відкритий формат, структурований для початкового дослідження етичних питань у дизайні, впровадженні та організаційних контекстах.

3. Етичні регуляції

Етика стосується визначення спільних цінностей і добровільного виконання "правильних речей". Дотримання стосується виконання закону, якщо він визначений. Управління охоплює всі способи, якими організації працюють для забезпечення етичних принципів і дотримання встановлених законів.

Сьогодні управління має дві форми в організаціях. По-перше, це визначення принципів етичного AI і встановлення практик для операціоналізації впровадження у всіх проєктах, пов'язаних з AI, в організації. По-друге, це дотримання всіх урядових регуляцій щодо захисту даних, які діють у регіонах, де організація працює.

Приклади регуляцій щодо захисту даних і конфіденційності:

1974, US Privacy Act - регулює федеральний уряд щодо збору, використання та розкриття персональної інформації.
1996, US Health Insurance Portability & Accountability Act (HIPAA) - захищає персональні медичні дані.
1998, US Children's Online Privacy Protection Act (COPPA) - захищає конфіденційність даних дітей до 13 років.
2018, General Data Protection Regulation (GDPR) - забезпечує права користувачів, захист даних і конфіденційність.
2018, California Consumer Privacy Act (CCPA) - надає споживачам більше прав щодо їхніх (персональних) даних.
2021, Китайський Закон про захист персональної інформації щойно прийнятий, створюючи один із найсильніших регуляцій щодо конфіденційності даних онлайн у світі.

🚨 Європейський Союз визначив GDPR (General Data Protection Regulation), який залишається одним із найвпливовіших регуляцій щодо конфіденційності даних сьогодні. Чи знали ви, що він також визначає 8 прав користувачів для захисту цифрової конфіденційності та персональних даних громадян? Дізнайтеся, що це за права і чому вони важливі.

4. Культура етики

Зверніть увагу, що залишається невловима різниця між дотриманням (виконанням "букви закону") і вирішенням системних проблем (таких як закостенілість, інформаційна асиметрія та розподільна несправедливість), які можуть прискорити використання AI у шкідливих цілях.

Останнє вимагає спільних підходів до визначення культури етики, які створюють емоційні зв'язки та послідовні спільні цінності в організаціях галузі. Це закликає до більш формалізованих культур етики даних в організаціях - дозволяючи будь-кому потягнути шнур Андон (щоб підняти етичні питання на ранніх етапах процесу) і роблячи етичні оцінки (наприклад, при наймі) основним критерієм формування команд у проєктах AI.

Післялекційний тест 🎯

Огляд і самостійне навчання

Курси та книги допомагають зрозуміти основні концепції етики та виклики, а кейси та інструменти допомагають із практикою прикладної етики в реальних контекстах. Ось кілька ресурсів для початку:

[Machine Learning For Beginners](https://github
Принципи відповідального штучного інтелекту - безкоштовний навчальний курс від Microsoft Learn.
Етика та наука про дані - електронна книга від O'Reilly (М. Лоукідес, Х. Мейсон та ін.).
Етика в науці про дані - онлайн-курс від Мічиганського університету.
Етика в дії - кейс-стадії від Техаського університету.

Завдання

Напишіть кейс-стадію з етики даних

Відмова від відповідальності:
Цей документ було перекладено за допомогою сервісу автоматичного перекладу Co-op Translator. Хоча ми прагнемо до точності, звертаємо вашу увагу, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ мовою оригіналу слід вважати авторитетним джерелом. Для критично важливої інформації рекомендується звертатися до професійного людського перекладу. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу.

42 KiB Raw Permalink Blame History Unescape Escape

Вступ до етики даних

Тест перед лекцією 🎯

Основні визначення

Концепції етики

1. Принципи етики

2. Виклики етики

2.1 Власність даних

2.2 Інформована згода

2.3 Інтелектуальна власність

2.4 Конфіденційність даних

2.5 Право бути забутим

2.6 Упередженість набору даних

2.9 Викривлення даних

2.10 Ілюзія вільного вибору

3. Кейси

Прикладна етика

1. Професійні кодекси

2. Етичні чеклісти

3. Етичні регуляції

4. Культура етики

Післялекційний тест 🎯

Огляд і самостійне навчання

Завдання

42 KiB

Raw Permalink Blame History Unescape Escape