History

localizeflow[bot] 554bd2ef86 chore(i18n): sync translations with latest source changes (chunk 1/1, 13 changes)		3 weeks ago
..
README.md	chore(i18n): sync translations with latest source changes (chunk 1/1, 13 changes)	3 weeks ago
assignment.md	chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)	6 months ago

README.md

Unescape Escape

Вступ до етики даних


Етика науки про дані - Sketchnote від @nitya

Ми всі є громадянами даних, що живуть у світі, переповненому даними.

Тенденції ринку показують, що до 2022 року кожна третя велика організація купуватиме та продаватиме свої дані через онлайн маркетплейси та біржі. Як розробники додатків, ми зможемо легше та дешевше інтегрувати інсайти на основі даних та автоматизацію на основі алгоритмів у щоденний користувацький досвід. Але з поширенням ШІ нам також потрібно зрозуміти потенційні шкоди, спричинені озброєнням таких алгоритмів у великому масштабі.

Тенденції свідчать, що до 2025 року ми згенеруємо та споживатимемо понад 180 зеттабайтів даних. Для науковців даних цей вибух інформації надає безпрецедентний доступ до персональних та поведінкових даних. З цим приходить сила створювати детальні профілі користувачів та тонко впливати на прийняття рішень — часто таким чином, що створюється ілюзія вільного вибору. У той час як це може використатися для підштовхування користувачів до бажаних результатів, це також викликає критичні питання про конфіденційність даних, автономію та етичні межі алгоритмічного впливу.

Етика даних тепер є необхідними обмежувачами для науки про дані та інженерії, допомагаючи мінімізувати потенційні шкоди та непередбачувані наслідки наших дій, що базуються на даних. Цикл гіпербол Gartner для ШІ визначає відповідні тенденції в цифровій етиці, відповідальному ШІ та управлінні ШІ як ключові драйвери більших мегатрендів щодо демократизації та індустріалізації ШІ.

У цьому уроці ми дослідимо захоплюючу сферу етики даних — від основних понять та викликів до досліджень випадків і застосованих концепцій ШІ, таких як управління, які допомагають встановити культуру етики в командах та організаціях, що працюють з даними та ШІ.

Попередній тест перед лекцією 🎯

Основні визначення

Почнемо з розуміння основної термінології.

Слово "етика" походить від грецького слова "ethikos" (і його кореня "ethos"), що означає характер або моральну природу.

Етика — це про спільні цінності та моральні принципи, які регулюють нашу поведінку у суспільстві. Етика ґрунтується не на законах, а на широко прийнятих нормах того, що є "правильним і неправильним". Однак етичні міркування можуть впливати на ініціативи корпоративного управління та урядові регуляції, які створюють більше стимулів для дотримання.

Етика даних — це нова галузь етики, що "вивчає та оцінює моральні проблеми, пов’язані з даними, алгоритмами та відповідними практиками". Тут "дані" зосереджуються на діях, пов’язаних зі створенням, записом, кураторством, обробкою, поширенням, обміном та використанням, "алгоритми" — це ШІ, агенти, машинне навчання та роботи, а "практики" пов’язані з такими темами, як відповідальні інновації, програмування, хакерство та коди етики.

Прикладна етика — це практичне застосування моральних міркувань. Це процес активного дослідження етичних питань у контексті реальних дій, продуктів і процесів та прийняття коригувальних заходів, щоб переконатися, що вони залишаються узгодженими з нашими визначеними етичними цінностями.

Культура етики — це про операціоналізацію прикладної етики, щоб переконатися, що наші етичні принципи та практики впроваджуються послідовно та масштабовано по всій організації. Успішні культури етики визначають загальноорганізаційні етичні принципи, надають значущі стимули для дотримання та посилюють етичні норми, заохочуючи та підсилюючи бажану поведінку на кожному рівні організації.

Концепції етики

У цьому розділі ми розглянемо такі поняття, як спільні цінності (принципи) та етичні виклики (проблеми) для етики даних — та дослідимо кейси, які допоможуть вам зрозуміти ці концепції у реальних контекстах.

1. Принципи етики

Кожна стратегія етики даних починається з визначення етичних принципів — "спільних цінностей", які описують прийнятну поведінку і керують відповідними діями у наших проєктах із даних та ШІ. Ви можете визначити їх на індивідуальному або командному рівні. Однак більшість великих організацій окреслюють їх у місії або рамковому документі з етичного ШІ, який визначається на корпоративному рівні і послідовно впроваджується у всі команди.

Приклад: У Microsoft у місії Відповідального ШІ зазначено: «Ми прагнемо просування ШІ, керованого етичними принципами, які ставлять людей на перше місце» — виділяючи 6 етичних принципів у наведеній нижче структурі:

Давайте коротко розглянемо ці принципи. Прозорість та відповідальність — це базові цінності, на яких побудовані інші принципи, тож почнемо з них:

Відповідальність робить практиків відповідальними за свої операції з даними та ШІ, а також за дотримання цих етичних принципів.
Прозорість забезпечує, що дії з даними та ШІ є зрозумілими (інтерпретованими) для користувачів, пояснюючи що і чому ухвалюється.
Справедливість — концентрується на тому, щоб ШІ ставився до всіх людей справедливо, усуваючи будь-які системні або неявні соціотехнічні упередження в даних і системах.
Надійність і безпека — забезпечує, що ШІ поводиться послідовно згідно з визначеними цінностями, мінімізуючи потенційні шкоди або небажані наслідки.
Конфіденційність і безпека — стосується розуміння походження даних та забезпечення конфіденційності даних і пов’язаного захисту для користувачів.
Інклюзивність — про цілеспрямоване проєктування рішень ШІ, адаптуючи їх для широкого спектра людських потреб і можливостей.

🚨 Подумайте, якою могла б бути ваша місія з етики даних. Дослідіть рамкові документи етичного ШІ інших організацій — ось приклади від IBM, Google та Facebook. Які спільні цінності вони мають? Як ці принципи пов’язані з продуктом ШІ або галуззю, в якій вони працюють?

2. Виклики етики

Після визначення етичних принципів наступний крок — оцінити наші дії з даними та ШІ, щоб перевірити, чи вони відповідають цим спільним цінностям. Подумайте про свої дії у двох категоріях: збір даних та проектування алгоритмів.

Під час збору даних дії, ймовірно, будуть пов’язані з персональними даними або особистою інформацією, що дозволяє ідентифікувати живих осіб. Це включає різноманітні елементи неперсональних даних, які в сукупності ідентифікують особу. Етичні виклики можуть стосуватися конфіденційності даних, прав власності на дані та суміжних тем, як-от інформована згода та права інтелектуальної власності користувачів.

Під час проектування алгоритмів дії включають збір і курацію наборів даних, а потім їх використання для навчання та розгортання моделей даних, які передбачають результати або автоматизують прийняття рішень у реальних контекстах. Етичні виклики можуть виникати через упередженість наборів даних, проблеми якості даних, несправедливість та спотворення в алгоритмах — включаючи деякі системні проблеми.

У обох випадках етичні виклики висвітлюють ділянки, де наші дії можуть конфліктувати з нашими спільними цінностями. Щоб виявити, пом’якшити, мінімізувати або усунути такі проблеми, нам потрібно ставити моральні питання типу "так/ні", пов’язані з нашими діями, а потім за потреби вживати коригувальних заходів. Давайте розглянемо деякі етичні виклики та моральні питання, які вони викликають:

2.1 Власність даних

Збір даних часто охоплює персональні дані, що можуть ідентифікувати суб’єктів даних. Власність на дані стосується контролю та прав користувачів, пов’язаних зі створенням, обробкою та поширенням даних.

Моральні питання, які потрібно поставити:

Хто володіє даними? (користувач чи організація)
Які права мають суб’єкти даних? (наприклад: доступ, видалення, портативність)
Які права має організація? (наприклад: виправлення зловмисних відгуків користувачів)

2.2 Інформована згода

Інформована згода означає дію користувачів, які погоджуються на певну дію (наприклад, збір даних) з повним розумінням відповідних фактів, включно з метою, потенційними ризиками та альтернативами.

Питання для дослідження:

Чи дав користувач (суб’єкт даних) дозвіл на збір і використання даних?
Чи розумів користувач мету збору цих даних?
Чи усвідомлював користувач потенційні ризики від своєї участі?

2.3 Інтелектуальна власність

Інтелектуальна власність стосується нематеріальних творінь людської ініціативи, які можуть мати економічну цінність для осіб або бізнесу.

Питання для дослідження:

Чи мали зібрані дані економічну цінність для користувача або бізнесу?
Чи має тут інтелектуальну власність користувач?
Чи має тут інтелектуальну власність організація?
Якщо такі права існують, як ми їх захищаємо?

2.4 Конфіденційність даних

Конфіденційність даних або інформаційна приватність означає захист конфіденційності користувачів та збереження їхньої ідентичності щодо персональних даних.

Питання для дослідження:

Чи захищені дані користувачів (персональні) від зломів і витоків?
Чи мають доступ до даних лише авторизовані користувачі та контексти?
Чи зберігається анонімність користувачів при обміні чи поширенні даних?
Чи можна визначити особу користувача з анонімізованих наборів даних?

2.5 Право бути забутим

Право бути забутим або право на видалення надає додатковий захист персональних даних користувачам. Зокрема, воно дає право користувачам вимагати видалення або зникнення персональних даних із результатів Інтернет-пошуку та інших місць, за певних обставин — дозволяючи їм почати з чистого аркуша онлайн без упокорення старими діями.

Питання для дослідження:

Чи дозволяє система користувачам вимагати видалення даних?
Чи має відкликання згоди користувача автоматично ініціювати видалення?
Чи збиралися дані без згоди або незаконно?
Чи відповідаємо ми державним вимогам щодо конфіденційності даних?

2.6 Упередженість набору даних

Упередженість набору даних або упередженість при зборі стосується вибору нерепрезентативної підмножини даних для розробки алгоритму, що може спричинити несправедливі результати для різних груп. Типи упередженості включають вибіркову або вибіркову упередженість, упередженість добровольців та упередженість інструментів.

Питання для дослідження:

Чи ми залучили репрезентативний набір суб’єктів даних?
Чи тестували ми зібрані або кураторські набори даних на різні види упередженості?
Чи можемо ми пом’якшити або усунути виявлену упередженість?

2.7 Якість даних

Якість даних розглядає валідність кураторського набору даних, який використовується для розробки наших алгоритмів, перевіряючи, чи відповідають характеристики та записи вимогам щодо точності та послідовності, необхідних для цілей ШІ.

Питання для дослідження:

Чи ми зафіксували валідні ознаки для нашого випадку використання?
Чи дані збиралися послідовно зі різних джерел даних?
Чи є набір даних повним для різних умов або сценаріїв?
Чи інформація зафіксована точно у відображенні реальності?

2.8 Справедливість алгоритмів

Справедливість алгоритмів перевіряє, чи не дискримінує дизайн алгоритму систематично певні підгрупи суб’єктів даних, що може призводити до потенційної шкоди у розподілі (коли ресурси відмовляються чи утримуються від цієї групи) та якості обслуговування (коли ШІ не є настільки точним для деяких підгруп, як для інших).

Питання, які варто дослідити тут:

Чи оцінювали ми точність моделі для різноманітних підгруп і умов?
Чи перевіряли ми систему на потенційну шкоду (наприклад, стереотипізацію)?
Чи можемо ми змінити дані або перенавчити моделі, щоб пом’якшити виявлену шкоду?

Вивчайте ресурси, такі як checklist для справедливості ШІ, щоб дізнатися більше.

2.9 Неправильне подання даних

Неправильне подання даних стосується питання, чи ми повідомляємо висновки із чесно представлених даних у вводячий в оману спосіб, щоб підтримати бажаний наратив.

Питання для дослідження:

Чи повідомляємо ми неповні або неточні дані?
Чи візуалізуємо ми дані так, що це веде до оманливих висновків?
Чи використовуємо ми вибіркові статистичні техніки для маніпуляції результатами?
Чи існують альтернативні пояснення, які можуть дати інші висновки?

2.10 Ілюзія вільного вибору

Ілюзія вільного вибору виникає, коли «архітектури вибору» систем використовують алгоритми прийняття рішень, щоб підштовхнути людей до вибору переважного варіанту, при цьому створюючи враження, що їм надають варіанти та контроль. Ці темні патерни можуть завдавати соціальної та економічної шкоди користувачам. Оскільки рішення користувача впливають на профілі поведінки, ці дії потенційно керують майбутніми виборами, що може посилити або продовжити вплив цієї шкоди.

Питання для розгляду:

Чи розумів користувач наслідки свого вибору?
Чи був користувач обізнаний про (альтернативні) варіанти та переваги і недоліки кожного?
Чи може користувач пізніше скасувати автоматизований або впливовий вибір?

3. Кейс-стаді

Щоб поставити ці етичні виклики в контекст реального світу, корисно розглянути кейс-стаді, які висвітлюють потенційну шкоду і наслідки для окремих людей та суспільства, коли такі порушення етики ігноруються.

Ось кілька прикладів:

Етичний виклик	Кейс-стаді
Інформована згода	1972 — Tuskegee Syphilis Study — афроамериканським чоловікам, які брали участь у дослідженні, обіцяли безкоштовне медичне обслуговування, але їх обдурили дослідники, які не повідомили їм про діагноз чи про доступність лікування. Багато учасників померли, а їхні партнери чи діти були торкнуті; дослідження тривало 40 років.
Конфіденційність даних	2007 — Netflix data prize надав дослідникам 10 млн анонімізованих рейтингов фільмів від 50 тис. клієнтів, щоб допомогти покращити алгоритми рекомендацій. Однак дослідникам вдалося зіставити анонімізовані дані з персонально ідентифікованими даними в зовнішніх наборах даних (наприклад, коментарі IMDb) — фактично «деанонімізували» деяких підписників Netflix.
Зсув у зборі даних	2013 — Місто Бостон створило Street Bump, додаток, що дозволяв громадянам повідомляти про ями на дорогах, даючи місту кращі дані для виявлення та ремонту проблем. Однак особи з нижчих доходів мали менший доступ до автомобілів і телефонів, тому їхні проблеми з дорогами були непоміченими в цьому додатку. Розробники співпрацювали з академіками над проблемами рівного доступу та цифрових розривів для справедливості.
Справедливість алгоритмів	2018 — MIT Gender Shades Study оцінив точність продуктов ШІ для класифікації гендеру, виявивши пробіли в точності для жінок та осіб кольору. Картка Apple 2019 здавалася, пропонуючи менше кредиту жінкам, ніж чоловікам. Обидва випадки ілюструють проблеми алгоритмічних упереджень, що призводять до соціально-економічної шкоди.
Неправильне подання даних	2020 — Департамент охорони здоров’я Джорджії оприлюднив COVID-19 графіки, що, здавалося, вводили громадян в оману щодо тенденцій підтверджених випадків, через хронологічний порядок на осі X. Це ілюструє маніпуляції через візуалізацію.
Ілюзія вільного вибору	2020 — навчальний додаток ABCmouse сплатив $10 млн, щоб врегулювати скаргу FTC, де батьків затягували в оплату підписок, які вони не могли скасувати. Це ілюструє темні патерни в архітектурі вибору, де користувачів підштовхували до потенційно шкідливих опцій.
Конфіденційність даних і права користувачів	2021 — злом Facebook викрив дані 530 млн користувачів, що призвело до угоди на $5 млрд з FTC. Однак Facebook відмовилася повідомляти користувачів про злом, порушуючи їхні права на прозорість даних і доступ.

Бажаєте дослідити ще кейс-стаді? Перегляньте ці ресурси:

Ethics Unwrapped — етичні дилеми в різних галузях.
Курс Етики науки про дані — вивчення ключових кейсів.
Де все пішло не так — чеклист deon з прикладами.

🚨 Подумайте про кейс-стаді, які ви бачили — чи стикалися ви самі або на вас вплинула схожа етична проблема? Чи можете назвати хоча б один інший кейс, який ілюструє один із етичних викликів, про які ми говорили в цьому розділі?

Прикладна етика

Ми поговорили про етичні концепції, виклики та кейс-стаді у реальному світі. Але як нам почати застосовувати етичні принципи у проектах? І як впроваджувати ці практики для кращого управління? Розглянемо реальні рішення:

1. Професійні кодекси

Професійні кодекси пропонують один із варіантів для організацій «стимулювати» членів підтримувати їхні етичні принципи та місію. Кодекси — це моральні настанови для професійної поведінки, які допомагають працівникам чи членам приймати рішення, що відповідають принципам їхньої організації. Вони ефективні лише за добровільного дотримання членами, проте багато організацій пропонують додаткові винагороди та покарання для мотивації дотримання.

Приклади:

Oxford Munich Кодекс етики
Data Science Association Кодекс поведінки (створений 2013)
ACM Code of Ethics and Professional Conduct (з 1993)

🚨 Чи належите ви до професійної організації інженерів або науковців у галузі даних? Ознайомтеся з їхнім сайтом, щоб дізнатися, чи визначено у них професійний кодекс етики. Що він каже про їхні етичні принципи? Як вони «стимулюють» членів дотримуватися кодексу?

2. Чеклисти з етики

Хоча професійні кодекси визначають необхідну етичну поведінку практиків, вони мають відомі обмеження у застосуванні, особливо у великих проектах. Натомість багато експертів із Data Science підтримують використання чеклистів, які можуть зв’язувати принципи з практиками більш однозначно та дієво.

Чеклисти переводять питання у завдання з відповіддю "так/ні", які можна впроваджувати, відстежувати як частину стандартного робочого процесу випуску продукту.

Приклади:

Deon — універсальний етичний чеклист для даних, створений на основі галузевих рекомендацій з інструментом командного рядка для легкої інтеграції.
Privacy Audit Checklist — загальні рекомендації щодо обробки інформації з юридичної і соціальної точки зору.
AI Fairness Checklist — створений практиками ШІ для підтримки впровадження перевірки справедливості у циклах розробки ШІ.
22 питання для етики в даних і ШІ — більш відкритий фреймворк, структурований для початкового дослідження етичних питань у дизайні, реалізації та організаційних контекстах.

3. Регулювання етики

Етика — це про визначення спільних цінностей і добровільне роблення правильних речей. Відповідність нормам (compliance) — це про дотримання закону, якщо та де він визначений. Управління (governance) охоплює всі способи, якими організації діють для впровадження етичних принципів і дотримання встановлених законів.

Сьогодні управління має дві форми в організаціях. По-перше, це визначення принципів етичного ШІ та встановлення практик для впровадження їх у всіх проектах, пов’язаних із ШІ, в організації. По-друге, дотримання всіх урядових регламентів захисту даних для регіонів, де організація працює.

Приклади регламентів захисту даних і конфіденційності:

1974, Закон США про конфіденційність — регулює збір, використання і розголошення персональної інформації федеральним урядом.
1996, Закон США про портативність та підзвітність медичного страхування (HIPAA) — захищає персональні медичні дані.
1998, Закон США про захист конфіденційності дітей в Інтернеті (COPPA) — захищає конфіденційність дітей до 13 років.
2018, Загальний регламент захисту даних (GDPR) — надає права користувачам, захист і конфіденційність даних.
2018, Каліфорнійський закон про захист особистих даних споживачів (CCPA) дає споживачам більше прав над їхніми (персональними) даними.
2021, Китайський Закон про захист персональної інформації був нещодавно ухвалений, створюючи один із найсуворіших у світі регламентів захисту приватності онлайн-даних.

🚨 Європейський Союз визначив GDPR (Загальний регламент захисту даних), який залишається одним із найвпливовіших законів про конфіденційність. Чи знали ви, що він також визначає 8 прав користувачів для захисту цифрової приватності та персональних даних громадян? Дізнайтесь, які це права і чому вони важливі.

4. Культура етики

Зверніть увагу, що залишається невловима різниця між відповідністю (робити достатньо, щоб відповідати «букві закону») та подоланням системних проблем (як от окостеніння, інформаційна асиметрія та розподільча несправедливість), які можуть сприяти озброєнню ШІ.

Останнє вимагає співпраці в створенні етичних культур, які будують емоційні зв’язки та послідовні спільні цінності по всьому індустріальному ланцюжку. Це вимагає більш формалізованих культур даних і етики в організаціях — дозволяючи будь-кому потягнути мотузку Andon (щоб рано подати сигнал про етичні занепокоєння в процесі) та роблячи етичні оцінки (наприклад, під час найму) ключовим критерієм формування команд у проектах ШІ.

Післялекційний тест 🎯

Огляд та самостійне вивчення

Курси та книги допомагають зрозуміти основні концепції та виклики етики, а кейс-стаді та інструменти — практичне застосування у реальному світі. Ось кілька ресурсів для початку.

Machine Learning For Beginners — урок про справедливість від Microsoft.
Принципи відповідального ШІ - безкоштовний навчальний курс від Microsoft Learn.
Етика та наука про дані - електронна книга O'Reilly (М. Лоудіс, Х. Мейсон та ін.)
Етика в науці про дані - онлайн-курс від Університету Мічигану.
Ethics Unwrapped - кейс-стаді від Університету Техасу.

Завдання

Напишіть кейс-стаді з етики даних

Відмова від відповідальності: Цей документ було перекладено за допомогою сервісу штучного інтелекту для перекладу Co-op Translator. Хоча ми прагнемо до точності, будь ласка, майте на увазі, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ рідною мовою слід вважати авторитетним джерелом. Для критично важливої інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу.

README.md Unescape Escape

Вступ до етики даних

Попередній тест перед лекцією 🎯

Основні визначення

Концепції етики

1. Принципи етики

2. Виклики етики

2.1 Власність даних

2.2 Інформована згода

2.3 Інтелектуальна власність

2.4 Конфіденційність даних

2.5 Право бути забутим

2.6 Упередженість набору даних

2.7 Якість даних

2.8 Справедливість алгоритмів

2.9 Неправильне подання даних

2.10 Ілюзія вільного вибору

3. Кейс-стаді

Прикладна етика

1. Професійні кодекси

2. Чеклисти з етики

3. Регулювання етики

4. Культура етики

Післялекційний тест 🎯

Огляд та самостійне вивчення

Завдання

README.md

Unescape Escape