History

leestott a12f5d4c2d 🌐 Update translations via Co-op Translator		7 months ago
..
README.md	🌐 Update translations via Co-op Translator	7 months ago
assignment.md	🌐 Update translations via Co-op Translator	8 months ago

README.md

Unescape Escape

Введение в этику данных


Этика данных - Скетчноут от @nitya

Мы все являемся гражданами мира данных, живущими в эпоху цифровизации.

Рыночные тенденции показывают, что к 2022 году каждая третья крупная организация будет покупать и продавать свои данные через онлайн-рынки и биржи. Как разработчики приложений, мы сможем легче и дешевле интегрировать аналитические данные и автоматизацию, основанную на алгоритмах, в повседневный пользовательский опыт. Но с распространением ИИ нам также нужно понимать потенциальные вреды, которые могут быть вызваны использованием алгоритмов в качестве оружия в масштабах.

Тенденции показывают, что к 2025 году мы будем генерировать и потреблять более 180 зеттабайт данных. Для ученых данных этот взрыв информации предоставляет беспрецедентный доступ к персональным и поведенческим данным. Это дает возможность создавать детализированные профили пользователей и тонко влиять на принятие решений — часто так, что создается иллюзия свободного выбора. Хотя это может быть использовано для того, чтобы направлять пользователей к предпочтительным результатам, это также вызывает важные вопросы о конфиденциальности данных, автономии и этических границах влияния алгоритмов.

Этика данных становится необходимыми ограничителями для науки о данных и инженерии, помогая минимизировать потенциальные вреды и непреднамеренные последствия наших действий, основанных на данных. Цикл ожиданий Gartner для ИИ выделяет важные тенденции в области цифровой этики, ответственного ИИ и управления ИИ как ключевые драйверы более крупных мегатрендов, связанных с демократизацией и индустриализацией ИИ.

В этом уроке мы изучим увлекательную область этики данных — от основных концепций и вызовов до примеров из практики и прикладных концепций ИИ, таких как управление, которые помогают создавать культуру этики в командах и организациях, работающих с данными и ИИ.

Тест перед лекцией 🎯

Основные определения

Начнем с понимания базовой терминологии.

Слово "этика" происходит от греческого слова "ethikos" (и его корня "ethos"), означающего характер или моральная природа.

Этика — это совокупность общих ценностей и моральных принципов, которые регулируют наше поведение в обществе. Этика основывается не на законах, а на широко принятых нормах того, что считается "правильным или неправильным". Однако этические соображения могут влиять на инициативы корпоративного управления и государственные регуляции, создавая больше стимулов для соблюдения.

Этика данных — это новая ветвь этики, которая "изучает и оценивает моральные проблемы, связанные с данными, алгоритмами и соответствующими практиками". Здесь "данные" сосредоточены на действиях, связанных с генерацией, записью, обработкой, распространением, обменом и использованием; "алгоритмы" — на ИИ, агентах, машинном обучении и роботах; а "практики" — на таких темах, как ответственное инновации, программирование, хакерство и кодексы этики.

Прикладная этика — это практическое применение моральных соображений. Это процесс активного изучения этических вопросов в контексте реальных действий, продуктов и процессов и принятия корректирующих мер, чтобы они оставались в соответствии с нашими определенными этическими ценностями.

Культура этики — это операционализация прикладной этики, чтобы гарантировать, что наши этические принципы и практики принимаются последовательно и масштабируемо во всей организации. Успешные культуры этики определяют этические принципы на уровне всей организации, предоставляют значимые стимулы для соблюдения и укрепляют нормы этики, поощряя и усиливая желаемое поведение на каждом уровне организации.

Концепции этики

В этом разделе мы обсудим такие концепции, как общие ценности (принципы) и этические вызовы (проблемы) для этики данных, а также изучим примеры из практики, которые помогут вам понять эти концепции в реальных контекстах.

1. Принципы этики

Любая стратегия этики данных начинается с определения этических принципов — "общих ценностей", которые описывают приемлемое поведение и направляют действия, соответствующие требованиям, в наших проектах, связанных с данными и ИИ. Вы можете определить их на индивидуальном или командном уровне. Однако большинство крупных организаций формулируют их в виде миссии или рамочной программы этического ИИ, которая определяется на корпоративном уровне и последовательно применяется ко всем командам.

Пример: Миссия Ответственного ИИ Microsoft гласит: "Мы стремимся к развитию ИИ, основанного на этических принципах, которые ставят людей на первое место" — определяя 6 этических принципов в рамочной программе ниже:

Давайте кратко рассмотрим эти принципы. Прозрачность и ответственность являются основополагающими ценностями, на которых строятся остальные принципы — начнем с них:

Ответственность делает практиков ответственными за их действия, связанные с данными и ИИ, и за соблюдение этих этических принципов.
Прозрачность гарантирует, что действия, связанные с данными и ИИ, понятны пользователям, объясняя, что и почему было решено.
Справедливость — сосредоточена на обеспечении того, чтобы ИИ относился ко всем людям справедливо, устраняя любые системные или скрытые социально-технические предвзятости в данных и системах.
Надежность и безопасность — гарантирует, что ИИ ведет себя последовательно с определенными ценностями, минимизируя потенциальные вреды или непреднамеренные последствия.
Конфиденциальность и безопасность — касается понимания происхождения данных и предоставления защиты конфиденциальности данных пользователям.
Инклюзивность — касается разработки решений ИИ с намерением адаптировать их для удовлетворения широкого спектра человеческих потребностей и возможностей.

🚨 Подумайте, какой могла бы быть ваша миссия в области этики данных. Изучите рамочные программы этического ИИ других организаций — вот примеры от IBM, Google и Facebook. Какие общие ценности у них есть? Как эти принципы связаны с продуктами ИИ или отраслью, в которой они работают?

2. Этические вызовы

После того как мы определили этические принципы, следующим шагом является оценка наших действий, связанных с данными и ИИ, чтобы убедиться, что они соответствуют этим общим ценностям. Подумайте о своих действиях в двух категориях: сбор данных и разработка алгоритмов.

При сборе данных действия, скорее всего, будут связаны с персональными данными или персонально идентифицируемой информацией (PII) для идентифицируемых живых лиц. Это включает разнообразные элементы неперсональных данных, которые в совокупности идентифицируют человека. Этические вызовы могут быть связаны с конфиденциальностью данных, правами собственности на данные и такими темами, как осознанное согласие и права интеллектуальной собственности пользователей.

При разработке алгоритмов действия будут включать сбор и обработку наборов данных, а затем их использование для обучения и развертывания моделей данных, которые предсказывают результаты или автоматизируют решения в реальных контекстах. Этические вызовы могут возникать из-за предвзятости наборов данных, проблем качества данных, несправедливости и искажений в алгоритмах — включая некоторые системные проблемы.

В обоих случаях этические вызовы подчеркивают области, где наши действия могут вступать в конфликт с нашими общими ценностями. Чтобы обнаружить, смягчить, минимизировать или устранить эти проблемы, нам нужно задавать моральные вопросы "да/нет" относительно наших действий, а затем принимать корректирующие меры по мере необходимости. Давайте рассмотрим некоторые этические вызовы и моральные вопросы, которые они поднимают:

2.1 Право собственности на данные

Сбор данных часто включает персональные данные, которые могут идентифицировать субъектов данных. Право собственности на данные касается контроля и прав пользователей, связанных с созданием, обработкой и распространением данных.

Моральные вопросы, которые нужно задать:

Кто владеет данными? (пользователь или организация)
Какие права есть у субъектов данных? (например, доступ, удаление, переносимость)
Какие права есть у организаций? (например, исправление вредоносных отзывов пользователей)

2.2 Осознанное согласие

Осознанное согласие определяет акт согласия пользователей на действие (например, сбор данных) с полным пониманием соответствующих фактов, включая цель, потенциальные риски и альтернативы.

Вопросы для изучения:

Дал ли пользователь (субъект данных) разрешение на сбор и использование данных?
Понял ли пользователь цель, для которой были собраны данные?
Понял ли пользователь потенциальные риски от своего участия?

2.3 Интеллектуальная собственность

Интеллектуальная собственность относится к нематериальным творениям, возникающим в результате человеческой инициативы, которые могут иметь экономическую ценность для отдельных лиц или бизнеса.

Вопросы для изучения:

Имеют ли собранные данные экономическую ценность для пользователя или бизнеса?
Есть ли у пользователя интеллектуальная собственность здесь?
Есть ли у организации интеллектуальная собственность здесь?
Если эти права существуют, как мы их защищаем?

2.4 Конфиденциальность данных

Конфиденциальность данных или информационная конфиденциальность относится к сохранению конфиденциальности пользователей и защите их идентичности в отношении персонально идентифицируемой информации.

Вопросы для изучения:

Защищены ли персональные данные пользователей от взломов и утечек?
Доступны ли данные пользователей только авторизованным пользователям и в соответствующих контекстах?
Сохраняется ли анонимность пользователей при обмене или распространении данных?
Можно ли деидентифицировать пользователя из анонимных наборов данных?

2.5 Право быть забытым

Право быть забытым или право на удаление предоставляет пользователям дополнительную защиту персональных данных. В частности, оно дает пользователям право запрашивать удаление или удаление персональных данных из интернет-поисков и других мест, при определенных обстоятельствах, позволяя им начать заново онлайн без учета прошлых действий.

Вопросы для изучения:

Позволяет ли система субъектам данных запрашивать удаление?
Должно ли отозвание согласия пользователя автоматически инициировать удаление?
Были ли данные собраны без согласия или незаконными средствами?
Соответствуем ли мы государственным регуляциям по конфиденциальности данных?

2.6 Предвзятость наборов данных

Предвзятость наборов данных или предвзятость сбора касается выбора непредставительного подмножества данных для разработки алгоритмов, создавая потенциальную несправедливость в результатах для различных групп. Типы предвзятости включают предвзятость выбора или выборки, предвзятость добровольцев и предвзятость инструментов.

Вопросы для изучения:

Привлекли ли мы представительный набор субъектов данных?
Проверили ли мы собранный или обработанный набор данных на наличие различных предвзятостей?
Можем ли мы смягчить или устранить обнаруженные предвзятости?

2.7 Качество данных

Качество данных оценивает достоверность обработанного набора данных, используемого для разработки наших алгоритмов, проверяя, соответствуют ли признаки и записи требованиям к уровню точности и согласованности, необходимым для нашей цели ИИ.

Вопросы для изучения:

Захватили ли мы достоверные признаки для нашего случая использования?
Были ли данные захвачены последовательно из различных источников данных?
Полон ли набор данных для различных условий или сценариев?
Отражает ли информация точно реальность?

2.8 Справедливость алгоритмов

Справедливость алгоритмов проверяет, не дискриминирует ли дизайн алгоритма систематически определенные подгруппы субъектов данных, что может привести к потенциальным вредам в распределении (когда ресурсы отказываются или удерживаются от этой группы) и качестве обслуживания (когда ИИ менее точен для некоторых подгрупп, чем для других).

Вопросы для изучения:

Оценивали ли мы точность модели для различных подгрупп и условий?
Проверяли ли мы систему на предмет потенциальных вредов (например, стереотипов)?
Можем ли мы пересмотреть данные или переобучить модели, чтобы уменьшить выявленные вреды?

Изучите ресурсы, такие как контрольные списки справедливости ИИ, чтобы узнать больше.

2.9 Искажение данных

Искажение данных касается вопроса, передаем ли мы инсайты из честно представленных данных обманным образом, чтобы поддержать желаемый нарратив.

Вопросы для изучения:

Сообщаем ли мы неполные или неточные данные?
Визуализируем ли мы данные таким образом, чтобы приводить к вводящим в заблуждение выводам?
Используем ли мы избирательные статистические методы для манипуляции результатами?
Существуют ли альтернативные объяснения, которые могут предложить другой вывод?

2.10 Свобода выбора

Иллюзия свободы выбора возникает, когда "архитектуры выбора" системы используют алгоритмы принятия решений, чтобы подтолкнуть людей к предпочтительному результату, создавая видимость наличия опций и контроля. Эти темные паттерны могут причинять социальный и экономический вред пользователям. Поскольку решения пользователей влияют на профили поведения, эти действия потенциально формируют будущие выборы, которые могут усилить или расширить воздействие этих вредов.

Вопросы для изучения:

Понимал ли пользователь последствия принятия этого выбора?
Был ли пользователь осведомлен о (альтернативных) вариантах и их плюсах и минусах?
Может ли пользователь отменить автоматизированный или навязанный выбор позже?

3. Примеры из практики

Чтобы рассмотреть этические вызовы в реальных контекстах, полезно изучить примеры из практики, которые подчеркивают потенциальные вреды и последствия для отдельных людей и общества, если такие нарушения этики игнорируются.

Вот несколько примеров:

Этический вызов	Пример из практики
Осознанное согласие	1972 - Исследование сифилиса в Таскиги - афроамериканским мужчинам, участвовавшим в исследовании, обещали бесплатное медицинское обслуживание, но обманули, не сообщив им диагноз или информацию о доступности лечения. Многие участники умерли, их партнеры и дети пострадали; исследование длилось 40 лет.
Конфиденциальность данных	2007 - Приз Netflix предоставил исследователям 10 миллионов анонимных оценок фильмов от 50 тысяч клиентов, чтобы улучшить алгоритмы рекомендаций. Однако исследователи смогли сопоставить анонимные данные с персонально идентифицируемыми данными из внешних наборов данных (например, комментарии IMDb), фактически "деанонимизировав" некоторых подписчиков Netflix.
Смещение в сборе данных	2013 - Город Бостон разработал Street Bump, приложение, позволяющее гражданам сообщать о выбоинах, предоставляя городу лучшие данные о дорогах для выявления и устранения проблем. Однако люди с низким доходом имели меньший доступ к автомобилям и телефонам, что делало их дорожные проблемы невидимыми для этого приложения. Разработчики сотрудничали с учеными для решения вопросов равного доступа и цифрового разрыва ради справедливости.
Справедливость алгоритмов	2018 - Исследование MIT Gender Shades оценило точность продуктов ИИ для классификации пола, выявив пробелы в точности для женщин и людей с цветной кожей. Карта Apple 2019 года, казалось, предлагала меньший кредит женщинам, чем мужчинам. Оба случая иллюстрируют проблемы алгоритмического смещения, приводящие к социально-экономическим вредам.
Искажение данных	2020 - Департамент здравоохранения Джорджии выпустил графики COVID-19, которые, казалось, вводили граждан в заблуждение относительно тенденций подтвержденных случаев с не хронологическим порядком на оси x. Это иллюстрирует искажение через визуализационные трюки.
Иллюзия свободы выбора	2020 - Образовательное приложение ABCmouse выплатило $10 млн для урегулирования жалобы FTC, где родители были вынуждены платить за подписки, которые они не могли отменить. Это иллюстрирует темные паттерны в архитектурах выбора, где пользователи были подтолкнуты к потенциально вредным решениям.
Конфиденциальность данных и права пользователей	2021 - Утечка данных Facebook раскрыла данные 530 миллионов пользователей, что привело к штрафу в $5 млрд от FTC. Однако компания отказалась уведомить пользователей о нарушении, нарушив их права на прозрачность данных и доступ.

Хотите изучить больше примеров из практики? Ознакомьтесь с этими ресурсами:

Ethics Unwrapped - этические дилеммы в различных отраслях.
Курс по этике в Data Science - изучение знаковых примеров из практики.
Где все пошло не так - контрольный список Deon с примерами.

🚨 Подумайте о примерах из практики, которые вы видели — сталкивались ли вы или были затронуты подобным этическим вызовом в своей жизни? Можете ли вы вспомнить хотя бы один другой пример, который иллюстрирует один из этических вызовов, обсуждаемых в этом разделе?

Прикладная этика

Мы обсудили концепции этики, вызовы и примеры из практики в реальных контекстах. Но как начать применять этические принципы и практики в наших проектах? И как операционализировать эти практики для лучшего управления? Давайте изучим некоторые реальные решения:

1. Профессиональные кодексы

Профессиональные кодексы предлагают один из вариантов для организаций "мотивировать" членов поддерживать их этические принципы и миссию. Кодексы — это моральные ориентиры для профессионального поведения, помогающие сотрудникам или членам принимать решения, соответствующие принципам их организации. Они эффективны только при добровольном соблюдении со стороны членов; однако многие организации предлагают дополнительные награды и штрафы для мотивации соблюдения.

Примеры включают:

Oxford Munich Кодекс этики
Data Science Association Кодекс поведения (создан в 2013 году)
ACM Code of Ethics and Professional Conduct (с 1993 года)

🚨 Вы являетесь членом профессиональной инженерной или научной организации? Изучите их сайт, чтобы узнать, определяют ли они профессиональный кодекс этики. Что это говорит об их этических принципах? Как они "мотивируют" членов следовать кодексу?

2. Контрольные списки этики

Хотя профессиональные кодексы определяют требуемое этическое поведение от практиков, они имеют известные ограничения в применении, особенно в крупных проектах. Вместо этого многие эксперты в области Data Science рекомендуют контрольные списки, которые могут связать принципы с практиками более детерминированным и действенным образом.

Контрольные списки превращают вопросы в задачи "да/нет", которые можно операционализировать, позволяя отслеживать их как часть стандартных рабочих процессов выпуска продукта.

Примеры включают:

Deon - универсальный контрольный список этики данных, созданный на основе рекомендаций отрасли с инструментом командной строки для легкой интеграции.
Контрольный список аудита конфиденциальности - предоставляет общие рекомендации по практике обработки информации с точки зрения юридической и социальной экспозиции.
Контрольный список справедливости ИИ - созданный практиками ИИ для поддержки внедрения и интеграции проверок справедливости в циклы разработки ИИ.
22 вопроса для этики в данных и ИИ - более открытая структура, предназначенная для начального изучения этических вопросов в дизайне, реализации и организационных контекстах.

3. Регулирование этики

Этика касается определения общих ценностей и добровольного выполнения правильных действий. Соблюдение касается следования закону, если он определен. Управление охватывает все способы, которыми организации работают для обеспечения соблюдения этических принципов и выполнения установленных законов.

Сегодня управление принимает две формы в рамках организаций. Во-первых, это определение принципов этического ИИ и установление практик для операционализации их внедрения во всех проектах, связанных с ИИ, в организации. Во-вторых, это соблюдение всех установленных правительством регламентов защиты данных для регионов, в которых она работает.

Примеры регламентов защиты данных и конфиденциальности:

1974, Закон о конфиденциальности США - регулирует сбор, использование и раскрытие личной информации федеральным правительством.
1996, Закон США о переносимости и подотчетности медицинского страхования (HIPAA) - защищает персональные медицинские данные.
1998, Закон США о защите конфиденциальности детей в Интернете (COPPA) - защищает конфиденциальность данных детей младше 13 лет.
2018, Общий регламент защиты данных (GDPR) - предоставляет права пользователей, защиту данных и конфиденциальность.
2018, Закон о конфиденциальности потребителей Калифорнии (CCPA) предоставляет потребителям больше прав на их (персональные) данные.
2021, Китайский Закон о защите персональной информации недавно принят, создавая один из самых строгих онлайн-регламентов конфиденциальности данных в мире.

🚨 Европейский Союз определил GDPR (Общий регламент защиты данных), который остается одним из самых влиятельных регламентов конфиденциальности данных сегодня. Знаете ли вы, что он также определяет 8 прав пользователей для защиты цифровой конфиденциальности и персональных данных граждан? Узнайте, что это за права и почему они важны.

4. Культура этики

Обратите внимание, что существует нематериальный разрыв между соблюдением (выполнение достаточного для соответствия "букве закона") и решением системных проблем (таких как окаменелость, асимметрия информации и несправедливость распределения), которые могут ускорить использование ИИ в вредных целях.

Последнее требует коллаборативных подходов к определению культур этики, которые строят эмоциональные связи и последовательные общие ценности в организациях отрасли. Это требует более формализованных культур этики данных в организациях — позволяя любому потянуть шнур Андон (чтобы поднять этические вопросы на ранних этапах процесса) и делая этические оценки (например, при найме) ключевым критерием формирования команды в проектах ИИ.

Тест после лекции 🎯

Обзор и самостоятельное изучение

Курсы и книги помогают понять основные концепции и вызовы этики, а примеры из практики и инструменты помогают применять этические практики в реальных контекстах. Вот несколько ресурсов для начала.

Machine Learning For Beginners - урок о справедливости от Microsoft.
Принципы ответственного ИИ - бесплатный учебный курс от Microsoft Learn.
Этика и наука о данных - электронная книга от O'Reilly (М. Лукидес, Х. Мейсон и др.)
Этика науки о данных - онлайн-курс от Университета Мичигана.
Этика в деталях - примеры из Университета Техаса.

Задание

Напишите кейс по этике данных

Отказ от ответственности:
Этот документ был переведен с помощью сервиса автоматического перевода Co-op Translator. Несмотря на наши усилия обеспечить точность, автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его родном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные интерпретации, возникшие в результате использования данного перевода.

README.md Unescape Escape

Введение в этику данных

Тест перед лекцией 🎯

Основные определения

Концепции этики

1. Принципы этики

2. Этические вызовы

2.1 Право собственности на данные

2.2 Осознанное согласие

2.3 Интеллектуальная собственность

2.4 Конфиденциальность данных

2.5 Право быть забытым

2.6 Предвзятость наборов данных

2.7 Качество данных

2.8 Справедливость алгоритмов

2.9 Искажение данных

2.10 Свобода выбора

3. Примеры из практики

Прикладная этика

1. Профессиональные кодексы

2. Контрольные списки этики

3. Регулирование этики

4. Культура этики

Тест после лекции 🎯

Обзор и самостоятельное изучение

Задание

README.md

Unescape Escape