|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 3 weeks ago |
README.md
Введение в этику данных
![]() |
---|
Этика науки о данных - Скетчноут от @nitya |
Мы все являемся гражданами мира данных, живущими в эпоху цифровизации.
Рыночные тренды показывают, что к 2022 году каждая третья крупная организация будет покупать и продавать свои данные через онлайн-площадки и биржи. Как разработчики приложений, мы обнаружим, что интеграция аналитики, основанной на данных, и автоматизации, управляемой алгоритмами, в повседневный пользовательский опыт станет проще и дешевле. Однако с распространением ИИ нам также придется понимать потенциальный вред, который может быть вызван использованием алгоритмов в качестве оружия в масштабах.
Тренды также указывают на то, что к 2025 году мы будем создавать и потреблять более 180 зеттабайт данных. Как ученые данных, мы получаем беспрецедентный доступ к персональным данным. Это позволяет нам строить поведенческие профили пользователей и влиять на принятие решений таким образом, чтобы создавать иллюзию свободного выбора, при этом потенциально подталкивая пользователей к предпочтительным для нас результатам. Это также поднимает более широкие вопросы о конфиденциальности данных и защите пользователей.
Этика данных становится необходимыми ограничителями для науки о данных и инженерии, помогая минимизировать потенциальный вред и непредвиденные последствия наших действий, основанных на данных. Цикл ажиотажа Gartner для ИИ выделяет актуальные тренды в области цифровой этики, ответственного ИИ и управления ИИ как ключевые драйверы более крупных мегатрендов, связанных с демократизацией и индустриализацией ИИ.
В этом уроке мы изучим увлекательную область этики данных - от основных концепций и вызовов до примеров из практики и прикладных концепций ИИ, таких как управление, которые помогают создавать культуру этики в командах и организациях, работающих с данными и ИИ.
Тест перед лекцией 🎯
Основные определения
Начнем с понимания базовой терминологии.
Слово "этика" происходит от греческого слова "ethikos" (и его корня "ethos"), что означает характер или моральная природа.
Этика касается общих ценностей и моральных принципов, которые регулируют наше поведение в обществе. Этика основывается не на законах, а на широко принятых нормах того, что является "правильным или неправильным". Однако этические соображения могут влиять на корпоративное управление и государственное регулирование, создавая больше стимулов для соблюдения норм.
Этика данных - это новая ветвь этики, которая "изучает и оценивает моральные проблемы, связанные с данными, алгоритмами и соответствующими практиками". Здесь "данные" сосредоточены на действиях, связанных с генерацией, записью, обработкой, распространением, обменом и использованием данных, "алгоритмы" - на ИИ, агентах, машинном обучении и роботах, а "практики" - на таких темах, как ответственное новаторство, программирование, хакерство и кодексы этики.
Прикладная этика - это практическое применение моральных соображений. Это процесс активного изучения этических вопросов в контексте реальных действий, продуктов и процессов и принятия корректирующих мер, чтобы они оставались в соответствии с нашими определенными этическими ценностями.
Культура этики касается операционализации прикладной этики, чтобы гарантировать, что наши этические принципы и практики применяются последовательно и масштабируемо по всей организации. Успешные культуры этики определяют этические принципы на уровне всей организации, предоставляют значимые стимулы для соблюдения норм и укрепляют этические нормы, поощряя и усиливая желаемое поведение на каждом уровне организации.
Концепции этики
В этом разделе мы обсудим такие концепции, как общие ценности (принципы) и этические вызовы (проблемы) для этики данных, а также изучим примеры из практики, которые помогут вам понять эти концепции в реальных контекстах.
1. Принципы этики
Любая стратегия этики данных начинается с определения этических принципов - "общих ценностей", которые описывают допустимое поведение и направляют действия, соответствующие нормам, в наших проектах, связанных с данными и ИИ. Вы можете определить их на индивидуальном или командном уровне. Однако большинство крупных организаций формулируют их в виде миссии или рамочной программы этического ИИ, которая определяется на корпоративном уровне и последовательно применяется ко всем командам.
Пример: Миссия Microsoft по ответственному ИИ гласит: "Мы стремимся к развитию ИИ, основанного на этических принципах, которые ставят людей на первое место" - определяя 6 этических принципов в следующей рамке:
Давайте кратко рассмотрим эти принципы. Прозрачность и ответственность являются основополагающими ценностями, на которых строятся остальные принципы, поэтому начнем с них:
- Ответственность делает практиков ответственными за их действия с данными и ИИ, а также за соблюдение этих этических принципов.
- Прозрачность гарантирует, что действия с данными и ИИ понятны пользователям, объясняя, что и почему было сделано.
- Справедливость - фокусируется на том, чтобы ИИ относился ко всем людям справедливо, устраняя любые системные или скрытые социально-технические предвзятости в данных и системах.
- Надежность и безопасность - гарантирует, что ИИ действует последовательно в соответствии с определенными ценностями, минимизируя потенциальный вред или непредвиденные последствия.
- Конфиденциальность и безопасность - касается понимания происхождения данных и предоставления защиты конфиденциальности данных пользователям.
- Инклюзивность - касается проектирования решений ИИ с учетом широкого спектра человеческих потребностей и возможностей.
🚨 Подумайте, какой могла бы быть ваша миссия в области этики данных. Изучите рамки этического ИИ других организаций - вот примеры от IBM, Google и Facebook. Какие общие ценности у них есть? Как эти принципы соотносятся с продуктами ИИ или отраслью, в которой они работают?
2. Этические вызовы
После определения этических принципов следующий шаг - оценить наши действия с данными и ИИ, чтобы убедиться, что они соответствуют этим общим ценностям. Подумайте о своих действиях в двух категориях: сбор данных и разработка алгоритмов.
При сборе данных действия, скорее всего, будут включать персональные данные или персонально идентифицируемую информацию (PII) для идентифицируемых живых лиц. Это включает разнообразные элементы неперсональных данных, которые в совокупности идентифицируют человека. Этические вызовы могут быть связаны с конфиденциальностью данных, правами собственности на данные и такими темами, как информированное согласие и права интеллектуальной собственности пользователей.
При разработке алгоритмов действия будут включать сбор и курирование наборов данных, а затем их использование для обучения и развертывания моделей данных, которые предсказывают результаты или автоматизируют решения в реальных контекстах. Этические вызовы могут возникать из-за предвзятости наборов данных, проблем с качеством данных, несправедливости и искажений в алгоритмах, включая некоторые системные проблемы.
В обоих случаях этические вызовы подчеркивают области, где наши действия могут вступать в конфликт с нашими общими ценностями. Чтобы выявить, смягчить, минимизировать или устранить эти проблемы, нам нужно задавать моральные вопросы "да/нет", связанные с нашими действиями, а затем принимать корректирующие меры по мере необходимости. Давайте рассмотрим некоторые этические вызовы и моральные вопросы, которые они поднимают:
2.1 Право собственности на данные
Сбор данных часто включает персональные данные, которые могут идентифицировать субъектов данных. Право собственности на данные касается контроля и прав пользователей, связанных с созданием, обработкой и распространением данных.
Моральные вопросы, которые нужно задать:
- Кому принадлежат данные? (пользователю или организации)
- Какие права есть у субъектов данных? (например, доступ, удаление, переносимость)
- Какие права есть у организаций? (например, исправление злонамеренных отзывов пользователей)
2.2 Информированное согласие
Информированное согласие определяет акт согласия пользователей на действие (например, сбор данных) с полным пониманием соответствующих фактов, включая цель, потенциальные риски и альтернативы.
Вопросы для изучения:
- Дал ли пользователь (субъект данных) разрешение на сбор и использование данных?
- Понял ли пользователь цель, для которой были собраны данные?
- Понял ли пользователь потенциальные риски своего участия?
2.3 Интеллектуальная собственность
Интеллектуальная собственность относится к нематериальным результатам человеческой инициативы, которые могут иметь экономическую ценность для отдельных лиц или бизнеса.
Вопросы для изучения:
- Имеют ли собранные данные экономическую ценность для пользователя или бизнеса?
- Есть ли у пользователя права интеллектуальной собственности?
- Есть ли у организации права интеллектуальной собственности?
- Если такие права существуют, как мы их защищаем?
2.4 Конфиденциальность данных
Конфиденциальность данных или информационная конфиденциальность касается сохранения конфиденциальности пользователей и защиты их идентичности в отношении персонально идентифицируемой информации.
Вопросы для изучения:
- Защищены ли данные пользователей от взломов и утечек?
- Доступны ли данные пользователей только авторизованным лицам и в соответствующих контекстах?
- Сохраняется ли анонимность пользователей при обмене или распространении данных?
- Можно ли деидентифицировать пользователя из анонимизированных наборов данных?
2.5 Право быть забытым
Право быть забытым или право на удаление предоставляет пользователям дополнительную защиту персональных данных. Оно позволяет пользователям запрашивать удаление или удаление персональных данных из интернет-поисков и других мест, при определенных обстоятельствах, давая им возможность начать заново без учета прошлых действий.
Вопросы для изучения:
- Позволяет ли система субъектам данных запрашивать удаление данных?
- Должно ли отозвание согласия пользователя автоматически приводить к удалению данных?
- Были ли данные собраны без согласия или незаконным способом?
- Соответствуем ли мы государственным нормам по защите данных?
2.6 Предвзятость наборов данных
Предвзятость наборов данных или предвзятость при сборе данных касается выбора нерепрезентативного подмножества данных для разработки алгоритмов, что может привести к несправедливым результатам для различных групп. Типы предвзятости включают предвзятость при отборе, предвзятость добровольцев и инструментальную предвзятость.
Вопросы для изучения:
- Привлекли ли мы репрезентативный набор субъектов данных?
- Проверили ли мы наш собранный или курированный набор данных на наличие различных предвзятостей?
- Можем ли мы смягчить или устранить обнаруженные предвзятости?
2.7 Качество данных
Качество данных оценивает достоверность курированного набора данных, используемого для разработки наших алгоритмов, проверяя, соответствуют ли признаки и записи требованиям к уровню точности и согласованности, необходимым для нашей цели ИИ.
Вопросы для изучения:
- Захватили ли мы действительные признаки для нашего случая использования?
- Были ли данные захвачены последовательно из различных источников данных?
- Полон ли набор данных для различных условий или сценариев?
- Точно ли информация отражает реальность? Algorithm Fairness проверяет, не приводит ли дизайн алгоритма к систематической дискриминации определенных подгрупп субъектов данных, что может вызывать потенциальный вред в распределении (когда ресурсы отказываются или удерживаются от этой группы) и качестве обслуживания (когда ИИ менее точен для некоторых подгрупп по сравнению с другими).
Вопросы для изучения:
- Оценивали ли мы точность модели для различных подгрупп и условий?
- Анализировали ли мы систему на предмет потенциального вреда (например, стереотипов)?
- Можем ли мы пересмотреть данные или переобучить модели, чтобы уменьшить выявленный вред?
Изучите ресурсы, такие как AI Fairness checklists, чтобы узнать больше.
2.9 Искажение данных
Искажение данных касается вопроса, не передаем ли мы инсайты из честно представленных данных обманным образом для поддержки желаемого нарратива.
Вопросы для изучения:
- Сообщаем ли мы неполные или неточные данные?
- Визуализируем ли мы данные таким образом, чтобы они приводили к вводящим в заблуждение выводам?
- Используем ли мы выборочные статистические методы для манипуляции результатами?
- Существуют ли альтернативные объяснения, которые могут предложить другой вывод?
2.10 Свобода выбора
Иллюзия свободы выбора возникает, когда "архитектуры выбора" системы используют алгоритмы принятия решений, чтобы подтолкнуть людей к предпочтительному результату, создавая видимость наличия у них вариантов и контроля. Эти темные паттерны могут причинять социальный и экономический вред пользователям. Поскольку решения пользователей влияют на профили поведения, эти действия потенциально формируют будущие выборы, усиливая или расширяя воздействие этих вредных последствий.
Вопросы для изучения:
- Понимал ли пользователь последствия принятия этого выбора?
- Был ли пользователь осведомлен о (альтернативных) вариантах и их плюсах и минусах?
- Может ли пользователь отменить автоматизированный или навязанный выбор позже?
3. Примеры из практики
Чтобы рассмотреть этические вызовы в реальных контекстах, полезно изучить примеры из практики, которые подчеркивают потенциальный вред и последствия для отдельных людей и общества, если такие нарушения этики игнорируются.
Вот несколько примеров:
Этический вызов | Пример из практики |
---|---|
Осознанное согласие | 1972 - Исследование сифилиса в Таскиги - афроамериканским мужчинам, участвовавшим в исследовании, обещали бесплатное медицинское обслуживание, но обманули, не сообщив им о диагнозе или доступности лечения. Многие участники умерли, а их партнеры или дети пострадали; исследование длилось 40 лет. |
Конфиденциальность данных | 2007 - Приз Netflix предоставил исследователям 10 миллионов анонимных оценок фильмов от 50 тысяч клиентов, чтобы улучшить алгоритмы рекомендаций. Однако исследователи смогли сопоставить анонимные данные с персонально идентифицируемыми данными из внешних наборов данных (например, комментарии IMDb), фактически "деанонимизировав" некоторых подписчиков Netflix. |
Смещение в сборе данных | 2013 - Город Бостон разработал Street Bump, приложение, позволяющее гражданам сообщать о выбоинах, предоставляя городу лучшие данные о дорогах для выявления и устранения проблем. Однако люди с низким доходом имели меньший доступ к автомобилям и телефонам, что делало их дорожные проблемы невидимыми для этого приложения. Разработчики работали с учеными над вопросами равного доступа и цифрового разрыва для обеспечения справедливости. |
Справедливость алгоритмов | 2018 - Исследование MIT Gender Shades оценило точность продуктов ИИ для классификации пола, выявив пробелы в точности для женщин и людей с цветной кожей. Карта Apple 2019 года, казалось, предлагала меньший кредит женщинам, чем мужчинам. Оба случая иллюстрируют проблемы алгоритмического смещения, приводящие к социально-экономическим последствиям. |
Искажение данных | 2020 - Департамент здравоохранения Джорджии выпустил графики COVID-19, которые, казалось, вводили граждан в заблуждение относительно тенденций подтвержденных случаев с не хронологическим порядком на оси x. Это иллюстрирует искажение через визуализационные трюки. |
Иллюзия свободы выбора | 2020 - Образовательное приложение ABCmouse выплатило $10 млн для урегулирования жалобы FTC, где родители были вынуждены платить за подписки, которые они не могли отменить. Это иллюстрирует темные паттерны в архитектурах выбора, где пользователи были подтолкнуты к потенциально вредным решениям. |
Конфиденциальность данных и права пользователей | 2021 - Утечка данных Facebook раскрыла данные 530 миллионов пользователей, что привело к штрафу в $5 млрд от FTC. Однако компания отказалась уведомить пользователей о нарушении, нарушив их права на прозрачность данных и доступ. |
Хотите изучить больше примеров из практики? Ознакомьтесь с этими ресурсами:
- Ethics Unwrapped - этические дилеммы в различных отраслях.
- Курс по этике в Data Science - изучение знаковых примеров из практики.
- Где все пошло не так - чеклист Deon с примерами.
🚨 Подумайте о примерах из практики, которые вы видели - сталкивались ли вы или были ли затронуты подобным этическим вызовом в своей жизни? Можете ли вы придумать хотя бы один другой пример, который иллюстрирует один из этических вызовов, обсуждаемых в этом разделе?
Прикладная этика
Мы обсудили концепции этики, вызовы и примеры из практики в реальных контекстах. Но как начать применять этические принципы и практики в своих проектах? И как операционализировать эти практики для лучшего управления? Давайте изучим несколько реальных решений:
1. Профессиональные кодексы
Профессиональные кодексы предлагают один из вариантов для организаций "мотивировать" членов поддерживать их этические принципы и миссию. Кодексы являются моральными ориентирами для профессионального поведения, помогая сотрудникам или членам принимать решения, соответствующие принципам их организации. Они эффективны только при добровольном соблюдении со стороны членов; однако многие организации предлагают дополнительные награды и штрафы для мотивации соблюдения.
Примеры включают:
- Oxford Munich Кодекс этики
- Data Science Association Кодекс поведения (создан в 2013 году)
- ACM Code of Ethics and Professional Conduct (с 1993 года)
🚨 Вы являетесь членом профессиональной инженерной или организации в области Data Science? Изучите их сайт, чтобы узнать, определяют ли они профессиональный кодекс этики. Что он говорит об их этических принципах? Как они "мотивируют" членов следовать кодексу?
2. Этические чеклисты
Хотя профессиональные кодексы определяют требуемое этическое поведение от практиков, они имеют известные ограничения в обеспечении соблюдения, особенно в крупных проектах. Вместо этого многие эксперты в области Data Science рекомендуют чеклисты, которые могут связать принципы с практиками более детерминированным и действенным образом.
Чеклисты превращают вопросы в задачи "да/нет", которые можно операционализировать, позволяя отслеживать их как часть стандартных рабочих процессов выпуска продукта.
Примеры включают:
- Deon - универсальный чеклист по этике данных, созданный на основе рекомендаций отрасли с инструментом командной строки для легкой интеграции.
- Чеклист аудита конфиденциальности - предоставляет общие рекомендации по практике обработки информации с точки зрения юридической и социальной экспозиции.
- Чеклист справедливости ИИ - создан практиками ИИ для поддержки внедрения и интеграции проверок справедливости в циклы разработки ИИ.
- 22 вопроса по этике данных и ИИ - более открытая структура, предназначенная для начального изучения этических вопросов в дизайне, реализации и организационных контекстах.
3. Регулирование этики
Этика касается определения общих ценностей и добровольного выполнения правильных действий. Соблюдение касается следования закону, если он определен. Управление охватывает все способы, которыми организации работают для обеспечения соблюдения этических принципов и выполнения установленных законов.
Сегодня управление принимает две формы в рамках организаций. Во-первых, это определение принципов этического ИИ и установление практик для операционализации их внедрения во всех проектах, связанных с ИИ, в организации. Во-вторых, это соблюдение всех государственных регламентов защиты данных, действующих в регионах, где организация работает.
Примеры регламентов защиты данных и конфиденциальности:
1974
, US Privacy Act - регулирует сбор, использование и раскрытие личной информации федеральным правительством.1996
, US Health Insurance Portability & Accountability Act (HIPAA) - защищает персональные медицинские данные.1998
, US Children's Online Privacy Protection Act (COPPA) - защищает конфиденциальность данных детей младше 13 лет.2018
, Общий регламент защиты данных (GDPR) - предоставляет права пользователей, защиту данных и конфиденциальность.2018
, Закон о конфиденциальности потребителей Калифорнии (CCPA) предоставляет потребителям больше прав на их (персональные) данные.2021
, Китайский Закон о защите персональной информации недавно принят, создавая один из самых сильных онлайн-регламентов конфиденциальности данных в мире.
🚨 Европейский Союз определил GDPR (Общий регламент защиты данных), который остается одним из самых влиятельных регламентов конфиденциальности данных сегодня. Знаете ли вы, что он также определяет 8 прав пользователей для защиты цифровой конфиденциальности и персональных данных граждан? Узнайте, что это за права и почему они важны.
4. Культура этики
Обратите внимание, что существует нематериальный разрыв между соблюдением (выполнение достаточного для соответствия "букве закона") и решением системных проблем (таких как окаменелость, информационная асимметрия и несправедливость распределения), которые могут ускорить использование ИИ в вредных целях.
Последнее требует коллаборативных подходов к определению культур этики, которые строят эмоциональные связи и последовательные общие ценности в организациях отрасли. Это требует более формализованных культур этики данных в организациях - позволяя любому потянуть шнур Андон (чтобы поднять этические вопросы на ранних этапах процесса) и делая этические оценки (например, при найме) основным критерием формирования команды в проектах ИИ.
Викторина после лекции 🎯
Обзор и самостоятельное изучение
Курсы и книги помогают понять основные концепции и вызовы этики, а примеры из практики и инструменты помогают применять этические практики в реальных контекстах. Вот несколько ресурсов для начала:
- Machine Learning For Beginners - урок о справедливости от Microsoft.
- Принципы ответственного ИИ - бесплатный учебный курс от Microsoft Learn.
- Этика и наука о данных - электронная книга от O'Reilly (М. Лукидес, Х. Мейсон и др.)
- Этика в науке о данных - онлайн-курс от Университета Мичигана.
- Этика в деталях - примеры из Университета Техаса.
Задание
Отказ от ответственности:
Этот документ был переведен с помощью сервиса автоматического перевода Co-op Translator. Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.