You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ru/1-Introduction/02-ethics/README.md

46 KiB

Введение в этику данных

Скетчноут от (@sketchthedocs)
Этика в науке о данных - Скетчноут от @nitya

Мы все являемся гражданами мира данных, живущими в эпоху цифровизации.

Рыночные тенденции показывают, что к 2022 году каждая третья крупная организация будет покупать и продавать свои данные через онлайн-площадки и биржи. Как разработчики приложений, мы обнаружим, что интеграция аналитики, основанной на данных, и автоматизации, управляемой алгоритмами, в повседневный пользовательский опыт станет проще и дешевле. Однако с распространением ИИ нам также придется понимать потенциальный вред, который может быть вызван использованием алгоритмов в качестве оружия в масштабах.

Тенденции также указывают на то, что к 2025 году мы будем создавать и потреблять более 180 зеттабайт данных. Как ученые в области данных, мы получаем беспрецедентный доступ к персональным данным. Это позволяет нам создавать поведенческие профили пользователей и влиять на принятие решений таким образом, чтобы создавать иллюзию свободного выбора, при этом потенциально направляя пользователей к результатам, которые мы предпочитаем. Это также поднимает более широкие вопросы о конфиденциальности данных и защите пользователей.

Этика данных становится необходимыми ограничителями для науки о данных и инженерии, помогая минимизировать потенциальный вред и непреднамеренные последствия наших действий, основанных на данных. Цикл ажиотажа Гартнера для ИИ выделяет важные тенденции в области цифровой этики, ответственного ИИ и управления ИИ как ключевые драйверы для более крупных мегатрендов, связанных с демократизацией и индустриализацией ИИ.

Цикл ажиотажа Гартнера для ИИ - 2020

В этом уроке мы исследуем увлекательную область этики данных - от основных концепций и вызовов до примеров из практики и прикладных концепций ИИ, таких как управление, которые помогают создать культуру этики в командах и организациях, работающих с данными и ИИ.

Тест перед лекцией 🎯

Основные определения

Начнем с понимания базовой терминологии.

Слово "этика" происходит от греческого слова "ethikos"его корня "ethos"), что означает характер или моральная природа.

Этика касается общих ценностей и моральных принципов, которые регулируют наше поведение в обществе. Этика основывается не на законах, а на широко принятых нормах того, что является "правильным или неправильным". Однако этические соображения могут влиять на корпоративное управление и государственное регулирование, создавая больше стимулов для соблюдения.

Этика данных - это новая ветвь этики, которая "изучает и оценивает моральные проблемы, связанные с данными, алгоритмами и соответствующими практиками". Здесь "данные" сосредоточены на действиях, связанных с созданием, записью, курированием, обработкой, распространением, обменом и использованием; "алгоритмы" - на ИИ, агентах, машинном обучении и роботах; а "практики" - на таких темах, как ответственное новаторство, программирование, хакерство и кодексы этики.

Прикладная этика - это практическое применение моральных соображений. Это процесс активного изучения этических вопросов в контексте реальных действий, продуктов и процессов и принятия корректирующих мер, чтобы они оставались в соответствии с нашими определенными этическими ценностями.

Культура этики касается операционализации прикладной этики, чтобы гарантировать, что наши этические принципы и практики последовательно и масштабируемо внедряются по всей организации. Успешные культуры этики определяют этические принципы на уровне всей организации, предоставляют значимые стимулы для соблюдения и укрепляют нормы этики, поощряя и усиливая желаемое поведение на каждом уровне организации.

Концепции этики

В этом разделе мы обсудим такие концепции, как общие ценности (принципы) и этические вызовы (проблемы) в области этики данных, а также рассмотрим примеры из практики, которые помогут вам понять эти концепции в реальных контекстах.

1. Принципы этики

Любая стратегия этики данных начинается с определения этических принципов - "общих ценностей", которые описывают приемлемое поведение и направляют действия, соответствующие требованиям, в наших проектах, связанных с данными и ИИ. Вы можете определить их на индивидуальном или командном уровне. Однако большинство крупных организаций формулируют их в виде миссии или рамочной программы этического ИИ, которая определяется на корпоративном уровне и последовательно внедряется во всех командах.

Пример: Миссия Ответственного ИИ компании Microsoft гласит: "Мы привержены развитию ИИ, основанного на этических принципах, которые ставят людей на первое место" - выделяя 6 этических принципов в следующей рамочной программе:

Ответственный ИИ в Microsoft

Давайте кратко рассмотрим эти принципы. Прозрачность и ответственность являются основополагающими ценностями, на которых строятся другие принципы, поэтому начнем с них:

  • Ответственность делает практиков ответственными за их действия с данными и ИИ, а также за соблюдение этих этических принципов.
  • Прозрачность гарантирует, что действия с данными и ИИ понятны (интерпретируемы) пользователям, объясняя, что и почему было сделано.
  • Справедливость - сосредоточена на обеспечении того, чтобы ИИ относился ко всем людям справедливо, устраняя любые системные или скрытые социально-технические предвзятости в данных и системах.
  • Надежность и безопасность - гарантирует, что ИИ ведет себя последовательно с определенными ценностями, минимизируя потенциальный вред или непреднамеренные последствия.
  • Конфиденциальность и безопасность - касается понимания происхождения данных и предоставления конфиденциальности данных и связанных с этим защит пользователям.
  • Инклюзивность - касается проектирования решений ИИ с намерением адаптировать их для удовлетворения широкого спектра человеческих потребностей и возможностей.

🚨 Подумайте, какой могла бы быть ваша миссия в области этики данных. Изучите рамочные программы этического ИИ других организаций - вот примеры от IBM, Google и Facebook. Какие общие ценности у них есть? Как эти принципы соотносятся с продуктами ИИ или отраслью, в которой они работают?

2. Этические вызовы

После того как мы определили этические принципы, следующий шаг - оценить наши действия с данными и ИИ, чтобы убедиться, что они соответствуют этим общим ценностям. Подумайте о своих действиях в двух категориях: сбор данных и разработка алгоритмов.

При сборе данных действия, скорее всего, будут включать персональные данные или персонально идентифицируемую информацию (PII) для идентифицируемых живых лиц. Это включает разнообразные элементы неперсональных данных, которые в совокупности идентифицируют человека. Этические вызовы могут быть связаны с конфиденциальностью данных, правами собственности на данные и такими темами, как осознанное согласие и права интеллектуальной собственности пользователей.

При разработке алгоритмов действия будут включать сбор и курирование наборов данных, а затем их использование для обучения и развертывания моделей данных, которые прогнозируют результаты или автоматизируют решения в реальных контекстах. Этические вызовы могут возникать из-за предвзятости наборов данных, проблем с качеством данных, несправедливости и искажений в алгоритмах, включая некоторые системные проблемы.

В обоих случаях этические вызовы подчеркивают области, где наши действия могут вступать в конфликт с нашими общими ценностями. Чтобы обнаружить, смягчить, минимизировать или устранить эти проблемы, нам нужно задавать моральные вопросы "да/нет", связанные с нашими действиями, а затем принимать корректирующие меры по мере необходимости. Давайте рассмотрим некоторые этические вызовы и моральные вопросы, которые они поднимают:

2.1 Право собственности на данные

Сбор данных часто включает персональные данные, которые могут идентифицировать субъектов данных. Право собственности на данные касается контроля и прав пользователей, связанных с созданием, обработкой и распространением данных.

Моральные вопросы, которые нужно задать:

  • Кто владеет данными? (пользователь или организация)
  • Какие права есть у субъектов данных? (например, доступ, удаление, переносимость)
  • Какие права есть у организаций? (например, исправление злонамеренных отзывов пользователей)

2.2 Осознанное согласие

Осознанное согласие определяет акт согласия пользователей на действие (например, сбор данных) с полным пониманием соответствующих фактов, включая цель, потенциальные риски и альтернативы.

Вопросы для изучения:

  • Дал ли пользователь (субъект данных) разрешение на сбор и использование данных?
  • Понял ли пользователь цель, для которой были собраны данные?
  • Понял ли пользователь потенциальные риски от своего участия?

2.3 Интеллектуальная собственность

Интеллектуальная собственность относится к нематериальным результатам человеческой инициативы, которые могут иметь экономическую ценность для отдельных лиц или бизнеса.

Вопросы для изучения:

  • Имеют ли собранные данные экономическую ценность для пользователя или бизнеса?
  • Есть ли у пользователя права интеллектуальной собственности?
  • Есть ли у организации права интеллектуальной собственности?
  • Если такие права существуют, как мы их защищаем?

2.4 Конфиденциальность данных

Конфиденциальность данных или информационная конфиденциальность касается сохранения конфиденциальности пользователей и защиты их идентичности в отношении персонально идентифицируемой информации.

Вопросы для изучения:

  • Защищены ли данные пользователей (персональные) от взломов и утечек?
  • Доступны ли данные пользователей только авторизованным пользователям и в соответствующих контекстах?
  • Сохраняется ли анонимность пользователей при обмене или распространении данных?
  • Можно ли деидентифицировать пользователя из анонимизированных наборов данных?

2.5 Право быть забытым

Право быть забытым или право на удаление предоставляет пользователям дополнительную защиту персональных данных. В частности, оно дает пользователям право запрашивать удаление или удаление персональных данных из интернет-поисковиков и других мест при определенных обстоятельствах, позволяя им начать заново в интернете без учета прошлых действий.

Вопросы для изучения:

  • Позволяет ли система субъектам данных запрашивать удаление?
  • Должно ли отозвание согласия пользователя автоматически запускать удаление данных?
  • Были ли данные собраны без согласия или незаконным способом?
  • Соответствуем ли мы государственным регламентам по защите данных?

2.6 Предвзятость наборов данных

Предвзятость наборов данных или предвзятость при сборе касается выбора нерепрезентативного подмножества данных для разработки алгоритмов, что может создавать потенциальную несправедливость в результатах для различных групп. Типы предвзятости включают предвзятость при отборе или выборке, предвзятость добровольцев и инструментальную предвзятость.

Вопросы для изучения:

  • Привлекли ли мы репрезентативный набор субъектов данных?
  • Проверили ли мы наш собранный или курированный набор данных на наличие различных предвзятостей?
  • Можем ли мы смягчить или устранить обнаруженные предвзятости?

2.7 Качество данных

Качество данных оценивает достоверность курированного набора данных, используемого для разработки наших алгоритмов, проверяя, соответствуют ли признаки и записи требованиям к уровню точности и согласованности, необходимым для нашей цели в ИИ.

Вопросы для изучения:

  • Захватили ли мы действительные признаки для нашего случая использования?
  • Были ли данные захвачены последовательно из различных источников данных?
  • Полон ли набор данных для различных условий или сценариев?
  • Точно ли информация отражает реальность? Algorithm Fairness проверяет, не приводит ли дизайн алгоритма к систематической дискриминации определенных подгрупп субъектов данных, что может вызывать потенциальный вред в распределении (когда ресурсы отказываются или удерживаются от этой группы) и качестве обслуживания (когда ИИ менее точен для некоторых подгрупп по сравнению с другими).

Вопросы для изучения:

  • Оценивали ли мы точность модели для различных подгрупп и условий?
  • Анализировали ли мы систему на предмет потенциального вреда (например, стереотипов)?
  • Можем ли мы пересмотреть данные или переобучить модели, чтобы уменьшить выявленный вред?

Изучите ресурсы, такие как AI Fairness checklists, чтобы узнать больше.

2.9 Искажение данных

Искажение данных касается вопроса, не передаем ли мы инсайты из честно представленных данных обманным образом, чтобы поддержать желаемый нарратив.

Вопросы для изучения:

  • Сообщаем ли мы неполные или неточные данные?
  • Визуализируем ли мы данные таким образом, чтобы они приводили к вводящим в заблуждение выводам?
  • Используем ли мы выборочные статистические методы для манипуляции результатами?
  • Существуют ли альтернативные объяснения, которые могут предложить другой вывод?

2.10 Свобода выбора

Иллюзия свободы выбора возникает, когда "архитектуры выбора" системы используют алгоритмы принятия решений, чтобы подтолкнуть людей к предпочтительному результату, создавая видимость наличия у них опций и контроля. Эти темные паттерны могут причинять социальный и экономический вред пользователям. Поскольку решения пользователей влияют на профили поведения, эти действия потенциально формируют будущие выборы, которые могут усиливать или расширять воздействие этих вредных последствий.

Вопросы для изучения:

  • Понимал ли пользователь последствия принятия этого выбора?
  • Был ли пользователь осведомлен о (альтернативных) вариантах и их плюсах и минусах?
  • Может ли пользователь отменить автоматизированный или навязанный выбор позже?

3. Примеры из практики

Чтобы рассмотреть эти этические вызовы в реальных контекстах, полезно изучить примеры из практики, которые подчеркивают потенциальный вред и последствия для отдельных людей и общества, если такие нарушения этики игнорируются.

Вот несколько примеров:

Этический вызов Пример из практики
Осознанное согласие 1972 - Исследование сифилиса в Таскиги - афроамериканским мужчинам, участвовавшим в исследовании, обещали бесплатное медицинское обслуживание, но обманули, не сообщив им о диагнозе или доступности лечения. Многие участники умерли, их партнеры и дети пострадали; исследование длилось 40 лет.
Конфиденциальность данных 2007 - Приз Netflix предоставил исследователям 10 миллионов анонимных оценок фильмов от 50 тысяч клиентов, чтобы улучшить алгоритмы рекомендаций. Однако исследователи смогли сопоставить анонимные данные с персонально идентифицируемыми данными из внешних наборов данных (например, комментарии IMDb), фактически "деанонимизировав" некоторых подписчиков Netflix.
Смещение в сборе данных 2013 - Город Бостон разработал приложение Street Bump, которое позволяло гражданам сообщать о выбоинах, предоставляя городу лучшие данные о дорогах для выявления и устранения проблем. Однако люди с низким доходом имели меньший доступ к автомобилям и телефонам, что делало их дорожные проблемы невидимыми для этого приложения. Разработчики работали с учеными над вопросами равного доступа и цифрового разрыва для обеспечения справедливости.
Справедливость алгоритмов 2018 - Исследование MIT Gender Shades оценило точность продуктов ИИ для классификации пола, выявив пробелы в точности для женщин и цветных людей. Карта Apple 2019 года, казалось, предлагала меньший кредит женщинам, чем мужчинам. Оба случая иллюстрируют проблемы алгоритмического смещения, приводящие к социально-экономическим последствиям.
Искажение данных 2020 - Департамент здравоохранения Джорджии выпустил графики COVID-19, которые, казалось, вводили граждан в заблуждение относительно тенденций подтвержденных случаев с не хронологическим порядком на оси x. Это иллюстрирует искажение через визуализационные трюки.
Иллюзия свободы выбора 2020 - Образовательное приложение ABCmouse заплатило $10 млн для урегулирования жалобы FTC, где родители были вынуждены платить за подписки, которые они не могли отменить. Это иллюстрирует темные паттерны в архитектурах выбора, где пользователи были подтолкнуты к потенциально вредным решениям.
Конфиденциальность данных и права пользователей 2021 - Утечка данных Facebook раскрыла данные 530 миллионов пользователей, что привело к штрафу в $5 млрд от FTC. Однако компания отказалась уведомить пользователей о нарушении, нарушив их права на прозрачность данных и доступ.

Хотите изучить больше примеров из практики? Ознакомьтесь с этими ресурсами:

🚨 Подумайте о примерах из практики, которые вы видели - сталкивались ли вы или были ли затронуты подобным этическим вызовом в своей жизни? Можете ли вы вспомнить хотя бы один другой пример, который иллюстрирует один из этических вызовов, обсуждаемых в этом разделе?

Прикладная этика

Мы обсудили концепции этики, вызовы и примеры из практики в реальных контекстах. Но как начать применять этические принципы и практики в своих проектах? И как операционализировать эти практики для лучшего управления? Давайте изучим некоторые реальные решения:

1. Профессиональные кодексы

Профессиональные кодексы предлагают один из вариантов для организаций "мотивировать" членов поддерживать их этические принципы и миссию. Кодексы являются моральными руководствами для профессионального поведения, помогая сотрудникам или членам принимать решения, которые соответствуют принципам их организации. Они эффективны только при добровольном соблюдении со стороны членов; однако многие организации предлагают дополнительные награды и штрафы, чтобы стимулировать соблюдение.

Примеры включают:

🚨 Вы являетесь членом профессиональной инженерной или организации в области Data Science? Изучите их сайт, чтобы узнать, определяют ли они профессиональный кодекс этики. Что он говорит об их этических принципах? Как они "мотивируют" членов следовать кодексу?

2. Чеклисты по этике

Хотя профессиональные кодексы определяют необходимое этическое поведение для специалистов, они имеют известные ограничения в обеспечении соблюдения, особенно в крупных проектах. Вместо этого многие эксперты в области Data Science рекомендуют чеклисты, которые могут связать принципы с практиками более детерминированным и действенным образом.

Чеклисты превращают вопросы в задачи "да/нет", которые можно операционализировать, позволяя отслеживать их как часть стандартных рабочих процессов выпуска продукта.

Примеры включают:

  • Deon - универсальный чеклист по этике данных, созданный на основе рекомендаций отрасли с инструментом командной строки для легкой интеграции.
  • Чеклист аудита конфиденциальности - предоставляет общие рекомендации по практике обработки информации с точки зрения юридической и социальной экспозиции.
  • Чеклист справедливости ИИ - созданный практиками ИИ для поддержки внедрения и интеграции проверок справедливости в циклы разработки ИИ.
  • 22 вопроса по этике данных и ИИ - более открытая структура, предназначенная для первоначального изучения этических вопросов в дизайне, реализации и организационных контекстах.

3. Регулирование этики

Этика касается определения общих ценностей и добровольного выполнения правильных действий. Соблюдение касается следования закону, если он определен. Управление охватывает все способы, которыми организации работают для обеспечения соблюдения этических принципов и выполнения установленных законов.

Сегодня управление принимает две формы в рамках организаций. Во-первых, это определение принципов этического ИИ и установление практик для операционализации их внедрения во всех проектах, связанных с ИИ, в организации. Во-вторых, это соблюдение всех государственных регламентов защиты данных, действующих в регионах, где она работает.

Примеры регламентов защиты данных и конфиденциальности:

🚨 Европейский Союз определил GDPR (Общий регламент защиты данных), который остается одним из самых влиятельных регламентов конфиденциальности данных сегодня. Знаете ли вы, что он также определяет 8 прав пользователей для защиты цифровой конфиденциальности и персональных данных граждан? Узнайте, что это за права и почему они важны.

4. Культура этики

Обратите внимание, что существует нематериальный разрыв между соблюдением (выполнением минимальных требований закона) и решением системных проблем (таких как закостенелость, асимметрия информации и несправедливость распределения), которые могут ускорить использование ИИ в вредных целях.

Последнее требует коллаборативных подходов к определению культуры этики, которые строят эмоциональные связи и последовательные общие ценности в организациях отрасли. Это требует более формализованных культур этики данных в организациях - позволяя любому потянуть шнур Андон (чтобы поднять этические вопросы на ранних этапах процесса) и делая этические оценки (например, при найме) ключевым критерием формирования команды в проектах ИИ.


Викторина после лекции 🎯

Обзор и самостоятельное изучение

Курсы и книги помогают понять основные концепции и вызовы этики, а примеры из практики и инструменты помогают применять этические практики в реальных контекстах. Вот несколько ресурсов для начала:

Задание

Напишите кейс-стадию по этике данных


Отказ от ответственности:
Этот документ был переведен с помощью сервиса автоматического перевода Co-op Translator. Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.