You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ko/1-Introduction/02-ethics/README.md

30 KiB

데이터 윤리 소개

 Sketchnote by (@sketchthedocs)
데이터 과학 윤리 - 스케치노트 by @nitya

우리는 모두 데이터화된 세상에서 살아가는 데이터 시민입니다.

시장 동향에 따르면 2022년까지 대규모 조직의 3분의 1이 온라인 마켓플레이스 및 거래소를 통해 데이터를 사고팔게 될 것이라고 합니다. 앱 개발자로서 우리는 데이터 기반 통찰력과 알고리즘 기반 자동화를 일상적인 사용자 경험에 통합하는 것이 더 쉽고 저렴해질 것입니다. 그러나 AI가 보편화됨에 따라, 이러한 알고리즘이 대규모로 무기화될 때 발생할 수 있는 잠재적 피해를 이해할 필요도 있습니다.

또한, 2025년까지 180제타바이트 이상의 데이터를 생성하고 소비할 것이라는 예측도 있습니다. 데이터 과학자로서 이는 개인 데이터에 대한 전례 없는 수준의 접근을 가능하게 합니다. 이를 통해 사용자 행동 프로파일을 구축하고, 사용자가 자유롭게 선택하는 것처럼 보이게 하면서도 우리가 선호하는 결과로 유도할 수 있습니다. 이는 데이터 프라이버시와 사용자 보호에 대한 더 광범위한 질문을 제기합니다.

데이터 윤리는 데이터 과학 및 엔지니어링의 _필수적인 가드레일_로, 데이터 기반 행동에서 발생할 수 있는 잠재적 피해와 의도치 않은 결과를 최소화하도록 돕습니다. 가트너 AI 하이프 사이클은 디지털 윤리, 책임 있는 AI, AI 거버넌스와 같은 관련 트렌드를 AI의 민주화 및 _산업화_라는 더 큰 메가트렌드의 주요 동력으로 식별합니다.

2020년 가트너 AI 하이프 사이클

이 강의에서는 데이터 윤리의 핵심 개념과 도전 과제, 사례 연구 및 거버넌스와 같은 응용 AI 개념을 탐구하여 데이터와 AI를 다루는 팀과 조직에서 윤리 문화를 구축하는 방법을 배울 것입니다.

강의 전 퀴즈 🎯

기본 정의

먼저 기본 용어를 이해해 봅시다.

"윤리"라는 단어는 그리스어 "ethikos" (그리고 그 어근 "ethos")에서 유래했으며, 이는 _성격 또는 도덕적 본성_을 의미합니다.

윤리는 사회에서 우리의 행동을 지배하는 공유된 가치와 도덕적 원칙에 관한 것입니다. 윤리는 법률이 아니라 "옳고 그름"에 대한 널리 받아들여진 규범에 기반을 둡니다. 그러나 윤리적 고려는 기업 거버넌스 이니셔티브와 정부 규정을 통해 준수를 위한 더 많은 인센티브를 창출할 수 있습니다.

데이터 윤리는 "데이터, 알고리즘 및 관련 관행"과 관련된 도덕적 문제를 연구하고 평가하는 새로운 윤리 분야입니다. 여기서 **"데이터"**는 생성, 기록, 큐레이션, 처리, 배포, 공유 및 사용과 관련된 행동에 초점을 맞추고, **"알고리즘"**은 AI, 에이전트, 머신러닝 및 로봇에 초점을 맞추며, **"관행"**은 책임 있는 혁신, 프로그래밍, 해킹 및 윤리 강령과 같은 주제를 다룹니다.

응용 윤리도덕적 고려의 실질적 적용을 의미합니다. 이는 _현실 세계의 행동, 제품 및 프로세스_의 맥락에서 윤리적 문제를 적극적으로 조사하고, 정의된 윤리적 가치와 일치하도록 유지하기 위해 시정 조치를 취하는 과정입니다.

윤리 문화응용 윤리를 운영화하여 윤리적 원칙과 관행이 조직 전체에서 일관되고 확장 가능하게 채택되도록 보장하는 것입니다. 성공적인 윤리 문화는 조직 전체의 윤리적 원칙을 정의하고, 준수를 위한 의미 있는 인센티브를 제공하며, 조직의 모든 수준에서 원하는 행동을 장려하고 강화함으로써 윤리적 규범을 강화합니다.

윤리 개념

이 섹션에서는 데이터 윤리를 위한 공유 가치(원칙)와 윤리적 도전 과제(문제)와 같은 개념을 논의하고, 이러한 개념을 현실 세계의 맥락에서 이해하는 데 도움이 되는 사례 연구를 탐구할 것입니다.

1. 윤리 원칙

모든 데이터 윤리 전략은 _윤리 원칙_을 정의하는 것으로 시작됩니다. 이는 데이터 및 AI 프로젝트에서 허용 가능한 행동을 설명하고 준수 행동을 안내하는 "공유 가치"입니다. 개인 또는 팀 수준에서 이를 정의할 수 있습니다. 그러나 대부분의 대규모 조직은 이를 윤리적 AI 미션 선언문 또는 프레임워크로 정의하며, 이는 조직 전체에서 일관되게 시행됩니다.

예: Microsoft의 책임 있는 AI 미션 선언문은 다음과 같이 읽힙니다: "우리는 사람을 우선시하는 윤리적 원칙에 의해 주도되는 AI 발전에 전념합니다" - 아래 프레임워크에서 6가지 윤리 원칙을 식별합니다:

Microsoft의 책임 있는 AI

이 원칙들을 간략히 살펴보겠습니다. _투명성_과 _책임성_은 다른 원칙들이 기반을 두는 기본 가치입니다. 따라서 여기서부터 시작해 봅시다:

  • 책임성은 실무자가 데이터 및 AI 작업과 이러한 윤리 원칙 준수에 대해 책임을 지도록 합니다.
  • 투명성은 데이터 및 AI 행동이 사용자에게 _이해 가능_하도록 하여, 결정의 이유와 과정을 설명합니다.
  • 공정성은 AI가 _모든 사람_을 공정하게 대우하도록 보장하며, 데이터와 시스템에서의 체계적이거나 암묵적인 사회기술적 편향을 해결합니다.
  • 신뢰성 및 안전성은 AI가 정의된 가치와 일관되게 작동하여 잠재적 피해나 의도치 않은 결과를 최소화하도록 보장합니다.
  • 프라이버시 및 보안은 데이터 계보를 이해하고, 사용자에게 _데이터 프라이버시 및 관련 보호_를 제공하는 것입니다.
  • 포괄성은 AI 솔루션을 의도적으로 설계하여 _다양한 인간의 필요와 능력_을 충족하도록 적응시키는 것입니다.

🚨 여러분의 데이터 윤리 미션 선언문은 무엇일 수 있을지 생각해 보세요. 다른 조직의 윤리적 AI 프레임워크를 탐구해 보세요 - 여기에는 IBM, Google, Facebook의 예가 있습니다. 이들이 공통적으로 가지고 있는 공유 가치는 무엇인가요? 이러한 원칙이 그들이 운영하는 AI 제품 또는 산업과 어떻게 관련이 있나요?

2. 윤리적 도전 과제

윤리 원칙을 정의한 후 다음 단계는 데이터 및 AI 행동이 이러한 공유 가치와 일치하는지 평가하는 것입니다. 여러분의 행동을 _데이터 수집_과 _알고리즘 설계_라는 두 가지 범주로 생각해 보세요.

데이터 수집의 경우, 행동은 개인 데이터 또는 식별 가능한 살아 있는 개인의 개인 식별 정보를 포함할 가능성이 높습니다. 여기에는 다양한 비개인 데이터 항목이 포함되며, 이 데이터가 집합적으로 개인을 식별할 수 있습니다. 윤리적 도전 과제는 데이터 프라이버시, 데이터 소유권, 그리고 정보 제공 동의 및 _지적 재산권_과 같은 관련 주제와 관련될 수 있습니다.

알고리즘 설계의 경우, 행동은 데이터셋을 수집 및 큐레이션한 다음, 이를 사용하여 현실 세계의 맥락에서 결과를 예측하거나 결정을 자동화하는 데이터 모델을 훈련 및 배포하는 것을 포함합니다. 윤리적 도전 과제는 데이터셋 편향, 데이터 품질 문제, 불공정성, 그리고 알고리즘의 _오해의 소지_에서 발생할 수 있으며, 일부 문제는 체계적일 수 있습니다.

두 경우 모두, 윤리적 도전 과제는 우리의 행동이 공유 가치와 충돌할 수 있는 영역을 강조합니다. 이러한 문제를 감지, 완화, 최소화 또는 제거하려면, 우리의 행동과 관련된 도덕적 "예/아니오" 질문을 하고, 필요한 경우 시정 조치를 취해야 합니다. 몇 가지 윤리적 도전 과제와 그들이 제기하는 도덕적 질문을 살펴보겠습니다:

2.1 데이터 소유권

데이터 수집은 종종 데이터를 식별할 수 있는 개인 데이터와 관련됩니다. 데이터 소유권은 데이터 생성, 처리 및 배포와 관련된 통제사용자 권리에 관한 것입니다.

우리가 물어야 할 도덕적 질문은 다음과 같습니다:

  • 데이터를 소유한 사람은 누구인가요? (사용자 또는 조직)
  • 데이터 주체가 가지는 권리는 무엇인가요? (예: 접근, 삭제, 이동성)
  • 조직이 가지는 권리는 무엇인가요? (예: 악의적인 사용자 리뷰 수정)

2.2 정보 제공 동의

정보 제공 동의는 사용자가 데이터 수집과 같은 행동에 대해 _관련 사실_을 완전히 이해한 상태에서 동의하는 행위를 정의합니다. 여기에는 목적, 잠재적 위험, 대안이 포함됩니다.

여기서 탐구해야 할 질문은 다음과 같습니다:

  • 사용자가 데이터 캡처 및 사용에 대해 동의했나요?
  • 사용자가 데이터가 캡처된 목적을 이해했나요?
  • 사용자가 참여로 인한 잠재적 위험을 이해했나요?

2.3 지적 재산권

지적 재산권은 인간의 창의적 활동에서 발생한 무형의 창작물로, 개인이나 기업에게 _경제적 가치_를 가질 수 있습니다.

여기서 탐구해야 할 질문은 다음과 같습니다:

  • 수집된 데이터가 사용자나 기업에게 경제적 가치를 가졌나요?
  • 사용자가 여기서 지적 재산권을 가지고 있나요?
  • 조직이 여기서 지적 재산권을 가지고 있나요?
  • 이러한 권리가 존재한다면, 우리는 이를 어떻게 보호하고 있나요?

2.4 데이터 프라이버시

데이터 프라이버시 또는 정보 프라이버시는 개인 식별 정보와 관련하여 사용자 프라이버시를 보존하고 사용자 신원을 보호하는 것을 의미합니다.

여기서 탐구해야 할 질문은 다음과 같습니다:

  • 사용자의 (개인) 데이터가 해킹 및 유출로부터 안전한가요?
  • 사용자의 데이터가 승인된 사용자와 맥락에서만 접근 가능한가요?
  • 데이터가 공유되거나 배포될 때 사용자의 익명성이 보존되나요?
  • 익명화된 데이터셋에서 사용자를 재식별할 수 있나요?

2.5 잊힐 권리

잊힐 권리 또는 삭제 요청 권리는 사용자에게 추가적인 개인 데이터 보호를 제공합니다. 특히, 특정 상황에서 인터넷 검색 및 기타 위치에서 개인 데이터를 삭제하거나 제거하도록 요청할 권리를 사용자에게 부여하여, 과거 행동이 그들에게 불리하게 작용하지 않도록 새로운 시작을 가능하게 합니다.

여기서 탐구해야 할 질문은 다음과 같습니다:

  • 시스템이 데이터 주체가 삭제를 요청할 수 있도록 허용하나요?
  • 사용자의 동의 철회가 자동 삭제를 트리거해야 하나요?
  • 데이터가 동의 없이 또는 불법적인 수단으로 수집되었나요?
  • 데이터 프라이버시에 대한 정부 규정을 준수하고 있나요?

2.6 데이터셋 편향

데이터셋 또는 수집 편향은 알고리즘 개발을 위해 대표성이 없는 데이터 하위 집합을 선택하는 것으로, 다양한 그룹에 대한 결과의 공정성을 저해할 수 있습니다. 편향의 유형에는 선택 또는 샘플링 편향, 자발적 편향, 도구 편향이 포함됩니다.

여기서 탐구해야 할 질문은 다음과 같습니다:

  • 대표적인 데이터 주체 집합을 모집했나요?
  • 수집하거나 큐레이션한 데이터셋에서 다양한 편향을 테스트했나요?
  • 발견된 편향을 완화하거나 제거할 수 있나요?

2.7 데이터 품질

데이터 품질은 알고리즘 개발에 사용된 큐레이션된 데이터셋의 유효성을 확인하여, AI 목적에 필요한 정확성과 일관성 수준을 충족하는지 확인하는 것입니다.

여기서 탐구해야 할 질문은 다음과 같습니다:

  • 우리의 사용 사례에 적합한 _특징_을 캡처했나요?
  • 다양한 데이터 소스에서 데이터를 일관되게 캡처했나요?
  • 다양한 조건이나 시나리오에 대해 데이터셋이 _완전_한가요?
  • 현실을 반영하는 정보가 _정확_하게 캡처되었나요?

2.8 알고리즘 공정성

Algorithm Fairness는 알고리즘 설계가 특정 데이터 주체 하위 그룹에 대해 체계적으로 차별을 일으켜 자원 배분 (해당 그룹에 자원이 거부되거나 보류되는 경우) 및 서비스 품질 (AI가 일부 하위 그룹에 대해 다른 그룹만큼 정확하지 않은 경우)에서 잠재적 피해를 초래하는지 확인합니다.

여기서 탐구할 질문은 다음과 같습니다:

  • 다양한 하위 그룹과 조건에 대해 모델 정확도를 평가했는가?
  • 잠재적 피해(예: 고정관념)를 시스템에서 면밀히 조사했는가?
  • 확인된 피해를 완화하기 위해 데이터를 수정하거나 모델을 재훈련할 수 있는가?

AI 공정성 체크리스트와 같은 리소스를 탐색하여 더 알아보세요.

2.9 오해의 소지

데이터 오해의 소지는 정직하게 보고된 데이터에서 통찰을 왜곡하여 원하는 서사를 지지하는 방식으로 전달하고 있는지 묻는 것입니다.

여기서 탐구할 질문은 다음과 같습니다:

  • 불완전하거나 부정확한 데이터를 보고하고 있는가?
  • 데이터 시각화가 잘못된 결론을 유도하는 방식으로 이루어지고 있는가?
  • 결과를 조작하기 위해 선택적 통계 기법을 사용하고 있는가?
  • 다른 결론을 제시할 수 있는 대안적 설명이 있는가?

2.10 자유 선택

자유 선택의 환상은 시스템의 "선택 아키텍처"가 사람들이 옵션과 통제권을 가진 것처럼 보이게 하면서도 선호하는 결과를 선택하도록 유도하는 의사결정 알고리즘을 사용할 때 발생합니다. 이러한 다크 패턴은 사용자에게 사회적, 경제적 피해를 초래할 수 있습니다. 사용자 결정이 행동 프로파일에 영향을 미치기 때문에, 이러한 행동은 잠재적으로 미래의 선택에 영향을 미쳐 이러한 피해의 영향을 증폭하거나 확장할 수 있습니다.

여기서 탐구할 질문은 다음과 같습니다:

  • 사용자가 해당 선택을 했을 때의 결과를 이해했는가?
  • 사용자가 (대안적) 선택과 각각의 장단점을 알고 있었는가?
  • 사용자가 자동화되거나 영향을 받은 선택을 나중에 되돌릴 수 있는가?

3. 사례 연구

이러한 윤리적 도전 과제를 실제 세계의 맥락에서 이해하려면, 윤리 위반이 간과될 때 개인과 사회에 미칠 수 있는 잠재적 피해와 결과를 강조하는 사례 연구를 살펴보는 것이 도움이 됩니다.

다음은 몇 가지 예입니다:

윤리적 도전 과제 사례 연구
정보 제공 동의 1972년 - 터스키기 매독 연구 - 연구에 참여한 아프리카계 미국인 남성들은 무료 의료 서비스를 약속받았으나, 연구자들이 진단이나 치료 가능성에 대해 알리지 않아 기만당했습니다. 많은 참가자가 사망했고, 배우자나 자녀도 영향을 받았습니다. 연구는 40년 동안 지속되었습니다.
데이터 프라이버시 2007년 - 넷플릭스 데이터 상은 연구자들에게 _50K 고객의 10M 익명화된 영화 평가_를 제공하여 추천 알고리즘을 개선하도록 했습니다. 그러나 연구자들은 익명화된 데이터를 외부 데이터셋 (예: IMDb 댓글)과 연관시켜 일부 넷플릭스 구독자를 사실상 "비익명화"할 수 있었습니다.
수집 편향 2013년 - 보스턴시는 Street Bump이라는 앱을 개발하여 시민들이 도로의 포트홀을 보고하도록 했습니다. 이를 통해 도시가 도로 데이터를 더 잘 수집하고 문제를 해결할 수 있었습니다. 그러나 저소득층은 자동차와 휴대폰 접근성이 낮아 이 앱에서 그들의 도로 문제가 보이지 않았습니다. 개발자들은 공정성을 위해 공평한 접근성과 디지털 격차 문제를 해결하기 위해 학계와 협력했습니다.
알고리즘 공정성 2018년 - MIT Gender Shades Study는 성별 분류 AI 제품의 정확성을 평가하여 여성과 유색인종에 대한 정확도 격차를 드러냈습니다. 2019년 애플 카드는 남성보다 여성에게 적은 신용을 제공한 것으로 보였습니다. 두 사례 모두 알고리즘 편향이 사회경제적 피해를 초래할 수 있음을 보여줍니다.
데이터 오해의 소지 2020년 - 조지아 보건부는 COVID-19 차트를 발표했는데, x축의 비연대적 순서로 시민들에게 확진자 수 추세에 대해 오해를 불러일으켰습니다. 이는 시각화 트릭을 통한 오해의 소지를 보여줍니다.
자유 선택의 환상 2020년 - 학습 앱 ABCmouse는 FTC 불만 해결을 위해 $10M를 지불했으며, 부모들이 취소할 수 없는 구독료를 지불하도록 강요받았습니다. 이는 사용자들이 잠재적으로 해로운 선택으로 유도된 다크 패턴을 보여줍니다.
데이터 프라이버시 및 사용자 권리 2021년 - 페이스북 데이터 유출로 5억 3천만 명의 사용자 데이터가 노출되었으며, FTC에 $5B의 합의금을 지불했습니다. 그러나 유출 사실을 사용자에게 알리지 않아 데이터 투명성과 접근성에 대한 사용자 권리를 위반했습니다.

더 많은 사례 연구를 탐구하고 싶으신가요? 다음 리소스를 확인해보세요:

🚨 여러분이 본 사례 연구를 생각해보세요 - 여러분의 삶에서 비슷한 윤리적 도전에 영향을 받거나 경험한 적이 있나요? 이 섹션에서 논의한 윤리적 도전 중 하나를 보여주는 또 다른 사례를 생각해볼 수 있나요?

응용 윤리

우리는 윤리 개념, 도전 과제, 그리고 실제 세계 맥락에서의 사례 연구에 대해 논의했습니다. 하지만 프로젝트에서 윤리적 원칙과 관행을 _적용_하려면 어떻게 시작해야 할까요? 그리고 더 나은 거버넌스를 위해 이러한 관행을 _운영화_하려면 어떻게 해야 할까요? 몇 가지 실제 솔루션을 살펴보겠습니다:

1. 전문 윤리 강령

전문 윤리 강령은 조직이 구성원들이 윤리적 원칙과 사명 선언문을 지지하도록 "장려"하는 한 가지 방법을 제공합니다. 강령은 전문적 행동에 대한 _도덕적 지침_으로, 직원이나 구성원이 조직의 원칙에 부합하는 결정을 내릴 수 있도록 돕습니다. 이는 구성원의 자발적 준수에 달려 있지만, 많은 조직은 구성원의 준수를 동기부여하기 위해 추가적인 보상과 처벌을 제공합니다.

예시:

🚨 여러분은 전문 엔지니어링 또는 데이터 과학 조직에 속해 있나요? 그들의 웹사이트를 탐색하여 전문 윤리 강령을 정의하고 있는지 확인해보세요. 그들의 윤리적 원칙에 대해 무엇을 말하고 있나요? 구성원이 강령을 따르도록 어떻게 "장려"하고 있나요?

2. 윤리 체크리스트

전문 윤리 강령이 실무자의 요구되는 _윤리적 행동_을 정의하는 반면, 이는 특히 대규모 프로젝트에서 집행의 한계가 있는 것으로 알려져 있습니다. 대신, 많은 데이터 과학 전문가들은 체크리스트를 옹호하며, 이는 원칙을 실천으로 연결하는 보다 결정적이고 실행 가능한 방법을 제공합니다.

체크리스트는 질문을 "예/아니오" 작업으로 변환하여 운영화할 수 있으며, 이를 표준 제품 출시 워크플로의 일부로 추적할 수 있습니다.

예시:

3. 윤리 규제

윤리는 공유 가치를 정의하고 자발적으로 올바른 일을 하는 것입니다. 준수는 정의된 경우 _법을 따르는 것_입니다. 거버넌스는 조직이 윤리적 원칙을 시행하고 확립된 법을 준수하기 위해 운영하는 모든 방식을 포괄합니다.

오늘날 거버넌스는 조직 내에서 두 가지 형태를 취합니다. 첫째, 윤리적 AI 원칙을 정의하고 조직의 모든 AI 관련 프로젝트에서 채택을 운영화하는 관행을 수립하는 것입니다. 둘째, 조직이 운영하는 지역의 모든 정부가 의무화한 데이터 보호 규정을 준수하는 것입니다.

데이터 보호 및 프라이버시 규제의 예:

🚨 유럽 연합이 정의한 GDPR(일반 데이터 보호 규정)은 오늘날 가장 영향력 있는 데이터 프라이버시 규정 중 하나로 남아 있습니다. 이 규정이 시민의 디지털 프라이버시와 개인 데이터를 보호하기 위해 8가지 사용자 권리를 정의하고 있다는 것을 알고 계셨나요? 이 권리가 무엇인지, 왜 중요한지 알아보세요.

4. 윤리 문화

_법의 문구_를 충족하기 위해 충분히 행동하는 준수와 AI의 무기화를 가속화할 수 있는 체계적 문제 (예: 경직화, 정보 비대칭, 분배적 불공정성)를 해결하는 것 사이에는 여전히 무형의 격차가 존재합니다.

후자는 윤리 문화를 정의하기 위한 협력적 접근을 요구하며, 이는 업계 내 조직 간에 감정적 연결과 일관된 공유 가치를 구축합니다. 이는 조직 내에서 더 공식화된 데이터 윤리 문화를 요구하며, 누구나 안돈 코드를 당겨 (프로세스 초기에 윤리적 문제를 제기) 윤리적 평가(예: 채용 시)를 AI 프로젝트 팀 구성의 핵심 기준으로 삼을 수 있도록 합니다.


강의 후 퀴즈 🎯

복습 및 자기 학습

강좌와 책은 핵심 윤리 개념과 도전을 이해하는 데 도움을 주며, 사례 연구와 도구는 실제 세계 맥락에서 응용 윤리 관행에 도움을 줍니다. 시작할 수 있는 몇 가지 리소스는 다음과 같습니다.

과제

데이터 윤리 사례 연구 작성하기


면책 조항:
이 문서는 AI 번역 서비스 Co-op Translator를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있으나, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서를 해당 언어로 작성된 상태에서 권위 있는 자료로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다.