31 KiB
データ倫理の導入
![]() |
---|
データサイエンス倫理 - スケッチノート by @nitya |
私たちはデータ化された世界に生きるデータ市民です。
市場の動向によると、2022年までに3分の1の大企業がオンラインのマーケットプレイスや取引所を通じてデータを売買するようになると言われています。アプリ開発者として、データ駆動型の洞察やアルゴリズム駆動型の自動化を日常のユーザー体験に統合することが、より簡単かつ安価になります。しかし、AIが広く普及するにつれて、そのようなアルゴリズムが大規模に武器化されることによる潜在的な害についても理解する必要があります。
また、2025年までに180ゼタバイト以上のデータを生成・消費するという予測もあります。データサイエンティストとして、これにより個人データへのアクセスがかつてないほど容易になります。これにより、ユーザーの行動プロファイルを構築し、自由選択の幻想を作り出しながら、私たちが望む結果にユーザーを誘導することが可能になります。しかし、これによりデータプライバシーやユーザー保護に関する広範な問題も浮上します。
データ倫理は、データサイエンスやエンジニアリングにおける潜在的な害や意図しない結果を最小限に抑えるための_必要なガードレール_です。ガートナーのAIハイプサイクルは、デジタル倫理、責任あるAI、AIガバナンスに関連するトレンドを、AIの_民主化_と_産業化_を推進する主要なメガトレンドとして特定しています。
このレッスンでは、データ倫理の魅力的な分野を探求します。基本的な概念や課題から、ケーススタディやガバナンスのような応用AIの概念まで、データやAIを扱うチームや組織に倫理文化を確立する方法を学びます。
講義前のクイズ 🎯
基本的な定義
まずは基本的な用語を理解することから始めましょう。
「倫理」という言葉は、ギリシャ語の「ethikos」(その語源である「ethos」)に由来し、_性格や道徳的性質_を意味します。
倫理とは、社会における行動を支配する共有価値観や道徳的原則のことです。倫理は法律ではなく、「正しい vs. 間違っている」という広く受け入れられた規範に基づいています。しかし、倫理的な考慮事項は、企業統治の取り組みやコンプライアンスを促進する政府規制に影響を与えることがあります。
データ倫理は、_データ、アルゴリズム、対応する実践_に関連する道徳的問題を「研究し評価する」新しい倫理の分野です。ここで、**「データ」は生成、記録、キュレーション、処理、普及、共有、使用に関連する行動に焦点を当て、「アルゴリズム」はAI、エージェント、機械学習、ロボットに焦点を当て、「実践」**は責任あるイノベーション、プログラミング、ハッキング、倫理コードなどのトピックに焦点を当てます。
応用倫理は、_実世界の行動、製品、プロセス_の文脈で倫理的問題を積極的に調査し、それらが定義された倫理的価値観に一致するようにするための道徳的考慮事項の実践的応用です。
倫理文化は、組織全体で倫理的原則と実践が一貫して拡張可能な方法で採用されるようにするために、応用倫理を運用化することです。成功する倫理文化は、組織全体の倫理的原則を定義し、コンプライアンスに対する意味のあるインセンティブを提供し、望ましい行動を奨励し増幅することで、組織のあらゆるレベルで倫理規範を強化します。
倫理の概念
このセクションでは、データ倫理における共有価値観(原則)や倫理的課題(問題)といった概念について議論し、これらの概念を実世界の文脈で理解するためのケーススタディを探求します。
1. 倫理原則
すべてのデータ倫理戦略は、_倫理原則_を定義することから始まります。これは、データやAIプロジェクトにおける許容される行動を記述し、コンプライアンスのある行動を導く「共有価値観」です。これらは個人やチームレベルで定義することができます。しかし、ほとんどの大企業は、企業レベルで定義され、すべてのチームで一貫して施行される_倫理的AI_ミッションステートメントやフレームワークにこれをまとめています。
例: Microsoftの責任あるAIミッションステートメントは、_「人々を第一に考える倫理原則によって推進されるAIの進歩にコミットしています」_と述べ、以下の6つの倫理原則を特定しています。
これらの原則を簡単に探ってみましょう。_透明性_と_責任_は他の原則の基盤となる価値観であるため、まずそこから始めます:
- 責任は、実践者がデータとAIの運用に対して_責任_を持ち、これらの倫理原則に準拠することを保証します。
- 透明性は、データとAIの行動がユーザーにとって_理解可能_(解釈可能)であり、決定の背後にある内容と理由を説明することを保証します。
- 公平性は、AIが_すべての人々_を公平に扱い、データやシステムにおける体系的または暗黙的な社会技術的バイアスに対処することに焦点を当てます。
- 信頼性と安全性は、AIが定義された価値観に_一貫して_従い、潜在的な害や意図しない結果を最小限に抑えることを保証します。
- プライバシーとセキュリティは、データの系譜を理解し、ユーザーに_データプライバシーと関連する保護_を提供することに関するものです。
- 包括性は、意図を持ってAIソリューションを設計し、_幅広い人間のニーズ_と能力に対応するように適応させることに関するものです。
🚨 あなたのデータ倫理ミッションステートメントはどのようなものになるでしょうか。他の組織の倫理的AIフレームワークを探求してみましょう。例えば、IBM、Google、Facebookの例があります。これらの共有価値観にはどのような共通点がありますか?これらの原則は、彼らが運営するAI製品や業界にどのように関連していますか?
2. 倫理的課題
倫理原則が定義されたら、次のステップは、データとAIの行動がこれらの共有価値観と一致しているかどうかを評価することです。行動を_データ収集_と_アルゴリズム設計_の2つのカテゴリーで考えてみましょう。
データ収集では、行動は個人データや個人を特定可能な情報(PII)を含む可能性があります。これは、個人を特定する多様な非個人データを_集合的に_含むものです。倫理的課題は、データプライバシー、データ所有権、およびユーザーの_インフォームドコンセント_や_知的財産権_に関連するトピックに関するものです。
アルゴリズム設計では、行動はデータセットを収集・キュレーションし、それを使用してデータモデルをトレーニング・展開し、実世界の文脈で結果を予測したり意思決定を自動化したりすることに関連します。倫理的課題は、データセットのバイアス、_データ品質_の問題、不公平性、およびアルゴリズムの_誤表現_に関連する可能性があります。これには、体系的な問題も含まれることがあります。
どちらの場合も、倫理的課題は、私たちの行動が共有価値観と衝突する可能性のある領域を強調します。これらの懸念を検出、軽減、最小化、または排除するためには、行動に関連する道徳的な「はい/いいえ」の質問を行い、必要に応じて是正措置を講じる必要があります。倫理的課題とそれが提起する道徳的質問をいくつか見てみましょう:
2.1 データ所有権
データ収集は、データ主体を特定できる個人データを含むことがよくあります。データ所有権は、データの作成、処理、普及に関連する_コントロール_とユーザー権利に関するものです。
道徳的な質問は以下の通りです:
- 誰がデータを所有しているのか?(ユーザーまたは組織)
- データ主体にはどのような権利があるのか?(例:アクセス、削除、移植性)
- 組織にはどのような権利があるのか?(例:悪意のあるユーザーレビューの修正)
2.2 インフォームドコンセント
インフォームドコンセントは、ユーザーが目的、潜在的なリスク、代替案を含む関連事実を_完全に理解_した上で、行動(例:データ収集)に同意する行為を定義します。
ここで探求すべき質問は:
- ユーザー(データ主体)はデータの収集と使用に許可を与えたか?
- ユーザーはそのデータが収集された目的を理解していたか?
- ユーザーは参加による潜在的なリスクを理解していたか?
2.3 知的財産
知的財産は、人間の創意工夫から生まれた無形の創造物であり、個人や企業にとって_経済的価値_を持つ可能性があります。
ここで探求すべき質問は:
- 収集されたデータはユーザーや企業にとって経済的価値を持っていたか?
- ユーザーには知的財産が存在するか?
- 組織には知的財産が存在するか?
- これらの権利が存在する場合、それらをどのように保護しているか?
2.4 データプライバシー
データプライバシーまたは情報プライバシーは、個人を特定可能な情報に関して、ユーザーのプライバシーを維持し、ユーザーの身元を保護することを指します。
ここで探求すべき質問は:
- ユーザーの(個人)データはハッキングや漏洩から保護されているか?
- ユーザーのデータは許可されたユーザーや文脈にのみアクセス可能か?
- データが共有または普及される際にユーザーの匿名性は維持されているか?
- 匿名化されたデータセットからユーザーを特定できるか?
2.5 忘れられる権利
忘れられる権利または削除権は、ユーザーに追加の個人データ保護を提供します。具体的には、特定の状況下でインターネット検索やその他の場所から個人データの削除または除去を要求する権利をユーザーに与え、過去の行動が彼らに不利に働かないようにします。
ここで探求すべき質問は:
- システムはデータ主体が削除を要求することを許可しているか?
- ユーザーの同意の撤回が自動削除を引き起こすべきか?
- データは同意なしまたは違法な手段で収集されたか?
- データプライバシーに関する政府規制に準拠しているか?
2.6 データセットのバイアス
データセットまたは収集バイアスは、アルゴリズム開発のために_非代表的な_データのサブセットを選択することで、多様なグループに対する結果の不公平性を生み出す可能性があります。バイアスの種類には、選択またはサンプリングバイアス、ボランティアバイアス、機器バイアスがあります。
ここで探求すべき質問は:
- 代表的なデータ主体のセットを募集したか?
- 収集またはキュレーションされたデータセットをさまざまなバイアスについてテストしたか?
- 発見されたバイアスを軽減または除去できるか?
2.7 データ品質
[データ品質](https:// アルゴリズムの公平性は、アルゴリズムの設計が特定のデータ主体のサブグループに対して体系的に差別を行い、資源の配分(そのグループに資源が拒否または提供されない場合)や_サービスの質_(AIがあるサブグループに対して他のグループほど正確でない場合)における潜在的な被害を引き起こしていないかを確認するものです。
ここで検討すべき質問は以下の通りです:
- 多様なサブグループや条件に対してモデルの精度を評価しましたか?
- 潜在的な被害(例:ステレオタイプ化)についてシステムを精査しましたか?
- 特定された被害を軽減するためにデータを修正したり、モデルを再学習させることができますか?
AIの公平性チェックリストなどのリソースを活用して、さらに学びましょう。
2.9 誤った表現
データの誤表現とは、正直に報告されたデータから得られた洞察を、望ましいストーリーを支持するために欺瞞的に伝えていないかを問うことです。
ここで検討すべき質問は以下の通りです:
- 不完全または不正確なデータを報告していませんか?
- 誤解を招く結論を導くような方法でデータを可視化していませんか?
- 結果を操作するために選択的な統計手法を使用していませんか?
- 別の結論を導く可能性のある代替説明はありませんか?
2.10 自由選択
自由選択の錯覚は、システムの「選択アーキテクチャ」が意思決定アルゴリズムを使用して、人々を好ましい結果に誘導しつつ、選択肢やコントロールを与えているように見せかける場合に発生します。これらのダークパターンは、ユーザーに社会的および経済的な被害をもたらす可能性があります。ユーザーの意思決定が行動プロファイルに影響を与えるため、これらの行動は将来の選択に影響を与え、被害の影響を拡大または延長する可能性があります。
ここで検討すべき質問は以下の通りです:
- ユーザーはその選択を行うことの影響を理解していましたか?
- ユーザーは(代替の)選択肢とそれぞれの利点と欠点を認識していましたか?
- ユーザーは自動化された選択や影響を受けた選択を後から取り消すことができますか?
3. ケーススタディ
これらの倫理的課題を現実世界の文脈で考えるには、倫理違反が見過ごされた場合に個人や社会にどのような潜在的な被害や結果が生じるかを示すケーススタディを検討することが役立ちます。
以下はいくつかの例です:
倫理的課題 | ケーススタディ |
---|---|
インフォームド・コンセント | 1972年 - タスキギー梅毒研究 - 研究に参加したアフリカ系アメリカ人男性は無料の医療ケアを約束されましたが、研究者は被験者に診断や治療の利用可能性を知らせずに欺きました。多くの被験者が死亡し、パートナーや子供にも影響が及びました。この研究は40年間続きました。 |
データプライバシー | 2007年 - Netflixデータ賞では、研究者に_50,000人の顧客からの1,000万件の匿名化された映画評価_が提供され、推薦アルゴリズムの改善が試みられました。しかし、研究者は匿名化されたデータを外部データセット(例:IMDbのコメント)と照合し、一部のNetflix加入者を「再識別」することができました。 |
収集バイアス | 2013年 - ボストン市はStreet Bumpというアプリを開発し、市民が道路の穴を報告できるようにしました。これにより、市は道路データを改善し、問題を特定して修正することができました。しかし、低所得層の人々は車や携帯電話へのアクセスが少ないため、彼らの道路問題はこのアプリでは見えなくなりました。開発者は公平性のために_アクセスの平等性とデジタル格差_の問題に取り組むため、学術関係者と協力しました。 |
アルゴリズムの公平性 | 2018年 - MITのGender Shades Studyは、性別分類AI製品の精度を評価し、女性や有色人種に対する精度のギャップを明らかにしました。2019年のApple Cardでは、男性よりも女性に対してクレジットが少なく提供されるように見えました。これらは、アルゴリズムバイアスが社会経済的な被害を引き起こす例を示しています。 |
データの誤表現 | 2020年 - ジョージア州公衆衛生局が発表したCOVID-19のグラフは、x軸の非時系列順序によって、市民に確認された症例数の傾向について誤解を与えるように見えました。これは、視覚化のトリックによる誤表現を示しています。 |
自由選択の錯覚 | 2020年 - 学習アプリABCmouseがFTCの苦情を解決するために1,000万ドルを支払ったケースでは、親がキャンセルできないサブスクリプションを支払わされる状況に陥りました。これは、ユーザーが潜在的に有害な選択肢に誘導される選択アーキテクチャにおけるダークパターンを示しています。 |
データプライバシーとユーザーの権利 | 2021年 - Facebookのデータ漏洩では、5億3,000万人のユーザーのデータが漏洩し、FTCに50億ドルの和解金を支払う結果となりました。しかし、Facebookは漏洩についてユーザーに通知することを拒否し、データの透明性とアクセスに関するユーザーの権利を侵害しました。 |
さらにケーススタディを探したいですか?以下のリソースをチェックしてください:
- Ethics Unwrapped - 多様な業界における倫理的ジレンマ。
- データサイエンス倫理コース - 重要なケーススタディを探求。
- 失敗例のリスト - Deonチェックリストとその例。
🚨 あなたが見たケーススタディについて考えてみてください。これまでに似たような倫理的課題を経験したり、影響を受けたりしたことがありますか?このセクションで議論した倫理的課題の1つを示す別のケーススタディを少なくとも1つ考えることができますか?
応用倫理
これまでに倫理の概念、課題、そして現実世界の文脈でのケーススタディについて話してきました。しかし、プロジェクトで倫理的原則や実践をどのように_適用_すればよいのでしょうか?また、これらの実践をどのように_運用化_してより良いガバナンスを実現するのでしょうか?いくつかの現実的な解決策を探ってみましょう:
1. プロフェッショナルコード
プロフェッショナルコードは、組織がメンバーに倫理的原則やミッションステートメントを支持するよう「奨励」するための1つの方法を提供します。コードはプロフェッショナルな行動のための_道徳的ガイドライン_であり、従業員やメンバーが組織の原則に沿った意思決定を行うのを助けます。これらはメンバーの自主的な遵守に依存しますが、多くの組織は遵守を促すために追加の報酬や罰則を提供しています。
例:
- Oxford Munich 倫理規範
- データサイエンス協会 行動規範(2013年作成)
- ACM 倫理規範とプロフェッショナル行動規範(1993年以降)
🚨 あなたはプロフェッショナルなエンジニアリングまたはデータサイエンスの組織に所属していますか?そのウェブサイトを調べて、プロフェッショナルな倫理規範を定義しているかどうかを確認してください。それはどのような倫理的原則を示していますか?メンバーにコードを遵守させるためにどのように「奨励」しているのでしょうか?
2. 倫理チェックリスト
プロフェッショナルコードが実践者に求められる_倫理的行動_を定義する一方で、大規模プロジェクトにおける実施の限界が知られています。その代わりに、多くのデータサイエンスの専門家はチェックリストを推奨しています。これにより、原則を実践に結び付け、より決定論的で実行可能な方法を提供します。
チェックリストは質問を「はい/いいえ」のタスクに変換し、運用化することができ、標準的な製品リリースワークフローの一部として追跡可能にします。
例:
- Deon - 業界の推奨事項に基づいて作成された汎用データ倫理チェックリストで、コマンドラインツールを使用して簡単に統合可能。
- プライバシー監査チェックリスト - 法的および社会的なリスクの観点から情報取り扱いの一般的なガイダンスを提供。
- AIの公平性チェックリスト - AI開発サイクルに公平性チェックを統合するためにAI実践者によって作成。
- データとAIにおける倫理のための22の質問 - 設計、実装、組織的文脈における倫理的問題の初期探索のためのよりオープンなフレームワーク。
3. 倫理規制
倫理は共有価値を定義し、自発的に正しいことを行うことに関するものです。一方、コンプライアンスは、定義されている場合に_法律を遵守する_ことに関するものです。ガバナンスは、組織が倫理的原則を実施し、確立された法律を遵守するために運営するすべての方法を広くカバーします。
今日、ガバナンスは組織内で2つの形を取ります。1つ目は、倫理的AIの原則を定義し、組織内のすべてのAI関連プロジェクトにわたって採用を運用化するための実践を確立することです。2つ目は、組織が運営する地域のすべての政府が定めたデータ保護規制を遵守することです。
データ保護およびプライバシー規制の例:
1974年
、米国プライバシー法 - _連邦政府_による個人情報の収集、使用、開示を規制。1996年
、米国医療保険の携行性と責任に関する法律(HIPAA) - 個人の健康データを保護。1998年
、米国児童オンラインプライバシー保護法(COPPA) - 13歳未満の子供のデータプライバシーを保護。2018年
、一般データ保護規則(GDPR) - ユーザーの権利、データ保護、プライバシーを提供。2018年
、カリフォルニア州消費者プライバシー法(CCPA) - 消費者に(個人)データに関するより多くの_権利_を付与。2021年
、中国の個人情報保護法 - 世界で最も強力なオンラインデータプライバシー規制の1つを制定。
🚨 欧州連合が定義したGDPR(一般データ保護規則)は、今日最も影響力のあるデータプライバシー規制の1つです。GDPRは市民のデジタルプライバシーと個人データを保護するための8つのユーザー権利も定義していることをご存知ですか?これらが何であるか、そしてなぜ重要なのかを学んでみてください。
4. 倫理文化
コンプライアンス(「法律の文言」を満たすために十分なことを行う)と、AIの武器化を加速させる可能性のあるシステム的な問題(硬直化、情報の非対称性、分配の不公平性など)に対処することの間には、依然として無形のギャップがあります。
後者には、業界内で一貫した共有価値と感情的なつながりを構築する倫理文化を定義するための協調的アプローチが
- 責任あるAIの原則 - Microsoft Learnの無料学習パス
- 倫理とデータサイエンス - O'Reillyの電子書籍 (M. Loukides, H. Mason 他)
- データサイエンス倫理 - ミシガン大学のオンラインコース
- Ethics Unwrapped - テキサス大学のケーススタディ
課題
免責事項:
この文書は、AI翻訳サービス Co-op Translator を使用して翻訳されています。正確性を追求しておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があることをご承知ください。元の言語で記載された文書が正式な情報源とみなされるべきです。重要な情報については、専門の人間による翻訳を推奨します。この翻訳の使用に起因する誤解や誤解釈について、当方は責任を負いません。