|
|
4 months ago | |
|---|---|---|
| .. | ||
| README.md | 4 months ago | |
| assignment.md | 5 months ago | |
README.md
資料倫理簡介
![]() |
|---|
| 資料科學倫理 - Sketchnote by @nitya |
我們都是生活在數據化世界中的資料公民。
市場趨勢顯示,到2022年,三分之一的大型組織將通過線上市場和交易所購買和出售其數據。作為應用程式開發者,我們將更容易、更便宜地將數據驅動的洞察力和算法驅動的自動化整合到日常用戶體驗中。但隨著人工智慧的普及,我們也需要了解這些算法在大規模應用時可能造成的武器化危害。
趨勢顯示,到2025年,我們將生成和消耗超過180澤字節的數據。對於資料科學家而言,這種信息爆炸提供了前所未有的個人和行為數據的訪問權限。這使得建立詳細的用戶檔案並微妙地影響決策成為可能——通常以促進自由選擇的幻覺的方式進行。雖然這可以用來引導用戶朝向偏好的結果,但也引發了關於數據隱私、自主性以及算法影響的倫理界限的關鍵問題。
資料倫理現在是資料科學和工程的_必要防護措施_,幫助我們減少數據驅動行動可能帶來的危害和意外後果。Gartner人工智慧技術成熟度曲線指出,數字倫理、負責任的人工智慧和人工智慧治理是推動人工智慧_民主化_和_工業化_的主要趨勢。
在本課程中,我們將探索資料倫理這個迷人的領域——從核心概念和挑戰,到案例研究和應用人工智慧概念(如治理),幫助在處理數據和人工智慧的團隊和組織中建立倫理文化。
課前測驗 🎯
基本定義
讓我們先了解一些基本術語。
「倫理」一詞源自希臘詞「ethikos」(及其根詞「ethos」),意為_品格或道德本質_。
倫理是指在社會中規範我們行為的共同價值觀和道德原則。倫理不是基於法律,而是基於廣泛接受的「對與錯」的規範。然而,倫理考量可以影響企業治理倡議和政府法規,從而創造更多的合規激勵。
資料倫理是一個新的倫理分支,研究和評估與_數據、算法及相關實踐_相關的道德問題。在這裡,**「數據」側重於生成、記錄、策劃、處理、傳播、共享和使用的行動,「算法」側重於人工智慧、代理、機器學習和機器人,「實踐」**側重於負責任的創新、編程、駭客行為和倫理守則等主題。
應用倫理是道德考量的實際應用。它是積極調查_現實世界行動、產品和流程_中的倫理問題,並採取糾正措施以確保這些行動與我們定義的倫理價值保持一致。
倫理文化是關於將應用倫理_付諸實踐_,確保我們的倫理原則和實踐在整個組織中以一致且可擴展的方式被採用。成功的倫理文化定義了全組織範圍的倫理原則,提供有意義的合規激勵,並通過鼓勵和放大期望的行為來加強每個層級的倫理規範。
倫理概念
在本節中,我們將討論共同價值觀(原則)和倫理挑戰(問題)等資料倫理概念,並探索案例研究,幫助您在現實世界的背景中理解這些概念。
1. 倫理原則
每個資料倫理策略都始於定義_倫理原則_——描述可接受行為並指導合規行動的「共同價值觀」,用於我們的數據和人工智慧項目。您可以在個人或團隊層面定義這些原則。然而,大多數大型組織會在企業層面定義一個_倫理人工智慧_使命聲明或框架,並在所有團隊中一致執行。
範例: 微軟的負責任人工智慧使命聲明寫道:「我們致力於推動以倫理原則為基礎的人工智慧,將人放在首位」,並在以下框架中確定了6個倫理原則:
讓我們簡要探討這些原則。_透明性_和_問責性_是其他原則的基礎價值觀,因此我們從這裡開始:
- 問責性使實踐者對其數據和人工智慧操作以及遵守這些倫理原則負責。
- 透明性確保數據和人工智慧行動對用戶是_可理解的_(可解釋的),並解釋決策背後的內容和原因。
- 公平性——專注於確保人工智慧公平對待_所有人_,解決數據和系統中的任何系統性或隱性社會技術偏見。
- 可靠性與安全性——確保人工智慧以_一致性_的方式行事,並減少潛在危害或意外後果。
- 隱私與安全——關注數據來源,並為用戶提供_數據隱私及相關保護_。
- 包容性——旨在有意設計人工智慧解決方案,並使其適應_廣泛的人類需求_和能力。
🚨 想一想您的資料倫理使命聲明可能是什麼。探索其他組織的倫理人工智慧框架——以下是IBM、Google和Facebook的範例。他們有哪些共同的價值觀?這些原則如何與他們所運營的人工智慧產品或行業相關?
2. 倫理挑戰
一旦我們定義了倫理原則,下一步就是評估我們的數據和人工智慧行動是否符合這些共同價值觀。思考您的行動可以分為兩類:數據收集_和_算法設計。
在數據收集方面,行動可能涉及個人數據或可識別的活人個人信息(PII)。這包括多樣化的非個人數據項目,這些數據_共同_識別一個個體。倫理挑戰可能涉及_數據隱私_、數據所有權_以及相關主題,如_知情同意_和_用戶的知識產權。
在算法設計方面,行動將涉及收集和策劃數據集,然後使用它們來訓練和部署數據模型,以在現實世界的背景中預測結果或自動化決策。倫理挑戰可能來自_數據集偏差_、_數據質量_問題、不公平性_以及算法中的_誤導性——包括一些系統性問題。
在這兩種情況下,倫理挑戰突出了我們的行動可能與共同價值觀發生衝突的領域。為了檢測、減輕、最小化或消除這些問題,我們需要針對我們的行動提出道德「是/否」問題,然後根據需要採取糾正措施。以下是一些倫理挑戰及其引發的道德問題:
2.1 數據所有權
數據收集通常涉及可識別數據主體的個人數據。數據所有權關注於與數據的創建、處理和傳播相關的_控制_和用戶權利。
需要提出的道德問題包括:
- 誰擁有數據?(用戶或組織)
- 數據主體擁有哪些權利?(例如:訪問、刪除、可攜性)
- 組織擁有哪些權利?(例如:糾正惡意用戶評論)
2.2 知情同意
知情同意指的是用戶在充分了解相關事實(包括目的、潛在風險和替代方案)的情況下同意某項行動(如數據收集)。
需要探討的問題包括:
- 用戶(數據主體)是否允許數據的捕獲和使用?
- 用戶是否了解捕獲數據的目的?
- 用戶是否了解參與可能帶來的潛在風險?
2.3 知識產權
知識產權指的是人類創造的無形產物,可能對個人或企業具有_經濟價值_。
需要探討的問題包括:
- 收集的數據是否對用戶或企業具有經濟價值?
- 用戶是否擁有知識產權?
- 組織是否擁有知識產權?
- 如果存在這些權利,我們如何保護它們?
2.4 數據隱私
數據隱私或信息隱私指的是保護用戶隱私和身份,特別是與可識別個人信息相關的部分。
需要探討的問題包括:
- 用戶的(個人)數據是否安全,防止駭客攻擊和洩漏?
- 用戶的數據是否僅限於授權用戶和授權情境訪問?
- 用戶的匿名性是否在數據共享或傳播時得到保護?
- 用戶是否可以從匿名數據集中被去識別?
2.5 被遺忘的權利
被遺忘的權利或刪除權為用戶提供額外的個人數據保護。具體而言,它賦予用戶在特定情況下要求刪除或移除個人數據的權利,允許他們在網上重新開始,而不受過去行為的影響。
需要探討的問題包括:
- 系統是否允許數據主體請求刪除?
- 用戶撤回同意是否應觸發自動刪除?
- 是否存在未經同意或非法手段收集的數據?
- 我們是否符合政府對數據隱私的法規?
2.6 數據集偏差
數據集或收集偏差指的是選擇_非代表性_的數據子集進行算法開發,可能導致對不同群體的結果不公平。偏差類型包括選擇或抽樣偏差、志願者偏差和工具偏差。
需要探討的問題包括:
- 我們是否招募了代表性數據主體的集合?
- 我們是否測試了收集或策劃的數據集以檢測各種偏差?
- 我們是否能減輕或消除發現的偏差?
2.7 數據質量
數據質量關注於用於開發算法的策劃數據集的有效性,檢查特徵和記錄是否符合人工智慧目的所需的準確性和一致性要求。
需要探討的問題包括:
- 我們是否捕獲了適合我們使用案例的有效_特徵_?
- 數據是否在不同數據來源中_一致性_地捕獲?
- 數據集是否在不同條件或場景下_完整_?
- 是否準確捕捉信息以反映現實?
2.8 演算法公平性
演算法公平性檢查演算法設計是否系統性地對特定數據主體的子群體造成歧視,導致在資源分配(即資源被拒絕或扣留)和服務質量(即人工智能對某些子群體的準確性不如其他群體)方面的潛在傷害。
需要探討的問題包括:
- 我們是否評估了模型在不同子群體和條件下的準確性?
- 我們是否仔細檢查了系統是否存在潛在傷害(例如,刻板印象)?
- 我們是否可以修正數據或重新訓練模型以減輕已識別的傷害?
探索像人工智能公平性檢查清單這樣的資源以了解更多。
2.9 錯誤陳述
數據錯誤陳述是指我們是否以欺騙的方式傳達來自誠實報告數據的洞察,以支持某種期望的敘述。
需要探討的問題包括:
- 我們是否報告了不完整或不準確的數據?
- 我們是否以導致誤導性結論的方式可視化數據?
- 我們是否使用選擇性的統計技術來操縱結果?
- 是否存在可能提供不同結論的替代解釋?
2.10 自由選擇
自由選擇的幻象發生在系統的“選擇架構”使用決策演算法來引導人們採取偏好的結果,同時看似給予他們選擇和控制權。這些黑暗模式可能對用戶造成社會和經濟上的傷害。由於用戶的決策會影響行為檔案,這些行動可能會驅動未來的選擇,進一步放大或延續這些傷害的影響。
需要探討的問題包括:
- 用戶是否理解做出該選擇的影響?
- 用戶是否了解(替代)選擇及其各自的利弊?
- 用戶是否可以在後期逆轉自動化或受影響的選擇?
3. 案例研究
為了將這些倫理挑戰置於現實世界的背景中,研究案例研究有助於突出當忽視這些倫理問題時,對個人和社會可能造成的傷害和後果。
以下是一些例子:
| 倫理挑戰 | 案例研究 |
|---|---|
| 知情同意 | 1972年 - 塔斯基吉梅毒研究 - 參與研究的非裔美國男性被承諾提供免費醫療服務,但研究人員欺騙了受試者,未告知他們的診斷或治療的可用性。許多受試者死亡,其伴侶或子女也受到影響;研究持續了40年。 |
| 數據隱私 | 2007年 - Netflix數據獎向研究人員提供了_來自50,000名客戶的1,000萬匿名電影評分_,以幫助改進推薦演算法。然而,研究人員能夠將匿名數據與_外部數據集_(例如IMDb評論)中的個人身份數據相關聯,實際上“去匿名化”了一些Netflix訂閱者。 |
| 收集偏差 | 2013年 - 波士頓市開發了Street Bump,這是一款讓市民報告路面坑洞的應用程式,幫助城市獲得更好的道路數據以發現和修復問題。然而,低收入群體的人們較少擁有汽車和手機,使得他們的道路問題在這款應用程式中被忽視。開發者與學者合作解決公平性問題,例如_公平訪問和數字鴻溝_。 |
| 演算法公平性 | 2018年 - MIT Gender Shades研究評估了性別分類人工智能產品的準確性,揭示了女性和有色人種的準確性差距。一個2019年Apple Card似乎給女性提供的信用額度低於男性。這兩個例子都說明了演算法偏差導致的社會經濟傷害問題。 |
| 數據錯誤陳述 | 2020年 - 喬治亞州公共衛生部發布的COVID-19圖表似乎通過非時間順序的x軸排列誤導公民關於確診病例趨勢的理解。這說明了通過可視化技巧進行的錯誤陳述。 |
| 自由選擇的幻象 | 2020年 - 學習應用程式ABCmouse支付了1000萬美元以解決FTC投訴,家長被迫支付無法取消的訂閱費用。這說明了選擇架構中的黑暗模式,用戶被引導做出可能有害的選擇。 |
| 數據隱私與用戶權利 | 2021年 - Facebook 數據洩漏洩露了5.3億用戶的數據,導致向FTC支付了50億美元的和解金。然而,它拒絕通知用戶洩漏事件,違反了用戶關於數據透明度和訪問的權利。 |
想探索更多案例研究?查看以下資源:
- Ethics Unwrapped - 涵蓋多個行業的倫理困境。
- 數據科學倫理課程 - 探索標誌性案例研究。
- 錯誤案例 - Deon清單中的示例。
🚨 回想你所看到的案例研究——你是否曾經遇到或受到類似倫理挑戰的影響?你能想到至少一個其他案例研究來說明我們在本節中討論的倫理挑戰嗎?
應用倫理
我們已經討論了倫理概念、挑戰以及在現實世界中的案例研究。但我們如何開始在項目中_應用_倫理原則和實踐?我們又如何_實現_這些實踐以改善治理?讓我們探索一些現實世界的解決方案:
1. 專業守則
專業守則為組織提供了一種選擇,通過“激勵”成員支持其倫理原則和使命聲明。守則是專業行為的_道德指南_,幫助員工或成員做出符合其組織原則的決策。它的效力取決於成員的自願遵守;然而,許多組織提供額外的獎勵和懲罰以激勵成員遵守。
例子包括:
- Oxford Munich倫理守則
- 數據科學協會行為守則(創建於2013年)
- ACM倫理與專業行為守則(自1993年起)
🚨 你是否屬於某個專業工程或數據科學組織?探索他們的網站,看看是否定義了專業倫理守則。這些守則說明了哪些倫理原則?他們如何“激勵”成員遵守守則?
2. 倫理檢查清單
雖然專業守則定義了從業者所需的_倫理行為_,但它們在執行方面存在已知的局限性,特別是在大規模項目中。因此,許多數據科學專家提倡使用檢查清單,這些清單可以將原則與實踐聯繫起來,以更具決定性和可操作的方式。
檢查清單將問題轉化為“是/否”任務,可以實現操作化,並允許將其作為標準產品發布工作流程的一部分進行跟蹤。
例子包括:
- Deon - 一個通用數據倫理檢查清單,由行業建議創建,並配有命令行工具以便於集成。
- 隱私審核檢查清單 - 從法律和社會暴露的角度提供信息處理實踐的一般指導。
- 人工智能公平性檢查清單 - 由人工智能從業者創建,用於支持公平性檢查的採用和集成到人工智能開發周期中。
- 數據與人工智能倫理的22個問題 - 更開放式的框架,結構化用於設計、實施和組織背景下的倫理問題初步探索。
3. 倫理法規
倫理是關於定義共同價值並_自願_做正確的事情。合規是指_遵守法律_(如果有定義)。治理則廣泛涵蓋了組織為執行倫理原則和遵守既定法律所採取的所有方式。
今天,治理在組織內部有兩種形式。首先,它是關於定義倫理人工智能原則並建立實踐以在組織內所有與人工智能相關的項目中實現採用。其次,它是關於遵守所有政府規定的數據保護法規,以適應其運營的地區。
數據保護和隱私法規的例子:
1974年,美國隱私法案 - 規範_聯邦政府_收集、使用和披露個人信息。1996年,美國健康保險流通與責任法案(HIPAA) - 保護個人健康數據。1998年,美國兒童在線隱私保護法案(COPPA) - 保護13歲以下兒童的數據隱私。2018年,通用數據保護條例(GDPR) - 提供用戶權利、數據保護和隱私。2018年,加州消費者隱私法案(CCPA) - 賦予消費者更多_個人數據_的權利。2021年,中國個人信息保護法剛剛通過,創造了全球最強的在線數據隱私法規之一。
🚨 歐盟定義的通用數據保護條例(GDPR)仍然是當今最具影響力的數據隱私法規之一。你知道它還定義了8項用戶權利以保護公民的數字隱私和個人數據嗎?了解這些權利是什麼以及它們為什麼重要。
4. 倫理文化
請注意,合規(做到足以滿足“法律條文”)與解決系統性問題(如僵化、信息不對稱和分配不公平)之間仍然存在無形的差距,這些問題可能加速人工智能的武器化。
後者需要協作方法來定義倫理文化,以在行業內部建立情感聯繫和一致的共同價值觀。這需要在組織內部建立更多正式化的數據倫理文化,允許_任何人_在過程早期拉響安燈繩(提出倫理問題),並將_倫理評估_(例如在招聘中)作為人工智能項目團隊組建的核心標準。
課後測驗 🎯
回顧與自學
課程和書籍有助於理解核心倫理概念和挑戰,而案例研究和工具有助於在現實世界中應用倫理實踐。以下是一些入門資源。
- 機器學習入門 - 微軟提供的公平性課程。
- 負責任的人工智慧原則 - 微軟學習平台的免費學習路徑。
- 倫理與數據科學 - O'Reilly 電子書 (M. Loukides, H. Mason 等人著)
- 數據科學倫理 - 密西根大學提供的線上課程。
- 倫理解讀 - 德州大學的案例研究。
作業
免責聲明:
本文件已使用 AI 翻譯服務 Co-op Translator 進行翻譯。儘管我們努力確保翻譯的準確性,但請注意,自動翻譯可能包含錯誤或不準確之處。原始文件的母語版本應被視為權威來源。對於關鍵資訊,建議使用專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或誤釋不承擔責任。

