You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/hk/9-Real-World/2-Debugging-ML-Models/README.md

183 lines
16 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "df2b538e8fbb3e91cf0419ae2f858675",
"translation_date": "2025-09-05T09:23:37+00:00",
"source_file": "9-Real-World/2-Debugging-ML-Models/README.md",
"language_code": "hk"
}
-->
# 後記使用負責任AI儀表板元件進行機器學習模型調試
## [課前測驗](https://ff-quizzes.netlify.app/en/ml/)
## 簡介
機器學習已深刻影響我們的日常生活。AI正逐漸滲透到一些對個人及社會至關重要的系統中例如醫療保健、金融、教育和就業。例如系統和模型參與了日常決策任務如醫療診斷或欺詐檢測。因此AI的進步及其加速採用也伴隨著不斷演變的社會期望和日益增長的監管要求。我們經常看到AI系統未能達到期望的領域它們暴露出新的挑戰而政府也開始對AI解決方案進行監管。因此分析這些模型以提供公平、可靠、包容、透明和負責任的結果對每個人都至關重要。
在本課程中我們將探討一些實用工具用於評估模型是否存在負責任AI的問題。傳統的機器學習調試技術通常基於定量計算例如整體準確率或平均錯誤損失。想像一下如果您用於構建這些模型的數據缺乏某些人口統計信息例如種族、性別、政治觀點、宗教或者這些人口統計信息的比例不均衡會發生什麼情況如果模型的輸出被解釋為偏向某些人口統計信息又會如何這可能導致對敏感特徵群體的過度或不足代表從而引發模型的公平性、包容性或可靠性問題。另一個因素是機器學習模型通常被視為黑盒子這使得理解和解釋模型的預測驅動因素變得困難。當數據科學家和AI開發者缺乏足夠的工具來調試和評估模型的公平性或可信度時這些都是他們面臨的挑戰。
在本課程中,您將學習如何使用以下方法調試您的模型:
- **錯誤分析**:識別模型在數據分佈中錯誤率較高的地方。
- **模型概覽**:對不同數據群體進行比較分析,以發現模型性能指標中的差異。
- **數據分析**:調查數據是否存在過度或不足代表,可能導致模型偏向某些數據群體。
- **特徵重要性**:了解哪些特徵在全局或局部層面上驅動模型的預測。
## 前置條件
作為前置條件,請先查看[開發者的負責任AI工具](https://www.microsoft.com/ai/ai-lab-responsible-ai-dashboard)
> ![負責任AI工具的GIF](../../../../9-Real-World/2-Debugging-ML-Models/images/rai-overview.gif)
## 錯誤分析
用於衡量準確性的傳統模型性能指標通常基於正確與錯誤預測的計算。例如判斷一個模型89%的準確率和0.001的錯誤損失可以被認為是良好的性能。然而錯誤通常並非均勻分佈於您的基礎數據集中。您可能獲得89%的模型準確率但發現模型在某些數據區域的錯誤率高達42%。某些數據群體的這些失敗模式可能導致公平性或可靠性問題。了解模型表現良好或不佳的區域至關重要。模型中錯誤率較高的數據區域可能是重要的數據群體。
![分析和調試模型錯誤](../../../../9-Real-World/2-Debugging-ML-Models/images/ea-error-distribution.png)
RAI儀表板上的錯誤分析元件通過樹狀可視化展示模型失敗在各群體中的分佈情況。這有助於識別數據集中錯誤率較高的特徵或區域。通過查看模型大部分錯誤的來源您可以開始調查根本原因。您還可以創建數據群體進行分析。這些數據群體有助於調試過程確定為什麼模型在某一群體表現良好而在另一群體中出現錯誤。
![錯誤分析](../../../../9-Real-World/2-Debugging-ML-Models/images/ea-error-cohort.png)
樹狀圖上的可視化指示器有助於更快地定位問題區域。例如,樹節點的紅色陰影越深,錯誤率越高。
熱圖是另一種可視化功能,用於通過一個或兩個特徵調查錯誤率,以找出模型錯誤的貢獻者,無論是整個數據集還是群體。
![錯誤分析熱圖](../../../../9-Real-World/2-Debugging-ML-Models/images/ea-heatmap.png)
使用錯誤分析時,您可以:
* 深入了解模型失敗如何分佈於數據集以及多個輸入和特徵維度。
* 分解整體性能指標,並自動發現錯誤群體,以指導您的針對性緩解措施。
## 模型概覽
評估機器學習模型的性能需要全面了解其行為。這可以通過查看多個指標例如錯誤率、準確率、召回率、精確度或平均絕對誤差MAE來實現以發現性能指標中的差異。一個性能指標可能看起來很好但另一個指標可能暴露出不準確。此外比較整個數據集或群體中的指標差異有助於揭示模型表現良好或不佳的地方。這在查看模型在敏感特徵例如患者的種族、性別或年齡與非敏感特徵中的表現時尤為重要以揭示模型可能存在的潛在不公平。例如發現模型在包含敏感特徵的群體中錯誤率更高可以揭示模型可能存在的潛在不公平。
RAI儀表板的模型概覽元件不僅有助於分析數據群體中的性能指標還使用戶能夠比較模型在不同群體中的行為。
![數據集群體 - RAI儀表板中的模型概覽](../../../../9-Real-World/2-Debugging-ML-Models/images/model-overview-dataset-cohorts.png)
該元件的基於特徵的分析功能允許用戶縮小特定特徵中的數據子群體,以更細緻地識別異常。例如,儀表板具有內置智能,可以自動為用戶選擇的特徵生成群體(例如*"time_in_hospital < 3"*或*"time_in_hospital >= 7"*)。這使得用戶能夠從更大的數據群體中隔離特定特徵,以查看它是否是模型錯誤結果的關鍵影響因素。
![特徵群體 - RAI儀表板中的模型概覽](../../../../9-Real-World/2-Debugging-ML-Models/images/model-overview-feature-cohorts.png)
模型概覽元件支持兩類差異指標:
**模型性能差異**:這些指標計算所選性能指標在數據子群體之間的差異(差距)。以下是一些示例:
* 準確率差異
* 錯誤率差異
* 精確度差異
* 召回率差異
* 平均絕對誤差MAE差異
**選擇率差異**此指標包含子群體之間選擇率有利預測的差異。例如貸款批准率的差異。選擇率指的是每個類別中被分類為1的數據點比例在二元分類中或預測值的分佈在回歸中
## 數據分析
> "如果你對數據施加足夠的壓力,它會承認任何事情" - Ronald Coase
這句話聽起來極端但事實上數據確實可以被操縱以支持任何結論。有時這種操縱可能是無意的。作為人類我們都有偏見並且往往難以有意識地知道何時在數據中引入了偏見。保證AI和機器學習的公平性仍然是一個複雜的挑戰。
數據是傳統模型性能指標的一個巨大盲點。您可能擁有高準確率但這並不總是反映出數據集中可能存在的潛在數據偏見。例如如果一家公司高管職位的員工數據集中有27%的女性和73%的男性基於此數據訓練的招聘AI模型可能會主要針對男性群體進行高級職位的招聘。數據中的這種不平衡使模型的預測偏向於某一性別這揭示了AI模型中的公平性問題即性別偏見。
RAI儀表板上的數據分析元件有助於識別數據集中過度和不足代表的區域。它幫助用戶診斷由於數據不平衡或缺乏特定數據群體代表性而引入的錯誤和公平性問題的根本原因。這使得用戶能夠根據預測和實際結果、錯誤群體以及特定特徵來可視化數據集。有時發現一個代表性不足的數據群體也可能揭示模型未能很好地學習因此錯誤率較高。擁有一個數據偏見的模型不僅是一個公平性問題還表明模型不具包容性或可靠性。
![RAI儀表板上的數據分析元件](../../../../9-Real-World/2-Debugging-ML-Models/images/dataanalysis-cover.png)
使用數據分析時,您可以:
* 通過選擇不同的篩選器探索數據集統計,將數據切分為不同的維度(也稱為群體)。
* 了解數據集在不同群體和特徵群體中的分佈。
* 確定您在公平性、錯誤分析和因果關係(來自其他儀表板元件)方面的發現是否是由數據集分佈引起的。
* 決定在哪些區域收集更多數據,以減少由代表性問題、標籤噪音、特徵噪音、標籤偏見等因素引起的錯誤。
## 模型可解釋性
機器學習模型往往是黑盒子。理解哪些關鍵數據特徵驅動模型的預測可能是一項挑戰。提供模型做出某一預測的透明性非常重要。例如如果AI系統預測某位糖尿病患者有可能在30天內再次入院它應該能夠提供支持其預測的數據。提供支持數據指標可以幫助醫生或醫院做出明智的決策。此外能夠解釋模型為個別患者做出某一預測的原因有助於符合健康法規的問責要求。當您使用機器學習模型影響人們的生活時了解和解釋模型行為的驅動因素至關重要。模型的可解釋性和可解釋性有助於回答以下場景中的問題
* 模型調試:為什麼我的模型會犯這個錯誤?我如何改進我的模型?
* 人類與AI合作我如何理解並信任模型的決策
* 法規合規性:我的模型是否符合法律要求?
RAI儀表板的特徵重要性元件幫助您調試並全面了解模型如何進行預測。它也是機器學習專業人士和決策者解釋和展示影響模型行為的特徵證據的有用工具以符合法規要求。接下來用戶可以探索全局和局部解釋驗證哪些特徵驅動模型的預測。全局解釋列出影響模型整體預測的主要特徵。局部解釋顯示哪些特徵導致模型對個別案例的預測。評估局部解釋的能力在調試或審核特定案例時也很有幫助以更好地理解和解釋模型為什麼做出準確或不準確的預測。
![RAI儀表板的特徵重要性元件](../../../../9-Real-World/2-Debugging-ML-Models/images/9-feature-importance.png)
* 全局解釋:例如,哪些特徵影響糖尿病患者住院再入院模型的整體行為?
* 局部解釋例如為什麼一位60歲以上且有過住院史的糖尿病患者被預測為會或不會在30天內再次入院
在調試模型性能的過程中,特徵重要性顯示特徵在不同群體中的影響程度。它有助於在比較特徵對模型錯誤預測的影響程度時揭示異常。特徵重要性元件可以顯示特徵中的哪些值對模型結果產生了正面或負面影響。例如,如果模型做出了一個不準確的預測,該元件使您能夠深入調查並確定哪些特徵或特徵值驅動了預測。這種細節不僅有助於調試,還在審計情況下提供透明性和問責性。最後,該元件可以幫助您識別公平性問題。例如,如果某些敏感特徵(如種族或性別)在驅動模型預測中具有高度影響力,這可能表明模型存在種族或性別偏見。
![特徵重要性](../../../../9-Real-World/2-Debugging-ML-Models/images/9-features-influence.png)
使用可解釋性時,您可以:
* 通過了解哪些特徵對預測最重要判斷您的AI系統的預測是否值得信任。
* 通過首先理解模型並確定模型是否使用健康特徵或僅僅是錯誤相關性,來進行模型調試。
* 通過了解模型是否基於敏感特徵或與敏感特徵高度相關的特徵進行預測,揭示潛在的不公平來源。
* 通過生成局部解釋來展示模型的結果,建立用戶對模型決策的信任。
* 完成AI系統的法規審計以驗證模型並監控模型決策對人類的影響。
## 結論
所有RAI儀表板元件都是幫助您構建對社會危害更少且更值得信賴的機器學習模型的實用工具。它有助於防止對人權的威脅避免歧視或排除某些群體的生活機會以及減少身體或心理傷害的風險。它還通過生成局部解釋來展示模型的結果幫助建立對模型決策的信任。一些潛在的危害可以分類為
- **分配**,例如某一性別或種族被偏袒。
- **服務質量**,如果您僅針對一個特定場景訓練數據,但現實情況更為複雜,則會導致服務性能不佳。
- **刻板印象**,將某一群體與預先分配的屬性聯繫起來。
- **貶低**,不公平地批評和標籤某事或某人。
- **過度或不足的代表性**。這個概念指的是某些群體在某些職業中未被看見,而任何持續推動這種情況的服務或功能都可能造成傷害。
### Azure RAI 儀表板
[Azure RAI 儀表板](https://learn.microsoft.com/en-us/azure/machine-learning/concept-responsible-ai-dashboard?WT.mc_id=aiml-90525-ruyakubu) 是基於由領先的學術機構和組織(包括 Microsoft開發的開源工具構建的旨在幫助數據科學家和 AI 開發者更好地理解模型行為,發現並減輕 AI 模型中的不良問題。
- 透過查看 RAI 儀表板的[文件](https://learn.microsoft.com/en-us/azure/machine-learning/how-to-responsible-ai-dashboard?WT.mc_id=aiml-90525-ruyakubu),了解如何使用不同的組件。
- 查看一些 RAI 儀表板的[範例筆記本](https://github.com/Azure/RAI-vNext-Preview/tree/main/examples/notebooks),以便在 Azure 機器學習中調試更負責任的 AI 場景。
---
## 🚀 挑戰
為了防止統計或數據偏差從一開始就被引入,我們應該:
- 確保參與系統工作的團隊擁有多元化的背景和觀點
- 投資於反映社會多樣性的數據集
- 開發更好的方法來檢測和修正偏差
思考在模型構建和使用中不公平的真實場景。我們還應該考慮什麼?
## [課後測驗](https://ff-quizzes.netlify.app/en/ml/)
## 回顧與自學
在本課中,你已學習了一些將負責任 AI 融入機器學習的實用工具。
觀看這個工作坊以更深入了解相關主題:
- 負責任 AI 儀表板:由 Besmira Nushi 和 Mehrnoosh Sameki 主講,實現 RAI 的一站式解決方案
[![負責任 AI 儀表板:實現 RAI 的一站式解決方案](https://img.youtube.com/vi/f1oaDNl3djg/0.jpg)](https://www.youtube.com/watch?v=f1oaDNl3djg "負責任 AI 儀表板:實現 RAI 的一站式解決方案")
> 🎥 點擊上方圖片觀看影片:由 Besmira Nushi 和 Mehrnoosh Sameki 主講的負責任 AI 儀表板工作坊
參考以下材料以了解更多關於負責任 AI 的資訊,以及如何構建更值得信賴的模型:
- Microsoft 的 RAI 儀表板工具,用於調試 ML 模型:[負責任 AI 工具資源](https://aka.ms/rai-dashboard)
- 探索負責任 AI 工具包:[Github](https://github.com/microsoft/responsible-ai-toolbox)
- Microsoft 的 RAI 資源中心:[負責任 AI 資源 Microsoft AI](https://www.microsoft.com/ai/responsible-ai-resources?activetab=pivot1%3aprimaryr4)
- Microsoft 的 FATE 研究小組:[FATEAI 中的公平性、問責性、透明性和倫理 - Microsoft Research](https://www.microsoft.com/research/theme/fate/)
## 作業
[探索 RAI 儀表板](assignment.md)
---
**免責聲明**
此文件已使用 AI 翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 翻譯。我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊,建議尋求專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解讀概不負責。