|
|
<!--
|
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
|
{
|
|
|
"original_hash": "07e12a25d20b8f191e3cb651c27fdb2b",
|
|
|
"translation_date": "2025-09-06T20:30:05+00:00",
|
|
|
"source_file": "4-Data-Science-Lifecycle/14-Introduction/README.md",
|
|
|
"language_code": "hk"
|
|
|
}
|
|
|
-->
|
|
|
# 數據科學生命周期簡介
|
|
|
|
|
|
| 繪製的手繪筆記 ](../../sketchnotes/14-DataScience-Lifecycle.png)|
|
|
|
|:---:|
|
|
|
| 數據科學生命周期簡介 - _手繪筆記由 [@nitya](https://twitter.com/nitya) 繪製_ |
|
|
|
|
|
|
## [課前測驗](https://ff-quizzes.netlify.app/en/ds/quiz/26)
|
|
|
|
|
|
到目前為止,你可能已經意識到數據科學是一個過程。這個過程可以分為五個階段:
|
|
|
|
|
|
- 捕獲
|
|
|
- 處理
|
|
|
- 分析
|
|
|
- 溝通
|
|
|
- 維護
|
|
|
|
|
|
本課程將重點介紹生命周期中的三個部分:捕獲、處理和維護。
|
|
|
|
|
|

|
|
|
> 圖片來源:[Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
|
|
|
|
|
|
## 捕獲
|
|
|
|
|
|
生命周期的第一階段非常重要,因為接下來的階段都依賴於它。這實際上是兩個階段的結合:獲取數據以及定義需要解決的目的和問題。
|
|
|
定義項目的目標需要對問題或問題有更深入的背景了解。首先,我們需要識別並獲取那些需要解決問題的人。這些可能是企業的利益相關者或項目的贊助者,他們可以幫助確定誰或什麼將從該項目中受益,以及他們需要什麼和為什麼需要它。一個定義良好的目標應該是可測量且可量化的,以便定義可接受的結果。
|
|
|
|
|
|
數據科學家可能會問的問題:
|
|
|
- 這個問題以前是否被解決過?發現了什麼?
|
|
|
- 所有參與者是否都理解目的和目標?
|
|
|
- 是否存在模糊性?如何減少模糊性?
|
|
|
- 有哪些限制?
|
|
|
- 最終結果可能是什麼樣子?
|
|
|
- 有多少資源(時間、人員、計算能力)可用?
|
|
|
|
|
|
接下來是識別、收集,最後探索為實現這些定義目標所需的數據。在這個獲取階段,數據科學家還必須評估數據的數量和質量。這需要一些數據探索來確認所獲取的數據是否能支持達到預期結果。
|
|
|
|
|
|
數據科學家可能會問的數據相關問題:
|
|
|
- 我已經擁有哪些數據?
|
|
|
- 誰擁有這些數據?
|
|
|
- 有哪些隱私問題?
|
|
|
- 我是否擁有足夠的數據來解決這個問題?
|
|
|
- 這些數據的質量是否適合解決這個問題?
|
|
|
- 如果通過這些數據發現了額外的信息,我們是否應該考慮更改或重新定義目標?
|
|
|
|
|
|
## 處理
|
|
|
|
|
|
生命周期的處理階段專注於發現數據中的模式以及建模。在處理階段使用的一些技術需要統計方法來揭示模式。通常,對於大型數據集來說,這是一項繁瑣的任務,需要依賴計算機來完成繁重的工作以加快過程。這一階段也是數據科學與機器學習交叉的地方。正如你在第一課中學到的,機器學習是構建模型以理解數據的過程。模型是數據中變量之間關係的表示,有助於預測結果。
|
|
|
|
|
|
本階段常用的技術在《機器學習初學者》課程中有介紹。點擊以下鏈接了解更多:
|
|
|
|
|
|
- [分類](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification):將數據組織到類別中以提高使用效率。
|
|
|
- [聚類](https://github.com/microsoft/ML-For-Beginners/tree/main/5-Clustering):將數據分組到相似的群組中。
|
|
|
- [回歸](https://github.com/microsoft/ML-For-Beginners/tree/main/2-Regression):確定變量之間的關係以預測或預測值。
|
|
|
|
|
|
## 維護
|
|
|
|
|
|
在生命周期的圖表中,你可能注意到維護位於捕獲和處理之間。維護是一個持續的過程,涉及在項目過程中管理、存儲和保護數據,並且應在整個項目中加以考慮。
|
|
|
|
|
|
### 存儲數據
|
|
|
數據存儲的方式和位置會影響存儲成本以及數據訪問的速度。這些決策通常不會由數據科學家單獨做出,但他們可能需要根據數據的存儲方式來選擇如何處理數據。
|
|
|
|
|
|
以下是現代數據存儲系統的一些方面,可能會影響這些選擇:
|
|
|
|
|
|
**本地存儲 vs 非本地存儲 vs 公有雲或私有雲**
|
|
|
|
|
|
本地存儲是指在自己的設備上管理數據,例如擁有一台存儲數據的服務器;而非本地存儲依賴於你不擁有的設備,例如數據中心。公有雲是一種流行的數據存儲選擇,無需了解數據的具體存儲位置或方式,其中“公有”指的是所有使用雲服務的人共享統一的基礎設施。一些組織有嚴格的安全政策,要求完全訪問存儲數據的設備,這時會選擇提供專屬雲服務的私有雲。你將在[後續課程](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/5-Data-Science-In-Cloud)中學到更多關於雲端數據的內容。
|
|
|
|
|
|
**冷數據 vs 熱數據**
|
|
|
|
|
|
在訓練模型時,你可能需要更多的訓練數據。如果你對模型感到滿意,仍然會有更多數據到來以支持模型的用途。無論如何,隨著數據的積累,存儲和訪問數據的成本將會增加。將很少使用的數據(稱為冷數據)與經常訪問的數據(稱為熱數據)分開存儲,通過硬件或軟件服務可以是一種更便宜的存儲選擇。如果需要訪問冷數據,可能會比熱數據花費更長的時間。
|
|
|
|
|
|
### 管理數據
|
|
|
在處理數據時,你可能會發現一些數據需要使用[數據準備](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/08-data-preparation)課程中介紹的技術進行清理,以構建準確的模型。當新數據到來時,也需要應用相同的技術來保持質量的一致性。一些項目會使用自動化工具來進行清理、聚合和壓縮,然後將數據移動到最終位置。Azure Data Factory 就是一個這樣的工具。
|
|
|
|
|
|
### 保護數據
|
|
|
保護數據的主要目標之一是確保數據的收集和使用處於控制之中。保持數據安全包括限制只有需要的人才能訪問數據,遵守當地法律和法規,以及維持[道德標準](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/1-Introduction/02-ethics)。
|
|
|
|
|
|
以下是團隊可能採取的一些安全措施:
|
|
|
- 確保所有數據都已加密
|
|
|
- 向客戶提供有關其數據使用方式的信息
|
|
|
- 移除已離開項目人員的數據訪問權限
|
|
|
- 僅允許特定項目成員更改數據
|
|
|
|
|
|
## 🚀 挑戰
|
|
|
|
|
|
數據科學生命周期有許多不同的版本,每個版本的步驟名稱和階段數量可能不同,但都包含本課程中提到的相同過程。
|
|
|
|
|
|
探索[團隊數據科學過程生命周期](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/lifecycle)和[跨行業數據挖掘標準過程](https://www.datascience-pm.com/crisp-dm-2/)。列出兩者的三個相似點和不同點。
|
|
|
|
|
|
|團隊數據科學過程 (TDSP)|跨行業數據挖掘標準過程 (CRISP-DM)|
|
|
|
|--|--|
|
|
|
| |  |
|
|
|
| 圖片來源:[Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | 圖片來源:[Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
|
|
|
|
|
|
## [課後測驗](https://ff-quizzes.netlify.app/en/ds/quiz/27)
|
|
|
|
|
|
## 回顧與自學
|
|
|
|
|
|
應用數據科學生命周期涉及多種角色和任務,其中一些可能專注於每個階段的特定部分。團隊數據科學過程提供了一些資源,解釋了某人在項目中可能擔任的角色和任務。
|
|
|
|
|
|
* [團隊數據科學過程中的角色和任務](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/roles-tasks)
|
|
|
* [執行數據科學任務:探索、建模和部署](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/execute-data-science-tasks)
|
|
|
|
|
|
## 作業
|
|
|
|
|
|
[評估數據集](assignment.md)
|
|
|
|
|
|
---
|
|
|
|
|
|
**免責聲明**:
|
|
|
此文件已使用人工智能翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊,建議尋求專業的人類翻譯。我們對因使用此翻譯而引起的任何誤解或誤釋不承擔責任。 |