<!--
CO_OP_TRANSLATOR_METADATA:
{
  "original_hash": "07e12a25d20b8f191e3cb651c27fdb2b",
  "translation_date": "2025-09-06T20:30:05+00:00",
  "source_file": "4-Data-Science-Lifecycle/14-Introduction/README.md",
  "language_code": "hk"
}
-->
# 數據科學生命周期簡介

|![ 由 [(@sketchthedocs)](https://sketchthedocs.dev) 繪製的手繪筆記 ](../../sketchnotes/14-DataScience-Lifecycle.png)|
|:---:|
| 數據科學生命周期簡介 - _手繪筆記由 [@nitya](https://twitter.com/nitya) 繪製_ |

## [課前測驗](https://ff-quizzes.netlify.app/en/ds/quiz/26)

到目前為止，你可能已經意識到數據科學是一個過程。這個過程可以分為五個階段：

- 捕獲
- 處理
- 分析
- 溝通
- 維護

本課程將重點介紹生命周期中的三個部分：捕獲、處理和維護。

![數據科學生命周期圖](../../../../translated_images/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.hk.jpg)
> 圖片來源：[Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)

## 捕獲

生命周期的第一階段非常重要，因為接下來的階段都依賴於它。這實際上是兩個階段的結合：獲取數據以及定義需要解決的目的和問題。  
定義項目的目標需要對問題或問題有更深入的背景了解。首先，我們需要識別並獲取那些需要解決問題的人。這些可能是企業的利益相關者或項目的贊助者，他們可以幫助確定誰或什麼將從該項目中受益，以及他們需要什麼和為什麼需要它。一個定義良好的目標應該是可測量且可量化的，以便定義可接受的結果。

數據科學家可能會問的問題：
- 這個問題以前是否被解決過？發現了什麼？
- 所有參與者是否都理解目的和目標？
- 是否存在模糊性？如何減少模糊性？
- 有哪些限制？
- 最終結果可能是什麼樣子？
- 有多少資源（時間、人員、計算能力）可用？

接下來是識別、收集，最後探索為實現這些定義目標所需的數據。在這個獲取階段，數據科學家還必須評估數據的數量和質量。這需要一些數據探索來確認所獲取的數據是否能支持達到預期結果。

數據科學家可能會問的數據相關問題：
- 我已經擁有哪些數據？
- 誰擁有這些數據？
- 有哪些隱私問題？
- 我是否擁有足夠的數據來解決這個問題？
- 這些數據的質量是否適合解決這個問題？
- 如果通過這些數據發現了額外的信息，我們是否應該考慮更改或重新定義目標？

## 處理

生命周期的處理階段專注於發現數據中的模式以及建模。在處理階段使用的一些技術需要統計方法來揭示模式。通常，對於大型數據集來說，這是一項繁瑣的任務，需要依賴計算機來完成繁重的工作以加快過程。這一階段也是數據科學與機器學習交叉的地方。正如你在第一課中學到的，機器學習是構建模型以理解數據的過程。模型是數據中變量之間關係的表示，有助於預測結果。

本階段常用的技術在《機器學習初學者》課程中有介紹。點擊以下鏈接了解更多：

- [分類](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification)：將數據組織到類別中以提高使用效率。
- [聚類](https://github.com/microsoft/ML-For-Beginners/tree/main/5-Clustering)：將數據分組到相似的群組中。
- [回歸](https://github.com/microsoft/ML-For-Beginners/tree/main/2-Regression)：確定變量之間的關係以預測或預測值。

## 維護

在生命周期的圖表中，你可能注意到維護位於捕獲和處理之間。維護是一個持續的過程，涉及在項目過程中管理、存儲和保護數據，並且應在整個項目中加以考慮。

### 存儲數據
數據存儲的方式和位置會影響存儲成本以及數據訪問的速度。這些決策通常不會由數據科學家單獨做出，但他們可能需要根據數據的存儲方式來選擇如何處理數據。

以下是現代數據存儲系統的一些方面，可能會影響這些選擇：

**本地存儲 vs 非本地存儲 vs 公有雲或私有雲**

本地存儲是指在自己的設備上管理數據，例如擁有一台存儲數據的服務器；而非本地存儲依賴於你不擁有的設備，例如數據中心。公有雲是一種流行的數據存儲選擇，無需了解數據的具體存儲位置或方式，其中“公有”指的是所有使用雲服務的人共享統一的基礎設施。一些組織有嚴格的安全政策，要求完全訪問存儲數據的設備，這時會選擇提供專屬雲服務的私有雲。你將在[後續課程](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/5-Data-Science-In-Cloud)中學到更多關於雲端數據的內容。

**冷數據 vs 熱數據**

在訓練模型時，你可能需要更多的訓練數據。如果你對模型感到滿意，仍然會有更多數據到來以支持模型的用途。無論如何，隨著數據的積累，存儲和訪問數據的成本將會增加。將很少使用的數據（稱為冷數據）與經常訪問的數據（稱為熱數據）分開存儲，通過硬件或軟件服務可以是一種更便宜的存儲選擇。如果需要訪問冷數據，可能會比熱數據花費更長的時間。

### 管理數據
在處理數據時，你可能會發現一些數據需要使用[數據準備](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/08-data-preparation)課程中介紹的技術進行清理，以構建準確的模型。當新數據到來時，也需要應用相同的技術來保持質量的一致性。一些項目會使用自動化工具來進行清理、聚合和壓縮，然後將數據移動到最終位置。Azure Data Factory 就是一個這樣的工具。

### 保護數據
保護數據的主要目標之一是確保數據的收集和使用處於控制之中。保持數據安全包括限制只有需要的人才能訪問數據，遵守當地法律和法規，以及維持[道德標準](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/1-Introduction/02-ethics)。

以下是團隊可能採取的一些安全措施：
- 確保所有數據都已加密
- 向客戶提供有關其數據使用方式的信息
- 移除已離開項目人員的數據訪問權限
- 僅允許特定項目成員更改數據

## 🚀 挑戰

數據科學生命周期有許多不同的版本，每個版本的步驟名稱和階段數量可能不同，但都包含本課程中提到的相同過程。

探索[團隊數據科學過程生命周期](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/lifecycle)和[跨行業數據挖掘標準過程](https://www.datascience-pm.com/crisp-dm-2/)。列出兩者的三個相似點和不同點。

|團隊數據科學過程 (TDSP)|跨行業數據挖掘標準過程 (CRISP-DM)|
|--|--|
|![團隊數據科學生命周期](../../../../translated_images/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.hk.png) | ![數據科學過程聯盟圖片](../../../../translated_images/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.hk.png) |
| 圖片來源：[Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | 圖片來源：[Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |

## [課後測驗](https://ff-quizzes.netlify.app/en/ds/quiz/27)

## 回顧與自學

應用數據科學生命周期涉及多種角色和任務，其中一些可能專注於每個階段的特定部分。團隊數據科學過程提供了一些資源，解釋了某人在項目中可能擔任的角色和任務。

* [團隊數據科學過程中的角色和任務](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/roles-tasks)
* [執行數據科學任務：探索、建模和部署](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/execute-data-science-tasks)

## 作業

[評估數據集](assignment.md)

---

**免責聲明**：  
此文件已使用人工智能翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。我們致力於提供準確的翻譯，但請注意，自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊，建議尋求專業的人類翻譯。我們對因使用此翻譯而引起的任何誤解或誤釋不承擔責任。