Data-Science-For-Beginners/translations/hk/1-Introduction/03-defining-data/README.md

<!--
CO_OP_TRANSLATOR_METADATA:
{
  "original_hash": "356d12cffc3125db133a2d27b827a745",
  "translation_date": "2025-08-25T16:59:04+00:00",
  "source_file": "1-Introduction/03-defining-data/README.md",
  "language_code": "hk"
}
-->
# 定義數據

|![ 由 [(@sketchthedocs)](https://sketchthedocs.dev) 繪製的手繪筆記 ](../../sketchnotes/03-DefiningData.png)|
|:---:|
|定義數據 - _手繪筆記由 [@nitya](https://twitter.com/nitya) 提供_ |

數據是用於發現和支持明智決策的事實、信息、觀察和測量。一個數據點是數據集中單一的數據單位，而數據集是數據點的集合。數據集可能有不同的格式和結構，通常基於其來源或數據的來源。例如，一家公司的每月收入可能以電子表格的形式存在，而智能手錶的每小時心率數據可能以 [JSON](https://stackoverflow.com/a/383699) 格式存在。數據科學家經常需要處理數據集中不同類型的數據。

本課程重點在於根據數據的特徵和來源來識別和分類數據。

## [課前測驗](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/4)
## 數據的描述方式

### 原始數據
原始數據是來自其來源的初始狀態，尚未經過分析或組織的數據。為了理解數據集中的情況，需要將其組織成一種人類和技術都能理解的格式。數據集的結構描述了它的組織方式，可以分為結構化、非結構化和半結構化。這些結構類型會根據來源有所不同，但最終會歸類於這三種類別。

### 定量數據
定量數據是數據集中以數字形式表示的觀察值，通常可以進行分析、測量並用於數學運算。一些定量數據的例子包括：一個國家的總人口、一個人的身高或一家公司季度收入。通過進一步分析，定量數據可以用來發現空氣質量指數（AQI）的季節性趨勢，或估算典型工作日高峰時段交通的概率。

### 定性數據
定性數據，也稱為分類數據，是無法像定量數據那樣客觀測量的數據。它通常是各種主觀數據的形式，用於捕捉某物的質量，例如產品或過程。有時，定性數據是數字形式，但通常不會用於數學運算，例如電話號碼或時間戳。一些定性數據的例子包括：視頻評論、汽車的品牌和型號，或你最親密朋友最喜歡的顏色。定性數據可以用來了解消費者最喜歡哪些產品，或識別求職簡歷中的熱門關鍵詞。

### 結構化數據
結構化數據是以行和列的形式組織的數據，其中每一行都具有相同的一組列。列代表特定類型的值，並用名稱標識該值的含義，而行則包含實際的值。列通常會有一組特定的規則或限制，以確保值準確地表示該列。例如，想像一個客戶的電子表格，其中每一行都必須有一個電話號碼，且電話號碼不能包含字母字符。可能會對電話號碼列應用規則，確保它不會為空且只包含數字。

結構化數據的一個優勢是，它可以以某種方式組織起來，與其他結構化數據相關聯。然而，由於數據被設計為以特定方式組織，對其整體結構進行更改可能需要付出很大的努力。例如，向客戶電子表格中添加一個不能為空的電子郵件列，意味著你需要弄清楚如何將這些值添加到數據集中現有的客戶行中。

結構化數據的例子：電子表格、關係型數據庫、電話號碼、銀行對賬單

### 非結構化數據
非結構化數據通常無法分類為行或列，且不包含格式或規則集。由於非結構化數據對其結構的限制較少，與結構化數據相比，添加新信息更為容易。例如，如果一個每兩分鐘捕獲一次氣壓數據的傳感器收到了一個更新，現在可以測量和記錄溫度，那麼如果數據是非結構化的，就不需要更改現有數據。然而，這可能會使分析或調查此類數據的時間更長。例如，一位科學家希望從傳感器數據中找到上個月的平均溫度，但發現傳感器在某些記錄數據中記錄了一個 "e" 來表示它壞了，而不是典型的數字，這意味著數據不完整。

非結構化數據的例子：文本文件、短信、視頻文件

### 半結構化數據
半結構化數據具有使其成為結構化和非結構化數據結合體的特徵。它通常不符合行和列的格式，但以某種被認為是結構化的方式組織，並可能遵循固定的格式或規則集。結構會因來源而異，例如從明確定義的層次結構到更靈活的結構，允許輕鬆整合新信息。元數據是幫助決定數據如何組織和存儲的指標，並根據數據類型有不同的名稱。一些常見的元數據名稱包括標籤、元素、實體和屬性。例如，一封典型的電子郵件消息會有主題、正文和一組收件人，並可以根據發送者或發送時間進行組織。

半結構化數據的例子：HTML、CSV 文件、JavaScript Object Notation (JSON)

## 數據的來源

數據來源是數據生成的初始位置，或數據“存在”的地方，會根據數據的收集方式和時間而有所不同。由用戶生成的數據被稱為原始數據，而二手數據來自於為一般用途收集數據的來源。例如，一組科學家在雨林中收集觀察數據將被視為原始數據，而如果他們決定與其他科學家共享這些數據，對於使用它的人來說，這些數據將被視為二手數據。

數據庫是常見的數據來源，依賴於數據庫管理系統來託管和維護數據，用戶通過稱為查詢的命令來探索數據。作為數據來源的文件可以是音頻、圖像和視頻文件，也可以是像 Excel 這樣的電子表格。互聯網來源是託管數據的常見位置，其中可以找到數據庫和文件。應用程序編程接口（API）允許程序員通過互聯網創建與外部用戶共享數據的方法，而網頁抓取則是從網頁中提取數據的過程。[《處理數據》課程](../../../../../../../../../2-Working-With-Data) 將重點介紹如何使用各種數據來源。

## 總結

在本課程中，我們學習了：

- 什麼是數據
- 數據的描述方式
- 數據的分類和歸類方式
- 數據的來源

## 🚀 挑戰

Kaggle 是一個優秀的開放數據集來源。使用 [數據集搜索工具](https://www.kaggle.com/datasets) 找到一些有趣的數據集，並根據以下標準分類 3-5 個數據集：

- 數據是定量還是定性？
- 數據是結構化、非結構化還是半結構化？

## [課後測驗](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/5)

## 複習與自學

- 這個 Microsoft Learn 單元，標題為 [分類你的數據](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data)，詳細介紹了結構化、半結構化和非結構化數據。

## 作業

[分類數據集](assignment.md)

**免責聲明**：
本文件已使用人工智能翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。儘管我們致力於提供準確的翻譯，請注意自動翻譯可能包含錯誤或不準確之處。原始語言的文件應被視為權威來源。對於重要資訊，建議使用專業的人類翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解釋概不負責。