Data-Science-For-Beginners/translations/hk/1-Introduction/03-defining-data/README.md

<!--
CO_OP_TRANSLATOR_METADATA:
{
  "original_hash": "12339119c0165da569a93ddba05f9339",
  "translation_date": "2025-09-05T12:13:46+00:00",
  "source_file": "1-Introduction/03-defining-data/README.md",
  "language_code": "hk"
}
-->
# 定義數據

|![由 [(@sketchthedocs)](https://sketchthedocs.dev) 繪製的手繪筆記](../../sketchnotes/03-DefiningData.png)|
|:---:|
|定義數據 - _手繪筆記由 [@nitya](https://twitter.com/nitya) 提供_ |

數據是用於進行發現和支持明智決策的事實、信息、觀察和測量。一個數據點是數據集中單一的數據單位，而數據集則是數據點的集合。數據集可能以不同的格式和結構存在，通常取決於其來源或數據的來源。例如，一家公司的每月收入可能以電子表格的形式存在，而智能手錶的每小時心率數據可能以 [JSON](https://stackoverflow.com/a/383699) 格式存在。對於數據科學家來說，在一個數據集中處理不同類型的數據是很常見的。

本課程的重點是根據數據的特徵和來源來識別和分類數據。

## [課前測驗](https://ff-quizzes.netlify.app/en/ds/quiz/4)

## 數據的描述方式

### 原始數據
原始數據是來自其來源的初始狀態，尚未經過分析或整理的數據。為了理解數據集中的情況，需要將其整理成一種人類和技術都能理解的格式。數據集的結構描述了它的組織方式，可以分為結構化、非結構化和半結構化。這些結構類型會根據來源有所不同，但最終會歸類於這三種類別。

### 定量數據
定量數據是數據集中以數字形式表示的觀察值，通常可以進行分析、測量並用於數學運算。例如：一個國家的總人口、一個人的身高或一家公司季度收入。通過進一步分析，定量數據可以用來發現空氣質量指數（AQI）的季節性趨勢，或者估算典型工作日高峰時段交通的概率。

### 定性數據
定性數據，也稱為分類數據，是無法像定量數據那樣客觀測量的數據。它通常是各種主觀數據的形式，用於捕捉某物的質量，例如產品或流程。有時，定性數據是數字形式，但通常不會用於數學運算，例如電話號碼或時間戳。一些定性數據的例子包括：視頻評論、汽車的品牌和型號，或者你最親密朋友最喜歡的顏色。定性數據可以用來了解消費者最喜歡哪些產品，或者識別求職簡歷中的熱門關鍵詞。

### 結構化數據
結構化數據是以行和列的形式組織的數據，每一行都具有相同的一組列。列代表特定類型的值，並用名稱標識該值的含義，而行則包含實際的值。列通常會有一組特定的規則或限制，以確保值準確地表示該列。例如，想像一個客戶的電子表格，其中每一行必須有一個電話號碼，且電話號碼不能包含字母字符。可能會對電話號碼列應用規則，以確保它永遠不會為空，並且只包含數字。

結構化數據的一個優勢是，它可以以某種方式組織起來，使其能夠與其他結構化數據相關聯。然而，由於數據被設計為以特定方式組織，對其整體結構進行更改可能需要付出很大的努力。例如，為客戶電子表格添加一個不能為空的電子郵件列，意味著你需要弄清楚如何為數據集中現有的客戶行添加這些值。

結構化數據的例子：電子表格、關係型數據庫、電話號碼、銀行對賬單

### 非結構化數據
非結構化數據通常無法歸類為行或列，並且不包含任何格式或規則。由於非結構化數據對其結構的限制較少，與結構化數據相比，添加新信息更為容易。例如，如果一個每兩分鐘捕捉一次氣壓數據的傳感器收到了一個更新，現在可以測量和記錄溫度，那麼如果數據是非結構化的，就不需要更改現有數據。然而，這可能會使分析或調查這類數據的過程變得更長。例如，一位科學家希望從傳感器數據中找到上個月的平均溫度，但發現傳感器在某些記錄數據中記錄了一個 "e" 來表示它壞了，而不是一個典型的數字，這意味著數據是不完整的。

非結構化數據的例子：文本文件、短信、視頻文件

### 半結構化數據
半結構化數據具有結構化和非結構化數據的特徵。它通常不符合行和列的格式，但以某種被認為是結構化的方式組織，並可能遵循固定的格式或規則。結構會因來源而異，例如從明確定義的層次結構到更靈活的結構，允許輕鬆整合新信息。元數據是幫助決定數據如何組織和存儲的指標，根據數據類型會有不同的名稱。一些常見的元數據名稱包括標籤、元素、實體和屬性。例如，一封典型的電子郵件消息會有主題、正文和一組收件人，並且可以根據發件人或發送時間進行組織。

半結構化數據的例子：HTML、CSV 文件、JavaScript Object Notation (JSON)

## 數據來源

數據來源是數據生成的初始位置，或者數據“存在”的地方，這取決於數據的收集方式和時間。由用戶生成的數據被稱為原始數據，而二手數據則來自於為一般用途收集數據的來源。例如，一組科學家在雨林中收集觀察數據被認為是原始數據，而如果他們決定與其他科學家共享這些數據，對於使用這些數據的人來說，這些數據則被認為是二手數據。

數據庫是常見的數據來源，依賴於數據庫管理系統來託管和維護數據，用戶通過稱為查詢的命令來探索數據。作為數據來源的文件可以是音頻、圖像和視頻文件，也可以是像 Excel 這樣的電子表格。互聯網來源是託管數據的常見位置，數據庫和文件都可以在其中找到。應用程序編程接口（API）允許程序員通過互聯網創建與外部用戶共享數據的方法，而網頁抓取則是從網頁中提取數據的過程。[《處理數據》課程](../../../../../../../../../2-Working-With-Data) 將重點介紹如何使用各種數據來源。

## 總結

在本課程中，我們學習了：
- 什麼是數據
- 數據的描述方式
- 數據的分類和歸類方式
- 數據的來源

## 🚀 挑戰

Kaggle 是一個優秀的開放數據集來源。使用 [數據集搜索工具](https://www.kaggle.com/datasets) 找到一些有趣的數據集，並根據以下標準對 3-5 個數據集進行分類：
- 數據是定量的還是定性的？
- 數據是結構化的、非結構化的還是半結構化的？

## [課後測驗](https://ff-quizzes.netlify.app/en/ds/quiz/5)

## 複習與自學

- Microsoft Learn 的這個單元 [分類你的數據](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) 詳細介紹了結構化、半結構化和非結構化數據。

## 作業

[分類數據集](assignment.md)

---

**免責聲明**：
此文件已使用人工智能翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。我們致力於提供準確的翻譯，但請注意，自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊，建議尋求專業的人類翻譯。我們對因使用此翻譯而引起的任何誤解或誤釋不承擔責任。