You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/mo/1-Introduction/03-defining-data/README.md

84 lines
7.1 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "12339119c0165da569a93ddba05f9339",
"translation_date": "2025-09-06T07:03:13+00:00",
"source_file": "1-Introduction/03-defining-data/README.md",
"language_code": "mo"
}
-->
# 定義資料
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/03-DefiningData.png)|
|:---:|
|定義資料 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
資料是用來進行探索和支持明智決策的事實、資訊、觀察和測量。一個資料點是資料集中的單一資料單位,而資料集則是由多個資料點組成的集合。資料集可能有不同的格式和結構,通常取決於其來源或資料的來源。例如,一家公司的月度收益可能以電子表格形式呈現,而智能手錶的每小時心率資料可能以 [JSON](https://stackoverflow.com/a/383699) 格式呈現。資料科學家通常需要處理資料集中不同類型的資料。
本課程重點在於根據資料的特性和來源來識別和分類資料。
## [課前測驗](https://ff-quizzes.netlify.app/en/ds/quiz/4)
## 資料的描述方式
### 原始資料
原始資料是來自其來源的初始狀態,尚未被分析或組織。為了理解資料集中的情況,必須將其組織成一種人類和技術都能理解的格式。資料集的結構描述了其組織方式,可以分為結構化、非結構化和半結構化。這些結構類型會因來源而異,但最終都屬於這三類之一。
### 定量資料
定量資料是資料集中的數值觀察通常可以進行分析、測量並用於數學運算。一些定量資料的例子包括一個國家的人口、一個人的身高或一家公司季度收益。通過進一步分析定量資料可以用來發現空氣品質指數AQI的季節性趨勢或估算典型工作日高峰時段交通的概率。
### 定性資料
定性資料,也稱為分類資料,是無法像定量資料那樣客觀測量的資料。它通常是各種格式的主觀資料,用來捕捉某事物的品質,例如產品或流程。有時,定性資料是數值形式,但通常不會用於數學運算,例如電話號碼或時間戳。一些定性資料的例子包括:影片評論、汽車的品牌和型號或你最親密朋友最喜歡的顏色。定性資料可以用來了解消費者最喜歡哪些產品或識別求職申請表中的熱門關鍵字。
### 結構化資料
結構化資料是以行和列的形式組織的資料,其中每一行都具有相同的列集合。列代表特定類型的值,並以描述該值代表內容的名稱來識別,而行則包含實際的值。列通常會有一組特定的規則或限制,以確保值準確地代表該列。例如,想像一個客戶的電子表格,其中每一行都必須有一個電話號碼,且電話號碼不能包含字母字符。可能會在電話號碼列上應用規則,以確保它永遠不會是空的,並且只包含數字。
結構化資料的一個優勢是可以以某種方式組織,使其能與其他結構化資料相關聯。然而,由於資料被設計成以特定方式組織,對其整體結構進行更改可能需要付出大量努力。例如,向客戶電子表格中添加一個不能為空的電子郵件列,意味著需要想辦法將這些值添加到資料集中現有的客戶行中。
結構化資料的例子:電子表格、關聯式資料庫、電話號碼、銀行對帳單
### 非結構化資料
非結構化資料通常無法分類為行或列,並且不包含格式或遵循的規則。由於非結構化資料對其結構的限制較少,與結構化資料相比,添加新資訊更容易。如果一個每兩分鐘捕捉一次氣壓資料的感測器收到更新,現在可以測量和記錄溫度,那麼如果資料是非結構化的,就不需要更改現有資料。然而,這可能會使分析或調查此類資料的時間更長。例如,一位科學家希望從感測器的資料中找到上個月的平均溫度,但發現感測器在某些記錄資料中使用了 "e" 來表示故障,而不是典型的數字,這意味著資料不完整。
非結構化資料的例子:文字檔案、簡訊、影片檔案
### 半結構化資料
半結構化資料具有結構化和非結構化資料的特徵。它通常不符合行和列的格式,但以某種被認為是結構化的方式組織,並可能遵循固定的格式或規則。結構會因來源而異,例如從明確定義的層次結構到更靈活的方式,允許輕鬆整合新資訊。中繼資料是幫助決定資料如何組織和存儲的指標,並根據資料類型有不同的名稱。一些常見的中繼資料名稱包括標籤、元素、實體和屬性。例如,一封典型的電子郵件訊息會有主題、正文和一組收件人,並可以根據發送者或發送時間進行組織。
半結構化資料的例子HTML、CSV 檔案、JavaScript Object Notation (JSON)
## 資料來源
資料來源是資料生成的初始位置,或其 "存在" 的地方,並會根據資料的收集方式和時間而有所不同。由使用者生成的資料被稱為原始資料,而二手資料則來自為一般用途收集資料的來源。例如,一群科學家在雨林中收集觀察資料被視為原始資料,而如果他們決定與其他科學家分享,對於使用這些資料的人來說則被視為二手資料。
資料庫是常見的資料來源,依賴資料庫管理系統來托管和維護資料,使用者使用稱為查詢的命令來探索資料。作為資料來源的檔案可以是音訊、影像和影片檔案,也可以是像 Excel 這樣的電子表格。網路來源是托管資料的常見位置資料庫和檔案都可以在其中找到。應用程式介面API允許程式設計師通過網路創建與外部使用者共享資料的方式而網頁爬取則是從網頁中提取資料的過程。[《資料操作》課程](../../../../../../../../../2-Working-With-Data) 將重點介紹如何使用各種資料來源。
## 結論
在本課程中,我們學到了:
- 資料是什麼
- 資料的描述方式
- 資料的分類和歸類方式
- 資料的來源
## 🚀 挑戰
Kaggle 是一個開放資料集的絕佳來源。使用 [資料集搜尋工具](https://www.kaggle.com/datasets) 找到一些有趣的資料集,並根據以下標準分類 3-5 個資料集:
- 資料是定量還是定性?
- 資料是結構化、非結構化還是半結構化?
## [課後測驗](https://ff-quizzes.netlify.app/en/ds/quiz/5)
## 回顧與自學
- Microsoft Learn 單元 [分類你的資料](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) 詳細介紹了結構化、半結構化和非結構化資料。
## 作業
[分類資料集](assignment.md)
---
**免責聲明**
本文件使用 AI 翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊,建議尋求專業人工翻譯。我們對因使用此翻譯而產生的任何誤解或錯誤解讀概不負責。