You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/hk/1-Introduction/03-defining-data/README.md

7.3 KiB

定義數據

由 (@sketchthedocs) 繪製的手繪筆記
定義數據 - 手繪筆記由 @nitya 提供

數據是用於進行發現和支持明智決策的事實、信息、觀察和測量。一個數據點是數據集中單一的數據單位,而數據集則是數據點的集合。數據集可能以不同的格式和結構存在,通常取決於其來源或數據的來源。例如,一家公司的每月收入可能以電子表格的形式存在,而智能手錶的每小時心率數據可能以 JSON 格式存在。對於數據科學家來說,在一個數據集中處理不同類型的數據是很常見的。

本課程的重點是根據數據的特徵和來源來識別和分類數據。

課前測驗

數據的描述方式

原始數據

原始數據是來自其來源的初始狀態,尚未經過分析或整理的數據。為了理解數據集中的情況,需要將其整理成一種人類和技術都能理解的格式。數據集的結構描述了它的組織方式,可以分為結構化、非結構化和半結構化。這些結構類型會根據來源有所不同,但最終會歸類於這三種類別。

定量數據

定量數據是數據集中以數字形式表示的觀察值通常可以進行分析、測量並用於數學運算。例如一個國家的總人口、一個人的身高或一家公司季度收入。通過進一步分析定量數據可以用來發現空氣質量指數AQI的季節性趨勢或者估算典型工作日高峰時段交通的概率。

定性數據

定性數據,也稱為分類數據,是無法像定量數據那樣客觀測量的數據。它通常是各種主觀數據的形式,用於捕捉某物的質量,例如產品或流程。有時,定性數據是數字形式,但通常不會用於數學運算,例如電話號碼或時間戳。一些定性數據的例子包括:視頻評論、汽車的品牌和型號,或者你最親密朋友最喜歡的顏色。定性數據可以用來了解消費者最喜歡哪些產品,或者識別求職簡歷中的熱門關鍵詞。

結構化數據

結構化數據是以行和列的形式組織的數據,每一行都具有相同的一組列。列代表特定類型的值,並用名稱標識該值的含義,而行則包含實際的值。列通常會有一組特定的規則或限制,以確保值準確地表示該列。例如,想像一個客戶的電子表格,其中每一行必須有一個電話號碼,且電話號碼不能包含字母字符。可能會對電話號碼列應用規則,以確保它永遠不會為空,並且只包含數字。

結構化數據的一個優勢是,它可以以某種方式組織起來,使其能夠與其他結構化數據相關聯。然而,由於數據被設計為以特定方式組織,對其整體結構進行更改可能需要付出很大的努力。例如,為客戶電子表格添加一個不能為空的電子郵件列,意味著你需要弄清楚如何為數據集中現有的客戶行添加這些值。

結構化數據的例子:電子表格、關係型數據庫、電話號碼、銀行對賬單

非結構化數據

非結構化數據通常無法歸類為行或列,並且不包含任何格式或規則。由於非結構化數據對其結構的限制較少,與結構化數據相比,添加新信息更為容易。例如,如果一個每兩分鐘捕捉一次氣壓數據的傳感器收到了一個更新,現在可以測量和記錄溫度,那麼如果數據是非結構化的,就不需要更改現有數據。然而,這可能會使分析或調查這類數據的過程變得更長。例如,一位科學家希望從傳感器數據中找到上個月的平均溫度,但發現傳感器在某些記錄數據中記錄了一個 "e" 來表示它壞了,而不是一個典型的數字,這意味著數據是不完整的。

非結構化數據的例子:文本文件、短信、視頻文件

半結構化數據

半結構化數據具有結構化和非結構化數據的特徵。它通常不符合行和列的格式,但以某種被認為是結構化的方式組織,並可能遵循固定的格式或規則。結構會因來源而異,例如從明確定義的層次結構到更靈活的結構,允許輕鬆整合新信息。元數據是幫助決定數據如何組織和存儲的指標,根據數據類型會有不同的名稱。一些常見的元數據名稱包括標籤、元素、實體和屬性。例如,一封典型的電子郵件消息會有主題、正文和一組收件人,並且可以根據發件人或發送時間進行組織。

半結構化數據的例子HTML、CSV 文件、JavaScript Object Notation (JSON)

數據來源

數據來源是數據生成的初始位置,或者數據“存在”的地方,這取決於數據的收集方式和時間。由用戶生成的數據被稱為原始數據,而二手數據則來自於為一般用途收集數據的來源。例如,一組科學家在雨林中收集觀察數據被認為是原始數據,而如果他們決定與其他科學家共享這些數據,對於使用這些數據的人來說,這些數據則被認為是二手數據。

數據庫是常見的數據來源,依賴於數據庫管理系統來託管和維護數據,用戶通過稱為查詢的命令來探索數據。作為數據來源的文件可以是音頻、圖像和視頻文件,也可以是像 Excel 這樣的電子表格。互聯網來源是託管數據的常見位置數據庫和文件都可以在其中找到。應用程序編程接口API允許程序員通過互聯網創建與外部用戶共享數據的方法而網頁抓取則是從網頁中提取數據的過程。《處理數據》課程 將重點介紹如何使用各種數據來源。

總結

在本課程中,我們學習了:

  • 什麼是數據
  • 數據的描述方式
  • 數據的分類和歸類方式
  • 數據的來源

🚀 挑戰

Kaggle 是一個優秀的開放數據集來源。使用 數據集搜索工具 找到一些有趣的數據集,並根據以下標準對 3-5 個數據集進行分類:

  • 數據是定量的還是定性的?
  • 數據是結構化的、非結構化的還是半結構化的?

課後測驗

複習與自學

  • Microsoft Learn 的這個單元 分類你的數據 詳細介紹了結構化、半結構化和非結構化數據。

作業

分類數據集


免責聲明
此文件已使用人工智能翻譯服務 Co-op Translator 進行翻譯。我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊,建議尋求專業的人類翻譯。我們對因使用此翻譯而引起的任何誤解或誤釋不承擔責任。