You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/hk/1-Introduction/03-defining-data/README.md

7.3 KiB

定義數據

 由 (@sketchthedocs) 繪製的手繪筆記
定義數據 - 手繪筆記由 @nitya 提供

數據是用於發現和支持明智決策的事實、信息、觀察和測量。一個數據點是數據集中單一的數據單位,而數據集是數據點的集合。數據集可能有不同的格式和結構,通常基於其來源或數據的來源。例如,一家公司的每月收入可能以電子表格的形式存在,而智能手錶的每小時心率數據可能以 JSON 格式存在。數據科學家經常需要處理數據集中不同類型的數據。

本課程重點在於根據數據的特徵和來源來識別和分類數據。

課前測驗

數據的描述方式

原始數據

原始數據是來自其來源的初始狀態,尚未經過分析或組織的數據。為了理解數據集中的情況,需要將其組織成一種人類和技術都能理解的格式。數據集的結構描述了它的組織方式,可以分為結構化、非結構化和半結構化。這些結構類型會根據來源有所不同,但最終會歸類於這三種類別。

定量數據

定量數據是數據集中以數字形式表示的觀察值通常可以進行分析、測量並用於數學運算。一些定量數據的例子包括一個國家的總人口、一個人的身高或一家公司季度收入。通過進一步分析定量數據可以用來發現空氣質量指數AQI的季節性趨勢或估算典型工作日高峰時段交通的概率。

定性數據

定性數據,也稱為分類數據,是無法像定量數據那樣客觀測量的數據。它通常是各種主觀數據的形式,用於捕捉某物的質量,例如產品或過程。有時,定性數據是數字形式,但通常不會用於數學運算,例如電話號碼或時間戳。一些定性數據的例子包括:視頻評論、汽車的品牌和型號,或你最親密朋友最喜歡的顏色。定性數據可以用來了解消費者最喜歡哪些產品,或識別求職簡歷中的熱門關鍵詞。

結構化數據

結構化數據是以行和列的形式組織的數據,其中每一行都具有相同的一組列。列代表特定類型的值,並用名稱標識該值的含義,而行則包含實際的值。列通常會有一組特定的規則或限制,以確保值準確地表示該列。例如,想像一個客戶的電子表格,其中每一行都必須有一個電話號碼,且電話號碼不能包含字母字符。可能會對電話號碼列應用規則,確保它不會為空且只包含數字。

結構化數據的一個優勢是,它可以以某種方式組織起來,與其他結構化數據相關聯。然而,由於數據被設計為以特定方式組織,對其整體結構進行更改可能需要付出很大的努力。例如,向客戶電子表格中添加一個不能為空的電子郵件列,意味著你需要弄清楚如何將這些值添加到數據集中現有的客戶行中。

結構化數據的例子:電子表格、關係型數據庫、電話號碼、銀行對賬單

非結構化數據

非結構化數據通常無法分類為行或列,且不包含格式或規則集。由於非結構化數據對其結構的限制較少,與結構化數據相比,添加新信息更為容易。例如,如果一個每兩分鐘捕獲一次氣壓數據的傳感器收到了一個更新,現在可以測量和記錄溫度,那麼如果數據是非結構化的,就不需要更改現有數據。然而,這可能會使分析或調查此類數據的時間更長。例如,一位科學家希望從傳感器數據中找到上個月的平均溫度,但發現傳感器在某些記錄數據中記錄了一個 "e" 來表示它壞了,而不是典型的數字,這意味著數據不完整。

非結構化數據的例子:文本文件、短信、視頻文件

半結構化數據

半結構化數據具有使其成為結構化和非結構化數據結合體的特徵。它通常不符合行和列的格式,但以某種被認為是結構化的方式組織,並可能遵循固定的格式或規則集。結構會因來源而異,例如從明確定義的層次結構到更靈活的結構,允許輕鬆整合新信息。元數據是幫助決定數據如何組織和存儲的指標,並根據數據類型有不同的名稱。一些常見的元數據名稱包括標籤、元素、實體和屬性。例如,一封典型的電子郵件消息會有主題、正文和一組收件人,並可以根據發送者或發送時間進行組織。

半結構化數據的例子HTML、CSV 文件、JavaScript Object Notation (JSON)

數據的來源

數據來源是數據生成的初始位置,或數據“存在”的地方,會根據數據的收集方式和時間而有所不同。由用戶生成的數據被稱為原始數據,而二手數據來自於為一般用途收集數據的來源。例如,一組科學家在雨林中收集觀察數據將被視為原始數據,而如果他們決定與其他科學家共享這些數據,對於使用它的人來說,這些數據將被視為二手數據。

數據庫是常見的數據來源,依賴於數據庫管理系統來託管和維護數據,用戶通過稱為查詢的命令來探索數據。作為數據來源的文件可以是音頻、圖像和視頻文件,也可以是像 Excel 這樣的電子表格。互聯網來源是託管數據的常見位置其中可以找到數據庫和文件。應用程序編程接口API允許程序員通過互聯網創建與外部用戶共享數據的方法而網頁抓取則是從網頁中提取數據的過程。《處理數據》課程 將重點介紹如何使用各種數據來源。

總結

在本課程中,我們學習了:

  • 什麼是數據
  • 數據的描述方式
  • 數據的分類和歸類方式
  • 數據的來源

🚀 挑戰

Kaggle 是一個優秀的開放數據集來源。使用 數據集搜索工具 找到一些有趣的數據集,並根據以下標準分類 3-5 個數據集:

  • 數據是定量還是定性?
  • 數據是結構化、非結構化還是半結構化?

課後測驗

複習與自學

  • 這個 Microsoft Learn 單元,標題為 分類你的數據,詳細介紹了結構化、半結構化和非結構化數據。

作業

分類數據集

免責聲明
本文件已使用人工智能翻譯服務 Co-op Translator 進行翻譯。儘管我們致力於提供準確的翻譯,請注意自動翻譯可能包含錯誤或不準確之處。原始語言的文件應被視為權威來源。對於重要資訊,建議使用專業的人類翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解釋概不負責。