|
3 weeks ago | |
---|---|---|
.. | ||
README.md | 3 weeks ago | |
assignment.md | 3 weeks ago |
README.md
定義資料
![]() |
---|
定義資料 - Sketchnote by @nitya |
資料是用來進行探索和支持明智決策的事實、資訊、觀察和測量。一個資料點是資料集中的單一單位,而資料集則是由多個資料點組成的集合。資料集可能有不同的格式和結構,通常取決於其來源或資料的產生地。例如,一家公司的月度收益可能存放在電子表格中,而智慧手錶的每小時心率資料可能是 JSON 格式。資料科學家通常需要處理資料集中不同類型的資料。
本課程重點在於根據資料的特性和來源來識別和分類資料。
課前測驗
資料的描述方式
原始資料
原始資料是從其來源直接獲得的初始狀態,尚未被分析或整理。為了理解資料集中的內容,必須將其整理成一種人類和技術都能理解的格式。資料集的結構描述了其組織方式,可以分為結構化、非結構化和半結構化。這些結構類型會因來源而異,但最終都屬於這三類之一。
定量資料
定量資料是資料集中的數值觀察,通常可以進行分析、測量並用於數學運算。一些定量資料的例子包括:一個國家的人口、一個人的身高或一家公司季度收益。通過進一步分析,定量資料可以用來發現空氣品質指數(AQI)的季節性趨勢或估算典型工作日的高峰交通概率。
定性資料
定性資料,也稱為分類資料,是無法像定量資料那樣客觀測量的資料。它通常是各種主觀格式的資料,用來捕捉某物的品質,例如產品或流程。有時,定性資料是數字形式,但通常不會用於數學運算,例如電話號碼或時間戳。一些定性資料的例子包括:影片評論、汽車的品牌和型號或你最親密朋友的最喜歡的顏色。定性資料可以用來了解消費者最喜歡哪些產品,或識別求職申請表中的熱門關鍵字。
結構化資料
結構化資料是以行和列的形式組織的資料,其中每一行都有相同的一組列。列代表特定類型的值,並用名稱描述該值的含義,而行則包含實際的值。列通常會有一組特定的規則或限制,以確保值準確地代表該列。例如,想像一個客戶的電子表格,其中每一行都必須有一個電話號碼,且電話號碼不能包含字母字符。可能會對電話號碼列施加規則,確保它永遠不會空白且僅包含數字。
結構化資料的一個優勢是它可以以某種方式組織,使其能與其他結構化資料建立關聯。然而,由於資料被設計成特定的組織方式,改變其整體結構可能需要付出大量努力。例如,向客戶電子表格添加一個不能空白的電子郵件列,意味著需要找到方法將這些值添加到資料集中現有的客戶行。
結構化資料的例子:電子表格、關聯式資料庫、電話號碼、銀行對帳單
非結構化資料
非結構化資料通常無法分類為行或列,且不包含格式或規則。由於非結構化資料對結構的限制較少,與結構化資料相比,添加新資訊更容易。如果一個每兩分鐘捕捉一次氣壓資料的感測器收到更新,現在可以測量和記錄溫度,則不需要更改現有的非結構化資料。然而,這可能使分析或調查此類資料的過程更耗時。例如,一位科學家希望從感測器的資料中找到上個月的平均溫度,但發現感測器在某些記錄中使用了 "e" 表示故障,而不是典型的數字,這意味著資料不完整。
非結構化資料的例子:文字檔案、文字訊息、影片檔案
半結構化資料
半結構化資料具有結構化和非結構化資料的特徵。它通常不符合行和列的格式,但以某種被認為是結構化的方式組織,並可能遵循固定的格式或規則。結構會因來源而異,例如從明確定義的層次結構到更靈活的方式,允許輕鬆整合新資訊。中繼資料是幫助決定資料如何組織和存儲的指標,並根據資料類型有不同的名稱。一些常見的中繼資料名稱包括標籤、元素、實體和屬性。例如,一封典型的電子郵件訊息會有主題、正文和一組收件人,並可以根據發送者或發送時間進行組織。
半結構化資料的例子:HTML、CSV 檔案、JavaScript Object Notation (JSON)
資料的來源
資料來源是資料生成的初始位置,或其 "存放地",並會根據資料的收集方式和時間而有所不同。由使用者生成的資料被稱為原始資料,而次級資料則來自為一般用途收集資料的來源。例如,一群科學家在雨林中收集觀察資料被視為原始資料,而如果他們決定與其他科學家分享,對使用者而言則被視為次級資料。
資料庫是常見的來源,依賴資料庫管理系統來托管和維護資料,使用者可以使用稱為查詢的命令來探索資料。作為資料來源的檔案可以是音訊、影像和影片檔案,也可以是像 Excel 這樣的電子表格。網路來源是托管資料的常見位置,資料庫和檔案都可以在其中找到。應用程式介面(API)允許程式設計師通過網路創建與外部使用者共享資料的方法,而網頁爬取則是從網頁中提取資料的過程。處理資料的課程 將重點介紹如何使用各種資料來源。
結論
在本課程中,我們學到了:
- 資料的定義
- 資料的描述方式
- 資料的分類和歸類方式
- 資料的來源
🚀 挑戰
Kaggle 是一個非常好的開放資料集來源。使用 資料集搜尋工具 找到一些有趣的資料集,並根據以下標準分類 3-5 個資料集:
- 資料是定量還是定性?
- 資料是結構化、非結構化還是半結構化?
課後測驗
回顧與自學
- Microsoft Learn 單元 分類你的資料 詳細介紹了結構化、半結構化和非結構化資料。
作業
免責聲明:
本文件已使用 AI 翻譯服務 Co-op Translator 進行翻譯。我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。應以原文文件作為權威來源。對於關鍵資訊,建議尋求專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或誤讀概不負責。