|
|
<!--
|
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
|
{
|
|
|
"original_hash": "a76ab694b1534fa57981311975660bfe",
|
|
|
"translation_date": "2025-09-06T12:05:47+00:00",
|
|
|
"source_file": "1-Introduction/01-defining-data-science/README.md",
|
|
|
"language_code": "mo"
|
|
|
}
|
|
|
-->
|
|
|
## 資料的類型
|
|
|
|
|
|
如前所述,資料無處不在。我們只需要以正確的方式捕捉它!區分 **結構化資料** 和 **非結構化資料** 是很有幫助的。前者通常以某種良好結構的形式表示,通常是表格或多個表格,而後者則僅僅是一堆檔案。有時我們也會提到 **半結構化資料**,它具有某種結構,但可能差異很大。
|
|
|
|
|
|
| 結構化資料 | 半結構化資料 | 非結構化資料 |
|
|
|
| ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- |
|
|
|
| 人員名單及其電話號碼 | 帶有連結的維基百科頁面 | 《大英百科全書》的文字內容 |
|
|
|
| 過去 20 年中每分鐘建築物所有房間的溫度 | 以 JSON 格式存儲的科學論文集合,包括作者、出版日期和摘要 | 包含公司文件的檔案共享 |
|
|
|
| 進入建築物的所有人員的年齡和性別資料 | 網頁 | 監控攝像頭的原始視頻流 |
|
|
|
|
|
|
## 資料的來源
|
|
|
|
|
|
資料的來源有很多,幾乎不可能列出所有可能的來源!然而,我們可以提到一些典型的資料來源:
|
|
|
|
|
|
* **結構化資料**
|
|
|
- **物聯網** (IoT),包括來自不同感測器(如溫度或壓力感測器)的資料,提供了大量有用的資訊。例如,如果辦公樓配備了物聯網感測器,我們可以自動控制供暖和照明,以降低成本。
|
|
|
- **問卷調查**,例如在購買後或訪問網站後要求用戶完成的調查。
|
|
|
- **行為分析**,例如幫助我們了解用戶在網站上的瀏覽深度,以及離開網站的典型原因。
|
|
|
* **非結構化資料**
|
|
|
- **文本**可以提供豐富的洞察,例如整體 **情感分數**,或提取關鍵字和語義含義。
|
|
|
- **圖像**或 **視頻**。監控攝像頭的視頻可以用來估算道路上的交通流量,並通知人們可能的交通堵塞。
|
|
|
- 網頁伺服器的 **日誌** 可以用來了解我們網站上最常被訪問的頁面,以及訪問時長。
|
|
|
* **半結構化資料**
|
|
|
- **社交網絡**圖表可以提供有關用戶個性及其在信息傳播中的潛在影響力的資料。
|
|
|
- 當我們擁有一堆派對照片時,可以嘗試通過建立人們互相拍照的圖表來提取 **群體動態** 資料。
|
|
|
|
|
|
了解不同的資料來源後,您可以嘗試思考不同的場景,應用資料科學技術來更好地了解情況並改進業務流程。
|
|
|
|
|
|
## 資料的用途
|
|
|
|
|
|
在資料科學中,我們專注於資料旅程的以下步驟:
|
|
|
|
|
|
當然,根據實際資料的情況,有些步驟可能會缺失(例如,當資料已經存儲在資料庫中,或者不需要模型訓練時),或者某些步驟可能會重複多次(例如資料處理)。
|
|
|
|
|
|
## 數字化與數字轉型
|
|
|
|
|
|
在過去十年中,許多企業開始意識到在做出業務決策時資料的重要性。要將資料科學原則應用於業務運營,首先需要收集一些資料,即將業務流程轉化為數字形式,這被稱為 **數字化**。將資料科學技術應用於這些資料以指導決策,可以顯著提高生產力(甚至可能改變業務方向),這被稱為 **數字轉型**。
|
|
|
|
|
|
讓我們考慮一個例子。假設我們有一門資料科學課程(如本課程),我們在線上向學生提供,並希望利用資料科學來改進它。我們該如何做?
|
|
|
|
|
|
我們可以從問「什麼可以數字化?」開始。最簡單的方法是測量每位學生完成每個模組所需的時間,並通過在每個模組結束時進行選擇題測試來測量所獲得的知識。通過計算所有學生的平均完成時間,我們可以找出哪些模組對學生來說最具挑戰性,並著手簡化它們。
|
|
|
你可能會認為這種方法並不理想,因為模組的長度可能有所不同。或許更公平的做法是根據模組的長度(以字元數計算)來分配時間,然後比較這些數值。
|
|
|
當我們開始分析選擇題測試的結果時,可以嘗試判斷學生在哪些概念上存在理解困難,並利用這些資訊來改進內容。為了達到這個目的,我們需要設計測試,使每個問題都能對應到某個特定的概念或知識塊。
|
|
|
|
|
|
如果我們想進一步深入分析,可以將每個模組所花費的時間與學生的年齡類別進行對比。我們可能會發現某些年齡類別的學生完成模組所需的時間過長,或者學生在完成模組之前就中途退出。這些資訊可以幫助我們為模組提供年齡建議,並減少因錯誤期望而導致的不滿。
|
|
|
|
|
|
## 🚀 挑戰
|
|
|
|
|
|
在這次挑戰中,我們將嘗試透過分析文本來找出與數據科學領域相關的概念。我們會選取一篇關於數據科學的維基百科文章,下載並處理文本,然後建立一個像這樣的文字雲:
|
|
|
|
|
|

|
|
|
|
|
|
訪問 [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 來閱讀程式碼。你也可以執行程式碼,並即時查看它如何進行所有數據轉換。
|
|
|
|
|
|
> 如果你不知道如何在 Jupyter Notebook 中執行程式碼,可以查看 [這篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。
|
|
|
|
|
|
## [課後測驗](https://ff-quizzes.netlify.app/en/ds/quiz/1)
|
|
|
|
|
|
## 作業
|
|
|
|
|
|
* **任務 1**:修改上述程式碼,找出與 **大數據** 和 **機器學習** 領域相關的概念
|
|
|
* **任務 2**:[思考數據科學場景](assignment.md)
|
|
|
|
|
|
## 致謝
|
|
|
|
|
|
這節課由 [Dmitry Soshnikov](http://soshnikov.com) 用 ♥️ 編寫完成
|
|
|
|
|
|
---
|
|
|
|
|
|
**免責聲明**:
|
|
|
本文件已使用 AI 翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊,建議尋求專業人工翻譯。我們對因使用此翻譯而產生的任何誤解或錯誤解讀概不負責。 |