6.8 KiB
資料的類型
如前所述,資料無處不在。我們只需要以正確的方式捕捉它!區分 結構化資料 和 非結構化資料 是很有幫助的。前者通常以某種良好結構的形式表示,通常是表格或多個表格,而後者則僅僅是一堆檔案。有時我們也會提到 半結構化資料,它具有某種結構,但可能差異很大。
結構化資料 | 半結構化資料 | 非結構化資料 |
---|---|---|
人員名單及其電話號碼 | 帶有連結的維基百科頁面 | 《大英百科全書》的文字內容 |
過去 20 年中每分鐘建築物所有房間的溫度 | 以 JSON 格式存儲的科學論文集合,包括作者、出版日期和摘要 | 包含公司文件的檔案共享 |
進入建築物的所有人員的年齡和性別資料 | 網頁 | 監控攝像頭的原始視頻流 |
資料的來源
資料的來源有很多,幾乎不可能列出所有可能的來源!然而,我們可以提到一些典型的資料來源:
- 結構化資料
- 物聯網 (IoT),包括來自不同感測器(如溫度或壓力感測器)的資料,提供了大量有用的資訊。例如,如果辦公樓配備了物聯網感測器,我們可以自動控制供暖和照明,以降低成本。
- 問卷調查,例如在購買後或訪問網站後要求用戶完成的調查。
- 行為分析,例如幫助我們了解用戶在網站上的瀏覽深度,以及離開網站的典型原因。
- 非結構化資料
- 文本可以提供豐富的洞察,例如整體 情感分數,或提取關鍵字和語義含義。
- 圖像或 視頻。監控攝像頭的視頻可以用來估算道路上的交通流量,並通知人們可能的交通堵塞。
- 網頁伺服器的 日誌 可以用來了解我們網站上最常被訪問的頁面,以及訪問時長。
- 半結構化資料
- 社交網絡圖表可以提供有關用戶個性及其在信息傳播中的潛在影響力的資料。
- 當我們擁有一堆派對照片時,可以嘗試通過建立人們互相拍照的圖表來提取 群體動態 資料。
了解不同的資料來源後,您可以嘗試思考不同的場景,應用資料科學技術來更好地了解情況並改進業務流程。
資料的用途
在資料科學中,我們專注於資料旅程的以下步驟:
當然,根據實際資料的情況,有些步驟可能會缺失(例如,當資料已經存儲在資料庫中,或者不需要模型訓練時),或者某些步驟可能會重複多次(例如資料處理)。
數字化與數字轉型
在過去十年中,許多企業開始意識到在做出業務決策時資料的重要性。要將資料科學原則應用於業務運營,首先需要收集一些資料,即將業務流程轉化為數字形式,這被稱為 數字化。將資料科學技術應用於這些資料以指導決策,可以顯著提高生產力(甚至可能改變業務方向),這被稱為 數字轉型。
讓我們考慮一個例子。假設我們有一門資料科學課程(如本課程),我們在線上向學生提供,並希望利用資料科學來改進它。我們該如何做?
我們可以從問「什麼可以數字化?」開始。最簡單的方法是測量每位學生完成每個模組所需的時間,並通過在每個模組結束時進行選擇題測試來測量所獲得的知識。通過計算所有學生的平均完成時間,我們可以找出哪些模組對學生來說最具挑戰性,並著手簡化它們。 你可能會認為這種方法並不理想,因為模組的長度可能有所不同。或許更公平的做法是根據模組的長度(以字元數計算)來分配時間,然後比較這些數值。 當我們開始分析選擇題測試的結果時,可以嘗試判斷學生在哪些概念上存在理解困難,並利用這些資訊來改進內容。為了達到這個目的,我們需要設計測試,使每個問題都能對應到某個特定的概念或知識塊。
如果我們想進一步深入分析,可以將每個模組所花費的時間與學生的年齡類別進行對比。我們可能會發現某些年齡類別的學生完成模組所需的時間過長,或者學生在完成模組之前就中途退出。這些資訊可以幫助我們為模組提供年齡建議,並減少因錯誤期望而導致的不滿。
🚀 挑戰
在這次挑戰中,我們將嘗試透過分析文本來找出與數據科學領域相關的概念。我們會選取一篇關於數據科學的維基百科文章,下載並處理文本,然後建立一個像這樣的文字雲:
訪問 notebook.ipynb
來閱讀程式碼。你也可以執行程式碼,並即時查看它如何進行所有數據轉換。
如果你不知道如何在 Jupyter Notebook 中執行程式碼,可以查看 這篇文章。
課後測驗
作業
- 任務 1:修改上述程式碼,找出與 大數據 和 機器學習 領域相關的概念
- 任務 2:思考數據科學場景
致謝
這節課由 Dmitry Soshnikov 用 ♥️ 編寫完成
免責聲明:
本文件已使用 AI 翻譯服務 Co-op Translator 進行翻譯。我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊,建議尋求專業人工翻譯。我們對因使用此翻譯而產生的任何誤解或錯誤解讀概不負責。