## 資料的類型 如前所述,資料無處不在。我們只需要以正確的方式捕捉它!區分 **結構化資料** 和 **非結構化資料** 是很有幫助的。前者通常以某種良好結構的形式表示,通常是表格或多個表格,而後者則僅僅是一堆檔案。有時我們也會提到 **半結構化資料**,它具有某種結構,但可能差異很大。 | 結構化資料 | 半結構化資料 | 非結構化資料 | | ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- | | 人員名單及其電話號碼 | 帶有連結的維基百科頁面 | 《大英百科全書》的文字內容 | | 過去 20 年中每分鐘建築物所有房間的溫度 | 以 JSON 格式存儲的科學論文集合,包括作者、出版日期和摘要 | 包含公司文件的檔案共享 | | 進入建築物的所有人員的年齡和性別資料 | 網頁 | 監控攝像頭的原始視頻流 | ## 資料的來源 資料的來源有很多,幾乎不可能列出所有可能的來源!然而,我們可以提到一些典型的資料來源: * **結構化資料** - **物聯網** (IoT),包括來自不同感測器(如溫度或壓力感測器)的資料,提供了大量有用的資訊。例如,如果辦公樓配備了物聯網感測器,我們可以自動控制供暖和照明,以降低成本。 - **問卷調查**,例如在購買後或訪問網站後要求用戶完成的調查。 - **行為分析**,例如幫助我們了解用戶在網站上的瀏覽深度,以及離開網站的典型原因。 * **非結構化資料** - **文本**可以提供豐富的洞察,例如整體 **情感分數**,或提取關鍵字和語義含義。 - **圖像**或 **視頻**。監控攝像頭的視頻可以用來估算道路上的交通流量,並通知人們可能的交通堵塞。 - 網頁伺服器的 **日誌** 可以用來了解我們網站上最常被訪問的頁面,以及訪問時長。 * **半結構化資料** - **社交網絡**圖表可以提供有關用戶個性及其在信息傳播中的潛在影響力的資料。 - 當我們擁有一堆派對照片時,可以嘗試通過建立人們互相拍照的圖表來提取 **群體動態** 資料。 了解不同的資料來源後,您可以嘗試思考不同的場景,應用資料科學技術來更好地了解情況並改進業務流程。 ## 資料的用途 在資料科學中,我們專注於資料旅程的以下步驟: 當然,根據實際資料的情況,有些步驟可能會缺失(例如,當資料已經存儲在資料庫中,或者不需要模型訓練時),或者某些步驟可能會重複多次(例如資料處理)。 ## 數字化與數字轉型 在過去十年中,許多企業開始意識到在做出業務決策時資料的重要性。要將資料科學原則應用於業務運營,首先需要收集一些資料,即將業務流程轉化為數字形式,這被稱為 **數字化**。將資料科學技術應用於這些資料以指導決策,可以顯著提高生產力(甚至可能改變業務方向),這被稱為 **數字轉型**。 讓我們考慮一個例子。假設我們有一門資料科學課程(如本課程),我們在線上向學生提供,並希望利用資料科學來改進它。我們該如何做? 我們可以從問「什麼可以數字化?」開始。最簡單的方法是測量每位學生完成每個模組所需的時間,並通過在每個模組結束時進行選擇題測試來測量所獲得的知識。通過計算所有學生的平均完成時間,我們可以找出哪些模組對學生來說最具挑戰性,並著手簡化它們。 你可能會認為這種方法並不理想,因為模組的長度可能有所不同。或許更公平的做法是根據模組的長度(以字元數計算)來分配時間,然後比較這些數值。 當我們開始分析選擇題測試的結果時,可以嘗試判斷學生在哪些概念上存在理解困難,並利用這些資訊來改進內容。為了達到這個目的,我們需要設計測試,使每個問題都能對應到某個特定的概念或知識塊。 如果我們想進一步深入分析,可以將每個模組所花費的時間與學生的年齡類別進行對比。我們可能會發現某些年齡類別的學生完成模組所需的時間過長,或者學生在完成模組之前就中途退出。這些資訊可以幫助我們為模組提供年齡建議,並減少因錯誤期望而導致的不滿。 ## 🚀 挑戰 在這次挑戰中,我們將嘗試透過分析文本來找出與數據科學領域相關的概念。我們會選取一篇關於數據科學的維基百科文章,下載並處理文本,然後建立一個像這樣的文字雲: ![數據科學文字雲](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.mo.png) 訪問 [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 來閱讀程式碼。你也可以執行程式碼,並即時查看它如何進行所有數據轉換。 > 如果你不知道如何在 Jupyter Notebook 中執行程式碼,可以查看 [這篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。 ## [課後測驗](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## 作業 * **任務 1**:修改上述程式碼,找出與 **大數據** 和 **機器學習** 領域相關的概念 * **任務 2**:[思考數據科學場景](assignment.md) ## 致謝 這節課由 [Dmitry Soshnikov](http://soshnikov.com) 用 ♥️ 編寫完成 --- **免責聲明**: 本文件已使用 AI 翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊,建議尋求專業人工翻譯。我們對因使用此翻譯而產生的任何誤解或錯誤解讀概不負責。