You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/mo/1-Introduction/01-defining-data-science
localizeflow[bot] ab59922f29
chore(i18n): sync translations with latest source changes (chunk 2/8, 641 changes)
4 weeks ago
..
solution 🌐 Update translations via Co-op Translator 5 months ago
README.md chore(i18n): sync translations with latest source changes (chunk 2/8, 641 changes) 4 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 6 months ago
notebook.ipynb 🌐 Update translations via Co-op Translator 5 months ago

README.md

定義數據科學

 由 (@sketchthedocs) 繪製的手繪筆記
定義數據科學 - @nitya 繪製的手繪筆記

定義數據科學影片

課前測驗

什麼是數據?

在我們的日常生活中,我們無時無刻不被數據所包圍。你現在正在閱讀的文字就是數據。你手機裡朋友的電話號碼列表是數據,你手錶上顯示的當前時間也是數據。作為人類,我們天生就會處理數據,比如數錢或者給朋友寫信。

然而,隨著電腦的誕生,數據變得更加重要。電腦的主要功能是進行計算,但它們需要數據來進行操作。因此,我們需要了解電腦如何存儲和處理數據。

隨著互聯網的出現,電腦作為數據處理設備的角色變得更加重要。如果你仔細想想,我們現在使用電腦更多的是進行數據處理和通信,而不是實際的計算。當我們給朋友寫電子郵件或在互聯網上搜索信息時,我們實際上是在創建、存儲、傳輸和操作數據。

你能記得上一次你用電腦實際進行計算是什麼時候嗎?

什麼是數據科學?

根據 維基百科數據科學被定義為一個使用科學方法從結構化和非結構化數據中提取知識和洞察力,並將數據中的知識和可行洞察應用於廣泛應用領域的科學領域

這一定義突出了數據科學的以下重要方面:

  • 數據科學的主要目標是從數據中提取知識,換句話說,就是理解數據,發現一些隱藏的關係並建立模型
  • 數據科學使用科學方法,例如概率和統計。事實上,當數據科學這個術語首次被提出時,有些人認為數據科學只是統計學的一個新潮名稱。然而,現在已經很明顯這個領域要廣泛得多。
  • 獲得的知識應用於產生一些可行的洞察,即可以應用於實際業務情境的實用洞察。
  • 我們應該能夠處理結構化非結構化數據。我們將在課程的後面部分回到這一點,討論不同類型的數據。
  • 應用領域是一個重要的概念,數據科學家通常需要對問題領域(例如:金融、醫學、行銷等)有一定程度的專業知識。

數據科學的另一個重要方面是研究如何使用電腦收集、存儲和操作數據。雖然統計學為我們提供了數學基礎,但數據科學將數學概念應用於實際從數據中獲取洞察。

根據 Jim Gray 的說法,數據科學可以被視為一種獨立的科學範式:

  • 經驗科學,主要依賴觀察和實驗結果
  • 理論科學,從現有的科學知識中產生新概念
  • 計算科學,基於一些計算實驗發現新原則
  • 數據驅動科學,基於發現數據中的關係和模式

其他相關領域

由於數據無處不在,數據科學本身也是一個廣泛的領域,涉及許多其他學科。

數據庫
一個關鍵的考量是如何存儲數據,即如何以允許更快處理的方式結構化數據。有不同類型的數據庫可以存儲結構化和非結構化數據,這些我們會在課程中進一步探討
大數據
我們經常需要存儲和處理結構相對簡單但數量非常龐大的數據。有專門的方法和工具可以將這些數據分佈式存儲在計算機集群上,並高效地處理它們。
機器學習
理解數據的一種方法是建立模型,以預測所需的結果。從數據中開發模型被稱為機器學習。你可以參考我們的機器學習入門課程以了解更多。
人工智慧
機器學習的一個領域稱為人工智慧AI它也依賴於數據並涉及構建模仿人類思維過程的高複雜性模型。AI 方法通常允許我們將非結構化數據(例如自然語言)轉化為結構化洞察。
可視化
龐大的數據量對人類來說是難以理解的,但一旦我們使用這些數據創建了有用的可視化,我們就能更好地理解數據,並得出一些結論。因此,了解多種可視化信息的方法非常重要——這是我們將在課程的第三部分中涵蓋的內容。相關領域還包括資訊圖表人機互動

數據的類型

正如我們已經提到的,數據無處不在。我們只需要以正確的方式捕捉它!區分結構化非結構化數據是很有用的。前者通常以某種結構化的形式表示,通常是表格或多個表格,而後者則只是文件的集合。有時我們也可以談論半結構化數據,它具有某種結構,但結構可能有很大差異。

結構化數據 半結構化數據 非結構化數據
包含人員及其電話號碼的列表 包含鏈接的維基百科頁面 《大英百科全書》的文本
過去 20 年內每分鐘建築物中所有房間的溫度 以 JSON 格式存儲的科學論文集合,包括作者、發表日期和摘要 包含公司文件的文件共享
進入建築物的所有人的年齡和性別數據 網頁 監控攝像頭的原始視頻流

從哪裡獲取數據

數據的來源有很多種,無法一一列舉!然而,我們可以提到一些典型的數據來源:

  • 結構化數據
    • 物聯網IoT包括來自不同傳感器如溫度或壓力傳感器的數據提供了許多有用的數據。例如如果一棟辦公樓配備了 IoT 傳感器,我們可以自動控制供暖和照明以降低成本。
    • 調查問卷,例如我們在用戶購買後或訪問網站後要求他們完成的問卷。
    • 行為分析,例如可以幫助我們了解用戶如何深入瀏覽網站,以及他們離開網站的典型原因。
  • 非結構化數據
    • 文本可以是豐富的洞察來源,例如整體的情感分數,或提取關鍵詞和語義意義。
    • 圖像視頻。來自監控攝像頭的視頻可以用於估算道路上的交通流量,並通知人們可能的交通堵塞。
    • 網頁伺服器的日誌可以用來了解我們網站的哪些頁面最常被訪問,以及訪問的時長。
  • 半結構化數據
    • 社交網絡圖表可以是關於用戶個性和信息傳播潛力的數據的絕佳來源。
    • 當我們有一堆派對的照片時,我們可以通過構建人們互相拍照的圖表來嘗試提取群體動態數據。

通過了解不同的數據來源,你可以嘗試思考不同的場景,看看數據科學技術可以在哪些方面應用,以更好地了解情況並改進業務流程。

你可以用數據做什麼

在數據科學中,我們專注於數據旅程的以下步驟:

1) 數據獲取
第一步是收集數據。雖然在許多情況下這可能是一個簡單的過程,比如從網頁應用程序進入數據庫的數據,但有時我們需要使用特殊技術。例如,來自 IoT 傳感器的數據可能過於龐大,因此使用像 IoT Hub 這樣的緩衝端點來收集所有數據以便進一步處理是一個好習慣。
2) 數據存儲
存儲數據可能具有挑戰性,特別是當我們談論大數據時。在決定如何存儲數據時,預測未來你希望如何查詢數據是有意義的。數據可以通過多種方式存儲:
  • 關聯數據庫存儲表的集合,並使用一種稱為 SQL 的特殊語言來查詢它們。通常,表被組織成不同的組,稱為模式。在許多情況下,我們需要將數據從原始形式轉換為適合模式的形式。
  • NoSQL 數據庫,例如 CosmosDB,不對數據強制執行模式,並允許存儲更複雜的數據,例如層次結構的 JSON 文檔或圖表。然而NoSQL 數據庫沒有 SQL 的豐富查詢功能,並且無法強制執行參考完整性,即表結構和表之間關係的規則。
  • 數據湖存儲用於以原始、非結構化形式存儲大量數據。數據湖通常用於大數據,當所有數據無法容納在一台機器上時,必須由伺服器集群存儲和處理。Parquet 是一種經常與大數據一起使用的數據格式。
3) 數據處理
這是數據旅程中最令人興奮的部分,涉及將數據從其原始形式轉換為可用於可視化/模型訓練的形式。當處理非結構化數據(如文本或圖像)時,我們可能需要使用一些 AI 技術從數據中提取特徵,從而將其轉換為結構化形式。
4) 可視化 / 人類洞察
為了理解數據,我們經常需要對其進行可視化。擁有多種可視化技術,我們可以找到合適的視圖來獲得洞察。通常,數據科學家需要“玩轉數據”,多次對其進行可視化,尋找某些關係。此外,我們還可以使用統計技術來檢驗假設或證明數據之間的相關性。
5) 訓練預測模型
由於數據科學的最終目標是能夠根據數據做出決策,我們可能希望使用機器學習技術來構建預測模型。然後,我們可以使用這些模型對具有相似結構的新數據集進行預測。

當然,根據實際數據的不同,有些步驟可能會缺失(例如,當我們已經在數據庫中擁有數據,或者當我們不需要模型訓練時),或者某些步驟可能會重複多次(例如數據處理)。

數字化與數字化轉型

在過去的十年中,許多企業開始意識到數據在業務決策中的重要性。要將數據科學原則應用於經營業務,首先需要收集一些數據,即將業務流程轉化為數字形式,這被稱為數字化。將數據科學技術應用於這些數據以指導決策,可以顯著提高生產力(甚至實現業務轉型),這被稱為數字化轉型

讓我們來看一個例子。假設我們有一門數據科學課程(比如這門課程),我們在線上向學生提供,並希望使用數據科學來改進它。我們該怎麼做?

我們可以從問“什麼可以數字化?”開始。最簡單的方法是測量每位學生完成每個模組所需的時間,並通過在每個模組結束時進行選擇題測試來測量所獲得的知識。通過計算所有學生的平均完成時間,我們可以找出哪些模組對學生來說最具挑戰性,並著手簡化它們。

你可能會認為這種方法並不理想,因為模組的長度可能不同。或許更公平的做法是將時間除以模組的長度(以字元數計算),然後比較這些值。

當我們開始分析多選測試的結果時,可以嘗試找出學生難以理解的概念,並利用這些資訊來改進內容。為了達到這個目的,我們需要設計測試,使每個問題都能對應到某個特定的概念或知識塊。

如果我們想進一步深入分析,可以將每個模組所花的時間與學生的年齡類別進行對比。我們可能會發現某些年齡層的學生完成模組所需的時間過長,或者在完成之前就中途退出。這可以幫助我們為模組提供年齡建議,並減少因錯誤期望而導致的不滿。

🚀 挑戰

在這個挑戰中,我們將透過分析文本來尋找與資料科學領域相關的概念。我們會選取一篇關於資料科學的維基百科文章,下載並處理文本,然後建立一個像這樣的文字雲:

資料科學文字雲

請訪問 notebook.ipynb 來閱讀程式碼。你也可以執行程式碼,並即時查看它如何進行所有的資料轉換。

如果你不知道如何在 Jupyter Notebook 中執行程式碼,可以參考 這篇文章

課後測驗

作業

  • 任務 1:修改上述程式碼,找出與 大數據機器學習 領域相關的概念
  • 任務 2思考資料科學場景

致謝

這堂課由 Dmitry Soshnikov♥️ 編寫完成


免責聲明
本文件已使用 AI 翻譯服務 Co-op Translator 進行翻譯。儘管我們努力確保翻譯的準確性,但請注意,自動翻譯可能包含錯誤或不準確之處。原始文件的母語版本應被視為權威來源。對於關鍵信息,建議使用專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或誤釋不承擔責任。