You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

3.2 KiB

作業:數據科學場景

在這個第一個作業中,我們要求你思考一些不同領域中的真實生活過程或問題,以及如何使用數據科學流程來改善它。請思考以下問題:

  1. 你可以收集哪些數據?
  2. 你會如何收集這些數據?
  3. 你會如何存儲這些數據?數據的規模可能有多大?
  4. 從這些數據中你可能能夠獲得哪些洞察?基於這些數據,我們可以做出哪些決策?

嘗試思考三個不同的問題/過程,並為每個問題領域描述上述每個點。

以下是一些問題領域和問題,幫助你開始思考:

  1. 如何使用數據改善學校中兒童的教育過程?
  2. 如何使用數據在疫情期間控制疫苗接種?
  3. 如何使用數據確保自己在工作中保持高效?

指引

填寫以下表格(如果需要,可以用自己的問題領域替代建議的問題領域):

問題領域 問題 收集哪些數據 如何存儲數據 我們可以做出的洞察/決策
教育 在大學中,我們通常發現課堂出席率較低,我們假設出席課堂的學生在考試中表現更好。我們希望刺激出席率並測試這一假設。 我們可以通過課堂中的安全攝像頭拍攝的照片,或通過追蹤學生手機的藍牙/無線網絡地址來追蹤出席情況。考試數據已經存儲在大學的數據庫中。 如果我們追蹤安全攝像頭的照片——我們需要存儲課堂期間拍攝的幾張5-10張照片非結構化數據然後使用人工智能識別學生的面部將數據轉換為結構化形式 我們可以計算每位學生的平均出席率,並查看是否與考試成績有任何相關性。我們會在概率與統計部分中更詳細地討論相關性。為了刺激學生出席率,我們可以在學校門戶網站上公佈每週出席率排名,並在出席率最高的學生中抽獎。
疫苗接種
生產力

我們僅提供一個答案作為示例,以便你了解此作業的期望。

評分標準

卓越 合格 需要改進
能夠為所有問題領域識別合理的數據來源、存儲數據的方法以及可能的洞察/決策 解決方案的某些方面未詳細說明,未討論數據存儲,至少描述了兩個問題領域 僅描述了部分數據解決方案,僅考慮了一個問題領域。

免責聲明
本文件已使用人工智能翻譯服務 Co-op Translator 進行翻譯。儘管我們致力於提供準確的翻譯,請注意自動翻譯可能包含錯誤或不準確之處。原始語言的文件應被視為權威來源。對於重要信息,建議使用專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解釋概不負責。