You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

16 KiB

數據科學在現實世界中的應用

 Sketchnote by (@sketchthedocs)
數據科學在現實世界中的應用 - Sketchnote by @nitya

我們即將完成這段學習旅程!

我們從數據科學和倫理的定義開始,探索了各種數據分析和可視化的工具與技術,回顧了數據科學的生命周期,並研究了如何利用雲端計算服務擴展和自動化數據科學工作流程。所以,你可能會想:「如何將這些學到的知識應用到現實世界的情境中?」

在這節課中,我們將探討數據科學在各行業中的現實應用,並深入研究在研究、數字人文和可持續性方面的具體例子。我們還會介紹學生項目機會,並提供一些有用的資源,幫助你繼續你的學習旅程!

課前測驗

課前測驗

數據科學 + 行業

隨著人工智慧的普及化,開發者現在更容易設計和整合基於人工智慧的決策以及數據驅動的洞察到用戶體驗和開發工作流程中。以下是數據科學在各行業中「應用」到現實世界的一些例子:

  • Google Flu Trends 使用數據科學將搜索詞與流感趨勢相關聯。雖然這種方法存在缺陷,但它提高了人們對數據驅動的醫療預測可能性(以及挑戰)的認識。

  • UPS 路線預測 - 解釋了 UPS 如何利用數據科學和機器學習來預測最佳配送路線,考慮到天氣條件、交通模式、配送截止日期等因素。

  • 紐約市計程車路線可視化 - 使用信息自由法收集的數據幫助可視化紐約市計程車一天的運作情況幫助我們了解它們如何在繁忙的城市中穿梭、賺取的收入以及每24小時內行程的持續時間。

  • Uber 數據科學工作台 - 利用每天從數百萬次 Uber 行程中收集的數據(如接送地點、行程時長、偏好路線等),構建數據分析工具以幫助定價、安全、欺詐檢測和導航決策。

  • 運動分析 - 專注於_預測分析_團隊和球員分析例如Moneyball和_數據可視化_團隊和粉絲儀表板、比賽等應用於人才挖掘、運動博彩以及庫存/場地管理。

  • 銀行業中的數據科學 - 強調數據科學在金融行業中的價值,應用包括風險建模和欺詐檢測、客戶分群、實時預測和推薦系統。預測分析還推動了關鍵指標,如信用評分

  • 醫療保健中的數據科學 - 強調應用如醫學影像(例如 MRI、X光、CT掃描、基因組學DNA測序、藥物開發風險評估、成功預測、預測分析患者護理和供應物流、疾病追蹤和預防等。

數據科學在現實世界中的應用 圖片來源:Data Flair: 6 Amazing Data Science Applications

該圖展示了其他領域和應用數據科學技術的例子。想探索其他應用嗎?查看下面的回顧與自學部分。

數據科學 + 研究

 Sketchnote by (@sketchthedocs)
數據科學與研究 - Sketchnote by @nitya

雖然現實世界的應用通常專注於行業中的大規模使用案例_研究_應用和項目可以從兩個角度提供價值

  • 創新機會 - 探索快速原型設計先進概念並測試下一代應用的用戶體驗。
  • 部署挑戰 - 調查數據科學技術在現實世界中的潛在危害或意外後果。

對於學生來說,這些研究項目可以提供學習和合作的機會,幫助你加深對主題的理解,並擴展你對相關領域的認識和參與。那麼研究項目是什麼樣的,它們如何產生影響?

讓我們看一個例子——MIT Gender Shades Study,由 Joy BuolamwiniMIT Media Labs進行並與 Timnit Gebru當時在 Microsoft Research共同撰寫了一篇重要研究論文,該研究專注於:

  • 什麼: 該研究項目的目的是_評估基於性別和膚色的自動面部分析算法和數據集中的偏差_。
  • 為什麼: 面部分析被用於執法、機場安全、招聘系統等領域——在這些情境中,由於偏差導致的不準確分類可能對受影響的個人或群體造成潛在的經濟和社會危害。理解(並消除或減輕)偏差是使用公平性的關鍵。
  • 如何: 研究人員認識到現有基準主要使用膚色較淺的受試者並策劃了一個新的數據集1000多張圖片該數據集在性別和膚色方面更加平衡。該數據集被用於評估三個性別分類產品來自 Microsoft、IBM 和 Face++)的準確性。

結果顯示,雖然整體分類準確性良好,但不同子群體之間的錯誤率存在顯著差異——其中性別錯誤分類在女性或膚色較深的人群中更高,表明存在偏差。

主要成果: 提高了人們對數據科學需要更多_代表性數據集_平衡子群體和更多_包容性團隊_多樣背景的認識以便在人工智慧解決方案中更早地識別並消除或減輕這些偏差。像這樣的研究努力對許多組織定義負責任人工智慧的原則和實踐也至關重要以改善其人工智慧產品和流程的公平性。

想了解 Microsoft 的相關研究工作嗎?

數據科學 + 人文

 Sketchnote by (@sketchthedocs)
數據科學與數字人文 - Sketchnote by @nitya

數字人文被定義為「結合計算方法與人文探究的一系列實踐和方法」。斯坦福項目如_「重啟歷史」「詩意思考」_展示了數字人文與數據科學之間的聯繫——強調網絡分析、信息可視化、空間和文本分析等技術,幫助我們重新審視歷史和文學數據集,從中獲得新的洞察和視角。

想探索並擴展這方面的項目嗎?

查看 "Emily Dickinson and the Meter of Mood"——這是一個由 Jen Looper 提供的精彩例子,探討如何利用數據科學重新審視熟悉的詩歌,並在新的情境中重新評估其意義及作者的貢獻。例如,我們能否通過分析詩歌的語氣或情感來預測其創作的季節——這對於理解作者在相關時期的心理狀態有何啟示?

為了回答這個問題,我們遵循數據科學生命周期的步驟:

  • 數據獲取 - 收集相關數據集進行分析。選項包括使用 API例如 Poetry DB API)或抓取網頁(例如 Project Gutenberg)使用工具如 Scrapy
  • 數據清理 - 解釋如何使用基本工具(如 Visual Studio Code 和 Microsoft Excel格式化、清理和簡化文本。
  • 數據分析 - 解釋如何將數據集導入「筆記本」進行分析,使用 Python 包(如 pandas、numpy 和 matplotlib組織和可視化數據。
  • 情感分析 - 解釋如何整合雲服務(如文本分析),使用低代碼工具(如 Power Automate)進行自動化數據處理工作流程。

通過這個工作流程,我們可以探索季節對詩歌情感的影響,並幫助我們形成自己對作者的看法。自己試試看——然後擴展筆記本以提出其他問題或以新的方式可視化數據!

你可以使用一些工具,例如 Digital Humanities toolkit,來進行這些探究。

數據科學 + 可持續性

 Sketchnote by (@sketchthedocs)
數據科學與可持續性 - Sketchnote by @nitya

2030年可持續發展議程——由所有聯合國成員於2015年採納——確定了17個目標其中包括保護地球免受退化和氣候變化影響的目標。Microsoft Sustainability倡議支持這些目標,探索技術解決方案如何支持並構建更可持續的未來,並專注於四個目標——到2030年實現碳負、正水、零廢物和生物多樣性。

以可擴展和及時的方式應對這些挑戰需要雲端規模的思維——以及大規模數據。Planetary Computer倡議提供了四個組件,幫助數據科學家和開發者應對這些挑戰:

  • 數據目錄 - 提供地球系統數據的PB級數據集免費且託管於Azure

  • Planetary API - 幫助用戶在空間和時間上搜索相關數據。

  • Hub - 為科學家提供處理大規模地理空間數據集的管理環境。

  • 應用 - 展示可持續性洞察的使用案例和工具。 行星電腦計畫目前處於預覽階段截至2021年9月 - 以下是如何開始使用資料科學為永續解決方案做出貢獻的方式。

  • 申請訪問權限,開始探索並與同行建立聯繫。

  • 瀏覽文件了解支援的數據集和API。

  • 探索像 生態系統監測 這樣的應用程式,從中獲得應用靈感。

思考如何利用數據視覺化來揭示或放大與氣候變遷和森林砍伐等相關的洞察力。或者,思考如何利用這些洞察力來創造新的用戶體驗,激勵行為改變,實現更永續的生活方式。

資料科學 + 學生

我們已經討論了在產業和研究中的真實應用,並探索了數位人文學科和永續性中的資料科學應用範例。那麼,作為資料科學的初學者,你如何提升技能並分享專業知識呢?

以下是一些資料科學學生專案的範例,供你參考和啟發。

🚀 挑戰

搜尋推薦給初學者的資料科學專案文章,例如這50個主題領域這21個專案點子這16個帶有源代碼的專案,你可以拆解並重新組合這些專案。別忘了記錄你的學習過程,並與我們分享你的洞察。

課後測驗

課後測驗

回顧與自學

想探索更多使用案例嗎?以下是一些相關文章:

作業

探索行星電腦數據集


免責聲明
本文件使用 AI 翻譯服務 Co-op Translator 進行翻譯。我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊,建議尋求專業人工翻譯。我們對因使用此翻譯而產生的任何誤解或錯誤解讀概不負責。