You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/mo/6-Data-Science-In-Wild/20-Real-World-Examples
leestott e2b90108bb
🌐 Update translations via Co-op Translator
3 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 3 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

真實世界中的數據科學

 由 (@sketchthedocs) 繪製的手繪筆記
真實世界中的數據科學 - @nitya 繪製的手繪筆記

我們即將完成這段學習旅程!

我們從數據科學和倫理的定義開始,探索了各種數據分析和可視化的工具與技術,回顧了數據科學的生命周期,並了解了如何利用雲端計算服務擴展和自動化數據科學工作流程。所以,你可能會想:「我該如何將這些學到的知識應用到真實世界的情境中?」

在這節課中,我們將探索數據科學在各行業中的真實應用,並深入研究在研究、數字人文和可持續性等領域的具體案例。我們還會介紹學生項目機會,並以一些有用的資源作為結尾,幫助你繼續學習之旅!

課前測驗

課前測驗

數據科學 + 行業

隨著人工智慧的普及化,開發者現在更容易設計並將基於 AI 的決策和數據驅動的洞察整合到用戶體驗和開發工作流程中。以下是數據科學在行業中「應用」於真實世界的一些例子:

  • Google Flu Trends 使用數據科學將搜索詞與流感趨勢相關聯。儘管該方法存在缺陷,但它提高了人們對數據驅動的醫療預測可能性(及挑戰)的認識。

  • UPS 路線預測 - 解釋了 UPS 如何利用數據科學和機器學習來預測最佳配送路線,考慮了天氣條件、交通模式、配送期限等因素。

  • 紐約市計程車路線可視化 - 使用信息自由法收集的數據幫助可視化紐約市計程車一天的運行情況,讓我們了解它們如何穿梭於繁忙的城市、賺取的收入以及每 24 小時內行程的時長。

  • Uber 數據科學工作台 - 利用每天從數百萬次 Uber 行程中收集的數據(如接送地點、行程時長、偏好路線等),構建數據分析工具,幫助定價、安全性、欺詐檢測和導航決策。

  • 體育分析 - 專注於_預測分析_團隊和球員分析例如 Moneyball和_數據可視化_團隊和粉絲儀表板、比賽等應用於人才發掘、體育博彩和場地管理等。

  • 銀行業中的數據科學 - 強調數據科學在金融行業的價值,應用範圍包括風險建模、欺詐檢測、客戶細分、實時預測和推薦系統。預測分析還驅動了關鍵指標,如信用評分

  • 醫療保健中的數據科學 - 強調了醫療影像(如 MRI、X 光、CT 掃描、基因組學DNA 測序)、藥物開發(風險評估、成功預測)、預測分析(患者護理和供應物流)、疾病追蹤與預防等應用。

真實世界中的數據科學應用 圖片來源:Data Flair: 6 Amazing Data Science Applications

該圖展示了其他領域及應用數據科學技術的例子。想探索更多應用?請查看下方的回顧與自學部分。

數據科學 + 研究

 由 (@sketchthedocs) 繪製的手繪筆記
數據科學與研究 - @nitya 繪製的手繪筆記

雖然真實世界的應用通常專注於大規模的行業案例_研究_應用和項目則可以從兩個角度提供價值

  • 創新機會 - 探索先進概念的快速原型設計,並測試下一代應用的用戶體驗。
  • 部署挑戰 - 調查數據科學技術在真實世界中的潛在危害或意外後果。

對於學生來說,這些研究項目既能提供學習機會,也能促進合作,幫助你加深對主題的理解,並拓寬與相關領域專家或團隊的交流與參與。那麼,研究項目是什麼樣的?它們如何產生影響?

讓我們來看一個例子——MIT Gender Shades Study,由 Joy BuolamwiniMIT Media Labs發起並與 Timnit Gebru當時在 Microsoft Research共同撰寫了一篇標誌性研究論文,該研究專注於:

  • 研究目標: 評估基於性別和膚色的自動化面部分析算法和數據集中的偏差。
  • 研究原因: 面部分析被應用於執法、機場安檢、招聘系統等領域——這些情境中,分類不準確(例如由於偏差)可能對受影響的個人或群體造成潛在的經濟和社會危害。理解(並消除或減輕)偏差是公平使用的關鍵。
  • 研究方法: 研究人員發現現有基準主要使用膚色較淺的受試者並策劃了一個新的數據集1000 多張圖片),該數據集在性別和膚色上更加平衡。該數據集被用於評估三種性別分類產品(來自 Microsoft、IBM 和 Face++)的準確性。

研究結果顯示,儘管整體分類準確性良好,但不同子群體之間的錯誤率存在明顯差異——例如,對女性或膚色較深的人群的性別誤判更高,表明存在偏差。

關鍵成果: 提高了人們對數據科學需要更多_代表性數據集_平衡的子群體和更多_包容性團隊_多元背景的認識以便在 AI 解決方案中更早地識別並消除或減輕這些偏差。像這樣的研究努力對於許多組織制定_負責任 AI_的原則和實踐也起到了重要作用從而提高了 AI 產品和流程的公平性。

想了解 Microsoft 的相關研究工作嗎?

數據科學 + 人文

 由 (@sketchthedocs) 繪製的手繪筆記
數據科學與數字人文 - @nitya 繪製的手繪筆記

數字人文被定義為「結合計算方法與人文探究的一系列實踐和方法」。斯坦福大學的項目如_「重啟歷史」「詩意思維」_展示了數字人文與數據科學之間的聯繫——強調了網絡分析、信息可視化、空間和文本分析等技術,這些技術可以幫助我們重新審視歷史和文學數據集,從而獲得新的見解和視角。

想探索並擴展這一領域的項目嗎?

查看 "Emily Dickinson and the Meter of Mood"——這是一個來自 Jen Looper 的精彩案例,探討我們如何利用數據科學重新審視熟悉的詩歌,並在新的背景下重新評估其意義及作者的貢獻。例如,我們能否通過分析詩歌的語氣或情感來預測其創作的季節——這又能告訴我們作者在相關時期的心理狀態?

為了回答這個問題,我們遵循數據科學生命周期的步驟:

  • 數據獲取 - 收集相關的數據集進行分析。選項包括使用 API例如 Poetry DB API)或抓取網頁(例如 Project Gutenberg)使用工具如 Scrapy
  • 數據清理 - 解釋如何使用基本工具(如 Visual Studio Code 和 Microsoft Excel對文本進行格式化、清理和簡化。
  • 數據分析 - 解釋如何將數據集導入「筆記本」中,使用 Python 包(如 pandas、numpy 和 matplotlib進行組織和可視化分析。
  • 情感分析 - 解釋如何整合雲服務(如文本分析),使用低代碼工具(如 Power Automate)進行自動化數據處理工作流程。

通過這一工作流程,我們可以探索季節對詩歌情感的影響,並幫助我們形成對作者的獨特見解。試試看,然後擴展筆記本以提出其他問題或以新的方式可視化數據!

你可以使用 Digital Humanities Toolkit 中的一些工具來進一步探索這些研究方向。

數據科學 + 可持續性

 由 (@sketchthedocs) 繪製的手繪筆記
數據科學與可持續性 - @nitya 繪製的手繪筆記

2030 年可持續發展議程——由所有聯合國成員於 2015 年通過——確定了 17 項目標,其中包括專注於保護地球免受退化和氣候變化影響的目標。Microsoft Sustainability 計劃支持這些目標,探索技術解決方案如何支持並構建更可持續的未來,並專注於四大目標:到 2030 年實現碳負排放、正水資源、零廢棄物和生物多樣性。

以可擴展和及時的方式應對這些挑戰需要雲端規模的思維——以及大規模數據。Planetary Computer 計劃提供了四個組件,幫助數據科學家和開發者應對這些挑戰:

  • 數據目錄 - 包含數百萬兆字節的地球系統數據(免費且託管於 Azure

  • Planetary API - 幫助用戶在空間和時間範圍內搜索相關數據。

  • Hub - 為科學家提供處理大規模地理空間數據集的管理環境。

  • 應用程序 - 展示可持續性洞察的使用案例和工具。 Planetary Computer Project 目前處於預覽階段(截至 2021 年 9 月) - 以下是如何開始使用資料科學為永續解決方案做出貢獻的方式。

  • 申請訪問權限,開始探索並與同行交流。

  • 探索文件,了解支援的資料集和 API。

  • 探索像 生態系統監測 這樣的應用程式,尋找應用程式創意的靈感。

思考如何利用資料視覺化揭示或放大與氣候變遷和森林砍伐相關的洞察力。或者思考如何利用洞察力創造新的使用者體驗,激勵行為改變以實現更永續的生活。

資料科學 + 學生

我們已經討論了在產業和研究中的實際應用,並探索了數位人文和永續性中的資料科學應用範例。那麼,作為資料科學初學者,你如何建立技能並分享專業知識呢?

以下是一些資料科學學生專案的範例,供你參考。

🚀 挑戰

搜尋推薦給初學者的資料科學專案文章,例如 這 50 個主題領域這 21 個專案創意這 16 個帶有原始碼的專案,你可以拆解並重新混合。別忘了撰寫部落格記錄你的學習旅程,並與大家分享你的洞察力。

課後測驗

課後測驗

回顧與自學

想探索更多使用案例嗎?以下是一些相關文章:

作業

探索 Planetary Computer 資料集


免責聲明
本文件使用 AI 翻譯服務 Co-op Translator 進行翻譯。我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。應以原文文件作為權威來源。對於關鍵資訊,建議尋求專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或誤讀概不負責。