|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 4 weeks ago |
README.md
數據科學在現實世界中的應用
![]() |
---|
數據科學在現實世界中的應用 - Sketchnote by @nitya |
我們的學習旅程即將結束!
我們從數據科學和倫理的定義開始,探索了各種數據分析和可視化的工具與技術,回顧了數據科學的生命周期,並研究了如何利用雲端計算服務擴展和自動化數據科學工作流程。所以,你可能會想:「如何將這些學到的知識應用到現實世界的情境中?」
在這節課中,我們將探討數據科學在各行業中的現實應用,並深入研究在科研、數字人文和可持續性方面的具體例子。我們還會介紹學生項目機會,並提供一些有用的資源,幫助你繼續你的學習旅程!
課前測驗
課前測驗
數據科學 + 行業
隨著人工智能的普及化,開發者現在更容易設計和整合基於人工智能的決策和數據驅動的洞察到用戶體驗和開發工作流程中。以下是數據科學在各行業中的一些「現實應用」例子:
-
Google Flu Trends 使用數據科學將搜索詞與流感趨勢相關聯。雖然這種方法存在缺陷,但它提高了人們對數據驅動的醫療預測可能性(以及挑戰)的認識。
-
UPS 路線預測 - 解釋了 UPS 如何利用數據科學和機器學習來預測最佳配送路線,考慮到天氣條件、交通模式、配送截止時間等因素。
-
紐約市出租車路線可視化 - 使用信息自由法收集的數據幫助可視化紐約市出租車一天的運作情況,讓我們了解它們如何在繁忙的城市中穿梭、賺取的收入以及每24小時內行程的持續時間。
-
Uber 數據科學工作台 - 利用每天從數百萬次 Uber 行程中收集的數據(如接送地點、行程時長、偏好路線等),構建數據分析工具,用於定價、安全、欺詐檢測和導航決策。
-
體育分析 - 專注於_預測分析_(團隊和球員分析,例如Moneyball)和_數據可視化_(團隊和球迷儀表板、比賽等),應用於人才選拔、體育博彩和場地管理。
-
數據科學在銀行業的應用 - 強調數據科學在金融行業的價值,應用包括風險建模和欺詐檢測、客戶分群、實時預測和推薦系統。預測分析還推動了關鍵指標,如信用評分。
-
數據科學在醫療保健中的應用 - 強調應用包括醫學影像(例如 MRI、X光、CT掃描)、基因組學(DNA測序)、藥物開發(風險評估、成功預測)、預測分析(患者護理和供應物流)、疾病追蹤和預防等。
圖片來源:Data Flair: 6 Amazing Data Science Applications
該圖展示了其他領域和應用數據科學技術的例子。想探索更多應用?查看下面的回顧與自學部分。
數據科學 + 科研
![]() |
---|
數據科學與科研 - Sketchnote by @nitya |
雖然現實世界的應用通常專注於行業中的大規模使用案例,_科研_應用和項目可以從兩個角度提供價值:
- 創新機會 - 探索先進概念的快速原型設計以及下一代應用的用戶體驗測試。
- 部署挑戰 - 調查數據科學技術在現實世界中的潛在危害或意外後果。
對於學生來說,這些科研項目既能提供學習和合作的機會,又能幫助你加深對主題的理解,並擴展你與相關領域的專家或團隊的交流和參與。那麼,科研項目是什麼樣的?它們如何產生影響?
讓我們看一個例子——MIT Gender Shades Study,由 Joy Buolamwini(MIT Media Labs)主導,並與 Timnit Gebru(當時在 Microsoft Research)共同撰寫了一篇重要的研究論文,該研究聚焦於:
- 研究內容: 該研究項目的目的是_評估基於性別和膚色的自動面部分析算法和數據集中的偏差_。
- 研究原因: 面部分析被應用於執法、機場安檢、招聘系統等領域——在這些情境中,由於偏差導致的不準確分類可能對受影響的個人或群體造成潛在的經濟和社會損害。理解(並消除或減輕)偏差是使用公平性的關鍵。
- 研究方法: 研究人員發現現有的基準主要使用膚色較淺的受試者,並策劃了一個新的數據集(1000多張圖片),該數據集在性別和膚色方面更加平衡。該數據集被用於評估三個性別分類產品(來自 Microsoft、IBM 和 Face++)的準確性。
研究結果顯示,雖然整體分類準確性良好,但不同子群體之間的錯誤率存在顯著差異——其中性別錯誤分類在女性或膚色較深的人群中更高,表明存在偏差。
主要成果: 提高了人們對數據科學需要更多_代表性數據集_(平衡的子群體)和更多_包容性團隊_(多樣化背景)的認識,以便在人工智能解決方案中更早地識別並消除或減輕這些偏差。像這樣的研究努力對許多組織制定負責任的人工智能原則和實踐以改善其人工智能產品和流程的公平性也至關重要。
想了解 Microsoft 的相關研究工作?
- 查看 Microsoft Research Projects 中的人工智能研究項目。
- 探索 Microsoft Research Data Science Summer School 的學生項目。
- 查看 Fairlearn 項目和 Responsible AI 的相關倡議。
數據科學 + 人文
![]() |
---|
數據科學與數字人文 - Sketchnote by @nitya |
數字人文被定義為「結合計算方法與人文研究的一系列實踐和方法」。斯坦福項目如_「重啟歷史」和「詩意思考」_展示了數字人文與數據科學之間的聯繫——強調網絡分析、信息可視化、空間和文本分析等技術,幫助我們重新審視歷史和文學數據集,從中獲得新的洞察和視角。
想探索並擴展這方面的項目?
查看 "Emily Dickinson and the Meter of Mood"——這是一個來自 Jen Looper 的精彩例子,探討如何利用數據科學重新審視熟悉的詩歌,並在新的背景下重新評估其意義及作者的貢獻。例如,我們能否通過分析詩歌的語氣或情感來預測詩歌創作的季節——這又能告訴我們作者在相關時期的心理狀態?
為了回答這個問題,我們遵循數據科學生命周期的步驟:
數據獲取
- 收集相關數據集進行分析。選項包括使用 API(例如 Poetry DB API)或使用工具(如 Scrapy)抓取網頁(例如 Project Gutenberg)。數據清理
- 解釋如何使用基本工具(如 Visual Studio Code 和 Microsoft Excel)格式化、清理和簡化文本。數據分析
- 解釋如何將數據集導入「筆記本」進行分析,使用 Python 包(如 pandas、numpy 和 matplotlib)組織和可視化數據。情感分析
- 解釋如何使用低代碼工具(如 Power Automate)集成雲服務(如文本分析)進行自動化數據處理工作流程。
通過這個工作流程,我們可以探索季節對詩歌情感的影響,並幫助我們形成自己對作者的看法。試試看,然後擴展筆記本以提出其他問題或以新的方式可視化數據!
你可以使用 Digital Humanities toolkit 中的一些工具來進行這些研究。
數據科學 + 可持續性
![]() |
---|
數據科學與可持續性 - Sketchnote by @nitya |
2030可持續發展議程——由所有聯合國成員於2015年通過——確定了17個目標,其中包括專注於保護地球免受退化和氣候變化影響的目標。Microsoft Sustainability倡議支持這些目標,探索技術解決方案如何支持並構建更可持續的未來,並專注於四個目標——到2030年實現碳負、正水、零廢物和生物多樣性。
以可擴展和及時的方式應對這些挑戰需要雲端規模的思維——以及大規模數據。Planetary Computer倡議提供了四個組件,幫助數據科學家和開發者應對這些挑戰:
-
數據目錄 - 提供地球系統數據的PB級數據(免費且托管於Azure)。
-
Planetary API - 幫助用戶在空間和時間上搜索相關數據。
-
Hub - 為科學家提供處理大規模地理空間數據集的管理環境。
-
應用 - 展示可持續性洞察的使用案例和工具。 Planetary Computer Project 目前處於預覽階段(截至 2021 年 9 月) - 以下是如何開始使用數據科學為可持續發展解決方案作出貢獻。
-
申請訪問權限,開始探索並與同行交流。
-
探索文件,了解支持的數據集和 API。
-
探索像 生態系統監測 這樣的應用程式,尋找應用靈感。
思考如何利用數據可視化揭示或放大與氣候變化和森林砍伐等領域相關的洞察力。或者思考如何利用洞察力創造新的用戶體驗,激勵行為改變以實現更可持續的生活。
數據科學 + 學生
我們已經討論了行業和研究中的實際應用,並探索了數字人文和可持續發展中的數據科學應用範例。那麼,作為數據科學初學者,你如何提升技能並分享專業知識?
以下是一些數據科學學生項目範例,供你參考。
- MSR 數據科學夏季學校 的 GitHub 項目,探索以下主題:
- 數字化物質文化:探索 Sirkap 的社會經濟分佈 - 由 Ornella Altunyan 和 Claremont 團隊使用 ArcGIS StoryMaps 完成。
🚀 挑戰
搜尋推薦適合初學者的數據科學項目文章,例如 這 50 個主題領域、這 21 個項目想法 或 這 16 個帶有源代碼的項目,你可以拆解並重新組合。別忘了記錄你的學習旅程,並與我們分享你的洞察力。
課後測驗
課後測驗
回顧與自學
想探索更多用例?以下是一些相關文章:
- 17 個數據科學應用及範例 - 2021 年 7 月
- 11 個令人驚嘆的數據科學實際應用 - 2021 年 5 月
- 現實世界中的數據科學 - 文章合集
- 12 個帶有範例的現實世界數據科學應用 - 2024 年 5 月
- 數據科學在以下領域的應用:教育、農業、金融、電影、醫療保健 等。
作業
免責聲明:
此文件已使用 AI 翻譯服務 Co-op Translator 翻譯。我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊,建議使用專業的人工作翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解讀概不負責。