16 KiB
真實世界中的數據科學
![]() |
---|
真實世界中的數據科學 - 由 @nitya 繪製的手繪筆記 |
我們的學習旅程即將接近尾聲!
我們從數據科學和倫理的定義開始,探索了各種數據分析和可視化的工具與技術,回顧了數據科學的生命周期,並了解了如何利用雲端計算服務擴展和自動化數據科學工作流程。所以,你可能會想:「我該如何將這些學到的知識應用到真實世界的情境中?」
在這節課中,我們將探索數據科學在各行業中的真實應用,並深入研究在研究、數字人文和可持續性等領域的具體案例。我們還會探討學生項目機會,並以一些有用的資源作結,幫助你繼續學習之旅!
課前測驗
數據科學 + 行業
隨著人工智能的普及化,開發者現在更容易設計和整合基於人工智能的決策和數據驅動的洞察到用戶體驗和開發工作流程中。以下是數據科學在行業中「應用」於真實世界的一些例子:
-
Google Flu Trends 使用數據科學將搜索詞與流感趨勢相關聯。儘管這種方法存在缺陷,但它提高了人們對數據驅動的醫療預測可能性(和挑戰)的認識。
-
UPS 路線預測 - 解釋了 UPS 如何利用數據科學和機器學習來預測最佳配送路線,考慮天氣條件、交通模式、配送截止時間等因素。
-
紐約市計程車路線可視化 - 使用信息自由法收集的數據幫助可視化紐約市計程車一天的運作情況,讓我們了解它們如何穿梭於繁忙的城市、賺取的收入以及每24小時內行程的時長。
-
Uber 數據科學工作台 - 利用每天從數百萬次 Uber 行程中收集的數據(如接送地點、行程時長、偏好路線等),構建數據分析工具,用於定價、安全、欺詐檢測和導航決策。
-
體育分析 - 專注於_預測分析_(球隊和球員分析,例如 Moneyball)和_數據可視化_(球隊和粉絲儀表板、比賽等),應用於人才挖掘、體育博彩和場地管理等。
-
銀行業中的數據科學 - 強調數據科學在金融行業的價值,應用範圍包括風險建模、欺詐檢測、客戶分群、實時預測和推薦系統。預測分析還推動了信用評分等關鍵措施。
-
醫療保健中的數據科學 - 強調了醫療影像(如 MRI、X 光、CT 掃描)、基因組學(DNA 測序)、藥物開發(風險評估、成功預測)、預測分析(患者護理和供應物流)、疾病追蹤與預防等應用。
圖片來源:Data Flair: 6 Amazing Data Science Applications
該圖展示了其他領域和應用數據科學技術的例子。想探索更多應用?請查看下方的回顧與自學部分。
數據科學 + 研究
![]() |
---|
數據科學與研究 - 由 @nitya 繪製的手繪筆記 |
雖然真實世界的應用通常專注於大規模的行業案例,_研究_應用和項目則可以從兩個角度提供價值:
- 創新機會 - 探索先進概念的快速原型設計,並測試下一代應用的用戶體驗。
- 部署挑戰 - 調查數據科學技術在真實世界情境中可能帶來的危害或意外後果。
對於學生來說,這些研究項目可以提供學習和合作的機會,幫助你加深對主題的理解,並拓寬你與相關領域專家或團隊的接觸和參與。那麼,研究項目是什麼樣的?它們如何產生影響?
讓我們來看一個例子——MIT Gender Shades Study,由 Joy Buolamwini(MIT 媒體實驗室)主導,並與 Timnit Gebru(當時在微軟研究院)共同撰寫了一篇標誌性研究論文,該研究聚焦於:
- 什麼: 該研究項目的目的是_評估基於性別和膚色的自動化面部分析算法和數據集中的偏差_。
- 為什麼: 面部分析被用於執法、機場安檢、招聘系統等領域——這些情境中,由於偏差導致的不準確分類可能對受影響的個人或群體造成潛在的經濟和社會損害。理解(並消除或減輕)偏差是公平使用的關鍵。
- 如何: 研究人員發現現有的基準數據集主要使用膚色較淺的受試者,於是策劃了一個_性別和膚色更平衡_的新數據集(1000 多張圖片)。該數據集被用來評估三個性別分類產品(來自微軟、IBM 和 Face++)的準確性。
結果顯示,儘管整體分類準確性良好,但不同子群體之間的錯誤率存在明顯差異——對女性或深膚色人群的性別錯誤分類更高,表明存在偏差。
關鍵成果: 提高了對數據科學需要更多_代表性數據集_(平衡的子群體)和更多_包容性團隊_(多元背景)的認識,以便在 AI 解決方案中更早地識別並消除或減輕這些偏差。像這樣的研究努力對於許多組織制定_負責任 AI_的原則和實踐以提高其 AI 產品和流程的公平性也至關重要。
想了解微軟相關的研究工作嗎?
- 查看 Microsoft Research Projects 中的人工智能研究項目。
- 探索 Microsoft Research Data Science Summer School 的學生項目。
- 查看 Fairlearn 項目和 Responsible AI 的相關倡議。
數據科學 + 人文
![]() |
---|
數據科學與數字人文 - 由 @nitya 繪製的手繪筆記 |
數字人文被定義為「結合計算方法與人文探究的一系列實踐和方法」。斯坦福大學的項目如_「重啟歷史」和「詩意思維」_展示了數字人文與數據科學之間的聯繫——強調了網絡分析、信息可視化、空間和文本分析等技術,這些技術可以幫助我們重新審視歷史和文學數據集,從而獲得新的見解和視角。
想探索並擴展這一領域的項目嗎?
查看 "Emily Dickinson and the Meter of Mood"——這是 Jen Looper 的一個精彩案例,探討我們如何利用數據科學重新審視熟悉的詩歌,並在新的情境下重新評估其意義及作者的貢獻。例如,我們能否通過分析詩歌的語氣或情感來預測其創作的季節——這又能告訴我們作者在相關時期的心境如何?
為了回答這個問題,我們遵循數據科學生命周期的步驟:
數據獲取
- 收集相關的數據集進行分析。選項包括使用 API(例如 Poetry DB API)或使用工具(如 Scrapy)抓取網頁(例如 Project Gutenberg)。數據清理
- 解釋如何使用基本工具(如 Visual Studio Code 和 Microsoft Excel)對文本進行格式化、清理和簡化。數據分析
- 解釋如何將數據集導入「筆記本」中,使用 Python 包(如 pandas、numpy 和 matplotlib)組織和可視化數據。情感分析
- 解釋如何使用低代碼工具(如 Power Automate)集成雲服務(如文本分析)進行自動化數據處理工作流程。
通過這一工作流程,我們可以探索季節對詩歌情感的影響,並幫助我們形成對作者的獨特見解。試試看,然後擴展筆記本以提出其他問題或以新的方式可視化數據!
你可以使用 Digital Humanities Toolkit 中的一些工具來進行這些探究。
數據科學 + 可持續性
![]() |
---|
數據科學與可持續性 - 由 @nitya 繪製的手繪筆記 |
2030 年可持續發展議程——由所有聯合國成員於 2015 年通過——確立了 17 項目標,其中包括專注於保護地球免受退化和氣候變化影響的目標。微軟可持續性倡議支持這些目標,探索技術解決方案如何支持並構建更可持續的未來,並專注於四大目標:到 2030 年實現碳負排放、正水影響、零廢棄物和生物多樣性。
以可擴展和及時的方式應對這些挑戰需要雲端規模的思維——以及大規模數據。Planetary Computer 項目為數據科學家和開發者提供了四個組件來支持這一努力:
-
數據目錄 - 包含數百萬兆字節的地球系統數據(免費且託管於 Azure)。
-
Planetary API - 幫助用戶在空間和時間範圍內搜索相關數據。
-
Hub - 為科學家提供處理大規模地理空間數據集的管理環境。
-
應用 - 展示可持續性洞察的用例和工具。 Planetary Computer 計劃目前處於預覽階段(截至 2021 年 9 月) - 以下是如何利用數據科學開始為可持續發展解決方案作出貢獻。
-
申請訪問權限,開始探索並與同行建立聯繫。
-
瀏覽文件,了解支持的數據集和 API。
-
探索像 生態系統監測 這樣的應用,從中獲取應用靈感。
思考如何利用數據可視化揭示或放大與氣候變化和森林砍伐等相關的洞察力。或者,思考如何利用這些洞察力創造新的用戶體驗,從而激發行為改變,實現更可持續的生活方式。
數據科學 + 學生
我們已經討論了行業和研究中的實際應用,並探索了數字人文和可持續發展領域的數據科學應用示例。那麼,作為數據科學初學者,你如何提升技能並分享專業知識呢?
以下是一些數據科學學生項目示例,供你參考。
- MSR 數據科學暑期學校 的 GitHub 項目,探索以下主題:
- 數字化物質文化:探索 Sirkap 的社會經濟分佈 - 來自 Ornella Altunyan 和 Claremont 團隊,使用 ArcGIS StoryMaps。
🚀 挑戰
搜尋推薦適合初學者的數據科學項目文章,例如 這 50 個主題領域、這 21 個項目點子 或 這 16 個帶源代碼的項目,你可以拆解並重新組合這些項目。別忘了記錄你的學習過程,並與我們分享你的洞察。
課後測驗
回顧與自學
想探索更多用例嗎?以下是一些相關文章:
- 17 個數據科學應用與示例 - 2021 年 7 月
- 11 個令人驚嘆的現實世界數據科學應用 - 2021 年 5 月
- 現實世界中的數據科學 - 文章合集
- 數據科學在:教育、農業、金融、電影 等領域的應用。
作業
免責聲明:
本文件已使用 AI 翻譯服務 Co-op Translator 進行翻譯。儘管我們致力於提供準確的翻譯,請注意自動翻譯可能包含錯誤或不準確之處。原始語言的文件應被視為具權威性的來源。對於重要資訊,建議使用專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解釋概不負責。