|
|
10 months ago | |
|---|---|---|
| .. | ||
| README.md | 10 months ago | |
| assignment.md | 10 months ago | |
README.md
数据科学在现实世界中的应用
![]() |
|---|
| 数据科学在现实世界中的应用 - 由 @nitya 绘制的草图笔记 |
我们的学习旅程即将接近尾声!
我们从数据科学和伦理的定义开始,探索了数据分析和可视化的各种工具和技术,回顾了数据科学生命周期,并研究了如何通过云计算服务扩展和自动化数据科学工作流。那么,你可能会问:“如何将这些学习内容映射到现实世界的情境中?”
在本课中,我们将探讨数据科学在各行业中的实际应用,并深入研究在科研、数字人文和可持续发展等领域的具体案例。我们还将介绍学生项目的机会,并以一些有助于你继续学习的资源作为总结!
课前测验
课前测验
数据科学 + 行业
随着人工智能的普及化,开发者现在可以更轻松地设计和整合基于人工智能的决策和数据驱动的洞察到用户体验和开发工作流中。以下是数据科学在行业中“实际应用”的一些例子:
-
Google Flu Trends 使用数据科学将搜索词与流感趋势相关联。尽管这种方法存在缺陷,但它提高了人们对数据驱动的医疗预测可能性(以及挑战)的认识。
-
UPS 路线预测 - 解释了 UPS 如何利用数据科学和机器学习预测最优配送路线,考虑天气状况、交通模式、配送截止时间等因素。
-
纽约出租车路线可视化 - 使用信息自由法收集的数据帮助可视化纽约出租车一天的运行情况,帮助我们了解它们如何穿梭于繁忙的城市、赚取的收入以及每24小时内行程的持续时间。
-
Uber 数据科学工作台 - 每天从数百万次 Uber 行程中收集数据(如上下车地点、行程时长、首选路线等),构建数据分析工具以帮助定价、安全、欺诈检测和导航决策。
-
体育分析 - 专注于_预测分析_(团队和球员分析 - 想想点球成金 - 以及粉丝管理)和_数据可视化_(团队和粉丝仪表盘、比赛等),应用于人才挖掘、体育博彩和库存/场馆管理。
-
银行业中的数据科学 - 强调数据科学在金融行业的价值,包括风险建模、欺诈检测、客户细分、实时预测和推荐系统等应用。预测分析还推动了诸如信用评分等关键指标。
-
医疗保健中的数据科学 - 强调了医学影像(如 MRI、X 光、CT 扫描)、基因组学(DNA 测序)、药物开发(风险评估、成功预测)、预测分析(患者护理和供应物流)、疾病追踪与预防等应用。
图片来源:Data Flair: 6 Amazing Data Science Applications
该图展示了其他领域和数据科学技术的应用实例。想探索更多应用?请查看下面的复习与自学部分。
数据科学 + 科研
![]() |
|---|
| 数据科学与科研 - 由 @nitya 绘制的草图笔记 |
尽管现实世界的应用通常专注于大规模的行业用例,_科研_应用和项目可以从两个角度提供价值:
- 创新机会 - 快速原型化先进概念并测试下一代应用的用户体验。
- 部署挑战 - 调查数据科学技术在现实世界中的潜在危害或意外后果。
对于学生来说,这些研究项目不仅能提供学习和协作的机会,还能加深对主题的理解,并拓宽与相关领域的人员或团队的接触和参与。那研究项目是什么样的?它们如何产生影响?
让我们来看一个例子 - MIT Gender Shades Study,由 Joy Buolamwini(MIT 媒体实验室)发起,并与 Timnit Gebru(当时在微软研究院)共同撰写了一篇标志性研究论文,该研究聚焦于:
- 研究内容: 评估基于性别和肤色的自动化面部分析算法和数据集中的偏差。
- 研究原因: 面部分析被用于执法、机场安检、招聘系统等领域——这些场景中,由于偏差导致的不准确分类可能对受影响的个人或群体造成经济和社会危害。理解(并消除或减轻)偏差是确保公平使用的关键。
- 研究方法: 研究人员发现现有基准主要使用肤色较浅的受试者,因此创建了一个新的数据集(1000+ 图像),在性别和肤色上更加平衡。该数据集被用于评估三个性别分类产品(来自微软、IBM 和 Face++)的准确性。
研究结果显示,尽管总体分类准确性较高,但不同子群体之间的错误率存在显著差异——女性或肤色较深的人群的性别误判率更高,表明存在偏差。
关键成果: 提高了对数据科学需要更多_代表性数据集_(平衡的子群体)和更多_包容性团队_(多样化背景)的认识,以便在 AI 解决方案中更早地识别并消除或减轻这些偏差。这样的研究努力也促使许多组织定义了_负责任 AI_的原则和实践,以提高其 AI 产品和流程的公平性。
想了解微软的相关研究工作?
- 查看 Microsoft Research Projects 中的人工智能研究项目。
- 探索 Microsoft Research Data Science Summer School 的学生项目。
- 查看 Fairlearn 项目和 Responsible AI 计划。
数据科学 + 人文学科
![]() |
|---|
| 数据科学与数字人文 - 由 @nitya 绘制的草图笔记 |
数字人文被定义为“结合计算方法与人文探究的一系列实践和方法”。斯坦福大学的项目如_“重启历史”和“诗意思维”_展示了数字人文与数据科学之间的联系——强调了网络分析、信息可视化、空间和文本分析等技术,这些技术可以帮助我们重新审视历史和文学数据集,从而获得新的见解和视角。
想探索并扩展这一领域的项目?
查看 "Emily Dickinson and the Meter of Mood" - 这是 Jen Looper 的一个优秀案例,探讨如何利用数据科学重新审视熟悉的诗歌,并在新的背景下重新评估其意义及作者的贡献。例如,我们能否通过分析诗歌的语气或情感来预测其创作的季节——这又能告诉我们作者在相关时期的心境如何?
为回答这个问题,我们遵循数据科学生命周期的步骤:
数据获取- 收集相关数据集进行分析。选项包括使用 API(如 Poetry DB API)或通过工具(如 Scrapy)抓取网页(如 Project Gutenberg)。数据清理- 解释如何使用基本工具(如 Visual Studio Code 和 Microsoft Excel)对文本进行格式化、清理和简化。数据分析- 解释如何将数据集导入“笔记本”中,使用 Python 包(如 pandas、numpy 和 matplotlib)组织和可视化数据。情感分析- 解释如何集成云服务(如文本分析),使用低代码工具(如 Power Automate)实现自动化数据处理工作流。
通过这一工作流,我们可以探索季节对诗歌情感的影响,并帮助我们形成对作者的独特见解。试试看,然后扩展笔记本以提出其他问题或以新的方式可视化数据!
你可以使用 Digital Humanities Toolkit 中的一些工具来探索这些研究方向。
数据科学 + 可持续发展
![]() |
|---|
| 数据科学与可持续发展 - 由 @nitya 绘制的草图笔记 |
2030 年可持续发展议程 - 于 2015 年由所有联合国成员国通过,确定了包括保护地球免受退化和气候变化影响在内的 17 项目标。微软可持续发展 计划支持这些目标,探索技术解决方案如何支持并构建更可持续的未来,重点关注四大目标 - 到 2030 年实现碳负排放、正水效、零废弃物和生物多样性。
以可扩展和及时的方式应对这些挑战需要云规模的思维——以及大规模数据。Planetary Computer 计划提供了四个组件,帮助数据科学家和开发者应对这些挑战:
-
数据目录 - 提供数拍字节的地球系统数据(免费且托管于 Azure)。
-
Planetary API - 帮助用户跨空间和时间搜索相关数据。
-
Hub - 为科学家提供处理大规模地理空间数据集的托管环境。
-
应用程序 - 展示可持续发展洞察的用例和工具。 Planetary Computer 项目目前处于预览阶段(截至 2021 年 9 月) - 以下是如何通过数据科学为可持续发展解决方案做出贡献的入门指南。
-
申请访问权限,开始探索并与同行交流。
-
浏览文档,了解支持的数据集和 API。
-
探索像 生态系统监测 这样的应用,寻找应用创意的灵感。
思考如何利用数据可视化揭示或放大与气候变化和森林砍伐等领域相关的洞察力。或者思考如何利用这些洞察力创造新的用户体验,激励行为改变以实现更可持续的生活。
数据科学 + 学生
我们已经讨论了行业和研究中的实际应用,并探索了数字人文和可持续发展领域的数据科学应用示例。那么,作为数据科学初学者,你如何提升技能并分享你的专业知识呢?
以下是一些数据科学学生项目的示例,供你参考。
- MSR 数据科学夏季学校 的 GitHub 项目,探索以下主题:
- 数字化物质文化:探索 Sirkap 的社会经济分布 - 来自 Ornella Altunyan 和 Claremont 团队,使用 ArcGIS StoryMaps。
🚀 挑战
寻找推荐适合初学者的数据科学项目的文章,例如 这 50 个主题领域、这 21 个项目创意 或 这 16 个带源码的项目,你可以拆解并重新组合这些项目。别忘了记录你的学习历程,并与我们分享你的见解。
课后测验
课后测验
复习与自学
想要探索更多用例?以下是一些相关的文章:
- 17 个数据科学应用与示例 - 2021 年 7 月
- 11 个令人惊叹的现实世界数据科学应用 - 2021 年 5 月
- 现实世界中的数据科学 - 文章合集
- 数据科学在以下领域的应用:教育、农业、金融、电影 等。
作业
免责声明:
本文档使用AI翻译服务Co-op Translator进行翻译。尽管我们努力确保准确性,但请注意,自动翻译可能包含错误或不准确之处。应以原始语言的文档作为权威来源。对于关键信息,建议使用专业人工翻译。因使用本翻译而导致的任何误解或误读,我们概不负责。



