# 作业:数据科学场景 在这个第一次作业中,我们希望你思考一些现实生活中的过程或问题,涉及不同的领域,并考虑如何通过数据科学流程来改进它。请思考以下问题: 1. 可以收集哪些数据? 1. 如何收集这些数据? 1. 如何存储这些数据?数据的规模可能有多大? 1. 可以从这些数据中获得哪些洞察?基于数据可以做出哪些决策? 尝试思考三个不同的问题/过程,并针对每个问题领域描述上述每个点。 以下是一些问题领域和问题,可以帮助你开始思考: 1. 如何利用数据改善学校中儿童的教育过程? 1. 如何利用数据在疫情期间控制疫苗接种? 1. 如何利用数据确保自己在工作中保持高效? ## 说明 填写以下表格(如果需要,可以用自己的问题领域替换建议的领域): | 问题领域 | 问题 | 收集哪些数据 | 如何存储数据 | 可以做出的洞察/决策 | |----------|------|--------------|--------------|----------------------| | 教育 | 在大学中,通常课堂出勤率较低,我们假设出勤率较高的学生在考试中表现更好。我们希望提高出勤率并验证这一假设。 | 我们可以通过课堂上的安全摄像头拍摄的照片,或者通过追踪学生手机的蓝牙/WiFi地址来记录出勤情况。考试数据已经存储在大学数据库中。 | 如果我们追踪安全摄像头的图像——我们需要存储课堂期间拍摄的几张(5-10张)照片(非结构化数据),然后使用AI识别学生的面部(将数据转换为结构化形式)。 | 我们可以计算每个学生的平均出勤率,并查看是否与考试成绩存在相关性。我们将在[概率与统计](../../04-stats-and-probability/README.md)部分中进一步讨论相关性。为了提高学生的出勤率,我们可以在学校门户网站上发布每周出勤排名,并在出勤率最高的学生中抽奖。 | | 疫苗接种 | | | | | | 工作效率 | | | | | > *我们仅提供一个答案作为示例,以便你了解作业的预期内容。* ## 评分标准 优秀 | 合格 | 需要改进 --- | --- | --- | 能够为所有问题领域识别合理的数据来源、数据存储方式以及可能的决策/洞察 | 部分解决方案细节不足,未讨论数据存储,至少描述了两个问题领域 | 仅描述了部分数据解决方案,仅考虑了一个问题领域。 **免责声明**: 本文档使用AI翻译服务 [Co-op Translator](https://github.com/Azure/co-op-translator) 进行翻译。尽管我们努力确保翻译的准确性,但请注意,自动翻译可能包含错误或不准确之处。应以原始语言的文档作为权威来源。对于关键信息,建议使用专业人工翻译。我们对因使用本翻译而引起的任何误解或误读不承担责任。