You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

3.1 KiB

作业:数据科学场景

在这个第一次作业中,我们希望你思考一些现实生活中的过程或问题,涉及不同的领域,并考虑如何通过数据科学流程来改进它。请思考以下问题:

  1. 可以收集哪些数据?
  2. 如何收集这些数据?
  3. 如何存储这些数据?数据的规模可能有多大?
  4. 可以从这些数据中获得哪些洞察?基于数据可以做出哪些决策?

尝试思考三个不同的问题/过程,并针对每个问题领域描述上述每个点。

以下是一些问题领域和问题,可以帮助你开始思考:

  1. 如何利用数据改善学校中儿童的教育过程?
  2. 如何利用数据在疫情期间控制疫苗接种?
  3. 如何利用数据确保自己在工作中保持高效?

说明

填写以下表格(如果需要,可以用自己的问题领域替换建议的领域):

问题领域 问题 收集哪些数据 如何存储数据 可以做出的洞察/决策
教育 在大学中,通常课堂出勤率较低,我们假设出勤率较高的学生在考试中表现更好。我们希望提高出勤率并验证这一假设。 我们可以通过课堂上的安全摄像头拍摄的照片,或者通过追踪学生手机的蓝牙/WiFi地址来记录出勤情况。考试数据已经存储在大学数据库中。 如果我们追踪安全摄像头的图像——我们需要存储课堂期间拍摄的几张5-10张照片非结构化数据然后使用AI识别学生的面部将数据转换为结构化形式 我们可以计算每个学生的平均出勤率,并查看是否与考试成绩存在相关性。我们将在概率与统计部分中进一步讨论相关性。为了提高学生的出勤率,我们可以在学校门户网站上发布每周出勤排名,并在出勤率最高的学生中抽奖。
疫苗接种
工作效率

我们仅提供一个答案作为示例,以便你了解作业的预期内容。

评分标准

优秀 合格 需要改进
能够为所有问题领域识别合理的数据来源、数据存储方式以及可能的决策/洞察 部分解决方案细节不足,未讨论数据存储,至少描述了两个问题领域 仅描述了部分数据解决方案,仅考虑了一个问题领域。

免责声明
本文档使用AI翻译服务 Co-op Translator 进行翻译。尽管我们努力确保翻译的准确性,但请注意,自动翻译可能包含错误或不准确之处。应以原始语言的文档作为权威来源。对于关键信息,建议使用专业人工翻译。我们对因使用本翻译而引起的任何误解或误读不承担责任。