You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/zh/1-Introduction/01-defining-data-science
leestott a76609f340
🌐 Update translations via Co-op Translator
2 weeks ago
..
solution 🌐 Update translations via Co-op Translator 2 weeks ago
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 4 weeks ago
notebook.ipynb 🌐 Update translations via Co-op Translator 2 weeks ago

README.md

数据的类型

正如我们已经提到的,数据无处不在。我们只需要以正确的方式捕捉它!区分结构化数据非结构化数据是很有帮助的。前者通常以某种良好的结构形式表示,通常是表格或多个表格,而后者则只是文件的集合。有时我们也会提到半结构化数据,它具有某种结构,但可能差异很大。

结构化数据 半结构化数据 非结构化数据
包含人名及其电话号码的列表 带有链接的维基百科页面 《大英百科全书》的文本
过去20年中每分钟记录的建筑内所有房间的温度 以JSON格式存储的科学论文集合包括作者、发表日期和摘要 包含公司文件的文件共享
进入建筑的所有人的年龄和性别数据 互联网页面 监控摄像头的原始视频流

数据的来源

数据的来源有很多种,几乎无法全部列举!不过,我们可以提到一些典型的数据来源:

  • 结构化数据
    • 物联网IoT包括来自不同传感器的数据例如温度或压力传感器提供了许多有用的数据。例如如果办公楼配备了物联网传感器我们可以自动控制供暖和照明以降低成本。
    • 调查问卷,例如用户在购买后或访问网站后填写的问卷。
    • 行为分析,例如帮助我们了解用户在网站上的深入程度,以及用户离开网站的典型原因。
  • 非结构化数据
    • 文本可以是丰富的洞察来源,例如整体情感评分,或提取关键词和语义含义。
    • 图像视频。监控摄像头的视频可以用来估算道路上的交通流量,并向人们提供潜在交通拥堵的提示。
    • 网络服务器的日志可以用来了解我们网站上最常被访问的页面,以及访问时长。
  • 半结构化数据
    • 社交网络图可以是关于用户个性以及信息传播潜在效果的绝佳数据来源。
    • 当我们有一堆聚会照片时,可以尝试通过构建人与人之间拍照的关系图来提取群体动态数据。

通过了解不同的数据来源,你可以尝试思考不同的场景,数据科学技术可以应用于这些场景以更好地了解情况并改进业务流程。

数据的用途

在数据科学中,我们专注于数据旅程的以下步骤:

当然,根据实际数据,有些步骤可能会缺失(例如,当数据已经存储在数据库中,或者我们不需要进行模型训练时),或者某些步骤可能会重复多次(例如数据处理)。

数字化与数字化转型

在过去十年中,许多企业开始认识到在做出业务决策时数据的重要性。要将数据科学原则应用于企业运营,首先需要收集一些数据,即将业务流程转化为数字形式。这被称为数字化。将数据科学技术应用于这些数据以指导决策,可以显著提高生产力(甚至实现业务转型),这被称为数字化转型

让我们来看一个例子。假设我们有一个数据科学课程(比如这个课程),我们在线向学生提供,并希望利用数据科学来改进它。我们该怎么做?

我们可以从问“什么可以数字化?”开始。最简单的方法是测量每个学生完成每个模块所需的时间,并通过在每个模块结束时进行选择题测试来测量获得的知识。通过计算所有学生的平均完成时间,我们可以找出哪些模块对学生来说最困难,并着手简化这些模块。 你可能会认为这种方法并不理想,因为模块的长度可能不同。或许更公平的做法是根据模块的长度(以字符数计算)来划分时间,然后比较这些值。 当我们开始分析多项选择测试的结果时,可以尝试确定学生在哪些概念上存在理解困难,并利用这些信息改进内容。为此,我们需要设计测试,使每个问题都对应某个特定的概念或知识点。

如果我们想更深入一些,还可以将每个模块所花费的时间与学生的年龄类别进行对比。我们可能会发现,对于某些年龄段,完成模块所需的时间过长,或者学生在完成之前就中途退出了。这可以帮助我们为模块提供年龄建议,并减少因预期错误而导致的不满情绪。

🚀 挑战

在这个挑战中,我们将通过分析文本来尝试找到与数据科学领域相关的概念。我们将选取一篇关于数据科学的维基百科文章,下载并处理文本,然后生成一个像这样的词云:

数据科学词云

访问 notebook.ipynb 查看代码。你还可以运行代码,实时观察它如何执行所有数据转换。

如果你不知道如何在 Jupyter Notebook 中运行代码,可以查看 这篇文章

课后测验

作业

  • 任务 1:修改上述代码,找出与 大数据机器学习 领域相关的概念。
  • 任务 2思考数据科学场景

致谢

本课程由 Dmitry Soshnikov 倾情创作。


免责声明
本文档使用AI翻译服务Co-op Translator进行翻译。尽管我们努力确保准确性,但请注意,自动翻译可能包含错误或不准确之处。应以原始语言的文档作为权威来源。对于关键信息,建议使用专业人工翻译。对于因使用本翻译而引起的任何误解或误读,我们概不负责。