You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/zh/1-Introduction/01-defining-data-science/README.md

78 lines
6.8 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-25T16:50:43+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "zh"
}
-->
## 数据的类型
正如我们已经提到的,数据无处不在。我们只需要以正确的方式捕捉它!区分**结构化数据**和**非结构化数据**是很有用的。前者通常以某种良好的结构形式表示,通常是表格或多个表格,而后者则只是文件的集合。有时我们也会提到**半结构化数据**,它具有某种结构,但可能差异很大。
| 结构化数据 | 半结构化数据 | 非结构化数据 |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| 包含人名及其电话号码的列表 | 带有链接的维基百科页面 | 《大英百科全书》的文本 |
| 过去20年中每分钟记录的建筑内所有房间的温度 | 以JSON格式存储的科学论文集合包括作者、发表日期和摘要 | 包含公司文件的文件共享 |
| 进入建筑的所有人的年龄和性别数据 | 互联网页面 | 监控摄像头的原始视频流 |
## 数据的来源
数据的来源有很多种,几乎无法全部列举!不过,我们可以提到一些典型的数据来源:
* **结构化数据**
- **物联网**IoT包括来自不同传感器的数据例如温度或压力传感器提供了许多有用的数据。例如如果办公楼配备了物联网传感器我们可以自动控制供暖和照明以降低成本。
- **调查问卷**,例如用户在购买后或访问网站后填写的问卷。
- **行为分析**,例如帮助我们了解用户在网站上的深入程度,以及用户离开网站的典型原因。
* **非结构化数据**
- **文本**可以是丰富的洞察来源,例如整体**情感评分**,或提取关键词和语义意义。
- **图像**或**视频**。监控摄像头的视频可以用来估算道路上的交通流量,并通知人们潜在的交通拥堵。
- 网站服务器的**日志**可以用来了解我们网站上最常被访问的页面,以及访问时长。
* **半结构化数据**
- **社交网络**图可以是关于用户个性以及信息传播潜力的绝佳数据来源。
- 当我们有一堆聚会照片时,可以尝试通过构建人与人之间拍照的关系图来提取**群体动态**数据。
通过了解不同的数据来源,你可以尝试思考不同的场景,数据科学技术可以应用于这些场景以更好地了解情况并改善业务流程。
## 数据可以做什么
在数据科学中,我们专注于数据旅程的以下步骤:
当然,根据实际数据的情况,有些步骤可能会缺失(例如,当数据已经存储在数据库中,或者我们不需要进行模型训练时),或者某些步骤可能会重复多次(例如数据处理)。
## 数字化与数字化转型
在过去十年中,许多企业开始认识到在做出业务决策时数据的重要性。要将数据科学原则应用于企业运营,首先需要收集一些数据,即将业务流程转化为数字形式。这被称为**数字化**。将数据科学技术应用于这些数据以指导决策,可以显著提高生产力(甚至实现业务转型),这被称为**数字化转型**。
让我们来看一个例子。假设我们有一个数据科学课程(比如这个课程),我们在线上向学生提供,并希望利用数据科学来改进它。我们该怎么做呢?
我们可以从问“什么可以数字化?”开始。最简单的方法是测量每个学生完成每个模块所需的时间,并通过在每个模块结束时进行选择题测试来测量获得的知识。通过计算所有学生的平均完成时间,我们可以找出哪些模块对学生来说最困难,并着手简化这些模块。
你可能会认为这种方法并不理想,因为模块的长度可能不同。或许更公平的做法是根据模块的长度(以字符数计算)来划分时间,然后比较这些值。
当我们开始分析多选测试的结果时,可以尝试确定学生在哪些概念上存在理解困难,并利用这些信息改进内容。为此,我们需要设计测试,使每个问题都能映射到某个特定的概念或知识点。
如果我们想更复杂一些,可以将每个模块所花费的时间与学生的年龄类别进行对比分析。我们可能会发现,对于某些年龄段来说,完成模块所需时间过长,或者学生在完成之前就中途退出了。这可以帮助我们为模块提供年龄建议,并减少因错误期望而导致的不满。
## 🚀 挑战
在这个挑战中,我们将通过分析文本来尝试找到与数据科学领域相关的概念。我们会选取一篇关于数据科学的维基百科文章,下载并处理文本,然后构建一个像这样的词云:
![数据科学词云](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.zh.png)
访问 [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 阅读代码。你还可以运行代码,实时查看它如何执行所有数据转换。
> 如果你不知道如何在 Jupyter Notebook 中运行代码,可以查看 [这篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。
## [课后测验](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## 作业
* **任务 1**:修改上述代码,找出与 **大数据** 和 **机器学习** 领域相关的概念
* **任务 2**[思考数据科学场景](assignment.md)
## 致谢
本课程由 [Dmitry Soshnikov](http://soshnikov.com) 倾情创作 ♥️
**免责声明**
本文档使用AI翻译服务[Co-op Translator](https://github.com/Azure/co-op-translator)进行翻译。虽然我们尽力确保翻译的准确性,但请注意,自动翻译可能包含错误或不准确之处。原始语言的文档应被视为权威来源。对于关键信息,建议使用专业人工翻译。我们对因使用此翻译而产生的任何误解或误读不承担责任。