Merge pull request #176 from fortis3000/main

[RU-Russian] translation
pull/204/head
Jasmine Greenaway 4 years ago committed by GitHub
commit bfc672ac4c
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

@ -0,0 +1,177 @@
# Что такое наука о данных?
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/01-Definitions.png)|
|:---:|
|Что такое наука о данных - _Рисунок [@nitya](https://twitter.com/nitya)_ |
---
[![Defining Data Science Video](../images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I)
## [Вступительный тест](https://red-water-0103e7a0f.azurestaticapps.net/quiz/0)
## Что такое данные?
В повседневной жизни мы окружены данными. Текст, который Вы в данный момент читаете, является данными, список номеров телефонов друзей в Вашем смартфоне является данными, также как и время на Ваших часах. Люди умеют оперировать даными естественным образом, считая деньги, которые у нас есть, или составляя письма нашим друзьям.
Однако данные стали намного более важными с изобретением компьютеров. Главная роль компьютеров заключается в вычислениях, но им нужны данные, над которыми их производить. Таким образом, нам необходимо понимать, как компьютеры хранят и обрабатывают информацию.
С появлением Интернета роль компьютеров как вычислительных устройств возрасла. Если задуматься, сейчас мы всё больше используем компьютеры для обработки данных и коммуникации, чем непосредственно для вычислений. Когда пишем электронное письмо другу или ищем что-то в Интернете, мы, в действительности, создаём, храним, передаём и управляем данными.
>Можете ли Вы припомнить, когда последний раз использовали компьютер, чтобы что-то посчитать?
## Что такое наука о данных?
В [Википедии](https://ru.wikipedia.org/wiki/%D0%9D%D0%B0%D1%83%D0%BA%D0%B0_%D0%BE_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85), **Наука о данных** определяется как *научная область, использующая научные методы для извлечения знаний и инсайтов из структурированных и неструктурированных данных и для применения их в широком спектре приложений.*
Данное определение подчеркивает следующие важные аспекты науки о данных:
* Главная цель науки о данных - **извлечение знаний** из данных, другими словами, - **понимание** данных, нахождение скрытых взаимосвязей и построение **модели**.
* Наука о данных использует **научные методы**, заимствованные из теории вероятности и статистики. Когда термин "наука о данных" был впервые введён, некоторые специалисты заявляли, что наука о данных - это просто новое модное название статистики. Сегодня уже стало очевидно, что данная область гораздо шире.
* Полученные знания должны быть использованы для получения **практических инсайтов**.
* Мы должны уметь оперировать как **структурированными** так и **неструктурированными данными**. Мы вернёмся к обсуждению различных типов данных далее в нашем курсе.
* **Область применения** - важное понятие, и специалисту в науке о данных часто необходима экспертиза в предметной области.
> Другой важный аспект науки о данных заключается в том, что она исследует, как данные должны быть собраны, сохранены и обработаны с использованием компьютеров. В то время как статистика предоставляет нам математические основы, наука о данных применяет математические знания для того, чтобы извечь инсайты из данных.
Одним из способов (приписываемым [Джиму Грею](https://ru.wikipedia.org/wiki/%D0%93%D1%80%D0%B5%D0%B9,_%D0%94%D0%B6%D0%B8%D0%BC)) взглянуть на науку о данных является рассмотрение её как отдельных научных парадигм:
* Эмпирической, следуя которой мы полагаемся в большей степени на наблюдения и результаты экспериментов.
* Теоретической, в которой новые концепции появляются из уже существующих научных знаний.
* Вычислительной, в которой мы открываем новые принципы, основанные на вычислительных экспериментах.
* Парадигмой на основе данных (data-driven), которая основывается на исследовании взаимосвязей и паттернов в данных.
## Другие смежные области
Так как данные - это всепроникающая концепция, наука о данных сама по себе также является широкой областью, пересекающаяся с другими дисциплинами.
<dl>
<dt>Базы данных</dt>
<dd>
Самым очевидным вопросом является "как хранить" данные, т.е. как организовать их так, чтобы обеспечить более быструю обработку. Существуют различные типы баз данных, позволяющие хранить структурированные и неструктурированные данные, <a href="../../2-Working-With-Data/translations/README.ru.md"> которые мы рассмотрим далее в нашем курсе</a>.
</dd>
<dt>Область больших данных</dt>
<dd>
Зачастую нам необходимо хранить и обрабатывать по-настоящему огромное количество данных с относительно простой структурой. Для этого существуют специальные подходы и методы хранения и эффективной обработки таких данных распределённым способом на вычислительном кластере.
</dd>
<dt>Машинное обучение</dt>
<dd>
Одним из способов понять данные это **построить модель**, способную предсказывать желаемую величину. Способность обучать подобные модели на данных изучается в **машинном обучении**. При желании Вы можете взглянуть на наш курс <a href="https://aka.ms/ml-beginners">"Машинное обучение для начинающих"</a>, чтобы погрузиться глубже в данную область.
</dd>
<dt>Искусственный интеллект</dt>
<dd>
Также как и машинное обучение, искусственный интеллект строится на данных и включает в себя построение сложных комплексных моделей, которые ведут себя подобно человеку. В дополнение, методы ИИ часто позволяют нам трансформировать неструктурированные данные (например, естественную речь) в структурированные при помощи извлечения некоторых признаков.
</dd>
<dt>Визуализация</dt>
<dd>
Человек способен воспринимать ограниченное количество данных, но с построением полезной визуализации мы начинаем извлекать больше смысла из данных и строить различные выводы. Таким образом, важно знать несколько способов визуализации информации, те, что мы изучим в <a href="../../3-Data-Visualization/translations/README.ru.md">Секции 3</a> нашего курса. Смежными областями здесь также являются **Инфографика** и **Человеко-машинное взаимодействие** в целом.
</dd>
</dl>
## Типы данных
Как мы уже упоминали, данные находятся повсюду, нам нужно просто правильно их собрать. Различают **структурированные** и **неструктурированные** данные. Первые часто представлены в чётко структурированном виде, зачастую в виде одной или нескольких таблиц, в то время как вторые являются простым набором файлов. Иногда мы можем выделить **полуструктурированнные** данные, которые имеют некоторую каждый раз различную структуру.
| Структурированные | Полуструктурированные | Неструктурированные |
|----------- |-----------------|--------------|
| Список людей и их номеров телефона | Страницы Wikipedia с ссылками | Тексты энциклопедии Britannica |
| Поминутная температура во всех помещениях здания за последние 20 лет | Коллекция научных статей в формате JSON с указанием авторов, даты публикации и краткого описания | Корпоративные документы общего доступа |
| Возраст и пол каждого входящего в здание человека | Страницы сети Интернет | Необработанный видеопоток с камеры наблюдения |
## Источники данных
Существует множество возможных источников данных и невозможно перечислить их все. Однако, давайте рассмотрим несколько мест, где можно добыть данные:
* **Структурированные данные**
- **Интернет вещей**, включающий в себя данные с различных датчиков, например, датчиков температуры или давления, содержит много полезных данных. В случае, если офисное помещение оборудовано датчиками с поддержкой Интернета вещей, то мы можем автоматически управлять отоплением и освещением, чтобы минимизировать затраты.
- **Опросы**, в которых участвуют пользователи после покупки товара или посещения сайта.
- **Анализ поведения**, например, может помочь понять, насколько далеко пользователь заходит на сайте и какие основные причины ухода с него.
* **Неструктурированные данные**
- **Тексты** могут быть богатым источником инсайтов, начиная от общей **эмоциональной оценки** вплоть до извлечения ключевых слов и даже семантического значения.
- **Изображения** или **видео**. Видео с камеры наблюдения может быть использовано для оценки загруженности дорог и информирования о возможных пробках.
- **Логи** веб-сервисов могут быть использованы для того, чтобы понять, какие страницы нашего сайта посещают больше всего и насколько долго задерживаются на них.
* **Полуструктурированные данные**
- Граф **социальной сети** может быть отличным источником данных о личности пользователя и возможной эффективности распространения информации рядом с ним.
- В случае, когда у нас имеется пачка фотографий с вечеринки, мы можем попытаться извлечь данные **групповой динамики**, построив граф людей, фотографировавшихся друг с другом.
Зная различные возможные источники данных, Вы можете придумать другие сценарии, когда методы науки о данных могут быть применены наилучшим образом для усовершенствования бизнес-процессов.
## Этапы работы с данными
В науке о данных мы фокусируемся на следующих шагах работы с данными:
<dl>
<dt>1) Сбор данных</dt>
<dd>
Первый шаг - это сбор данных. Часто, это довольно примитивный процесс, например данные сохраняются в базу данных из веб-приложения, но иногда нам необходимые специальные методы. В случае данных с датчиков Интернета вещей, данных может оказаться слишком много, и хорошая практика использовать промежуточные точки, такие как хаб Интернета вещей, для сбора всех данных и последующей обработки.
</dd>
<dt>2) Хранение данных</dt>
<dd>
Хранение данных может быть непростой задачей, особенно когда мы говорим о больших данных. Принимая решение хранить данные, стоит продумать их дальнейшее использование. Вот некоторые из способов хранения данных:
<ul>
<li>Реляционные базы данных хранят коллекцию таблиц и используют специальный язык запросов SQL. Обычно, таблицы соединены друг с другом по определённой схеме. Очень часто нам необходимо преобразовать данные, чтобы они подходили под схему.
</li>
<li><a href="https://ru.wikipedia.org/wiki/NoSQL">Нереляционные (NoSQL)</a> базы данных, такие как <a href="https://azure.microsoft.com/services/cosmos-db/?WT.mc_id=acad-31812-dmitryso">CosmosDB</a>, не навязывают строгую модель данных и позволяют хранить более сложные данные, например иерархические JSON документы или графы. С другой стороны, нереляционные базы данных не имеют широких возможностей языка SQL и не гарантируют ссылочной целостности данных.
</li>
<li><a href="https://en.wikipedia.org/wiki/Data_lake">Озеро данных</a> - хранилище, используемое для больших коллекций "сырых" данных. Озёра данных часто встречаются в больших данных, когда все данные не помещаются в память одного компьютера и их необходимо хранить и обрабатывать вычислительным кластером. <a href="https://en.wikipedia.org/wiki/Apache_Parquet">Parquet</a> - формат данных, часто применяемый в связке с большими данными.
</li>
</ul>
</dd>
<dt>3) Обработка данных</dt>
<dd>
Это наиболее увлекательная часть работы с данными, которая включает в себя обработку данных из их оригинального формата в формат, пригодный для визуализации и/или обучения модели. Имея дело с неструктурированными данными, мы, возможно, вынуждены применять некоторые методы ИИ для извлечения **признаков** из данных, конвертируя их, таким образом, в структурированный формат.
</dd>
<dt>4) Визуализация / Визуальный анализ</dt>
<dd>
Зачастую, чтобы понять данные, нам необходимо их визуализировать. Имея множество различных методов визуализации, мы можем найти нужный для получения инсайта. Нередко, специалистам по данным необходимо "играть данными", визуализируя их несколько раз в поисках взаимосвязей. Мы также можем использовать статистические методы для проверки гипотез или для доказательства наличия корреляции между двумя наборами данных.
</dd>
<dt>5) Тренировка прогнозной модели</dt>
<dd>
Из-за того, что главная цель науки о данных - предоставить возможность принятия решения на основе данных, мы можем использовать методы <a href="http://github.com/microsoft/ml-for-beginners">машинного обучения</a> для построения прогнозной модели, которая будет способна решить нашу задачу.
</dd>
</dl>
Разумеется, в зависимости от реальных данных некоторые шаги могут отсутствовать (например, в случае, когда наши данные уже лежат в базе данных или когда нам не нужно тренировать модель) или могут повторяться несколько раз (например, обработка данных).
## Цифровизация и цифровая трансформация
В последнее десятилетие, многие компании начали понимать важность данных при принятии решений. Чтобы применить науку о данных к бизнесу, необходимо собрать некоторые данные, т.е. преобразовать бизнес-процессы в цифровой формат. Этот процесс известен как **цифровизация** и сопровождается методами науки о данных для принятия решений. Зачастую, цифровизация ведёт к значительному увеличению продуктивности (и даже смене курса компании), называемому **цифровой трансформацией**.
Рассмотрим пример. Предположим, у нас есть учебный курс по науке о данных (похожий на данный), который мы предоставляем нашим студентам в режиме онлайн, и мы хотим использовать методы науки о данных чтобы улучшить его. Как мы можем это сделать?
Мы можем начать с вопроса "что может быть оцифровано"? Наиболее простой подход - измерить время, затрачиваемое студентами на прохождение каждого модуля, и полученные знания (например, организовав проверочный тест с несколькими вариантами ответов в конце каждого модуля). Усредняя время на завершение модуля по всем студентам, мы можем определить, какие модули курса вызывают наибольшие затруднения среди студентов, и поработать над их упрощением.
> Вы, может быть, возразите, что данный подход не идеален, потому что разделы могут быть различной длины. Вероятно, наиболее справедливым будет разделить затраченное время на длину модуля (количество символов), и сравнить полученные величины.
Когда мы приступаем к анализу результатов проверочных тестов, мы можем распознать отдельные понятия, которые студенты воспринимают плохо, и улучшить материал. Чтобы сделать это, нам необходимо спроектировать тесты таким образом, чтобы каждый вопрос покрывал определённое понятие или небольшую часть урока.
Если же мы хотим усложнить задачу, мы можем построить график времени, затраченного на каждый модуль, и отметить возраст студентов. Мы можем узнать, что для некоторых возрастных категорий прохождение одного модуля занимает непозволительно много времени, или студенты бросают курс на каком-либо этапе. Это поможет нам предоставить возрастные рекомендации для модулей и минимизировать неудовлетворённость студентов от несоответствия их ожиданиям.
## 🚀 Задача
При решении данной задачи мы попробуем найти понятия, относящиеся к науке о данных, рассматривая тексты. Мы возьмем статьи из Википедии о науке о данных, скачаем и обработаем тексты, а затем построим облако слов, похожее на это:
![Word Cloud for Data Science](../images/ds_wordcloud.png)
Откройте [`notebook.ipynb`](../notebook.ipynb), чтобы ознакомиться с исходным кодом. Вы также можете запустить выполнение кода и понаблюдать, как происходит трансформация данных в реальном времени.
> Если Вы не знаете, как запустить код в Jupyter Notebook, прочтите [данную статью](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Проверочный тест](https://red-water-0103e7a0f.azurestaticapps.net/quiz/1)
## Домашнее задание
* **Задача 1**: Доработайте код из задачи выше, чтобы узнать понятия, относящиеся к областям "большие данные" (**Big Data**) и "машинное обучение" (**Machine Learning**)
* **Задача 2**: [Поразмыслите о сценариях работы в науке о данных](../assignment.md)
## Благодарности
Данный модуль был написан с ♥️ [Дмитрием Сошниковым](http://soshnikov.com)

@ -0,0 +1,32 @@
# Домашнее задание: сценарии в науке о данных
В первом домашнем задании Вам предлагается рассмотреть процессы в реальном мире или проблемы в различных областях и как вы можете улучшить положение дел используя науку о данных. Ответьте на следующие вопросы:
1. Какие данные Вы планируете собирать?
1. Как Вы хотите собрать данные?
1. Как Вы будете хранить данные? Насколько большими будут они?
1. Какие инсайты Вы сможете извлечь из этих данных? Какие решения сможете принять на основе этих данных?
Подумайте о трёх различных проблемах/процессах и опишите каждую по пунктам, приведённым выше.
Ниже приведены некоторые области и проблемы в них, с которых Вы можете начать:
1. Как можно использовать данные, чтобы улучшить образовательный процесс в школах?
1. Как можно использовать данные, чтобы управлять вакцинацией в период пандемии?
1. Как можно использовать данные, чтобы повысить свою продуктивность на работе?
## Форма ответов
Заполните следующую таблицу (замените предложенные области на другие, если необходимо):
| Область | Проблема | Какие данные нужно собрать | Как хранить данные | Какие инсайты/решения можно извлечь/принять |
|----------------|---------|-----------------------|-----------------------|--------------------------------------|
| Образование | | | | |
| Вакцинация | | | | |
| Продуктивность | | | | |
## Оценка
Отлично | Достаточно | Нуждается в улучшении
--- | --- | -- |
Верно определены источники данных, способы хранения данных и возможные решения/инсайты для всех областей | Некоторые аспекты решения недостаточно детально рассмотрены, хранилища данных не рассмотрены, рассмотрены по меньшей мере 2 области | Решение неполное, рассмотрена только одна область

@ -0,0 +1,17 @@
# Введение в науку о данных
![data in action](../images/data.jpg)
> Photo by <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> on <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Пройдя данные уроки Вы узнаете, что такое наука о данных и изучите этические аспекты, которые должен учитывать каждый дата сайентист. Вы также узнаете, что такое данные и немного познакомитесь со статистикой и теорией вероятности, центральной областью науки о данных.
### Разделы
1. [Что такое наука о данных](01-defining-data-science/README.md)
2. [Этика и наука о данных](02-ethics/README.md)
3. [Что такое данные](03-defining-data/README.md)
4. [Введение в статистику и теорию вероятности](04-stats-and-probability/README.md)
### Благодарности
Данные уроки были написаны с ❤️ [Nitya Narasimhan](https://twitter.com/nitya) и [Dmitry Soshnikov](https://twitter.com/shwars).

@ -0,0 +1,17 @@
# Работа с данными
![data love](../images/data-love.jpg)
> Photo by <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> on <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
На этих уроках Вы изучите способы управления данными, методы работы с ними и как данные могут быть использованы в приложениях. Вы познакомитесь с реляционными и нереляционными базами данных и с тем, как они хранят данные. Вы овладеете основами обработки данных при помощи языка программирования Python.
### Разделы
1. [Реляционные базы данных](05-relational-databases/README.md)
2. [Нереляционные базы данных](06-non-relational/README.md)
3. [Работа с языком программирования Python](07-python/README.md)
4. [Подготовка данных](08-data-preparation/README.md)
### Благодарности
Данные уроки были написаны с ❤️ [Christopher Harrison](https://twitter.com/geektrainer), [Dmitry Soshnikov](https://twitter.com/shwars) и [Jasmine Greenaway](https://twitter.com/paladique)

@ -0,0 +1,29 @@
# Визуализация данных
![a bee on a lavender flower](../images/bee.jpg)
> Photo by <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> on <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Визуализация данных - это одна из важнейших задач дата сайентиста. Одним графиком можно заменить тысячу слов. Именно визуализация может помочь Вам распознать все особенности Ваших данных, такие как всплески, выбросы, группы, тренды и др., и понять, какую историю хранят в себе Ваши данные.
В этих пяти уроках Вам предлагается исследовать природные данные и создать красивую визуализацию с использованием различных инструментов.
### Разделы
1. [Визуализация количественных данных](09-visualization-quantities/README.md)
1. [Визуализация распределения данных](10-visualization-distributions/README.md)
1. [Визуализация пропорций](11-visualization-proportions/README.md)
1. [Визуализация связей](12-visualization-relationships/README.md)
1. [Выразительная визуализация](13-meaningful-visualizations/README.md)
### Благодарности
Данные уроки были написаны с 🌸 [Джен Лупер](https://twitter.com/jenlooper).
🍯 Данные о производстве мёда в США хранятся в проекте Джессики Ли на портале [Kaggle](https://www.kaggle.com/jessicali9530/honey-production). [Данные](https://usda.library.cornell.edu/concern/publications/rn301137d) были получены от [министерства сельского хозяйства США](https://www.nass.usda.gov/About_NASS/index.php).
🍄 Данные о разнообразии грибов выложены при содействии Хаттерас Дантон и также хранятся на портале [Kaggle](https://www.kaggle.com/hatterasdunton/mushroom-classification-updated-dataset). Данный датасет содержит экземпляры 23 видов Агариковых (Пластинчатых) грибов семейства Шампиньоновые. Грибы были нарисованы в книге "The Audubon Society Field Guide to North American Mushrooms" в 1981 году. Данный датасет был передан репозиторию UCI ML в 1987 году.
🦆 Данные о разнообразии птиц Миннесоты расположены на портале [Kaggle](https://www.kaggle.com/hannahcollins/minnesota-birds) и были собраны с сайта [Wikipedia](https://en.wikipedia.org/wiki/List_of_birds_of_Minnesota) Ханной Коллинс.
Все датасеты распространяются по лицензии [CC0: Creative Commons](https://creativecommons.org/publicdomain/zero/1.0/).

@ -0,0 +1,16 @@
# Введение в жизненный цикл проекта в области науки о данных
![communication](../images/communication.jpg)
> Photo by <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> on <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
В данных уроках вы познакомитесь с этапами жизненного циклы проекта в области науки о данных, включая анализ данных и взаимодействие на их основе.
### Разделы
1. [Введение в жизненный цикл проекта в области науки о данных](14-Introduction/README.md)
2. [Анализ данных](15-Analyzing/README.md)
3. [Взаимодействие на основе данных](16-communication/README.md)
### Благодарности
Данные уроки были написаны с ❤️ [Jalen McGee](https://twitter.com/JalenMCG) и [Jasmine Greenaway](https://twitter.com/paladique)

@ -0,0 +1,22 @@
# Наука о данных в облачной инфраструктуре
![cloud-picture](../images/cloud-picture.jpg)
> Photo by [Jelleke Vanooteghem](https://unsplash.com/@ilumire) from [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Когда приходит время анализировать по-настоящему большие данные, использование облачных технологий может обеспечить неоспоримое преимущество. В следующих трёх уроках вы узнаете, что такое облачная инфраструктура и чем она может быть полезна. Для этого мы исследуем набор данных о сердечной недостаточности и построим модель оценки вероятности появления данной болезни. Мы применим все преимущества облачных технологий для тренировки, развёртывания и использования модели в двумя способами. Первый спосои - это использование только пользовательского интерфейса с минимальным применением программирования, второй - использование инструмента под названием Azure Machine Learning Software Developer Kit (Azure ML SDK).
![project-schema](../19-Azure/images/project-schema.PNG)
### Разделы
1. [Преимущества облачной инфраструктуры для науки о данных.](17-Introduction/README.md)
2. [Наука о данных в облачной инфраструктуре: подходы с минимальным использованием программирования и без него.](18-Low-Code/README.md)
3. [Наука о данных в облачной инфраструктуре: применение Azure ML SDK](19-Azure/README.md)
### Благодарности
Данные уроки были написаны с ☁️ и 💕 [Maud Levy](https://twitter.com/maudstweets) and [Tiffany Souterre](https://twitter.com/TiffanySouterre)
Данные для прогнозирования сердечной недостаточности были собраны [
Larxel](https://www.kaggle.com/andrewmvd) и хранятся на портале [Kaggle](https://www.kaggle.com/andrewmvd/heart-failure-clinical-data). Датасет распространятеся по лицензии [Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/)

@ -0,0 +1,11 @@
# Наука о данных на практике
Примеры реального использования науки о данных в приложениях во многих отраслях.
### Разделы
1. [Наука о данных на практике](20-Real-World-Examples/README.md)
### Благодарности
Написано с ❤️ [Nitya Narasimhan](https://twitter.com/nitya)

@ -0,0 +1,110 @@
# Наука о данных для начинающих - Учебный план
[![GitHub license](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub contributors](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub issues](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub pull-requests](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub watchers](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub forks](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub stars](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
Команда Azure Cloud Advocates от компании Microsoft рада представить вам десятинедельный учебный курс по науке о данным, разбитый на 20 уроков. Каждый урок содержит вступительный и проверочный тесты, инструкции для прохождения, решение и домашнее задание. Мы выбрали методику проектно-ориентированного обучения как проверенный способ освоения новых навыков. Она помогает Вам учиться в процессе работы над проектом.
**Выражаем благодарность нашим авторам:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Отдельная благодарность 🙏 нашей команде авторов Microsoft Student Ambassador и редакторам,** в особенности [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Rohit Yadav](https://www.linkedin.com/in/rty2423), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Sheena Narula](https://www.linkedin.com/in/sheena-narula-n/), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), Yogendrasingh Pawar, Max Blum, Samridhi Sharma, Tauqeer Ahmad, Aaryan Arora, ChhailBihari Dubey
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../sketchnotes/00-Title.png)|
|:---:|
| Наука о данных для начинающих - _Рисунок [@nitya](https://twitter.com/nitya)_ |
# Начало работы
> **Дорогие учителя**, мы [добавили наши рекомендации](for-teachers.md) по работе с курсом. Мы будем рады получить ваши отзывы [на нашем форуме](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Дорогие студенты**, для самостоятельного прохождения курса сделайте форк всего репозитория, выполните задания самостоятельно, начиная со вступительных тестов, а после прочтения лекции, выполните оставшуюся часть урока. Постарайтесь достигнуть понимания при выполнении заданий и избегайте копирования решения, несмотря на то, что решение доступно в папке `/solutions` для каждого мини-проекта. Отличной идеей также является организовать учебную группу со своими друзьями и пройти этот курс вместе. Для дальнейшего обучения мы рекомендуем портал [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-40229-cxa).
<!--[![Promo video](screenshot.png)]( "Promo video")
> 🎥 Click the image above for a video about the project the folks who created it!-->
## О методике обучения
Мы выбрали два ключевых пункта при разработке данного учебного курса: проектоориентированность и частая проверка знаний. К концу занятий учащиеся изучат основные принципы науки о данных, среди которых этические аспекты работы с данными, подготовку данных, различные способы обработки данных, визуализация данных, анализ данных, примеры практического использования науки о данных и многое другое.
В дополнение к этому, незначительные тесты перед началом урока поможет мотивировать учеников к изучению темы, а заключительный тест проверит усвоение материала. Мы постарались сделать данный курс гибким и нескучным, поэтому вы можете пройти его полностью или только некоторые разделы. По мере прохождения десятинедельного курса, проекты будут становиться всё сложнее.
> Ознакомьтесь с нашими [правилами поведения](CODE_OF_CONDUCT.md), [сотрудничества](CONTRIBUTING.md), [перевода](TRANSLATIONS.md). Мы приветствуем конструктивную критику.
## Каждый урок включает в себя:
- Небольшой скетч (необязательно)
- Вспомогательное видео (необязательно)
- Вступительный тест
- Учебный материал
- Пошаговую инструкцию для выполнения проекта (для проектно-ориентированных уроков)
- Проверку знаний
- Задачу для выполнения
- Дополнительные материалы
- Домашнее задание
- Проверочный тест
> **О тестах**: Все тесты Вы можете найти [в этом приложении](https://red-water-0103e7a0f.azurestaticapps.net/), их всего 40 по три вопроса в каждом. Ссылки на них находятся внутри уроков, однако приложение не может быть запущено локально. Следуйте инструкциям в папке `quiz-app`. Постепенно тесты будут локализованы.
## Содержание уроков
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../sketchnotes/00-Roadmap.png)|
|:---:|
| Наука о данных: Дорожная карта - _Рисунок [@nitya](https://twitter.com/nitya)_ |
| Номер урока | Тема | Раздел | Цели | Ссылка | Автор |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Что такое наука о данных | [Введение](1-Introduction/translations/README.ru.md) | Изучить основные понятия науки о данных и её связь с искусственным интеллектом, машинным обучением и большими данными. | [урок](1-Introduction/01-defining-data-science/translations/README.ru.md) [видео](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Этика и наука о данных | [Введение](1-Introduction/translations/README.ru.md) | Этические аспекты в области науки о данных. | [урок](1-Introduction/02-ethics/translations/README.ru.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Что такое данные | [Введение](1-Introduction/translations/README.ru.md) | Классификация данных и их источники. | [урок](1-Introduction/03-defining-data/translations/README.ru.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Введение в статистику и теорию вероятности | [Введение](1-Introduction/translations/README.ru.md) | Вероятностные и статистические приёмы для изучения данных.| [урок](1-Introduction/04-stats-and-probability/translations/README.ru.md) [видео](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Работа с реляционными данными | [Работа с данными](2-Working-With-Data/translations/README.ru.md) | Введение в реляционные данные, основы изучения и анализа реляционных данных при помощи структурированного языка запросов, также известного как SQL (произносится “си-квел”). | [урок](2-Working-With-Data/05-relational-databases/translations/README.ru.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Работа с NoSQL данными | [Работа с данными](2-Working-With-Data/translations/README.ru.md) | Введение в нереляционные данные, их разнообразие и основы работы с документоориентированными базами данных. | [урок](2-Working-With-Data/06-non-relational/translations/README.ru.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Работа с языком программирования Python | [Работа с данными](2-Working-With-Data/translations/README.ru.md) | Основы использования языка Python при исследовании данных на примере библиотеки Pandas. Рекомендуется предварительно познакомиться с Python. | [урок](2-Working-With-Data/07-python/translations/README.ru.md) [видео](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Подготовка данных | [Работа с данными](2-Working-With-Data/translations/README.ru.md) | Методы очистки и трансформации данных для работы с пропусками, ошибками и неполными данными. | [урок](2-Working-With-Data/08-data-preparation/translations/README.ru.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Визуализация количественных данных | [Визуализация данных](3-Data-Visualization/translations/README.ru.md) | Использование библиотеки Matplotlib для визуализации данных о разнообразии птиц 🦆 | [урок](3-Data-Visualization/09-visualization-quantities/translations/README.ru.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Визуализация распределения данных | [Визуализация данных](3-Data-Visualization/translations/README.ru.md) | Визуализация наблюдений и трендов на временнóм интервале | [урок](3-Data-Visualization/10-visualization-distributions/translations/README.ru.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Визуализация пропорций | [Визуализация данных](3-Data-Visualization/translations/README.ru.md) | Визуализация дискретных и сгруппированных процентных соотношений. | [урок](3-Data-Visualization/11-visualization-proportions/translations/README.ru.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Визуализация связей | [Визуализация данных](3-Data-Visualization/translations/README.ru.md) | Визуализация связей и корреляций между наборами данных и их переменными. | [урок](3-Data-Visualization/12-visualization-relationships/translations/README.ru.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Выразительная визуализация | [Визуализация данных](3-Data-Visualization/translations/README.ru.md) | Методы и инструкция для построения визуализации для эффективного решения проблем и получения инсайтов. | [урок](3-Data-Visualization/13-meaningful-visualizations/translations/README.ru.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Введение в жизненный цикл проекта в области науки о данных | [Жизненный цикл проекта](4-Data-Science-Lifecycle/translations/README.ru.md) | Введение в жизненный цикл проекта в области науки о данных и его первый этап получения и извлечения данных. | [урок](4-Data-Science-Lifecycle/14-Introduction/translations/README.ru.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Анализ данных | [Жизненный цикл проекта](4-Data-Science-Lifecycle/translations/README.ru.md) | Данный этап жизненного цикла сосредоточен на методах анализа данных. | [урок](4-Data-Science-Lifecycle/15-Analyzing/translations/README.ru.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Взаимодействие на основе данных| [Жизненный цикл проекта](4-Data-Science-Lifecycle/translations/README.ru.md) | Данный этап жизненного цикла сфокусирован на презентацию инсайтов в данных в виде, легком для понимания лицам, принимающим решения. | [урок](4-Data-Science-Lifecycle/16-Communication/translations/README.ru.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Преимущества облачной инфраструктуры для науки о данных. | [Облачные данные](5-Data-Science-In-Cloud/translations/README.ru.md) | Данная серия уроков знакомит с применением облачных технологии в науке о данных и его преимуществах. | [урок](5-Data-Science-In-Cloud/17-Introduction/translations/README.ru.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 18 | Наука о данных в облачной инфраструктуре: подходы с минимальным использованием программирования и без него. | [Облачные данные](5-Data-Science-In-Cloud/translations/README.ru.md) | Обучение моделей с минимальным использованием программирования. |[урок](5-Data-Science-In-Cloud/18-Low-Code/translations/README.ru.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 19 | Наука о данных в облачной инфраструктуре: применение Azure ML SDK | [Облачные данные](5-Data-Science-In-Cloud/translations/README.ru.md) | Развёртывание моделей с использованием Azure Machine Learning Studio. | [урок](5-Data-Science-In-Cloud/19-Azure/translations/README.ru.md)| [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 20 | Наука о данных на практике | [На практике](6-Data-Science-In-Wild/translations/README.ru.md) | Проекты в области науки о данных на практике. | [урок](6-Data-Science-In-Wild/20-Real-World-Examples/translations/README.ru.md) | [Nitya](https://twitter.com/nitya) |
## Оффлайн доступ
Вы можете запустить данную документацию используя [Docsify](https://docsify.js.org/#/). Сделайте форк данного репозитория, [установите Docsify](https://docsify.js.org/#/quickstart) на Вашем компьютере, и затем введите команду `docsify serve` в корневом разделе репозитория. Веб-сайт будет доступен на порте 3000 Вашей локальной машины: `localhost:3000`.
> Отмечаем, что Docsify не поддерживает Jupyter-ноутбуки. Для работы с ними используйте VS Code с запуском ядра Python.
## PDF файлы
PDF файлы всех уроков Вы можете найти [здесь](https://microsoft.github.io/Data-Science-For-Beginners/pdf/readme.pdf).
## Ищем помощников!
Если вы хотите поучаствовать в перевода курса, прочтите нашу [инструкцию по переводу](TRANSLATIONS.md).
## Другие учебные курсы
Наша команда разрабатывает и другие курсы. Познакомьтесь с ними:
- [Машинное обучение для начинающих](https://aka.ms/ml-beginners)
- [Интернет вещей для начинающих](https://aka.ms/iot-beginners)
- [Веб-разработка для начинающих](https://aka.ms/webdev-beginners)
Loading…
Cancel
Save