diff --git a/1-Introduction/01-defining-data-science/translations/README.ru.md b/1-Introduction/01-defining-data-science/translations/README.ru.md new file mode 100644 index 00000000..916871ec --- /dev/null +++ b/1-Introduction/01-defining-data-science/translations/README.ru.md @@ -0,0 +1,177 @@ +# Что такое наука о данных? + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/01-Definitions.png)| +|:---:| +|Что такое наука о данных - _Рисунок [@nitya](https://twitter.com/nitya)_ | + +--- + +[![Defining Data Science Video](../images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) + +## [Вступительный тест](https://red-water-0103e7a0f.azurestaticapps.net/quiz/0) + +## Что такое данные? +В повседневной жизни мы окружены данными. Текст, который Вы в данный момент читаете, является данными, список номеров телефонов друзей в Вашем смартфоне является данными, также как и время на Ваших часах. Люди умеют оперировать даными естественным образом, считая деньги, которые у нас есть, или составляя письма нашим друзьям. + +Однако данные стали намного более важными с изобретением компьютеров. Главная роль компьютеров заключается в вычислениях, но им нужны данные, над которыми их производить. Таким образом, нам необходимо понимать, как компьютеры хранят и обрабатывают информацию. + +С появлением Интернета роль компьютеров как вычислительных устройств возрасла. Если задуматься, сейчас мы всё больше используем компьютеры для обработки данных и коммуникации, чем непосредственно для вычислений. Когда пишем электронное письмо другу или ищем что-то в Интернете, мы, в действительности, создаём, храним, передаём и управляем данными. + +>Можете ли Вы припомнить, когда последний раз использовали компьютер, чтобы что-то посчитать? + +## Что такое наука о данных? + +В [Википедии](https://ru.wikipedia.org/wiki/%D0%9D%D0%B0%D1%83%D0%BA%D0%B0_%D0%BE_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85), **Наука о данных** определяется как *научная область, использующая научные методы для извлечения знаний и инсайтов из структурированных и неструктурированных данных и для применения их в широком спектре приложений.* + +Данное определение подчеркивает следующие важные аспекты науки о данных: + +* Главная цель науки о данных - **извлечение знаний** из данных, другими словами, - **понимание** данных, нахождение скрытых взаимосвязей и построение **модели**. +* Наука о данных использует **научные методы**, заимствованные из теории вероятности и статистики. Когда термин "наука о данных" был впервые введён, некоторые специалисты заявляли, что наука о данных - это просто новое модное название статистики. Сегодня уже стало очевидно, что данная область гораздо шире. +* Полученные знания должны быть использованы для получения **практических инсайтов**. +* Мы должны уметь оперировать как **структурированными** так и **неструктурированными данными**. Мы вернёмся к обсуждению различных типов данных далее в нашем курсе. +* **Область применения** - важное понятие, и специалисту в науке о данных часто необходима экспертиза в предметной области. + +> Другой важный аспект науки о данных заключается в том, что она исследует, как данные должны быть собраны, сохранены и обработаны с использованием компьютеров. В то время как статистика предоставляет нам математические основы, наука о данных применяет математические знания для того, чтобы извечь инсайты из данных. + +Одним из способов (приписываемым [Джиму Грею](https://ru.wikipedia.org/wiki/%D0%93%D1%80%D0%B5%D0%B9,_%D0%94%D0%B6%D0%B8%D0%BC)) взглянуть на науку о данных является рассмотрение её как отдельных научных парадигм: + +* Эмпирической, следуя которой мы полагаемся в большей степени на наблюдения и результаты экспериментов. +* Теоретической, в которой новые концепции появляются из уже существующих научных знаний. +* Вычислительной, в которой мы открываем новые принципы, основанные на вычислительных экспериментах. +* Парадигмой на основе данных (data-driven), которая основывается на исследовании взаимосвязей и паттернов в данных. + +## Другие смежные области + +Так как данные - это всепроникающая концепция, наука о данных сама по себе также является широкой областью, пересекающаяся с другими дисциплинами. + +
+
Базы данных
+
+ +Самым очевидным вопросом является "как хранить" данные, т.е. как организовать их так, чтобы обеспечить более быструю обработку. Существуют различные типы баз данных, позволяющие хранить структурированные и неструктурированные данные, которые мы рассмотрим далее в нашем курсе. +
+
Область больших данных
+
+ +Зачастую нам необходимо хранить и обрабатывать по-настоящему огромное количество данных с относительно простой структурой. Для этого существуют специальные подходы и методы хранения и эффективной обработки таких данных распределённым способом на вычислительном кластере. +
+
Машинное обучение
+
+ +Одним из способов понять данные это **построить модель**, способную предсказывать желаемую величину. Способность обучать подобные модели на данных изучается в **машинном обучении**. При желании Вы можете взглянуть на наш курс "Машинное обучение для начинающих", чтобы погрузиться глубже в данную область. +
+
Искусственный интеллект
+
+ +Также как и машинное обучение, искусственный интеллект строится на данных и включает в себя построение сложных комплексных моделей, которые ведут себя подобно человеку. В дополнение, методы ИИ часто позволяют нам трансформировать неструктурированные данные (например, естественную речь) в структурированные при помощи извлечения некоторых признаков. +
+
Визуализация
+
+ +Человек способен воспринимать ограниченное количество данных, но с построением полезной визуализации мы начинаем извлекать больше смысла из данных и строить различные выводы. Таким образом, важно знать несколько способов визуализации информации, те, что мы изучим в Секции 3 нашего курса. Смежными областями здесь также являются **Инфографика** и **Человеко-машинное взаимодействие** в целом. +
+
+ +## Типы данных + +Как мы уже упоминали, данные находятся повсюду, нам нужно просто правильно их собрать. Различают **структурированные** и **неструктурированные** данные. Первые часто представлены в чётко структурированном виде, зачастую в виде одной или нескольких таблиц, в то время как вторые являются простым набором файлов. Иногда мы можем выделить **полуструктурированнные** данные, которые имеют некоторую каждый раз различную структуру. + +| Структурированные | Полуструктурированные | Неструктурированные | +|----------- |-----------------|--------------| +| Список людей и их номеров телефона | Страницы Wikipedia с ссылками | Тексты энциклопедии Britannica | +| Поминутная температура во всех помещениях здания за последние 20 лет | Коллекция научных статей в формате JSON с указанием авторов, даты публикации и краткого описания | Корпоративные документы общего доступа | +| Возраст и пол каждого входящего в здание человека | Страницы сети Интернет | Необработанный видеопоток с камеры наблюдения | + +## Источники данных + +Существует множество возможных источников данных и невозможно перечислить их все. Однако, давайте рассмотрим несколько мест, где можно добыть данные: + +* **Структурированные данные** + - **Интернет вещей**, включающий в себя данные с различных датчиков, например, датчиков температуры или давления, содержит много полезных данных. В случае, если офисное помещение оборудовано датчиками с поддержкой Интернета вещей, то мы можем автоматически управлять отоплением и освещением, чтобы минимизировать затраты. + - **Опросы**, в которых участвуют пользователи после покупки товара или посещения сайта. + - **Анализ поведения**, например, может помочь понять, насколько далеко пользователь заходит на сайте и какие основные причины ухода с него. +* **Неструктурированные данные** + - **Тексты** могут быть богатым источником инсайтов, начиная от общей **эмоциональной оценки** вплоть до извлечения ключевых слов и даже семантического значения. + - **Изображения** или **видео**. Видео с камеры наблюдения может быть использовано для оценки загруженности дорог и информирования о возможных пробках. + - **Логи** веб-сервисов могут быть использованы для того, чтобы понять, какие страницы нашего сайта посещают больше всего и насколько долго задерживаются на них. +* **Полуструктурированные данные** + - Граф **социальной сети** может быть отличным источником данных о личности пользователя и возможной эффективности распространения информации рядом с ним. + - В случае, когда у нас имеется пачка фотографий с вечеринки, мы можем попытаться извлечь данные **групповой динамики**, построив граф людей, фотографировавшихся друг с другом. + +Зная различные возможные источники данных, Вы можете придумать другие сценарии, когда методы науки о данных могут быть применены наилучшим образом для усовершенствования бизнес-процессов. + +## Этапы работы с данными + +В науке о данных мы фокусируемся на следующих шагах работы с данными: + +
+
1) Сбор данных
+
+Первый шаг - это сбор данных. Часто, это довольно примитивный процесс, например данные сохраняются в базу данных из веб-приложения, но иногда нам необходимые специальные методы. В случае данных с датчиков Интернета вещей, данных может оказаться слишком много, и хорошая практика использовать промежуточные точки, такие как хаб Интернета вещей, для сбора всех данных и последующей обработки. + +
+
2) Хранение данных
+
+Хранение данных может быть непростой задачей, особенно когда мы говорим о больших данных. Принимая решение хранить данные, стоит продумать их дальнейшее использование. Вот некоторые из способов хранения данных: + +
+
3) Обработка данных
+
+ +Это наиболее увлекательная часть работы с данными, которая включает в себя обработку данных из их оригинального формата в формат, пригодный для визуализации и/или обучения модели. Имея дело с неструктурированными данными, мы, возможно, вынуждены применять некоторые методы ИИ для извлечения **признаков** из данных, конвертируя их, таким образом, в структурированный формат. + +
+
4) Визуализация / Визуальный анализ
+
+Зачастую, чтобы понять данные, нам необходимо их визуализировать. Имея множество различных методов визуализации, мы можем найти нужный для получения инсайта. Нередко, специалистам по данным необходимо "играть данными", визуализируя их несколько раз в поисках взаимосвязей. Мы также можем использовать статистические методы для проверки гипотез или для доказательства наличия корреляции между двумя наборами данных. +
+
5) Тренировка прогнозной модели
+
+Из-за того, что главная цель науки о данных - предоставить возможность принятия решения на основе данных, мы можем использовать методы машинного обучения для построения прогнозной модели, которая будет способна решить нашу задачу. +
+
+ +Разумеется, в зависимости от реальных данных некоторые шаги могут отсутствовать (например, в случае, когда наши данные уже лежат в базе данных или когда нам не нужно тренировать модель) или могут повторяться несколько раз (например, обработка данных). + +## Цифровизация и цифровая трансформация + +В последнее десятилетие, многие компании начали понимать важность данных при принятии решений. Чтобы применить науку о данных к бизнесу, необходимо собрать некоторые данные, т.е. преобразовать бизнес-процессы в цифровой формат. Этот процесс известен как **цифровизация** и сопровождается методами науки о данных для принятия решений. Зачастую, цифровизация ведёт к значительному увеличению продуктивности (и даже смене курса компании), называемому **цифровой трансформацией**. + +Рассмотрим пример. Предположим, у нас есть учебный курс по науке о данных (похожий на данный), который мы предоставляем нашим студентам в режиме онлайн, и мы хотим использовать методы науки о данных чтобы улучшить его. Как мы можем это сделать? + +Мы можем начать с вопроса "что может быть оцифровано"? Наиболее простой подход - измерить время, затрачиваемое студентами на прохождение каждого модуля, и полученные знания (например, организовав проверочный тест с несколькими вариантами ответов в конце каждого модуля). Усредняя время на завершение модуля по всем студентам, мы можем определить, какие модули курса вызывают наибольшие затруднения среди студентов, и поработать над их упрощением. + +> Вы, может быть, возразите, что данный подход не идеален, потому что разделы могут быть различной длины. Вероятно, наиболее справедливым будет разделить затраченное время на длину модуля (количество символов), и сравнить полученные величины. + +Когда мы приступаем к анализу результатов проверочных тестов, мы можем распознать отдельные понятия, которые студенты воспринимают плохо, и улучшить материал. Чтобы сделать это, нам необходимо спроектировать тесты таким образом, чтобы каждый вопрос покрывал определённое понятие или небольшую часть урока. + +Если же мы хотим усложнить задачу, мы можем построить график времени, затраченного на каждый модуль, и отметить возраст студентов. Мы можем узнать, что для некоторых возрастных категорий прохождение одного модуля занимает непозволительно много времени, или студенты бросают курс на каком-либо этапе. Это поможет нам предоставить возрастные рекомендации для модулей и минимизировать неудовлетворённость студентов от несоответствия их ожиданиям. + +## 🚀 Задача + +При решении данной задачи мы попробуем найти понятия, относящиеся к науке о данных, рассматривая тексты. Мы возьмем статьи из Википедии о науке о данных, скачаем и обработаем тексты, а затем построим облако слов, похожее на это: + +![Word Cloud for Data Science](../images/ds_wordcloud.png) + +Откройте [`notebook.ipynb`](../notebook.ipynb), чтобы ознакомиться с исходным кодом. Вы также можете запустить выполнение кода и понаблюдать, как происходит трансформация данных в реальном времени. + +> Если Вы не знаете, как запустить код в Jupyter Notebook, прочтите [данную статью](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). + + +## [Проверочный тест](https://red-water-0103e7a0f.azurestaticapps.net/quiz/1) + +## Домашнее задание + +* **Задача 1**: Доработайте код из задачи выше, чтобы узнать понятия, относящиеся к областям "большие данные" (**Big Data**) и "машинное обучение" (**Machine Learning**) +* **Задача 2**: [Поразмыслите о сценариях работы в науке о данных](../assignment.md) + +## Благодарности + +Данный модуль был написан с ♥️ [Дмитрием Сошниковым](http://soshnikov.com) diff --git a/1-Introduction/01-defining-data-science/translations/assignment.ru.md b/1-Introduction/01-defining-data-science/translations/assignment.ru.md new file mode 100644 index 00000000..b81f4181 --- /dev/null +++ b/1-Introduction/01-defining-data-science/translations/assignment.ru.md @@ -0,0 +1,32 @@ +# Домашнее задание: сценарии в науке о данных + +В первом домашнем задании Вам предлагается рассмотреть процессы в реальном мире или проблемы в различных областях и как вы можете улучшить положение дел используя науку о данных. Ответьте на следующие вопросы: + +1. Какие данные Вы планируете собирать? +1. Как Вы хотите собрать данные? +1. Как Вы будете хранить данные? Насколько большими будут они? +1. Какие инсайты Вы сможете извлечь из этих данных? Какие решения сможете принять на основе этих данных? + +Подумайте о трёх различных проблемах/процессах и опишите каждую по пунктам, приведённым выше. + +Ниже приведены некоторые области и проблемы в них, с которых Вы можете начать: + +1. Как можно использовать данные, чтобы улучшить образовательный процесс в школах? +1. Как можно использовать данные, чтобы управлять вакцинацией в период пандемии? +1. Как можно использовать данные, чтобы повысить свою продуктивность на работе? + +## Форма ответов + +Заполните следующую таблицу (замените предложенные области на другие, если необходимо): + +| Область | Проблема | Какие данные нужно собрать | Как хранить данные | Какие инсайты/решения можно извлечь/принять | +|----------------|---------|-----------------------|-----------------------|--------------------------------------| +| Образование | | | | | +| Вакцинация | | | | | +| Продуктивность | | | | | + +## Оценка + +Отлично | Достаточно | Нуждается в улучшении +--- | --- | -- | +Верно определены источники данных, способы хранения данных и возможные решения/инсайты для всех областей | Некоторые аспекты решения недостаточно детально рассмотрены, хранилища данных не рассмотрены, рассмотрены по меньшей мере 2 области | Решение неполное, рассмотрена только одна область diff --git a/1-Introduction/translations/README.ru.md b/1-Introduction/translations/README.ru.md new file mode 100644 index 00000000..abff417a --- /dev/null +++ b/1-Introduction/translations/README.ru.md @@ -0,0 +1,17 @@ +# Введение в науку о данных + +![data in action](../images/data.jpg) +> Photo by Stephen Dawson on Unsplash + +Пройдя данные уроки Вы узнаете, что такое наука о данных и изучите этические аспекты, которые должен учитывать каждый дата сайентист. Вы также узнаете, что такое данные и немного познакомитесь со статистикой и теорией вероятности, центральной областью науки о данных. + +### Разделы + +1. [Что такое наука о данных](01-defining-data-science/README.md) +2. [Этика и наука о данных](02-ethics/README.md) +3. [Что такое данные](03-defining-data/README.md) +4. [Введение в статистику и теорию вероятности](04-stats-and-probability/README.md) + +### Благодарности + +Данные уроки были написаны с ❤️ [Nitya Narasimhan](https://twitter.com/nitya) и [Dmitry Soshnikov](https://twitter.com/shwars). diff --git a/2-Working-With-Data/translations/README.ru.md b/2-Working-With-Data/translations/README.ru.md new file mode 100644 index 00000000..0d0e865f --- /dev/null +++ b/2-Working-With-Data/translations/README.ru.md @@ -0,0 +1,17 @@ +# Работа с данными + +![data love](../images/data-love.jpg) +> Photo by Alexander Sinn on Unsplash + +На этих уроках Вы изучите способы управления данными, методы работы с ними и как данные могут быть использованы в приложениях. Вы познакомитесь с реляционными и нереляционными базами данных и с тем, как они хранят данные. Вы овладеете основами обработки данных при помощи языка программирования Python. + +### Разделы + +1. [Реляционные базы данных](05-relational-databases/README.md) +2. [Нереляционные базы данных](06-non-relational/README.md) +3. [Работа с языком программирования Python](07-python/README.md) +4. [Подготовка данных](08-data-preparation/README.md) + +### Благодарности + +Данные уроки были написаны с ❤️ [Christopher Harrison](https://twitter.com/geektrainer), [Dmitry Soshnikov](https://twitter.com/shwars) и [Jasmine Greenaway](https://twitter.com/paladique) diff --git a/3-Data-Visualization/translations/README.ru.md b/3-Data-Visualization/translations/README.ru.md new file mode 100644 index 00000000..f2ae42be --- /dev/null +++ b/3-Data-Visualization/translations/README.ru.md @@ -0,0 +1,29 @@ +# Визуализация данных + +![a bee on a lavender flower](../images/bee.jpg) +> Photo by Jenna Lee on Unsplash + + +Визуализация данных - это одна из важнейших задач дата сайентиста. Одним графиком можно заменить тысячу слов. Именно визуализация может помочь Вам распознать все особенности Ваших данных, такие как всплески, выбросы, группы, тренды и др., и понять, какую историю хранят в себе Ваши данные. + +В этих пяти уроках Вам предлагается исследовать природные данные и создать красивую визуализацию с использованием различных инструментов. + +### Разделы + +1. [Визуализация количественных данных](09-visualization-quantities/README.md) +1. [Визуализация распределения данных](10-visualization-distributions/README.md) +1. [Визуализация пропорций](11-visualization-proportions/README.md) +1. [Визуализация связей](12-visualization-relationships/README.md) +1. [Выразительная визуализация](13-meaningful-visualizations/README.md) + +### Благодарности + +Данные уроки были написаны с 🌸 [Джен Лупер](https://twitter.com/jenlooper). + +🍯 Данные о производстве мёда в США хранятся в проекте Джессики Ли на портале [Kaggle](https://www.kaggle.com/jessicali9530/honey-production). [Данные](https://usda.library.cornell.edu/concern/publications/rn301137d) были получены от [министерства сельского хозяйства США](https://www.nass.usda.gov/About_NASS/index.php). + +🍄 Данные о разнообразии грибов выложены при содействии Хаттерас Дантон и также хранятся на портале [Kaggle](https://www.kaggle.com/hatterasdunton/mushroom-classification-updated-dataset). Данный датасет содержит экземпляры 23 видов Агариковых (Пластинчатых) грибов семейства Шампиньоновые. Грибы были нарисованы в книге "The Audubon Society Field Guide to North American Mushrooms" в 1981 году. Данный датасет был передан репозиторию UCI ML в 1987 году. + +🦆 Данные о разнообразии птиц Миннесоты расположены на портале [Kaggle](https://www.kaggle.com/hannahcollins/minnesota-birds) и были собраны с сайта [Wikipedia](https://en.wikipedia.org/wiki/List_of_birds_of_Minnesota) Ханной Коллинс. + +Все датасеты распространяются по лицензии [CC0: Creative Commons](https://creativecommons.org/publicdomain/zero/1.0/). \ No newline at end of file diff --git a/4-Data-Science-Lifecycle/translations/README.ru.md b/4-Data-Science-Lifecycle/translations/README.ru.md new file mode 100644 index 00000000..cf05568e --- /dev/null +++ b/4-Data-Science-Lifecycle/translations/README.ru.md @@ -0,0 +1,16 @@ +# Введение в жизненный цикл проекта в области науки о данных + +![communication](../images/communication.jpg) +> Photo by Headway on Unsplash + +В данных уроках вы познакомитесь с этапами жизненного циклы проекта в области науки о данных, включая анализ данных и взаимодействие на их основе. + +### Разделы + +1. [Введение в жизненный цикл проекта в области науки о данных](14-Introduction/README.md) +2. [Анализ данных](15-Analyzing/README.md) +3. [Взаимодействие на основе данных](16-communication/README.md) + +### Благодарности + +Данные уроки были написаны с ❤️ [Jalen McGee](https://twitter.com/JalenMCG) и [Jasmine Greenaway](https://twitter.com/paladique) diff --git a/5-Data-Science-In-Cloud/translations/README.ru.md b/5-Data-Science-In-Cloud/translations/README.ru.md new file mode 100644 index 00000000..cade9559 --- /dev/null +++ b/5-Data-Science-In-Cloud/translations/README.ru.md @@ -0,0 +1,22 @@ +# Наука о данных в облачной инфраструктуре + +![cloud-picture](../images/cloud-picture.jpg) + +> Photo by [Jelleke Vanooteghem](https://unsplash.com/@ilumire) from [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) + +Когда приходит время анализировать по-настоящему большие данные, использование облачных технологий может обеспечить неоспоримое преимущество. В следующих трёх уроках вы узнаете, что такое облачная инфраструктура и чем она может быть полезна. Для этого мы исследуем набор данных о сердечной недостаточности и построим модель оценки вероятности появления данной болезни. Мы применим все преимущества облачных технологий для тренировки, развёртывания и использования модели в двумя способами. Первый спосои - это использование только пользовательского интерфейса с минимальным применением программирования, второй - использование инструмента под названием Azure Machine Learning Software Developer Kit (Azure ML SDK). + +![project-schema](../19-Azure/images/project-schema.PNG) + +### Разделы + +1. [Преимущества облачной инфраструктуры для науки о данных.](17-Introduction/README.md) +2. [Наука о данных в облачной инфраструктуре: подходы с минимальным использованием программирования и без него.](18-Low-Code/README.md) +3. [Наука о данных в облачной инфраструктуре: применение Azure ML SDK](19-Azure/README.md) + +### Благодарности +Данные уроки были написаны с ☁️ и 💕 [Maud Levy](https://twitter.com/maudstweets) and [Tiffany Souterre](https://twitter.com/TiffanySouterre) + + +Данные для прогнозирования сердечной недостаточности были собраны [ +Larxel](https://www.kaggle.com/andrewmvd) и хранятся на портале [Kaggle](https://www.kaggle.com/andrewmvd/heart-failure-clinical-data). Датасет распространятеся по лицензии [Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/) diff --git a/6-Data-Science-In-Wild/translations/README.ru.md b/6-Data-Science-In-Wild/translations/README.ru.md new file mode 100644 index 00000000..235ab191 --- /dev/null +++ b/6-Data-Science-In-Wild/translations/README.ru.md @@ -0,0 +1,11 @@ +# Наука о данных на практике + +Примеры реального использования науки о данных в приложениях во многих отраслях. + +### Разделы + +1. [Наука о данных на практике](20-Real-World-Examples/README.md) + +### Благодарности + +Написано с ❤️ [Nitya Narasimhan](https://twitter.com/nitya) diff --git a/translations/README.ru.md b/translations/README.ru.md new file mode 100644 index 00000000..e293124c --- /dev/null +++ b/translations/README.ru.md @@ -0,0 +1,110 @@ +# Наука о данных для начинающих - Учебный план + +[![GitHub license](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE) +[![GitHub contributors](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/) +[![GitHub issues](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/) +[![GitHub pull-requests](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/) +[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com) + +[![GitHub watchers](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/) +[![GitHub forks](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/) +[![GitHub stars](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/) + +Команда Azure Cloud Advocates от компании Microsoft рада представить вам десятинедельный учебный курс по науке о данным, разбитый на 20 уроков. Каждый урок содержит вступительный и проверочный тесты, инструкции для прохождения, решение и домашнее задание. Мы выбрали методику проектно-ориентированного обучения как проверенный способ освоения новых навыков. Она помогает Вам учиться в процессе работы над проектом. + +**Выражаем благодарность нашим авторам:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer). + +**🙏 Отдельная благодарность 🙏 нашей команде авторов Microsoft Student Ambassador и редакторам,** в особенности [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Rohit Yadav](https://www.linkedin.com/in/rty2423), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Sheena Narula](https://www.linkedin.com/in/sheena-narula-n/), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), Yogendrasingh Pawar, Max Blum, Samridhi Sharma, Tauqeer Ahmad, Aaryan Arora, ChhailBihari Dubey + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../sketchnotes/00-Title.png)| +|:---:| +| Наука о данных для начинающих - _Рисунок [@nitya](https://twitter.com/nitya)_ | + + +# Начало работы + +> **Дорогие учителя**, мы [добавили наши рекомендации](for-teachers.md) по работе с курсом. Мы будем рады получить ваши отзывы [на нашем форуме](https://github.com/microsoft/Data-Science-For-Beginners/discussions)! + +> **Дорогие студенты**, для самостоятельного прохождения курса сделайте форк всего репозитория, выполните задания самостоятельно, начиная со вступительных тестов, а после прочтения лекции, выполните оставшуюся часть урока. Постарайтесь достигнуть понимания при выполнении заданий и избегайте копирования решения, несмотря на то, что решение доступно в папке `/solutions` для каждого мини-проекта. Отличной идеей также является организовать учебную группу со своими друзьями и пройти этот курс вместе. Для дальнейшего обучения мы рекомендуем портал [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-40229-cxa). + + + + +## О методике обучения + +Мы выбрали два ключевых пункта при разработке данного учебного курса: проектоориентированность и частая проверка знаний. К концу занятий учащиеся изучат основные принципы науки о данных, среди которых этические аспекты работы с данными, подготовку данных, различные способы обработки данных, визуализация данных, анализ данных, примеры практического использования науки о данных и многое другое. + +В дополнение к этому, незначительные тесты перед началом урока поможет мотивировать учеников к изучению темы, а заключительный тест проверит усвоение материала. Мы постарались сделать данный курс гибким и нескучным, поэтому вы можете пройти его полностью или только некоторые разделы. По мере прохождения десятинедельного курса, проекты будут становиться всё сложнее. + +> Ознакомьтесь с нашими [правилами поведения](CODE_OF_CONDUCT.md), [сотрудничества](CONTRIBUTING.md), [перевода](TRANSLATIONS.md). Мы приветствуем конструктивную критику. + +## Каждый урок включает в себя: + +- Небольшой скетч (необязательно) +- Вспомогательное видео (необязательно) +- Вступительный тест +- Учебный материал +- Пошаговую инструкцию для выполнения проекта (для проектно-ориентированных уроков) +- Проверку знаний +- Задачу для выполнения +- Дополнительные материалы +- Домашнее задание +- Проверочный тест + +> **О тестах**: Все тесты Вы можете найти [в этом приложении](https://red-water-0103e7a0f.azurestaticapps.net/), их всего 40 по три вопроса в каждом. Ссылки на них находятся внутри уроков, однако приложение не может быть запущено локально. Следуйте инструкциям в папке `quiz-app`. Постепенно тесты будут локализованы. + +## Содержание уроков + + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../sketchnotes/00-Roadmap.png)| +|:---:| +| Наука о данных: Дорожная карта - _Рисунок [@nitya](https://twitter.com/nitya)_ | + + +| Номер урока | Тема | Раздел | Цели | Ссылка | Автор | +| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: | +| 01 | Что такое наука о данных | [Введение](1-Introduction/translations/README.ru.md) | Изучить основные понятия науки о данных и её связь с искусственным интеллектом, машинным обучением и большими данными. | [урок](1-Introduction/01-defining-data-science/translations/README.ru.md) [видео](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) | +| 02 | Этика и наука о данных | [Введение](1-Introduction/translations/README.ru.md) | Этические аспекты в области науки о данных. | [урок](1-Introduction/02-ethics/translations/README.ru.md) | [Nitya](https://twitter.com/nitya) | +| 03 | Что такое данные | [Введение](1-Introduction/translations/README.ru.md) | Классификация данных и их источники. | [урок](1-Introduction/03-defining-data/translations/README.ru.md) | [Jasmine](https://www.twitter.com/paladique) | +| 04 | Введение в статистику и теорию вероятности | [Введение](1-Introduction/translations/README.ru.md) | Вероятностные и статистические приёмы для изучения данных.| [урок](1-Introduction/04-stats-and-probability/translations/README.ru.md) [видео](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) | +| 05 | Работа с реляционными данными | [Работа с данными](2-Working-With-Data/translations/README.ru.md) | Введение в реляционные данные, основы изучения и анализа реляционных данных при помощи структурированного языка запросов, также известного как SQL (произносится “си-квел”). | [урок](2-Working-With-Data/05-relational-databases/translations/README.ru.md) | [Christopher](https://www.twitter.com/geektrainer) | | | +| 06 | Работа с NoSQL данными | [Работа с данными](2-Working-With-Data/translations/README.ru.md) | Введение в нереляционные данные, их разнообразие и основы работы с документоориентированными базами данных. | [урок](2-Working-With-Data/06-non-relational/translations/README.ru.md) | [Jasmine](https://twitter.com/paladique)| +| 07 | Работа с языком программирования Python | [Работа с данными](2-Working-With-Data/translations/README.ru.md) | Основы использования языка Python при исследовании данных на примере библиотеки Pandas. Рекомендуется предварительно познакомиться с Python. | [урок](2-Working-With-Data/07-python/translations/README.ru.md) [видео](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) | +| 08 | Подготовка данных | [Работа с данными](2-Working-With-Data/translations/README.ru.md) | Методы очистки и трансформации данных для работы с пропусками, ошибками и неполными данными. | [урок](2-Working-With-Data/08-data-preparation/translations/README.ru.md) | [Jasmine](https://www.twitter.com/paladique) | +| 09 | Визуализация количественных данных | [Визуализация данных](3-Data-Visualization/translations/README.ru.md) | Использование библиотеки Matplotlib для визуализации данных о разнообразии птиц 🦆 | [урок](3-Data-Visualization/09-visualization-quantities/translations/README.ru.md) | [Jen](https://twitter.com/jenlooper) | +| 10 | Визуализация распределения данных | [Визуализация данных](3-Data-Visualization/translations/README.ru.md) | Визуализация наблюдений и трендов на временнóм интервале | [урок](3-Data-Visualization/10-visualization-distributions/translations/README.ru.md) | [Jen](https://twitter.com/jenlooper) | +| 11 | Визуализация пропорций | [Визуализация данных](3-Data-Visualization/translations/README.ru.md) | Визуализация дискретных и сгруппированных процентных соотношений. | [урок](3-Data-Visualization/11-visualization-proportions/translations/README.ru.md) | [Jen](https://twitter.com/jenlooper) | +| 12 | Визуализация связей | [Визуализация данных](3-Data-Visualization/translations/README.ru.md) | Визуализация связей и корреляций между наборами данных и их переменными. | [урок](3-Data-Visualization/12-visualization-relationships/translations/README.ru.md) | [Jen](https://twitter.com/jenlooper) | +| 13 | Выразительная визуализация | [Визуализация данных](3-Data-Visualization/translations/README.ru.md) | Методы и инструкция для построения визуализации для эффективного решения проблем и получения инсайтов. | [урок](3-Data-Visualization/13-meaningful-visualizations/translations/README.ru.md) | [Jen](https://twitter.com/jenlooper) | +| 14 | Введение в жизненный цикл проекта в области науки о данных | [Жизненный цикл проекта](4-Data-Science-Lifecycle/translations/README.ru.md) | Введение в жизненный цикл проекта в области науки о данных и его первый этап получения и извлечения данных. | [урок](4-Data-Science-Lifecycle/14-Introduction/translations/README.ru.md) | [Jasmine](https://twitter.com/paladique) | +| 15 | Анализ данных | [Жизненный цикл проекта](4-Data-Science-Lifecycle/translations/README.ru.md) | Данный этап жизненного цикла сосредоточен на методах анализа данных. | [урок](4-Data-Science-Lifecycle/15-Analyzing/translations/README.ru.md) | [Jasmine](https://twitter.com/paladique) | | | +| 16 | Взаимодействие на основе данных| [Жизненный цикл проекта](4-Data-Science-Lifecycle/translations/README.ru.md) | Данный этап жизненного цикла сфокусирован на презентацию инсайтов в данных в виде, легком для понимания лицам, принимающим решения. | [урок](4-Data-Science-Lifecycle/16-Communication/translations/README.ru.md) | [Jalen](https://twitter.com/JalenMcG) | | | +| 17 | Преимущества облачной инфраструктуры для науки о данных. | [Облачные данные](5-Data-Science-In-Cloud/translations/README.ru.md) | Данная серия уроков знакомит с применением облачных технологии в науке о данных и его преимуществах. | [урок](5-Data-Science-In-Cloud/17-Introduction/translations/README.ru.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) | +| 18 | Наука о данных в облачной инфраструктуре: подходы с минимальным использованием программирования и без него. | [Облачные данные](5-Data-Science-In-Cloud/translations/README.ru.md) | Обучение моделей с минимальным использованием программирования. |[урок](5-Data-Science-In-Cloud/18-Low-Code/translations/README.ru.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) | +| 19 | Наука о данных в облачной инфраструктуре: применение Azure ML SDK | [Облачные данные](5-Data-Science-In-Cloud/translations/README.ru.md) | Развёртывание моделей с использованием Azure Machine Learning Studio. | [урок](5-Data-Science-In-Cloud/19-Azure/translations/README.ru.md)| [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) | +| 20 | Наука о данных на практике | [На практике](6-Data-Science-In-Wild/translations/README.ru.md) | Проекты в области науки о данных на практике. | [урок](6-Data-Science-In-Wild/20-Real-World-Examples/translations/README.ru.md) | [Nitya](https://twitter.com/nitya) | + +## Оффлайн доступ + +Вы можете запустить данную документацию используя [Docsify](https://docsify.js.org/#/). Сделайте форк данного репозитория, [установите Docsify](https://docsify.js.org/#/quickstart) на Вашем компьютере, и затем введите команду `docsify serve` в корневом разделе репозитория. Веб-сайт будет доступен на порте 3000 Вашей локальной машины: `localhost:3000`. + + +> Отмечаем, что Docsify не поддерживает Jupyter-ноутбуки. Для работы с ними используйте VS Code с запуском ядра Python. + +## PDF файлы + +PDF файлы всех уроков Вы можете найти [здесь](https://microsoft.github.io/Data-Science-For-Beginners/pdf/readme.pdf). + +## Ищем помощников! + +Если вы хотите поучаствовать в перевода курса, прочтите нашу [инструкцию по переводу](TRANSLATIONS.md). + +## Другие учебные курсы + +Наша команда разрабатывает и другие курсы. Познакомьтесь с ними: + +- [Машинное обучение для начинающих](https://aka.ms/ml-beginners) +- [Интернет вещей для начинающих](https://aka.ms/iot-beginners) +- [Веб-разработка для начинающих](https://aka.ms/webdev-beginners)