|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 3 weeks ago |
README.md
Введение в науку о данных в облаке
![]() |
---|
Наука о данных в облаке: Введение - Скетчноут от @nitya |
В этом уроке вы узнаете основные принципы облачных технологий, поймете, почему использование облачных сервисов может быть полезным для ваших проектов в области науки о данных, и рассмотрите примеры проектов, реализованных в облаке.
Тест перед лекцией
Что такое облако?
Облако, или облачные вычисления, — это предоставление широкого спектра вычислительных услуг по модели "оплата по мере использования", размещенных на инфраструктуре через интернет. Услуги включают решения, такие как хранилище данных, базы данных, сети, программное обеспечение, аналитика и интеллектуальные сервисы.
Обычно различают публичное, частное и гибридное облако следующим образом:
- Публичное облако: публичное облако принадлежит и управляется сторонним поставщиком облачных услуг, который предоставляет свои вычислительные ресурсы через интернет для широкой аудитории.
- Частное облако: относится к облачным вычислительным ресурсам, используемым исключительно одной компанией или организацией, с услугами и инфраструктурой, поддерживаемыми в частной сети.
- Гибридное облако: гибридное облако — это система, которая объединяет публичные и частные облака. Пользователи выбирают локальный центр обработки данных, при этом позволяя данным и приложениям работать в одном или нескольких публичных облаках.
Большинство облачных вычислительных услуг делятся на три категории: инфраструктура как услуга (IaaS), платформа как услуга (PaaS) и программное обеспечение как услуга (SaaS).
- Инфраструктура как услуга (IaaS): пользователи арендуют ИТ-инфраструктуру, такую как серверы и виртуальные машины (VMs), хранилище, сети, операционные системы.
- Платформа как услуга (PaaS): пользователи арендуют среду для разработки, тестирования, доставки и управления программными приложениями. Пользователям не нужно беспокоиться о настройке или управлении базовой инфраструктурой серверов, хранилищ, сетей и баз данных, необходимых для разработки.
- Программное обеспечение как услуга (SaaS): пользователи получают доступ к программным приложениям через интернет, по запросу и обычно на основе подписки. Пользователям не нужно беспокоиться о размещении и управлении программным приложением, базовой инфраструктурой или обслуживании, таком как обновления программного обеспечения и исправления безопасности.
Крупнейшими поставщиками облачных услуг являются Amazon Web Services, Google Cloud Platform и Microsoft Azure.
Почему выбирать облако для науки о данных?
Разработчики и ИТ-специалисты выбирают работу с облаком по многим причинам, включая следующие:
- Инновации: вы можете интегрировать инновационные сервисы, созданные поставщиками облака, прямо в свои приложения.
- Гибкость: вы платите только за те услуги, которые вам нужны, и можете выбирать из широкого спектра сервисов. Обычно вы платите по мере использования и адаптируете услуги в соответствии с изменяющимися потребностями.
- Бюджет: вам не нужно делать первоначальные инвестиции в покупку оборудования и программного обеспечения, настройку и управление локальными центрами обработки данных — вы просто платите за то, что используете.
- Масштабируемость: ваши ресурсы могут масштабироваться в зависимости от потребностей проекта, что позволяет вашим приложениям использовать больше или меньше вычислительной мощности, хранилища и пропускной способности, адаптируясь к внешним факторам в любой момент времени.
- Производительность: вы можете сосредоточиться на своем бизнесе, а не тратить время на задачи, которые могут быть переданы другим, например, управление центрами обработки данных.
- Надежность: облачные вычисления предлагают несколько способов непрерывного резервного копирования данных, а также позволяют настроить планы восстановления после сбоев, чтобы поддерживать ваш бизнес и услуги даже в кризисные времена.
- Безопасность: вы можете воспользоваться политиками, технологиями и средствами контроля, которые усиливают безопасность вашего проекта.
Это лишь некоторые из наиболее распространенных причин, почему люди выбирают облачные сервисы. Теперь, когда мы лучше понимаем, что такое облако и каковы его основные преимущества, давайте более подробно рассмотрим работу специалистов по данным и разработчиков, работающих с данными, а также то, как облако может помочь им справиться с различными вызовами:
- Хранение больших объемов данных: вместо покупки, управления и защиты больших серверов вы можете хранить свои данные прямо в облаке, используя такие решения, как Azure Cosmos DB, Azure SQL Database и Azure Data Lake Storage.
- Интеграция данных: интеграция данных — важная часть науки о данных, которая позволяет перейти от сбора данных к принятию решений. С помощью облачных сервисов для интеграции данных, таких как Data Factory, вы можете собирать, преобразовывать и интегрировать данные из различных источников в единое хранилище данных.
- Обработка данных: обработка огромных объемов данных требует значительной вычислительной мощности, и не у всех есть доступ к достаточно мощным машинам. Именно поэтому многие выбирают использование огромной вычислительной мощности облака для запуска и развертывания своих решений.
- Использование аналитических сервисов: облачные сервисы, такие как Azure Synapse Analytics, Azure Stream Analytics и Azure Databricks, помогают превращать данные в полезные инсайты.
- Использование сервисов машинного обучения и интеллектуальных данных: вместо того чтобы начинать с нуля, вы можете использовать алгоритмы машинного обучения, предлагаемые облачным провайдером, такие как AzureML. Также доступны когнитивные сервисы, такие как преобразование речи в текст, текст в речь, компьютерное зрение и многое другое.
Примеры науки о данных в облаке
Давайте сделаем это более наглядным, рассмотрев несколько сценариев.
Анализ настроений в социальных сетях в реальном времени
Начнем с сценария, который часто изучают новички в машинном обучении: анализ настроений в социальных сетях в реальном времени.
Предположим, вы управляете новостным сайтом и хотите использовать данные в реальном времени, чтобы понять, какой контент может заинтересовать ваших читателей. Чтобы узнать больше, вы можете создать программу, которая выполняет анализ настроений данных из публикаций в Twitter по темам, актуальным для ваших читателей.
Ключевые показатели, которые вы будете изучать, — это объем твитов по определенным темам (хэштегам) и настроения, которые определяются с помощью аналитических инструментов, выполняющих анализ настроений по указанным темам.
Шаги, необходимые для создания этого проекта:
- Создать центр событий для потокового ввода, который будет собирать данные из Twitter.
- Настроить и запустить клиентское приложение Twitter, которое будет вызывать Streaming API Twitter.
- Создать задачу Stream Analytics.
- Указать входные данные и запрос для задачи.
- Создать выходной канал и указать выходные данные задачи.
- Запустить задачу.
Чтобы увидеть полный процесс, ознакомьтесь с документацией.
Анализ научных статей
Рассмотрим другой пример проекта, созданного Дмитрием Сошниковым, одним из авторов этой учебной программы.
Дмитрий создал инструмент для анализа статей о COVID. Изучив этот проект, вы увидите, как можно создать инструмент, который извлекает знания из научных статей, получает инсайты и помогает исследователям эффективно ориентироваться в больших коллекциях статей.
Давайте рассмотрим шаги, использованные для этого:
- Извлечение и предварительная обработка информации с помощью Text Analytics for Health.
- Использование Azure ML для параллельной обработки.
- Хранение и запрос информации с помощью Cosmos DB.
- Создание интерактивной панели для исследования и визуализации данных с использованием Power BI.
Чтобы увидеть полный процесс, посетите блог Дмитрия.
Как видите, облачные сервисы можно использовать множеством способов для выполнения задач науки о данных.
Примечание
Источники:
- https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109
- https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109
- https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/
Тест после лекции
Тест после лекции
Задание
Отказ от ответственности:
Этот документ был переведен с использованием сервиса автоматического перевода Co-op Translator. Хотя мы стремимся к точности, пожалуйста, учитывайте, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его родном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные интерпретации, возникающие в результате использования данного перевода.