|
4 weeks ago | |
---|---|---|
.. | ||
README.md | 4 weeks ago | |
assignment.md | 4 weeks ago |
README.md
Въведение в науката за данни в облака
![]() |
---|
Наука за данни в облака: Въведение - Скетч от @nitya |
В този урок ще научите основните принципи на облака, ще разберете защо може да е интересно за вас да използвате облачни услуги за изпълнение на вашите проекти за наука за данни и ще разгледаме някои примери за проекти за наука за данни, изпълнявани в облака.
Тест преди лекцията
Какво е облакът?
Облакът, или облачните изчисления, представлява предоставянето на широк набор от услуги за изчисления, базирани на принципа „плащаш, докато използваш“, хоствани на инфраструктура през интернет. Услугите включват решения като съхранение, бази данни, мрежи, софтуер, анализи и интелигентни услуги.
Обикновено разграничаваме публичен, частен и хибриден облак, както следва:
- Публичен облак: публичният облак е собственост и се управлява от трета страна – доставчик на облачни услуги, който предоставя своите ресурси за изчисления през интернет на обществеността.
- Частен облак: отнася се до ресурси за облачни изчисления, използвани изключително от един бизнес или организация, с услуги и инфраструктура, поддържани в частна мрежа.
- Хибриден облак: хибридният облак е система, която комбинира публични и частни облаци. Потребителите избират локален център за данни, като същевременно позволяват данни и приложения да се изпълняват на един или повече публични облаци.
Повечето услуги за облачни изчисления попадат в три категории: инфраструктура като услуга (IaaS), платформа като услуга (PaaS) и софтуер като услуга (SaaS).
- Инфраструктура като услуга (IaaS): потребителите наемат IT инфраструктура като сървъри и виртуални машини (VMs), съхранение, мрежи, операционни системи.
- Платформа като услуга (PaaS): потребителите наемат среда за разработка, тестване, доставка и управление на софтуерни приложения. Потребителите не трябва да се притесняват за настройка или управление на основната инфраструктура от сървъри, съхранение, мрежи и бази данни, необходими за разработка.
- Софтуер като услуга (SaaS): потребителите получават достъп до софтуерни приложения през интернет, при поискване и обикновено на абонаментна основа. Потребителите не трябва да се притесняват за хостинг и управление на софтуерното приложение, основната инфраструктура или поддръжката, като например актуализации на софтуера и сигурност.
Някои от най-големите доставчици на облачни услуги са Amazon Web Services, Google Cloud Platform и Microsoft Azure.
Защо да изберем облака за наука за данни?
Разработчиците и IT професионалистите избират да работят с облака по много причини, включително следните:
- Иновация: можете да захранвате вашите приложения, като интегрирате иновативни услуги, създадени от доставчиците на облачни услуги, директно във вашите приложения.
- Гъвкавост: плащате само за услугите, които ви трябват, и можете да избирате от широк набор от услуги. Обикновено плащате според използването и адаптирате услугите си според вашите променящи се нужди.
- Бюджет: не е необходимо да правите първоначални инвестиции за закупуване на хардуер и софтуер, настройка и управление на локални центрове за данни, а просто плащате за това, което използвате.
- Скалируемост: вашите ресурси могат да се адаптират според нуждите на вашия проект, което означава, че вашите приложения могат да използват повече или по-малко изчислителна мощност, съхранение и честотна лента, като се адаптират към външни фактори във всеки момент.
- Продуктивност: можете да се фокусирате върху вашия бизнес, вместо да губите време за задачи, които могат да бъдат управлявани от някой друг, като управление на центрове за данни.
- Надеждност: облачните изчисления предлагат няколко начина за непрекъснато архивиране на вашите данни и можете да създадете планове за възстановяване при бедствия, за да поддържате вашия бизнес и услуги дори в кризисни времена.
- Сигурност: можете да се възползвате от политики, технологии и контроли, които укрепват сигурността на вашия проект.
Това са някои от най-често срещаните причини, поради които хората избират да използват облачни услуги. Сега, когато имаме по-добро разбиране за това какво е облакът и какви са основните му предимства, нека разгледаме по-конкретно работата на специалистите по данни и разработчиците, работещи с данни, и как облакът може да им помогне с някои от предизвикателствата, които могат да срещнат:
- Съхранение на големи количества данни: вместо да купувате, управлявате и защитавате големи сървъри, можете да съхранявате вашите данни директно в облака, с решения като Azure Cosmos DB, Azure SQL Database и Azure Data Lake Storage.
- Извършване на интеграция на данни: интеграцията на данни е съществена част от науката за данни, която ви позволява да преминете от събиране на данни към предприемане на действия. С услуги за интеграция на данни, предлагани в облака, можете да събирате, трансформирате и интегрирате данни от различни източници в единен склад за данни, с Data Factory.
- Обработка на данни: обработката на огромни количества данни изисква много изчислителна мощност, и не всеки има достъп до машини, достатъчно мощни за това, което е причината много хора да избират директно да използват огромната изчислителна мощност на облака за изпълнение и внедряване на своите решения.
- Използване на услуги за анализ на данни: облачни услуги като Azure Synapse Analytics, Azure Stream Analytics и Azure Databricks ви помагат да превърнете вашите данни в полезни прозрения.
- Използване на услуги за машинно обучение и интелигентност на данни: вместо да започвате от нулата, можете да използвате алгоритми за машинно обучение, предлагани от доставчика на облака, с услуги като AzureML. Можете също така да използвате когнитивни услуги като преобразуване на реч в текст, текст в реч, компютърно зрение и други.
Примери за наука за данни в облака
Нека направим това по-осезаемо, като разгледаме няколко сценария.
Анализ на настроенията в социалните медии в реално време
Ще започнем със сценарий, който често се изучава от хора, които започват с машинно обучение: анализ на настроенията в социалните медии в реално време.
Да кажем, че управлявате новинарски уебсайт и искате да използвате данни на живо, за да разберете какво съдържание би било интересно за вашите читатели. За да научите повече за това, можете да създадете програма, която извършва анализ на настроенията в реално време на данни от публикации в Twitter по теми, които са от значение за вашите читатели.
Ключовите показатели, които ще разгледате, са обемът на туитове по конкретни теми (хаштагове) и настроението, което се установява с помощта на аналитични инструменти, които извършват анализ на настроенията около определените теми.
Необходимите стъпки за създаване на този проект са следните:
- Създаване на хъб за събития за стрийминг вход, който ще събира данни от Twitter.
- Конфигуриране и стартиране на клиентско приложение за Twitter, което ще извиква API за стрийминг на Twitter.
- Създаване на Stream Analytics задача.
- Специфициране на входа и заявката за задачата.
- Създаване на изходен канал и специфициране на изхода за задачата.
- Стартиране на задачата.
За да видите целия процес, разгледайте документацията.
Анализ на научни статии
Нека вземем друг пример за проект, създаден от Дмитрий Сошников, един от авторите на тази учебна програма.
Дмитрий създаде инструмент, който анализира статии за COVID. Като разгледате този проект, ще видите как можете да създадете инструмент, който извлича знания от научни статии, получава прозрения и помага на изследователите да се ориентират в големи колекции от статии по ефективен начин.
Нека видим различните стъпки, използвани за това:
- Извличане и предварителна обработка на информация с Text Analytics for Health.
- Използване на Azure ML за паралелизиране на обработката.
- Съхранение и заявяване на информация с Cosmos DB.
- Създаване на интерактивно табло за изследване и визуализация на данни с Power BI.
За да видите целия процес, посетете блога на Дмитрий.
Както виждате, можем да използваме облачни услуги по много начини за изпълнение на наука за данни.
Бележка под линия
Източници:
- https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109
- https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109
- https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/
Тест след лекцията
Задание
Отказ от отговорност:
Този документ е преведен с помощта на AI услуга за превод Co-op Translator. Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за недоразумения или погрешни интерпретации, произтичащи от използването на този превод.