|
|
<!--
|
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
|
{
|
|
|
"original_hash": "c368f8f2506fe56bca0f7be05c4eb71d",
|
|
|
"translation_date": "2025-08-26T16:26:40+00:00",
|
|
|
"source_file": "4-Data-Science-Lifecycle/14-Introduction/README.md",
|
|
|
"language_code": "bg"
|
|
|
}
|
|
|
-->
|
|
|
# Въведение в жизнения цикъл на науката за данни
|
|
|
|
|
|
| ](../../sketchnotes/14-DataScience-Lifecycle.png)|
|
|
|
|:---:|
|
|
|
| Въведение в жизнения цикъл на науката за данни - _Скетч от [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
|
|
## [Тест преди лекцията](https://red-water-0103e7a0f.azurestaticapps.net/quiz/26)
|
|
|
|
|
|
До този момент вероятно сте осъзнали, че науката за данни е процес. Този процес може да бъде разделен на 5 етапа:
|
|
|
|
|
|
- Събиране
|
|
|
- Обработка
|
|
|
- Анализ
|
|
|
- Комуникация
|
|
|
- Поддръжка
|
|
|
|
|
|
Тази лекция се фокусира върху 3 части от жизнения цикъл: събиране, обработка и поддръжка.
|
|
|
|
|
|

|
|
|
> Снимка от [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
|
|
|
|
|
|
## Събиране
|
|
|
|
|
|
Първият етап от жизнения цикъл е много важен, тъй като следващите етапи зависят от него. Той практически комбинира два етапа в един: придобиване на данни и дефиниране на целите и проблемите, които трябва да бъдат решени.
|
|
|
Дефинирането на целите на проекта изисква по-дълбок контекст относно проблема или въпроса. Първо, трябва да идентифицираме и придобием тези, които се нуждаят от решаване на проблема си. Това могат да бъдат заинтересовани страни в бизнеса или спонсори на проекта, които могат да помогнат да се определи кой или какво ще се възползва от този проект, както и какво и защо им е необходимо. Добре дефинираната цел трябва да бъде измерима и количествена, за да се определи приемлив резултат.
|
|
|
|
|
|
Въпроси, които един специалист по данни може да зададе:
|
|
|
- Подходено ли е към този проблем преди? Какво е открито?
|
|
|
- Разбрана ли е целта от всички участници?
|
|
|
- Има ли неясноти и как да ги намалим?
|
|
|
- Какви са ограниченията?
|
|
|
- Как би изглеждал крайният резултат?
|
|
|
- Колко ресурси (време, хора, изчислителни) са налични?
|
|
|
|
|
|
Следва идентифициране, събиране и накрая изследване на данните, необходими за постигане на тези дефинирани цели. На този етап от придобиването специалистите по данни трябва също да оценят количеството и качеството на данните. Това изисква известно изследване на данните, за да се потвърди, че придобитото ще подкрепи постигането на желания резултат.
|
|
|
|
|
|
Въпроси, които един специалист по данни може да зададе относно данните:
|
|
|
- Какви данни вече са ми налични?
|
|
|
- Кой притежава тези данни?
|
|
|
- Какви са притесненията относно поверителността?
|
|
|
- Имам ли достатъчно, за да реша този проблем?
|
|
|
- Данните с достатъчно качество ли са за този проблем?
|
|
|
- Ако открия допълнителна информация чрез тези данни, трябва ли да обмислим промяна или преформулиране на целите?
|
|
|
|
|
|
## Обработка
|
|
|
|
|
|
Етапът на обработка в жизнения цикъл се фокусира върху откриването на модели в данните, както и върху моделирането. Някои техники, използвани в този етап, изискват статистически методи за разкриване на модели. Обикновено това би било трудоемка задача за човек при работа с голям набор от данни и ще разчита на компютри за ускоряване на процеса. Този етап е и мястото, където науката за данни и машинното обучение се пресичат. Както научихте в първата лекция, машинното обучение е процесът на изграждане на модели за разбиране на данните. Моделите представляват връзката между променливите в данните, която помага за прогнозиране на резултати.
|
|
|
|
|
|
Често използвани техники в този етап са разгледани в учебната програма за начинаещи в машинното обучение. Следвайте връзките, за да научите повече за тях:
|
|
|
|
|
|
- [Класификация](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification): Организиране на данни в категории за по-ефективно използване.
|
|
|
- [Клъстериране](https://github.com/microsoft/ML-For-Beginners/tree/main/5-Clustering): Групиране на данни в подобни групи.
|
|
|
- [Регресия](https://github.com/microsoft/ML-For-Beginners/tree/main/2-Regression): Определяне на връзките между променливите за прогнозиране или предвиждане на стойности.
|
|
|
|
|
|
## Поддръжка
|
|
|
|
|
|
В диаграмата на жизнения цикъл може да сте забелязали, че поддръжката се намира между събирането и обработката. Поддръжката е непрекъснат процес на управление, съхранение и защита на данните през целия процес на проекта и трябва да се взема предвид през цялото време на проекта.
|
|
|
|
|
|
### Съхранение на данни
|
|
|
|
|
|
Решенията за това как и къде се съхраняват данните могат да повлияят на разходите за съхранение, както и на производителността при достъп до данните. Такива решения вероятно няма да бъдат взети само от специалист по данни, но той може да се наложи да прави избори как да работи с данните въз основа на начина, по който са съхранени.
|
|
|
|
|
|
Ето някои аспекти на съвременните системи за съхранение на данни, които могат да повлияят на тези избори:
|
|
|
|
|
|
**На място срещу извън място срещу публичен или частен облак**
|
|
|
|
|
|
На място се отнася до хостване и управление на данните на собствено оборудване, като например притежаване на сървър с твърди дискове, които съхраняват данните, докато извън място разчита на оборудване, което не притежавате, като например център за данни. Публичният облак е популярен избор за съхранение на данни, който не изисква знания за това как или къде точно се съхраняват данните, като "публичен" се отнася до унифицирана основна инфраструктура, която се споделя от всички, които използват облака. Някои организации имат строги политики за сигурност, които изискват пълен достъп до оборудването, където се хостват данните, и ще разчитат на частен облак, който предоставя собствени облачни услуги. Ще научите повече за данните в облака в [следващи уроци](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/5-Data-Science-In-Cloud).
|
|
|
|
|
|
**Студени срещу горещи данни**
|
|
|
|
|
|
Когато обучавате своите модели, може да се нуждаете от повече тренировъчни данни. Ако сте доволни от модела си, ще пристигат повече данни, за да може моделът да изпълнява своята цел. Във всеки случай разходите за съхранение и достъп до данни ще се увеличат с натрупването на повече от тях. Разделянето на рядко използвани данни, известни като студени данни, от често достъпваните горещи данни може да бъде по-евтин вариант за съхранение чрез хардуерни или софтуерни услуги. Ако студените данни трябва да бъдат достъпени, може да отнеме малко повече време за извличане в сравнение с горещите данни.
|
|
|
|
|
|
### Управление на данни
|
|
|
|
|
|
Докато работите с данни, може да откриете, че някои от тях трябва да бъдат почистени, използвайки някои от техниките, разгледани в урока за [подготовка на данни](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/08-data-preparation), за да изградите точни модели. Когато пристигнат нови данни, те ще се нуждаят от същите приложения за поддържане на консистентност в качеството. Някои проекти ще включват използването на автоматизиран инструмент за почистване, агрегиране и компресиране, преди данните да бъдат преместени на крайното си местоположение. Azure Data Factory е пример за един от тези инструменти.
|
|
|
|
|
|
### Защита на данните
|
|
|
|
|
|
Една от основните цели на защитата на данните е да се гарантира, че тези, които работят с тях, контролират какво се събира и в какъв контекст се използва. Поддържането на сигурността на данните включва ограничаване на достъпа само до тези, които се нуждаят от него, спазване на местните закони и регулации, както и поддържане на етични стандарти, разгледани в [урока за етика](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/1-Introduction/02-ethics).
|
|
|
|
|
|
Ето някои неща, които екипът може да направи, имайки предвид сигурността:
|
|
|
- Потвърждаване, че всички данни са криптирани
|
|
|
- Предоставяне на информация на клиентите за това как се използват техните данни
|
|
|
- Премахване на достъпа до данни за тези, които са напуснали проекта
|
|
|
- Позволяване само на определени членове на проекта да променят данните
|
|
|
|
|
|
## 🚀 Предизвикателство
|
|
|
|
|
|
Съществуват много версии на жизнения цикъл на науката за данни, където всяка стъпка може да има различни имена и брой етапи, но ще съдържа същите процеси, споменати в този урок.
|
|
|
|
|
|
Разгледайте [жизнения цикъл на процеса за екипна наука за данни](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/lifecycle) и [стандарта за процеси за извличане на данни в различни индустрии](https://www.datascience-pm.com/crisp-dm-2/). Назовете 3 прилики и разлики между тях.
|
|
|
|
|
|
|Процес за екипна наука за данни (TDSP)|Стандарт за процеси за извличане на данни в различни индустрии (CRISP-DM)|
|
|
|
|--|--|
|
|
|
| |  |
|
|
|
| Изображение от [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Изображение от [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
|
|
|
|
|
|
## [Тест след лекцията](https://red-water-0103e7a0f.azurestaticapps.net/quiz/27)
|
|
|
|
|
|
## Преглед и самостоятелно обучение
|
|
|
|
|
|
Прилагането на жизнения цикъл на науката за данни включва множество роли и задачи, като някои могат да се фокусират върху конкретни части от всеки етап. Процесът за екипна наука за данни предоставя няколко ресурса, които обясняват типовете роли и задачи, които някой може да има в проект.
|
|
|
|
|
|
* [Роли и задачи в процеса за екипна наука за данни](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/roles-tasks)
|
|
|
* [Изпълнение на задачи в науката за данни: изследване, моделиране и внедряване](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/execute-data-science-tasks)
|
|
|
|
|
|
## Задание
|
|
|
|
|
|
[Оценка на набор от данни](assignment.md)
|
|
|
|
|
|
---
|
|
|
|
|
|
**Отказ от отговорност**:
|
|
|
Този документ е преведен с помощта на AI услуга за превод [Co-op Translator](https://github.com/Azure/co-op-translator). Въпреки че се стремим към точност, моля, имайте предвид, че автоматичните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия изходен език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален превод от човек. Ние не носим отговорност за каквито и да е недоразумения или погрешни интерпретации, произтичащи от използването на този превод. |