|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 3 weeks ago | |
notebook.ipynb | 3 weeks ago |
README.md
Вступ до життєвого циклу науки про дані
![]() |
---|
Вступ до життєвого циклу науки про дані - Скетчноут від @nitya |
Передлекційний тест
На цьому етапі ви, ймовірно, вже зрозуміли, що наука про дані — це процес. Цей процес можна розділити на 5 етапів:
- Збір
- Обробка
- Аналіз
- Комунікація
- Підтримка
Цей урок зосереджується на трьох частинах життєвого циклу: зборі, обробці та підтримці.
Фото від Berkeley School of Information
Збір
Перший етап життєвого циклу є дуже важливим, оскільки наступні етапи залежать від нього. Фактично, це два етапи, об'єднані в один: отримання даних і визначення мети та проблем, які потрібно вирішити.
Визначення цілей проєкту вимагатиме глибшого розуміння контексту проблеми або питання. Спочатку потрібно ідентифікувати та залучити тих, хто потребує вирішення своєї проблеми. Це можуть бути зацікавлені сторони бізнесу або спонсори проєкту, які допоможуть визначити, хто або що отримає користь від цього проєкту, а також що і чому їм це потрібно. Добре визначена мета має бути вимірюваною та кількісною, щоб визначити прийнятний результат.
Питання, які може поставити собі науковець з даних:
- Чи підходили до цієї проблеми раніше? Що було виявлено?
- Чи всі учасники розуміють мету та ціль?
- Чи є неоднозначності, і як їх зменшити?
- Які існують обмеження?
- Як може виглядати кінцевий результат?
- Скільки ресурсів (часу, людей, обчислювальних потужностей) доступно?
Далі потрібно ідентифікувати, зібрати, а потім дослідити дані, необхідні для досягнення визначених цілей. На цьому етапі збору науковці з даних також повинні оцінити кількість і якість даних. Це вимагає певного дослідження даних, щоб підтвердити, що зібрані дані допоможуть досягти бажаного результату.
Питання, які може поставити собі науковець з даних щодо даних:
- Які дані вже доступні мені?
- Хто є власником цих даних?
- Які існують проблеми з конфіденційністю?
- Чи достатньо даних для вирішення цієї проблеми?
- Чи є дані прийнятної якості для цієї проблеми?
- Якщо через ці дані буде виявлено додаткову інформацію, чи варто розглянути зміну або переосмислення цілей?
Обробка
Етап обробки в життєвому циклі зосереджується на виявленні закономірностей у даних, а також на моделюванні. Деякі методи, що використовуються на цьому етапі, вимагають статистичних підходів для виявлення закономірностей. Зазвичай це було б трудомістким завданням для людини при роботі з великим набором даних, тому використовуються комп’ютери для прискорення процесу. На цьому етапі наука про дані та машинне навчання перетинаються. Як ви дізналися в першому уроці, машинне навчання — це процес створення моделей для розуміння даних. Моделі є представленням взаємозв’язків між змінними в даних, які допомагають прогнозувати результати.
Поширені методи, що використовуються на цьому етапі, розглядаються в курсі "Машинне навчання для початківців". Ознайомтеся з посиланнями, щоб дізнатися більше про них:
- Класифікація: Організація даних у категорії для більш ефективного використання.
- Кластеризація: Групування даних у схожі групи.
- Регресія: Визначення взаємозв’язків між змінними для прогнозування або передбачення значень.
Підтримка
На діаграмі життєвого циклу ви могли помітити, що підтримка знаходиться між збором і обробкою. Підтримка — це постійний процес управління, зберігання та захисту даних протягом усього проєкту, і її слід враховувати на всіх етапах.
Зберігання даних
Рішення про те, як і де зберігати дані, може вплинути на вартість їх зберігання, а також на продуктивність доступу до них. Такі рішення, ймовірно, не приймаються виключно науковцем з даних, але він може впливати на те, як працювати з даними залежно від способу їх зберігання.
Ось деякі аспекти сучасних систем зберігання даних, які можуть вплинути на ці рішення:
Локальне зберігання vs віддалене зберігання vs публічна чи приватна хмара
Локальне зберігання означає управління даними на власному обладнанні, наприклад, на сервері з жорсткими дисками, тоді як віддалене зберігання покладається на обладнання, яке вам не належить, наприклад, дата-центр. Публічна хмара є популярним вибором для зберігання даних, що не вимагає знань про те, як і де саме зберігаються дані. Публічна хмара має єдину інфраструктуру, яку використовують усі користувачі. Деякі організації мають суворі політики безпеки, які вимагають повного доступу до обладнання, де зберігаються дані, і покладаються на приватну хмару, яка надає власні хмарні послуги. Ви дізнаєтеся більше про дані в хмарі в наступних уроках.
"Холодні" vs "гарячі" дані
Під час навчання моделей вам може знадобитися більше навчальних даних. Якщо ви задоволені своєю моделлю, нові дані все одно надходитимуть для виконання її завдань. У будь-якому випадку вартість зберігання та доступу до даних зростатиме з їх накопиченням. Розділення рідко використовуваних даних ("холодних") від часто доступних ("гарячих") може бути дешевшим варіантом зберігання через апаратні або програмні сервіси. Якщо потрібно отримати доступ до "холодних" даних, це може зайняти трохи більше часу порівняно з "гарячими".
Управління даними
Під час роботи з даними ви можете виявити, що деякі з них потрібно очистити за допомогою методів, розглянутих у уроці про підготовку даних, щоб створити точні моделі. Коли надходять нові дані, їм можуть знадобитися ті ж самі процедури для підтримки якості. Деякі проєкти передбачають використання автоматизованих інструментів для очищення, агрегування та стиснення даних перед їх переміщенням до кінцевого місця зберігання. Azure Data Factory є прикладом одного з таких інструментів.
Захист даних
Однією з головних цілей захисту даних є забезпечення того, щоб ті, хто з ними працює, контролювали, що збирається і в якому контексті використовується. Захист даних включає обмеження доступу лише для тих, хто його потребує, дотримання місцевих законів і нормативних актів, а також підтримку етичних стандартів, розглянутих у уроці про етику.
Ось деякі заходи, які команда може вжити з урахуванням безпеки:
- Переконатися, що всі дані зашифровані
- Надати клієнтам інформацію про те, як використовуються їхні дані
- Видалити доступ до даних у тих, хто залишив проєкт
- Дозволити змінювати дані лише певним членам команди
🚀 Виклик
Існує багато версій життєвого циклу науки про дані, де кожен етап може мати різні назви та кількість стадій, але міститиме ті ж процеси, що описані в цьому уроці.
Ознайомтеся з життєвим циклом процесу команди науки про дані та стандартним процесом для добування даних у різних галузях. Назвіть 3 подібності та відмінності між ними.
Процес команди науки про дані (TDSP) | Стандартний процес для добування даних у різних галузях (CRISP-DM) |
---|---|
![]() |
![]() |
Зображення від Microsoft | Зображення від Data Science Process Alliance |
Післялекційний тест
Огляд і самостійне навчання
Застосування життєвого циклу науки про дані включає різні ролі та завдання, деякі з яких зосереджуються на конкретних частинах кожного етапу. Процес команди науки про дані надає кілька ресурсів, які пояснюють типи ролей і завдань, які можуть бути в проєкті.
- Ролі та завдання в процесі команди науки про дані
- Виконання завдань науки про дані: дослідження, моделювання та розгортання
Завдання
Відмова від відповідальності:
Цей документ було перекладено за допомогою сервісу автоматичного перекладу Co-op Translator. Хоча ми прагнемо до точності, зверніть увагу, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ мовою оригіналу слід вважати авторитетним джерелом. Для критично важливої інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу.