|
|
1 month ago | |
|---|---|---|
| .. | ||
| solution | 1 month ago | |
| README.md | 1 month ago | |
| assignment.md | 1 month ago | |
| notebook.ipynb | 6 months ago | |
README.md
Визначення науки про дані
![]() |
|---|
| Визначення науки про дані - Скетчнот від @nitya |
Тест перед лекцією
Що таке дані?
У нашому повсякденному житті ми постійно оточені даними. Текст, який ви зараз читаєте, — це дані. Список телефонних номерів ваших друзів у смартфоні — це дані, як і поточний час, що відображається на вашому годиннику. Як люди, ми природно працюємо з даними, рахуючи гроші або пишучи листи друзям.
Однак дані стали набагато важливішими з появою комп’ютерів. Основна роль комп’ютерів — виконувати обчислення, але їм потрібні дані для роботи. Тому нам потрібно зрозуміти, як комп’ютери зберігають і обробляють дані.
З появою Інтернету роль комп’ютерів як пристроїв для обробки даних зросла. Якщо подумати, ми зараз все більше використовуємо комп’ютери для обробки даних і спілкування, а не для фактичних обчислень. Коли ми пишемо електронний лист другу або шукаємо інформацію в Інтернеті, ми фактично створюємо, зберігаємо, передаємо та маніпулюємо даними.
Чи можете ви згадати, коли востаннє використовували комп’ютери для фактичних обчислень?
Що таке наука про дані?
У Вікіпедії наука про дані визначається як наукова галузь, яка використовує наукові методи для отримання знань і висновків зі структурованих і неструктурованих даних, а також застосовує знання та практичні висновки з даних у широкому спектрі галузей застосування.
Це визначення підкреслює такі важливі аспекти науки про дані:
- Основна мета науки про дані — отримання знань із даних, іншими словами — розуміння даних, пошук прихованих зв’язків і створення моделі.
- Наука про дані використовує наукові методи, такі як теорія ймовірностей і статистика. Насправді, коли термін наука про дані вперше з’явився, деякі люди стверджували, що це просто нова модна назва статистики. Зараз стало очевидно, що ця галузь набагато ширша.
- Отримані знання повинні бути застосовані для отримання практичних висновків, тобто корисних висновків, які можна застосувати до реальних бізнес-ситуацій.
- Ми повинні вміти працювати як із структурованими, так і з неструктурованими даними. Ми повернемося до обговорення різних типів даних пізніше в курсі.
- Галузь застосування — важливе поняття, і науковці з даних часто потребують хоча б певного рівня експертизи в конкретній галузі, наприклад: фінанси, медицина, маркетинг тощо.
Ще один важливий аспект науки про дані полягає в тому, що вона вивчає, як дані можуть бути зібрані, збережені та оброблені за допомогою комп’ютерів. Хоча статистика дає нам математичні основи, наука про дані застосовує математичні концепції для отримання реальних висновків із даних.
Один із способів (приписується Джиму Грею) розглядати науку про дані — це вважати її окремою парадигмою науки:
- Емпірична, в якій ми покладаємося переважно на спостереження та результати експериментів.
- Теоретична, де нові концепції виникають на основі існуючих наукових знань.
- Обчислювальна, де ми відкриваємо нові принципи на основі обчислювальних експериментів.
- Дані-орієнтована, заснована на відкритті зв’язків і закономірностей у даних.
Інші пов’язані галузі
Оскільки дані є всюдисущими, сама наука про дані також є широкою галуззю, яка охоплює багато інших дисциплін.
- Бази даних
- Критичним аспектом є зберігання даних, тобто як структурувати їх так, щоб забезпечити швидшу обробку. Існують різні типи баз даних, які зберігають структуровані та неструктуровані дані, які ми розглянемо в нашому курсі.
- Великі дані
- Часто нам потрібно зберігати та обробляти дуже великі обсяги даних із відносно простою структурою. Існують спеціальні підходи та інструменти для зберігання таких даних у розподіленому вигляді на кластері комп’ютерів і їх ефективної обробки.
- Машинне навчання
- Один із способів зрозуміти дані — це створити модель, яка зможе передбачити бажаний результат. Розробка моделей на основі даних називається машинним навчанням. Ви можете ознайомитися з нашим Курсом з машинного навчання для початківців, щоб дізнатися більше про це.
- Штучний інтелект
- Галузь машинного навчання, відома як штучний інтелект (ШІ), також базується на даних і передбачає створення складних моделей, які імітують процеси людського мислення. Методи ШІ часто дозволяють нам перетворювати неструктуровані дані (наприклад, природну мову) у структуровані висновки.
- Візуалізація
- Великі обсяги даних є незрозумілими для людини, але як тільки ми створюємо корисні візуалізації, використовуючи ці дані, ми можемо краще зрозуміти їх і зробити висновки. Тому важливо знати багато способів візуалізації інформації — те, що ми розглянемо в Розділі 3 нашого курсу. Пов’язані галузі також включають інфографіку і взаємодію людини з комп’ютером загалом.
Типи даних
Як ми вже згадували, дані є всюди. Нам просто потрібно правильно їх захопити! Корисно розрізняти структуровані та неструктуровані дані. Перші зазвичай представлені у добре структурованій формі, часто у вигляді таблиці або кількох таблиць, тоді як другі — це просто набір файлів. Іноді ми також можемо говорити про напівструктуровані дані, які мають певну структуру, що може значно варіюватися.
| Структуровані | Напівструктуровані | Неструктуровані |
|---|---|---|
| Список людей з їхніми телефонними номерами | Сторінки Вікіпедії з посиланнями | Текст Енциклопедії Британіка |
| Температура у всіх кімнатах будівлі кожну хвилину за останні 20 років | Збірник наукових статей у форматі JSON з авторами, датою публікації та анотацією | Файли корпоративних документів |
| Дані про вік і стать усіх людей, які заходять у будівлю | Інтернет-сторінки | Сирове відео з камер спостереження |
Де взяти дані
Існує багато можливих джерел даних, і буде неможливо перерахувати їх усі! Однак давайте згадаємо деякі типові місця, де можна отримати дані:
- Структуровані
- Інтернет речей (IoT), включаючи дані з різних датчиків, таких як датчики температури або тиску, надає багато корисних даних. Наприклад, якщо офісна будівля обладнана датчиками IoT, ми можемо автоматично контролювати опалення та освітлення, щоб мінімізувати витрати.
- Опитування, які ми просимо користувачів заповнити після покупки або після відвідування веб-сайту.
- Аналіз поведінки може, наприклад, допомогти нам зрозуміти, наскільки глибоко користувач досліджує сайт і яка типова причина його залишення.
- Неструктуровані
- Тексти можуть бути багатим джерелом висновків, таких як загальний індекс настрою або виділення ключових слів і семантичного значення.
- Зображення або відео. Відео з камери спостереження може бути використане для оцінки трафіку на дорозі та інформування людей про потенційні затори.
- Логи веб-серверів можуть бути використані для розуміння, які сторінки нашого сайту найчастіше відвідуються і як довго.
- Напівструктуровані
- Графи соціальних мереж можуть бути чудовими джерелами даних про особистості користувачів і потенційну ефективність поширення інформації.
- Коли у нас є купа фотографій з вечірки, ми можемо спробувати витягти дані про групову динаміку, створивши графік людей, які фотографуються один з одним.
Знаючи різні можливі джерела даних, ви можете спробувати подумати про різні сценарії, де можна застосувати техніки науки про дані, щоб краще зрозуміти ситуацію та покращити бізнес-процеси.
Що можна зробити з даними
У науці про дані ми зосереджуємося на наступних етапах роботи з даними:
- 1) Збір даних
- Першим кроком є збір даних. У багатьох випадках це може бути простий процес, наприклад, дані, що надходять до бази даних з веб-додатку, але іноді нам потрібно використовувати спеціальні техніки. Наприклад, дані з датчиків IoT можуть бути надмірними, і хорошою практикою є використання буферних точок, таких як IoT Hub, для збору всіх даних перед їх подальшою обробкою.
- 2) Зберігання даних
-
Зберігання даних може бути складним завданням, особливо якщо ми говоримо про великі дані. Вирішуючи, як зберігати дані, варто передбачити спосіб, яким ви хотіли б запитувати дані в майбутньому. Існує кілька способів зберігання даних:
- Реляційна база даних зберігає колекцію таблиць і використовує спеціальну мову, яка називається SQL, для їх запиту. Зазвичай таблиці організовані в різні групи, які називаються схемами. У багатьох випадках нам потрібно перетворити дані з їх первісної форми, щоб вони відповідали схемі.
- NoSQL база даних, така як CosmosDB, не накладає обмежень на схеми даних і дозволяє зберігати більш складні дані, наприклад, ієрархічні документи JSON або графи. Однак бази даних NoSQL не мають багатих можливостей запиту, як SQL, і не можуть забезпечити референційну цілісність, тобто правила щодо структури даних у таблицях і взаємозв’язків між таблицями.
- Сховище даних використовується для великих колекцій даних у сирому, неструктурованому вигляді. Сховища даних часто використовуються з великими даними, коли всі дані не можуть поміститися на одній машині і повинні бути збережені та оброблені кластером серверів. Parquet — це формат даних, який часто використовується разом із великими даними.
- 3) Обробка даних
- Це найцікавіша частина роботи з даними, яка передбачає перетворення даних з їх первісної форми у форму, яку можна використовувати для візуалізації або навчання моделі. Працюючи з неструктурованими даними, такими як текст або зображення, нам може знадобитися використовувати деякі техніки ШІ для виділення особливостей з даних, таким чином перетворюючи їх у структуровану форму.
- 4) Візуалізація / Людські висновки
- Часто, щоб зрозуміти дані, нам потрібно їх візуалізувати. Маючи багато різних технік візуалізації в нашому арсеналі, ми можемо знайти правильний спосіб представити дані для отримання висновків. Часто науковець з даних має "гратися з даними", візуалізуючи їх багато разів і шукаючи зв’язки. Також ми можемо використовувати статистичні методи для перевірки гіпотез або доведення кореляції між різними частинами даних.
- 5) Навчання прогнозної моделі
- Оскільки кінцева мета науки про дані — це можливість приймати рішення на основі даних, ми можемо використовувати техніки машинного навчання для створення прогнозної моделі. Потім ми можемо використовувати її для прогнозування на основі нових наборів даних із подібними структурами.
Звісно, залежно від фактичних даних, деякі етапи можуть бути відсутніми (наприклад, коли дані вже є в базі даних або коли нам не потрібно навчати модель), або деякі етапи можуть повторюватися кілька разів (наприклад, обробка даних).
Цифровізація та цифрова трансформація
За останнє десятиліття багато компаній почали розуміти важливість даних при прийнятті бізнес-рішень. Щоб застосувати принципи науки про дані до ведення бізнесу, спочатку потрібно зібрати деякі дані, тобто перевести бізнес-процеси в цифрову форму. Це називається цифровізацією. Застосування технік науки про дані до цих даних для прийняття рішень може призвести до значного підвищення продуктивності (або навіть до зміни напрямку бізнесу), що називається цифровою трансформацією.
Розглянемо приклад. Припустимо, у нас є курс науки про дані (як цей), який ми проводимо онлайн для студентів, і ми хочемо використати науку про дані, щоб його покращити. Як ми можемо це зробити?
Ми можемо почати з питання "Що можна о
Ви можете стверджувати, що цей підхід не є ідеальним, оскільки модулі можуть бути різної довжини. Можливо, більш справедливим буде поділити час на довжину модуля (у кількості символів) і порівняти ці значення.
Коли ми починаємо аналізувати результати тестів з множинним вибором, ми можемо спробувати визначити, які концепції викликають труднощі у студентів, і використати цю інформацію для покращення контенту. Для цього нам потрібно розробити тести таким чином, щоб кожне питання відповідало певній концепції або частині знань.
Якщо ми хочемо зробити аналіз ще складнішим, ми можемо побудувати графік часу, витраченого на кожен модуль, у порівнянні з віковою категорією студентів. Ми можемо виявити, що для деяких вікових категорій проходження модуля займає надмірно багато часу або що студенти припиняють його проходження до завершення. Це може допомогти нам надати вікові рекомендації для модуля і мінімізувати незадоволення людей через неправильні очікування.
🚀 Виклик
У цьому завданні ми спробуємо знайти концепції, пов'язані з галуззю Data Science, аналізуючи тексти. Ми візьмемо статтю з Вікіпедії про Data Science, завантажимо та обробимо текст, а потім створимо хмару слів, схожу на цю:
Відвідайте notebook.ipynb, щоб ознайомитися з кодом. Ви також можете запустити код і побачити, як він виконує всі перетворення даних у реальному часі.
Якщо ви не знаєте, як запускати код у Jupyter Notebook, ознайомтеся з цією статтею.
Тест після лекції
Завдання
- Завдання 1: Змініть код вище, щоб знайти пов’язані концепції для галузей Big Data та Machine Learning.
- Завдання 2: Подумайте про сценарії Data Science
Авторство
Цей урок створено з ♥️ Дмитром Сошниковим
Відмова від відповідальності:
Цей документ був перекладений за допомогою сервісу автоматичного перекладу Co-op Translator. Хоча ми прагнемо до точності, будь ласка, майте на увазі, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ на його рідній мові слід вважати авторитетним джерелом. Для критичної інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникають внаслідок використання цього перекладу.


