You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/uk/6-Data-Science-In-Wild/20-Real-World-Examples/README.md

27 KiB

Наука про дані в реальному світі

Скетчноут від (@sketchthedocs)
Наука про дані в реальному світі - Скетчноут від @nitya

Ми майже завершили цей навчальний шлях!

Ми почали з визначень науки про дані та етики, дослідили різні інструменти та методи аналізу і візуалізації даних, розглянули життєвий цикл науки про дані та вивчили масштабування і автоматизацію робочих процесів науки про дані за допомогою хмарних обчислювальних сервісів. Тож, ви, мабуть, запитуєте: "Як саме я можу застосувати всі ці знання в реальних контекстах?"

У цьому уроці ми дослідимо реальні застосування науки про дані в різних галузях і заглибимося в конкретні приклади в дослідженнях, цифрових гуманітарних науках та сталому розвитку. Ми розглянемо можливості студентських проєктів і завершимо корисними ресурсами, які допоможуть вам продовжити навчальний шлях!

Тест перед лекцією

Тест перед лекцією

Наука про дані + Індустрія

Завдяки демократизації штучного інтелекту розробникам стало легше створювати та інтегрувати рішення на основі штучного інтелекту і даних у користувацький досвід та робочі процеси розробки. Ось кілька прикладів того, як наука про дані "застосовується" в реальних додатках у різних галузях:

  • Google Flu Trends використовував науку про дані для кореляції пошукових запитів із тенденціями грипу. Хоча підхід мав недоліки, він привернув увагу до можливостей (і викликів) прогнозування в галузі охорони здоров'я на основі даних.

  • Прогнози маршрутів UPS - пояснює, як UPS використовує науку про дані та машинне навчання для прогнозування оптимальних маршрутів доставки, враховуючи погодні умови, трафік, терміни доставки тощо.

  • Візуалізація маршрутів таксі в Нью-Йорку - дані, зібрані за допомогою законів про свободу інформації, допомогли візуалізувати день із життя таксі Нью-Йорка, що дозволяє зрозуміти, як вони пересуваються містом, скільки заробляють і тривалість поїздок протягом кожної доби.

  • Uber Data Science Workbench - використовує дані (про місця посадки та висадки, тривалість поїздок, переваги маршрутів тощо), зібрані з мільйонів щоденних поїздок Uber, для створення інструменту аналітики даних, який допомагає з ціноутворенням, безпекою, виявленням шахрайства та навігаційними рішеннями.

  • Аналітика у спорті - зосереджується на прогнозній аналітиці (аналіз команд і гравців - наприклад, Moneyball - і управління фанатами) та візуалізації даних (дашборди команд і фанатів, ігри тощо) з такими застосуваннями, як пошук талантів, спортивні ставки та управління інвентарем/місцем проведення.

  • Наука про дані в банківській сфері - підкреслює цінність науки про дані у фінансовій галузі з такими застосуваннями, як моделювання ризиків і виявлення шахрайства, сегментація клієнтів, прогнозування в реальному часі та системи рекомендацій. Прогнозна аналітика також сприяє критичним заходам, таким як кредитні рейтинги.

  • Наука про дані в охороні здоров'я - висвітлює такі застосування, як медична візуалізація (наприклад, МРТ, рентген, КТ-сканування), геноміка (секвенування ДНК), розробка ліків (оцінка ризиків, прогноз успіху), прогнозна аналітика (догляд за пацієнтами та логістика постачання), відстеження та профілактика хвороб тощо.

Застосування науки про дані в реальному світі Джерело зображення: Data Flair: 6 Amazing Data Science Applications

На рисунку показано інші галузі та приклади застосування методів науки про дані. Хочете дослідити інші застосування? Перегляньте розділ Огляд і самостійне навчання нижче.

Наука про дані + Дослідження

Скетчноут від (@sketchthedocs)
Наука про дані та дослідження - Скетчноут від @nitya

Хоча реальні застосування часто зосереджуються на масштабних випадках використання в індустрії, дослідницькі застосування та проєкти можуть бути корисними з двох перспектив:

  • можливості для інновацій - дослідження швидкого прототипування передових концепцій і тестування користувацького досвіду для додатків наступного покоління.
  • виклики впровадження - вивчення потенційних шкод або непередбачених наслідків технологій науки про дані в реальних контекстах.

Для студентів ці дослідницькі проєкти можуть забезпечити як навчальні, так і можливості для співпраці, що покращить ваше розуміння теми та розширить вашу обізнаність і взаємодію з відповідними людьми або командами, які працюють у цікавих для вас сферах. Тож як виглядають дослідницькі проєкти і як вони можуть вплинути?

Розглянемо один приклад - Дослідження Gender Shades MIT від Джой Буоламвіні (MIT Media Labs) із знаковою дослідницькою статтею, співавтором якої була Тімніт Гебру (тоді в Microsoft Research), що зосереджувалася на:

  • Що: Метою дослідницького проєкту було оцінити упередження, присутні в алгоритмах і наборах даних автоматизованого аналізу облич, на основі статі та типу шкіри.
  • Чому: Аналіз облич використовується в таких сферах, як правоохоронні органи, безпека в аеропортах, системи найму тощо - контексти, де неточні класифікації (наприклад, через упередження) можуть спричинити потенційні економічні та соціальні шкоди для постраждалих осіб або груп. Розуміння (та усунення або пом'якшення) упереджень є ключем до справедливості у використанні.
  • Як: Дослідники визнали, що існуючі еталони використовували переважно світлошкірих суб'єктів, і створили новий набір даних (1000+ зображень), який був більш збалансованим за статтю та типом шкіри. Набір даних використовувався для оцінки точності трьох продуктів класифікації статі (від Microsoft, IBM і Face++).

Результати показали, що хоча загальна точність класифікації була хорошою, спостерігалася помітна різниця в рівнях помилок між різними підгрупами - з помилковою класифікацією статі, яка була вищою для жінок або осіб із темнішим типом шкіри, що свідчить про упередження.

Основні результати: Підвищення обізнаності про те, що наука про дані потребує більш репрезентативних наборів даних (збалансованих підгруп) і більш інклюзивних команд (різноманітних за походженням), щоб раніше розпізнавати та усувати або пом'якшувати такі упередження в рішеннях штучного інтелекту. Такі дослідницькі зусилля також є важливими для багатьох організацій, які визначають принципи та практики відповідального штучного інтелекту, щоб покращити справедливість у своїх продуктах і процесах штучного інтелекту.

Хочете дізнатися про відповідні дослідницькі зусилля в Microsoft?

Наука про дані + Гуманітарні науки

Скетчноут від (@sketchthedocs)
Наука про дані та цифрові гуманітарні науки - Скетчноут від @nitya

Цифрові гуманітарні науки визначаються як "сукупність практик і підходів, що поєднують обчислювальні методи з гуманітарними дослідженнями". Проєкти Стенфорда, такі як "перезавантаження історії" і "поетичне мислення", ілюструють зв'язок між цифровими гуманітарними науками та наукою про дані - підкреслюючи такі методи, як аналіз мереж, візуалізація інформації, просторовий і текстовий аналіз, які допомагають нам переглядати історичні та літературні набори даних, щоб отримати нові інсайти та перспективи.

Хочете дослідити та розширити проєкт у цій сфері?

Ознайомтеся з "Емілі Дікінсон і метр настрою" - чудовим прикладом від Джен Лупер, який запитує, як ми можемо використовувати науку про дані, щоб переглянути знайому поезію та переоцінити її значення і внесок автора в нових контекстах. Наприклад, чи можемо ми передбачити сезон, у який був написаний вірш, аналізуючи його тон або настрій - і що це говорить нам про стан автора в той період?

Щоб відповісти на це запитання, ми слідуємо етапам життєвого циклу науки про дані:

  • Отримання даних - для збору відповідного набору даних для аналізу. Варіанти включають використання API (наприклад, Poetry DB API) або скрапінг веб-сторінок (наприклад, Проєкт Гутенберг) за допомогою інструментів, таких як Scrapy.
  • Очищення даних - пояснює, як текст може бути відформатований, очищений і спрощений за допомогою базових інструментів, таких як Visual Studio Code і Microsoft Excel.
  • Аналіз даних - пояснює, як ми можемо імпортувати набір даних у "ноутбуки" для аналізу за допомогою Python-пакетів (таких як pandas, numpy і matplotlib) для організації та візуалізації даних.
  • Аналіз настрою - пояснює, як ми можемо інтегрувати хмарні сервіси, такі як Text Analytics, використовуючи інструменти з низьким кодом, такі як Power Automate для автоматизованих робочих процесів обробки даних.

Використовуючи цей робочий процес, ми можемо дослідити сезонні впливи на настрій віршів і допомогти нам сформувати власні перспективи щодо автора. Спробуйте самі - а потім розширте ноутбук, щоб поставити інші запитання або візуалізувати дані новими способами!

Ви можете використовувати деякі інструменти з набору інструментів цифрових гуманітарних наук, щоб досліджувати ці напрямки.

Наука про дані + Сталий розвиток

Скетчноут від (@sketchthedocs)
Наука про дані та сталий розвиток - Скетчноут від @nitya

Порядок денний сталого розвитку до 2030 року - прийнятий усіма членами ООН у 2015 році - визначає 17 цілей, включаючи ті, що зосереджуються на захисті планети від деградації та впливу зміни клімату. Ініціатива Microsoft Sustainability підтримує ці цілі, досліджуючи способи, якими технологічні рішення можуть сприяти створенню більш сталого майбутнього з фокусом на 4 цілі - бути вуглецево негативними, водно позитивними, безвідходними та біорізноманітними до 2030 року.

Вирішення цих викликів у масштабний і своєчасний спосіб вимагає Проєкт Planetary Computer наразі перебуває в режимі попереднього перегляду (станом на вересень 2021 року) - ось як ви можете почати роботу, щоб сприяти сталим рішенням за допомогою науки про дані.

Подумайте, як ви можете використовувати візуалізацію даних, щоб виявляти або підсилювати важливі інсайти в таких сферах, як зміна клімату та вирубка лісів. Або подумайте, як ці інсайти можуть бути використані для створення нових користувацьких досвідів, які мотивують до змін у поведінці для більш сталого способу життя.

Наука про дані + Студенти

Ми говорили про реальні застосування в індустрії та дослідженнях, а також досліджували приклади застосування науки про дані в цифрових гуманітарних науках і сталому розвитку. Тож як ви можете розвивати свої навички та ділитися своїм досвідом як початківці в науці про дані?

Ось кілька прикладів студентських проєктів у сфері науки про дані, які можуть вас надихнути.

🚀 Виклик

Шукайте статті, які рекомендують проєкти з науки про дані, що підходять для початківців, наприклад, ці 50 тем, ці 21 ідею проєктів або ці 16 проєктів із вихідним кодом, які ви можете розібрати та адаптувати. І не забудьте вести блог про свої навчальні подорожі та ділитися своїми інсайтами з усіма нами.

Післялекційна вікторина

Післялекційна вікторина

Огляд і самостійне навчання

Хочете дослідити більше варіантів використання? Ось кілька відповідних статей:

Завдання

Досліджуйте набір даних Planetary Computer


Відмова від відповідальності:
Цей документ було перекладено за допомогою сервісу автоматичного перекладу Co-op Translator. Хоча ми прагнемо до точності, звертаємо вашу увагу, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ мовою оригіналу слід вважати авторитетним джерелом. Для критично важливої інформації рекомендується звертатися до професійного людського перекладу. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу.