|
|
<!--
|
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
|
{
|
|
|
"original_hash": "0f67a4139454816631526779a456b734",
|
|
|
"translation_date": "2025-09-06T18:48:52+00:00",
|
|
|
"source_file": "6-Data-Science-In-Wild/20-Real-World-Examples/README.md",
|
|
|
"language_code": "uk"
|
|
|
}
|
|
|
-->
|
|
|
# Наука про дані у реальному світі
|
|
|
|
|
|
|  ](../../sketchnotes/20-DataScience-RealWorld.png) |
|
|
|
| :--------------------------------------------------------------------------------------------------------------: |
|
|
|
| Наука про дані у реальному світі - _Скетчноут від [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
|
|
Ми майже завершили цю навчальну подорож!
|
|
|
|
|
|
Ми почали з визначень науки про дані та етики, дослідили різні інструменти та техніки для аналізу й візуалізації даних, розглянули життєвий цикл науки про дані та вивчили масштабування й автоматизацію робочих процесів науки про дані за допомогою хмарних обчислювальних сервісів. Тож, ви, мабуть, запитуєте: _"Як саме я можу застосувати всі ці знання у реальних контекстах?"_
|
|
|
|
|
|
У цьому уроці ми дослідимо реальні застосування науки про дані в різних галузях і розглянемо конкретні приклади у дослідженнях, цифрових гуманітарних науках та сталому розвитку. Ми також розглянемо можливості студентських проєктів і завершимо корисними ресурсами, які допоможуть вам продовжити навчання!
|
|
|
|
|
|
## Передлекційна вікторина
|
|
|
|
|
|
## [Передлекційна вікторина](https://ff-quizzes.netlify.app/en/ds/quiz/38)
|
|
|
|
|
|
## Наука про дані + Індустрія
|
|
|
|
|
|
Завдяки демократизації штучного інтелекту розробникам стало легше проєктувати та інтегрувати рішення на основі ШІ та інсайти, отримані з даних, у користувацький досвід і робочі процеси розробки. Ось кілька прикладів того, як наука про дані "застосовується" у реальних додатках в індустрії:
|
|
|
|
|
|
* [Google Flu Trends](https://www.wired.com/2015/10/can-learn-epic-failure-google-flu-trends/) використовував науку про дані для кореляції пошукових запитів із тенденціями грипу. Хоча підхід мав недоліки, він привернув увагу до можливостей (і викликів) прогнозування у сфері охорони здоров’я на основі даних.
|
|
|
|
|
|
* [Прогнози маршрутів UPS](https://www.technologyreview.com/2018/11/21/139000/how-ups-uses-ai-to-outsmart-bad-weather/) - пояснює, як UPS використовує науку про дані та машинне навчання для прогнозування оптимальних маршрутів доставки, враховуючи погодні умови, трафік, терміни доставки тощо.
|
|
|
|
|
|
* [Візуалізація маршрутів таксі в Нью-Йорку](http://chriswhong.github.io/nyctaxi/) - дані, зібрані за допомогою [законів про свободу інформації](https://chriswhong.com/open-data/foil_nyc_taxi/), допомогли візуалізувати день із життя таксі Нью-Йорка, що дозволило зрозуміти, як вони пересуваються містом, скільки заробляють і скільки часу тривають поїздки протягом доби.
|
|
|
|
|
|
* [Uber Data Science Workbench](https://eng.uber.com/dsw/) - використовує дані (про місця посадки та висадки, тривалість поїздок, переваги маршрутів тощо), зібрані з мільйонів поїздок Uber *щодня*, для створення інструменту аналітики даних, який допомагає з ціноутворенням, безпекою, виявленням шахрайства та навігаційними рішеннями.
|
|
|
|
|
|
* [Аналітика у спорті](https://towardsdatascience.com/scope-of-analytics-in-sports-world-37ed09c39860) - зосереджується на _прогнозній аналітиці_ (аналіз команд і гравців - наприклад, [Moneyball](https://datasciencedegree.wisconsin.edu/blog/moneyball-proves-importance-big-data-big-ideas/) - і управління фанатами) та _візуалізації даних_ (панелі управління командами та фанатами, ігри тощо) з додатками, такими як пошук талантів, спортивні ставки та управління інвентарем/місцями проведення.
|
|
|
|
|
|
* [Наука про дані у банківській сфері](https://data-flair.training/blogs/data-science-in-banking/) - підкреслює цінність науки про дані у фінансовій індустрії з додатками, що варіюються від моделювання ризиків і виявлення шахрайства до сегментації клієнтів, прогнозування в реальному часі та рекомендаційних систем. Прогнозна аналітика також керує критичними показниками, такими як [кредитні рейтинги](https://dzone.com/articles/using-big-data-and-predictive-analytics-for-credit).
|
|
|
|
|
|
* [Наука про дані у сфері охорони здоров’я](https://data-flair.training/blogs/data-science-in-healthcare/) - підкреслює такі додатки, як медична візуалізація (наприклад, МРТ, рентген, КТ-сканування), геноміка (секвенування ДНК), розробка ліків (оцінка ризиків, прогноз успіху), прогнозна аналітика (догляд за пацієнтами та логістика постачання), відстеження та профілактика захворювань тощо.
|
|
|
|
|
|
 Джерело зображення: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
|
|
|
|
|
|
На малюнку показані інші галузі та приклади застосування технік науки про дані. Хочете дослідити інші застосування? Ознайомтеся з розділом [Огляд і самостійне навчання](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) нижче.
|
|
|
|
|
|
## Наука про дані + Дослідження
|
|
|
|
|
|
|  ](../../sketchnotes/20-DataScience-Research.png) |
|
|
|
| :---------------------------------------------------------------------------------------------------------------: |
|
|
|
| Наука про дані та дослідження - _Скетчноут від [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
|
|
Хоча реальні застосування часто зосереджуються на масштабних індустріальних кейсах, _дослідницькі_ застосування та проєкти можуть бути корисними з двох точок зору:
|
|
|
|
|
|
* _можливості для інновацій_ - дослідження швидкого прототипування передових концепцій і тестування користувацького досвіду для додатків наступного покоління.
|
|
|
* _виклики впровадження_ - вивчення потенційних шкод або непередбачених наслідків технологій науки про дані у реальних контекстах.
|
|
|
|
|
|
Для студентів ці дослідницькі проєкти можуть забезпечити як навчальні, так і колаборативні можливості, які покращать ваше розуміння теми та розширять вашу обізнаність і взаємодію з відповідними людьми чи командами, що працюють у цікавих для вас галузях. Тож, як виглядають дослідницькі проєкти і як вони можуть вплинути?
|
|
|
|
|
|
Розглянемо один приклад - [Дослідження Gender Shades від MIT](http://gendershades.org/overview.html) Джой Буоламвіні (MIT Media Labs) із [знаковою дослідницькою статтею](http://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf), співавтором якої була Тімніт Гебру (тоді в Microsoft Research), що зосереджувалася на:
|
|
|
|
|
|
* **Що:** Метою дослідницького проєкту було _оцінити упередження, присутні в алгоритмах і наборах даних автоматизованого аналізу облич_, на основі статі та типу шкіри.
|
|
|
* **Чому:** Аналіз облич використовується у таких сферах, як правоохоронні органи, безпека в аеропортах, системи найму тощо - контексти, де неточні класифікації (наприклад, через упередження) можуть спричинити потенційні економічні та соціальні шкоди для постраждалих осіб або груп. Розуміння (та усунення або пом’якшення) упереджень є ключем до справедливості у використанні.
|
|
|
* **Як:** Дослідники виявили, що існуючі еталони використовували переважно суб’єктів зі світлішою шкірою, і створили новий набір даних (1000+ зображень), який був _більш збалансованим_ за статтю та типом шкіри. Цей набір даних використовувався для оцінки точності трьох продуктів класифікації за статтю (від Microsoft, IBM і Face++).
|
|
|
|
|
|
Результати показали, що хоча загальна точність класифікації була хорошою, спостерігалася помітна різниця у рівнях помилок між різними підгрупами - з **помилковою ідентифікацією статі**, яка була вищою для жінок або осіб із темнішою шкірою, що свідчить про упередження.
|
|
|
|
|
|
**Ключові результати:** Підвищення обізнаності про те, що наука про дані потребує _репрезентативніших наборів даних_ (збалансованих підгруп) і _інклюзивніших команд_ (різноманітних за походженням), щоб раніше розпізнавати та усувати або пом’якшувати такі упередження у рішеннях на основі ШІ. Такі дослідницькі зусилля також є ключовими для багатьох організацій у визначенні принципів і практик _відповідального ШІ_ для покращення справедливості у їхніх продуктах і процесах ШІ.
|
|
|
|
|
|
**Хочете дізнатися про відповідні дослідницькі зусилля в Microsoft?**
|
|
|
|
|
|
* Ознайомтеся з [дослідницькими проєктами Microsoft](https://www.microsoft.com/research/research-area/artificial-intelligence/?facet%5Btax%5D%5Bmsr-research-area%5D%5B%5D=13556&facet%5Btax%5D%5Bmsr-content-type%5D%5B%5D=msr-project) у галузі штучного інтелекту.
|
|
|
* Дослідіть студентські проєкти з [Літньої школи науки про дані Microsoft Research](https://www.microsoft.com/en-us/research/academic-program/data-science-summer-school/).
|
|
|
* Ознайомтеся з проєктом [Fairlearn](https://fairlearn.org/) та ініціативами [Відповідального ШІ](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6).
|
|
|
|
|
|
## Наука про дані + Гуманітарні науки
|
|
|
|
|
|
|  ](../../sketchnotes/20-DataScience-Humanities.png) |
|
|
|
| :---------------------------------------------------------------------------------------------------------------: |
|
|
|
| Наука про дані та цифрові гуманітарні науки - _Скетчноут від [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
|
|
Цифрові гуманітарні науки [визначаються](https://digitalhumanities.stanford.edu/about-dh-stanford) як "сукупність практик і підходів, що поєднують обчислювальні методи з гуманітарними дослідженнями". [Проєкти Стенфорда](https://digitalhumanities.stanford.edu/projects), такі як _"перезавантаження історії"_ та _"поетичне мислення"_, ілюструють зв’язок між [цифровими гуманітарними науками та наукою про дані](https://digitalhumanities.stanford.edu/digital-humanities-and-data-science) - підкреслюючи техніки, такі як аналіз мереж, візуалізація інформації, просторовий і текстовий аналіз, які можуть допомогти нам переосмислити історичні та літературні набори даних для отримання нових інсайтів і перспектив.
|
|
|
|
|
|
*Хочете дослідити та розширити проєкт у цій галузі?*
|
|
|
|
|
|
Ознайомтеся з ["Емілі Дікінсон і метр настрою"](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671) - чудовим прикладом від [Джен Лупер](https://twitter.com/jenlooper), який запитує, як ми можемо використовувати науку про дані, щоб переосмислити знайому поезію та переоцінити її значення й внесок автора в нових контекстах. Наприклад, _чи можемо ми передбачити сезон, у який був написаний вірш, аналізуючи його тон або настрій_ - і що це говорить нам про стан розуму автора у відповідний період?
|
|
|
|
|
|
Щоб відповісти на це запитання, ми дотримуємося етапів життєвого циклу науки про дані:
|
|
|
* [`Отримання даних`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#acquiring-the-dataset) - для збору відповідного набору даних для аналізу. Варіанти включають використання API (наприклад, [Poetry DB API](https://poetrydb.org/index.html)) або скрапінг вебсторінок (наприклад, [Проєкт Гутенберг](https://www.gutenberg.org/files/12242/12242-h/12242-h.htm)) за допомогою інструментів, таких як [Scrapy](https://scrapy.org/).
|
|
|
* [`Очищення даних`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#clean-the-data) - пояснює, як текст може бути відформатований, очищений і спрощений за допомогою базових інструментів, таких як Visual Studio Code і Microsoft Excel.
|
|
|
* [`Аналіз даних`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#working-with-the-data-in-a-notebook) - пояснює, як ми можемо імпортувати набір даних у "ноутбуки" для аналізу за допомогою Python-пакетів (таких як pandas, numpy і matplotlib) для організації та візуалізації даних.
|
|
|
* [`Аналіз настроїв`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#sentiment-analysis-using-cognitive-services) - пояснює, як ми можемо інтегрувати хмарні сервіси, такі як Text Analytics, використовуючи інструменти з низьким кодом, такі як [Power Automate](https://flow.microsoft.com/en-us/) для автоматизованих робочих процесів обробки даних.
|
|
|
|
|
|
Використовуючи цей робочий процес, ми можемо дослідити сезонні впливи на настрій віршів і допомогти нам сформувати власні перспективи щодо автора. Спробуйте самі - а потім розширте ноутбук, щоб поставити інші запитання або візуалізувати дані новими способами!
|
|
|
|
|
|
> Ви можете використовувати деякі інструменти з [набору інструментів цифрових гуманітарних наук](https://github.com/Digital-Humanities-Toolkit), щоб досліджувати ці напрямки.
|
|
|
|
|
|
## Наука про дані + Сталий розвиток
|
|
|
|
|
|
|  ](../../sketchnotes/20-DataScience-Sustainability.png) |
|
|
|
| :---------------------------------------------------------------------------------------------------------------: |
|
|
|
| Наука про дані та сталий розвиток - _Скетчноут від [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
|
|
[Порядок денний на 2030 рік для сталого розвитку](https://sdgs.un.org/2030agenda) - ухвалений усіма членами ООН у 2015 році - визначає 17 цілей, включаючи ті, що зосереджені на **захисті планети** від деградації та впливу зміни клімату. Ініціатива [Microsoft Sustainability](https://www.microsoft.com/en-us/sustainability) підтримує ці цілі, досліджуючи способи, якими технологічні рішення можуть сприяти створенню більш сталого майбутнього, з [фокусом на 4 цілях](https://dev.to/azure/a-visual-guide-to-sustainable-software-engineering-53hh) - бути вуглецево негативними, водно позитивними, безвідходними та біорізноманітними
|
|
|
**Проєкт Planetary Computer наразі перебуває у стадії попереднього перегляду (станом на вересень 2021 року)** – ось як ви можете почати долучатися до створення рішень для сталого розвитку за допомогою науки про дані.
|
|
|
|
|
|
* [Запитайте доступ](https://planetarycomputer.microsoft.com/account/request), щоб розпочати дослідження та зв’язатися з однодумцями.
|
|
|
* [Ознайомтеся з документацією](https://planetarycomputer.microsoft.com/docs/overview/about), щоб зрозуміти, які набори даних і API підтримуються.
|
|
|
* Досліджуйте застосунки, такі як [Моніторинг екосистем](https://analytics-lab.org/ecosystemmonitoring/), для натхнення на створення власних ідей.
|
|
|
|
|
|
Подумайте, як ви можете використовувати візуалізацію даних, щоб виявляти або підсилювати важливі інсайти у таких сферах, як зміна клімату та вирубка лісів. Або ж подумайте, як ці інсайти можуть бути використані для створення нових користувацьких досвідів, які мотивують до змін у поведінці для більш сталого способу життя.
|
|
|
|
|
|
## Наука про дані + Студенти
|
|
|
|
|
|
Ми говорили про реальні застосування в індустрії та дослідженнях, а також розглядали приклади застосування науки про дані у цифрових гуманітарних науках і сталому розвитку. Тож як ви можете розвивати свої навички та ділитися своїм досвідом як початківці у науці про дані?
|
|
|
|
|
|
Ось кілька прикладів студентських проєктів у сфері науки про дані, які можуть вас надихнути.
|
|
|
|
|
|
* [Літня школа науки про дані MSR](https://www.microsoft.com/en-us/research/academic-program/data-science-summer-school/#!projects) із [проєктами](https://github.com/msr-ds3) на GitHub, які досліджують такі теми, як:
|
|
|
- [Расова упередженість у застосуванні сили поліцією](https://www.microsoft.com/en-us/research/video/data-science-summer-school-2019-replicating-an-empirical-analysis-of-racial-differences-in-police-use-of-force/) | [Github](https://github.com/msr-ds3/stop-question-frisk)
|
|
|
- [Надійність системи метро Нью-Йорка](https://www.microsoft.com/en-us/research/video/data-science-summer-school-2018-exploring-the-reliability-of-the-nyc-subway-system/) | [Github](https://github.com/msr-ds3/nyctransit)
|
|
|
* [Оцифровування матеріальної культури: Дослідження соціально-економічних розподілів у Сиркапі](https://claremont.maps.arcgis.com/apps/Cascade/index.html?appid=bdf2aef0f45a4674ba41cd373fa23afc) – від [Орнелли Алтунян](https://twitter.com/ornelladotcom) та команди з Клермонта, використовуючи [ArcGIS StoryMaps](https://storymaps.arcgis.com/).
|
|
|
|
|
|
## 🚀 Виклик
|
|
|
|
|
|
Шукайте статті, які рекомендують проєкти з науки про дані, що підходять для початківців, наприклад, [ці 50 тем](https://www.upgrad.com/blog/data-science-project-ideas-topics-beginners/), [ці 21 ідею проєктів](https://www.intellspot.com/data-science-project-ideas) або [ці 16 проєктів із вихідним кодом](https://data-flair.training/blogs/data-science-project-ideas/), які ви можете розібрати та адаптувати. І не забудьте вести блог про свої навчальні подорожі та ділитися своїми інсайтами з усіма нами.
|
|
|
|
|
|
## Післялекційний тест
|
|
|
|
|
|
## [Післялекційний тест](https://ff-quizzes.netlify.app/en/ds/quiz/39)
|
|
|
|
|
|
## Огляд і самостійне навчання
|
|
|
|
|
|
Хочете дослідити більше варіантів використання? Ось кілька відповідних статей:
|
|
|
* [17 застосувань і прикладів науки про дані](https://builtin.com/data-science/data-science-applications-examples) – липень 2021
|
|
|
* [11 вражаючих застосувань науки про дані у реальному світі](https://myblindbird.com/data-science-applications-real-world/) – травень 2021
|
|
|
* [Наука про дані у реальному світі](https://towardsdatascience.com/data-science-in-the-real-world/home) – збірка статей
|
|
|
* [12 реальних застосувань науки про дані з прикладами](https://www.scaler.com/blog/data-science-applications/) – травень 2024
|
|
|
* Наука про дані у: [освіті](https://data-flair.training/blogs/data-science-in-education/), [сільському господарстві](https://data-flair.training/blogs/data-science-in-agriculture/), [фінансах](https://data-flair.training/blogs/data-science-in-finance/), [кіноіндустрії](https://data-flair.training/blogs/data-science-at-movies/), [охороні здоров’я](https://onlinedegrees.sandiego.edu/data-science-health-care/) та інших сферах.
|
|
|
|
|
|
## Завдання
|
|
|
|
|
|
[Дослідіть набір даних Planetary Computer](assignment.md)
|
|
|
|
|
|
---
|
|
|
|
|
|
**Відмова від відповідальності**:
|
|
|
Цей документ було перекладено за допомогою сервісу автоматичного перекладу [Co-op Translator](https://github.com/Azure/co-op-translator). Хоча ми прагнемо до точності, зверніть увагу, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ мовою оригіналу слід вважати авторитетним джерелом. Для критично важливої інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу. |