You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ru/6-Data-Science-In-Wild/20-Real-World-Examples/README.md

155 lines
29 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "67076ed50f54e7d26ba1ba378d6078f1",
"translation_date": "2025-08-27T09:18:37+00:00",
"source_file": "6-Data-Science-In-Wild/20-Real-World-Examples/README.md",
"language_code": "ru"
}
-->
# Наука о данных в реальном мире
| ![ Sketchnote от [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/20-DataScience-RealWorld.png) |
| :--------------------------------------------------------------------------------------------------------------: |
| Наука о данных в реальном мире - _Sketchnote от [@nitya](https://twitter.com/nitya)_ |
Мы почти подошли к концу этого учебного путешествия!
Мы начали с определений науки о данных и этики, изучили различные инструменты и методы анализа и визуализации данных, рассмотрели жизненный цикл науки о данных и узнали, как масштабировать и автоматизировать рабочие процессы с использованием облачных вычислительных сервисов. И теперь вы, вероятно, задаетесь вопросом: _"Как именно применить все эти знания в реальных условиях?"_
В этом уроке мы исследуем реальные приложения науки о данных в различных отраслях и углубимся в конкретные примеры в области исследований, цифровых гуманитарных наук и устойчивого развития. Мы также рассмотрим возможности студенческих проектов и завершим полезными ресурсами, которые помогут вам продолжить обучение!
## Предварительный тест
[Предварительный тест](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/38)
## Наука о данных + Индустрия
Благодаря демократизации ИИ разработчикам стало проще проектировать и интегрировать решения на основе ИИ и данные в пользовательские интерфейсы и рабочие процессы разработки. Вот несколько примеров того, как наука о данных применяется в реальных условиях в различных отраслях:
* [Google Flu Trends](https://www.wired.com/2015/10/can-learn-epic-failure-google-flu-trends/) использовал науку о данных для корреляции поисковых запросов с тенденциями распространения гриппа. Хотя подход имел недостатки, он привлек внимание к возможностям (и вызовам) прогнозирования в здравоохранении на основе данных.
* [Прогнозирование маршрутов UPS](https://www.technologyreview.com/2018/11/21/139000/how-ups-uses-ai-to-outsmart-bad-weather/) - объясняет, как UPS использует науку о данных и машинное обучение для прогнозирования оптимальных маршрутов доставки с учетом погодных условий, трафика, сроков доставки и других факторов.
* [Визуализация маршрутов такси в Нью-Йорке](http://chriswhong.github.io/nyctaxi/) - данные, собранные с использованием [Законов о свободе информации](https://chriswhong.com/open-data/foil_nyc_taxi/), помогли визуализировать день из жизни такси Нью-Йорка, что позволило понять, как они передвигаются по городу, сколько зарабатывают и какова продолжительность поездок за 24 часа.
* [Рабочая платформа данных Uber](https://eng.uber.com/dsw/) - использует данные (о местах посадки и высадки, продолжительности поездок, предпочтительных маршрутах и т.д.), собранные с миллионов поездок Uber ежедневно, для создания аналитического инструмента, который помогает в ценообразовании, обеспечении безопасности, обнаружении мошенничества и навигации.
* [Аналитика в спорте](https://towardsdatascience.com/scope-of-analytics-in-sports-world-37ed09c39860) - включает _предиктивную аналитику_ (анализ команд и игроков, как в [Moneyball](https://datasciencedegree.wisconsin.edu/blog/moneyball-proves-importance-big-data-big-ideas/), и управление фанатами) и _визуализацию данных_ (дашборды команд и фанатов, игры и т.д.) с применением в таких областях, как поиск талантов, спортивные ставки и управление инвентарем/местами проведения.
* [Наука о данных в банковской сфере](https://data-flair.training/blogs/data-science-in-banking/) - подчеркивает ценность науки о данных в финансовой отрасли с применением в моделировании рисков, обнаружении мошенничества, сегментации клиентов, прогнозировании в реальном времени и рекомендательных системах. Предиктивная аналитика также используется для таких критически важных показателей, как [кредитные рейтинги](https://dzone.com/articles/using-big-data-and-predictive-analytics-for-credit).
* [Наука о данных в здравоохранении](https://data-flair.training/blogs/data-science-in-healthcare/) - включает такие приложения, как медицинская визуализация (например, МРТ, рентген, КТ-сканирование), геномика (секвенирование ДНК), разработка лекарств (оценка рисков, прогнозирование успеха), предиктивная аналитика (уход за пациентами и логистика поставок), отслеживание и предотвращение заболеваний и т.д.
![Приложения науки о данных в реальном мире](../../../../translated_images/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.ru.png) Источник изображения: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
На рисунке показаны другие области и примеры применения методов науки о данных. Хотите изучить другие приложения? Ознакомьтесь с разделом [Обзор и самостоятельное изучение](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) ниже.
## Наука о данных + Исследования
| ![ Sketchnote от [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/20-DataScience-Research.png) |
| :---------------------------------------------------------------------------------------------------------------: |
| Наука о данных и исследования - _Sketchnote от [@nitya](https://twitter.com/nitya)_ |
Хотя реальные приложения часто сосредоточены на масштабных промышленных кейсах, сследовательские_ проекты могут быть полезны с двух точек зрения:
*озможности для инноваций_ - исследование прототипирования передовых концепций и тестирование пользовательского опыта для приложений следующего поколения.
* _вызовы внедрения_ - изучение потенциального вреда или непредвиденных последствий технологий науки о данных в реальных условиях.
Для студентов такие исследовательские проекты могут предоставить как возможности для обучения, так и для сотрудничества, что улучшит ваше понимание темы и расширит осведомленность и взаимодействие с людьми или командами, работающими в интересующих вас областях. Как выглядят исследовательские проекты и как они могут повлиять?
Рассмотрим один пример - [Исследование Gender Shades от MIT](http://gendershades.org/overview.html) Джой Буоламвини (MIT Media Labs) с [знаковым исследовательским документом](http://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf), написанным в соавторстве с Тимнит Гебру (тогда в Microsoft Research), который сосредоточился на:
* **Что:** Целью исследования было _оценить предвзятость в алгоритмах и наборах данных для автоматического анализа лиц_ на основе пола и типа кожи.
* **Почему:** Анализ лиц используется в таких областях, как правоохранительные органы, безопасность в аэропортах, системы найма и другие - в контекстах, где неточные классификации (например, из-за предвзятости) могут нанести экономический и социальный вред затронутым лицам или группам. Понимание (и устранение или смягчение) предвзятости является ключом к справедливости в использовании.
* **Как:** Исследователи заметили, что существующие эталоны в основном использовали светлокожих субъектов, и создали новый набор данных (1000+ изображений), который был _более сбалансирован_ по полу и типу кожи. Этот набор данных использовался для оценки точности трех продуктов для классификации пола (от Microsoft, IBM и Face++).
Результаты показали, что, хотя общая точность классификации была хорошей, наблюдалась заметная разница в уровнях ошибок между различными подгруппами - с **ошибками определения пола**, которые были выше для женщин или людей с более темным цветом кожи, что указывает на предвзятость.
**Ключевые результаты:** Исследование подчеркнуло необходимость более _репрезентативных наборов данных_ (сбалансированных подгрупп) и более _инклюзивных команд_ (разнообразных по происхождению), чтобы распознавать и устранять или смягчать такие предвзятости на ранних этапах разработки решений на основе ИИ. Такие исследования также способствуют формированию принципов и практик _ответственного ИИ_ в организациях для повышения справедливости их продуктов и процессов.
**Хотите узнать о соответствующих исследованиях в Microsoft?**
* Ознакомьтесь с [исследовательскими проектами Microsoft](https://www.microsoft.com/research/research-area/artificial-intelligence/?facet%5Btax%5D%5Bmsr-research-area%5D%5B%5D=13556&facet%5Btax%5D%5Bmsr-content-type%5D%5B%5D=msr-project) в области искусственного интеллекта.
* Изучите студенческие проекты из [Летней школы науки о данных Microsoft Research](https://www.microsoft.com/en-us/research/academic-program/data-science-summer-school/).
* Ознакомьтесь с проектом [Fairlearn](https://fairlearn.org/) и инициативами [Ответственного ИИ](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6).
## Наука о данных + Гуманитарные науки
| ![ Sketchnote от [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/20-DataScience-Humanities.png) |
| :---------------------------------------------------------------------------------------------------------------: |
| Наука о данных и цифровые гуманитарные науки - _Sketchnote от [@nitya](https://twitter.com/nitya)_ |
Цифровые гуманитарные науки [определяются](https://digitalhumanities.stanford.edu/about-dh-stanford) как "совокупность практик и подходов, объединяющих вычислительные методы с гуманитарным исследованием". [Проекты Стэнфорда](https://digitalhumanities.stanford.edu/projects), такие как _"перезагрузка истории"_ и _"поэтическое мышление"_, иллюстрируют связь между [цифровыми гуманитарными науками и наукой о данных](https://digitalhumanities.stanford.edu/digital-humanities-and-data-science), подчеркивая такие методы, как анализ сетей, визуализация информации, пространственный и текстовый анализ, которые помогают нам переосмыслить исторические и литературные наборы данных, чтобы получить новые инсайты и перспективы.
*Хотите изучить и расширить проект в этой области?*
Ознакомьтесь с ["Эмили Дикинсон и метром настроения"](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671) - отличным примером от [Джен Лупер](https://twitter.com/jenlooper), который задается вопросом, как мы можем использовать науку о данных, чтобы переосмыслить знакомую поэзию и переоценить ее значение и вклад автора в новых контекстах. Например, ожем ли мы предсказать сезон, в который было написано стихотворение, анализируя его тон или настроение_, и что это говорит нам о состоянии автора в соответствующий период?
Чтобы ответить на этот вопрос, мы следуем этапам жизненного цикла науки о данных:
* [`Сбор данных`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#acquiring-the-dataset) - для сбора релевантного набора данных для анализа. Варианты включают использование API (например, [Poetry DB API](https://poetrydb.org/index.html)) или парсинг веб-страниц (например, [Project Gutenberg](https://www.gutenberg.org/files/12242/12242-h/12242-h.htm)) с помощью инструментов, таких как [Scrapy](https://scrapy.org/).
* [`Очистка данных`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#clean-the-data) - объясняет, как текст может быть отформатирован, очищен и упрощен с использованием базовых инструментов, таких как Visual Studio Code и Microsoft Excel.
* [`Анализ данных`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#working-with-the-data-in-a-notebook) - объясняет, как мы можем импортировать набор данных в "ноутбуки" для анализа с использованием Python-библиотек (таких как pandas, numpy и matplotlib) для организации и визуализации данных.
* [`Анализ настроений`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#sentiment-analysis-using-cognitive-services) - объясняет, как мы можем интегрировать облачные сервисы, такие как Text Analytics, используя инструменты с низким кодом, такие как [Power Automate](https://flow.microsoft.com/en-us/) для автоматизации рабочих процессов обработки данных.
Используя этот рабочий процесс, мы можем исследовать сезонные влияния на настроение стихотворений и помочь нам сформировать собственные взгляды на автора. Попробуйте сами, а затем расширьте ноутбук, чтобы задать другие вопросы или визуализировать данные по-новому!
> Вы можете использовать некоторые инструменты из [набор инструментов цифровых гуманитарных наук](https://github.com/Digital-Humanities-Toolkit) для изучения этих направлений.
## Наука о данных + Устойчивое развитие
| ![ Sketchnote от [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/20-DataScience-Sustainability.png) |
| :---------------------------------------------------------------------------------------------------------------: |
| Наука о данных и устойчивое развитие - _Sketchnote от [@nitya](https://twitter.com/nitya)_ |
[Повестка дня на период до 2030 года в области устойчивого развития](https://sdgs.un.org/2030agenda), принятая всеми членами ООН в 2015 году, определяет 17 целей, включая те, которые направлены на **защиту планеты** от деградации и воздействия изменения климата. Инициатива [Microsoft Sustainability](https://www.microsoft.com/en-us/sustainability) поддерживает эти цели, исследуя способы, с помощью которых технологические решения могут способствовать созданию более устойчивого будущего, с [фокусом на 4 цели](https://dev.to/azure/a-visual-guide-to-sustainable-software-engineering-53hh): стать углеродно-отрицательными, водоположительными, безотходными и биоразнообразными к 2030 году.
Решение этих задач в масштабах и в срок требует облачного подхода и работы с большими объемами данных. Инициатива [Planetary Computer](https://planetarycomputer.microsoft.com/) предоставляет 4 компонента, которые помогут ученым данных и разработчикам в этом направлении:
* [Каталог данных](https://planetarycomputer.microsoft.com/catalog) - с петабайтами данных о системах Земли (бесплатно и размещено в Azure).
* [Planetary API](https://planetarycomputer.microsoft.com/docs/reference/stac/) - для поиска релевантных данных по пространству и времени.
* [Хаб](https://planetarycomputer.microsoft.com/docs/overview/environment/) - управляемая среда для ученых для обработки массивных геопространственных наборов данных.
* [Приложения](https://planetarycomputer.microsoft.com/applications) - демонстрируют кейсы и инструменты для получения инсайтов в области устойчивого развития.
**Проект Planetary Computer в настоящее время находится в стадии предварительного просмотра (по состоянию на сентябрь 2021 года)** - вот как вы можете начать вносить вклад в устойчивые решения с помощью науки о данных.
* [Запросите доступ](https://planetarycomputer.microsoft.com/account/request), чтобы начать исследование и наладить связь с единомышленниками.
* [Изучите документацию](https://planetarycomputer.microsoft.com/docs/overview/about), чтобы понять, какие наборы данных и API поддерживаются.
* Ознакомьтесь с приложениями, такими как [Мониторинг экосистем](https://analytics-lab.org/ecosystemmonitoring/), чтобы найти вдохновение для идей приложений.
Подумайте, как вы можете использовать визуализацию данных, чтобы выявить или усилить важные инсайты в таких областях, как изменение климата и вырубка лесов. Или подумайте, как эти инсайты могут быть использованы для создания новых пользовательских опытов, которые мотивируют на изменения поведения для более устойчивого образа жизни.
## Наука о данных + студенты
Мы обсудили реальные приложения в индустрии и исследованиях, а также рассмотрели примеры применения науки о данных в цифровых гуманитарных науках и устойчивом развитии. Так как же вам развивать свои навыки и делиться своим опытом, если вы только начинаете изучать науку о данных?
Вот несколько примеров студенческих проектов в области науки о данных, которые могут вас вдохновить.
* [Летняя школа науки о данных MSR](https://www.microsoft.com/en-us/research/academic-program/data-science-summer-school/#!projects) с проектами на [GitHub](https://github.com/msr-ds3), посвященными таким темам, как:
- [Расовая предвзятость в применении силы полицией](https://www.microsoft.com/en-us/research/video/data-science-summer-school-2019-replicating-an-empirical-analysis-of-racial-differences-in-police-use-of-force/) | [Github](https://github.com/msr-ds3/stop-question-frisk)
- [Надежность системы метро Нью-Йорка](https://www.microsoft.com/en-us/research/video/data-science-summer-school-2018-exploring-the-reliability-of-the-nyc-subway-system/) | [Github](https://github.com/msr-ds3/nyctransit)
* [Оцифровка материальной культуры: исследование социально-экономических распределений в Сиркапе](https://claremont.maps.arcgis.com/apps/Cascade/index.html?appid=bdf2aef0f45a4674ba41cd373fa23afc) - проект [Орнеллы Алтуньян](https://twitter.com/ornelladotcom) и команды из Клермонта, выполненный с использованием [ArcGIS StoryMaps](https://storymaps.arcgis.com/).
## 🚀 Задание
Найдите статьи, которые рекомендуют проекты по науке о данных для начинающих, например, [эти 50 тем](https://www.upgrad.com/blog/data-science-project-ideas-topics-beginners/), [эти 21 идею проекта](https://www.intellspot.com/data-science-project-ideas) или [эти 16 проектов с исходным кодом](https://data-flair.training/blogs/data-science-project-ideas/), которые вы можете разобрать и переработать. И не забудьте вести блог о своем обучении и делиться своими инсайтами с нами.
## Викторина после лекции
[Викторина после лекции](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/39)
## Обзор и самостоятельное изучение
Хотите изучить больше примеров использования? Вот несколько полезных статей:
* [17 приложений и примеров науки о данных](https://builtin.com/data-science/data-science-applications-examples) - июль 2021
* [11 впечатляющих приложений науки о данных в реальном мире](https://myblindbird.com/data-science-applications-real-world/) - май 2021
* [Наука о данных в реальном мире](https://towardsdatascience.com/data-science-in-the-real-world/home) - сборник статей
* Наука о данных в: [образовании](https://data-flair.training/blogs/data-science-in-education/), [сельском хозяйстве](https://data-flair.training/blogs/data-science-in-agriculture/), [финансах](https://data-flair.training/blogs/data-science-in-finance/), [кино](https://data-flair.training/blogs/data-science-at-movies/) и других областях.
## Задание
[Изучите набор данных Planetary Computer](assignment.md)
---
**Отказ от ответственности**:
Этот документ был переведен с использованием сервиса автоматического перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные интерпретации, возникшие в результате использования данного перевода.