# Data Science в реальном мире | ![ Скетчноут от [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/20-DataScience-RealWorld.png) | | :--------------------------------------------------------------------------------------------------------------: | | Data Science в реальном мире - _Скетчноут от [@nitya](https://twitter.com/nitya)_ | Мы почти подошли к концу этого учебного путешествия! Мы начали с определения науки о данных и этики, изучили различные инструменты и методы анализа и визуализации данных, рассмотрели жизненный цикл науки о данных и узнали, как масштабировать и автоматизировать рабочие процессы науки о данных с помощью облачных сервисов. Вероятно, вы задаетесь вопросом: _"Как именно применить все эти знания в реальных контекстах?"_ В этом уроке мы исследуем реальные приложения науки о данных в различных отраслях и рассмотрим конкретные примеры в области исследований, цифровых гуманитарных наук и устойчивого развития. Мы также обсудим возможности студенческих проектов и завершим полезными ресурсами, которые помогут вам продолжить обучение! ## Предварительный тест ## [Предварительный тест](https://ff-quizzes.netlify.app/en/ds/quiz/38) ## Data Science + Индустрия Благодаря демократизации ИИ разработчикам стало проще проектировать и интегрировать решения на основе ИИ и инсайты, основанные на данных, в пользовательский опыт и рабочие процессы разработки. Вот несколько примеров того, как наука о данных применяется в реальных приложениях в различных отраслях: * [Google Flu Trends](https://www.wired.com/2015/10/can-learn-epic-failure-google-flu-trends/) использовал науку о данных для корреляции поисковых запросов с тенденциями распространения гриппа. Хотя подход имел недостатки, он привлек внимание к возможностям (и вызовам) прогнозирования в области здравоохранения на основе данных. * [Прогнозирование маршрутов UPS](https://www.technologyreview.com/2018/11/21/139000/how-ups-uses-ai-to-outsmart-bad-weather/) - объясняет, как UPS использует науку о данных и машинное обучение для прогнозирования оптимальных маршрутов доставки с учетом погодных условий, трафика, сроков доставки и других факторов. * [Визуализация маршрутов такси в Нью-Йорке](http://chriswhong.github.io/nyctaxi/) - данные, собранные с использованием [Законов о свободе информации](https://chriswhong.com/open-data/foil_nyc_taxi/), помогли визуализировать день из жизни такси Нью-Йорка, показывая, как они перемещаются по городу, сколько зарабатывают и сколько времени занимают поездки за 24 часа. * [Рабочая платформа Uber для науки о данных](https://eng.uber.com/dsw/) - использует данные (о местах посадки и высадки, продолжительности поездок, предпочтительных маршрутах и т.д.), собранные ежедневно из миллионов поездок Uber, для создания аналитического инструмента, который помогает в ценообразовании, обеспечении безопасности, обнаружении мошенничества и навигационных решениях. * [Аналитика в спорте](https://towardsdatascience.com/scope-of-analytics-in-sports-world-37ed09c39860) - сосредоточена на _предиктивной аналитике_ (анализ команд и игроков - например, [Moneyball](https://datasciencedegree.wisconsin.edu/blog/moneyball-proves-importance-big-data-big-ideas/) - и управление фанатами) и _визуализации данных_ (панели управления для команд и фанатов, игры и т.д.) с приложениями, такими как поиск талантов, спортивные ставки и управление инвентарем/местами проведения. * [Наука о данных в банковской сфере](https://data-flair.training/blogs/data-science-in-banking/) - подчеркивает ценность науки о данных в финансовой отрасли с приложениями, начиная от моделирования рисков и обнаружения мошенничества, до сегментации клиентов, прогнозирования в реальном времени и рекомендательных систем. Предиктивная аналитика также играет ключевую роль в таких мерах, как [кредитные рейтинги](https://dzone.com/articles/using-big-data-and-predictive-analytics-for-credit). * [Наука о данных в здравоохранении](https://data-flair.training/blogs/data-science-in-healthcare/) - выделяет такие приложения, как медицинская визуализация (например, МРТ, рентген, КТ-сканирование), геномика (секвенирование ДНК), разработка лекарств (оценка рисков, прогнозирование успеха), предиктивная аналитика (уход за пациентами и логистика поставок), отслеживание и предотвращение заболеваний и т.д. ![Приложения науки о данных в реальном мире](../../../../translated_images/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.ru.png) Источник изображения: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/) На рисунке показаны другие области и примеры применения методов науки о данных. Хотите изучить другие приложения? Ознакомьтесь с разделом [Обзор и самостоятельное изучение](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) ниже. ## Data Science + Исследования | ![ Скетчноут от [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/20-DataScience-Research.png) | | :---------------------------------------------------------------------------------------------------------------: | | Наука о данных и исследования - _Скетчноут от [@nitya](https://twitter.com/nitya)_ | Хотя реальные приложения часто сосредоточены на масштабных отраслевых кейсах, _исследовательские_ приложения и проекты могут быть полезны с двух точек зрения: * _возможности для инноваций_ - исследование быстрого прототипирования передовых концепций и тестирование пользовательского опыта для приложений следующего поколения. * _вызовы внедрения_ - изучение потенциальных вредных последствий или непреднамеренных эффектов технологий науки о данных в реальных контекстах. Для студентов такие исследовательские проекты могут предоставить возможности для обучения и сотрудничества, которые улучшат ваше понимание темы и расширят ваше осознание и взаимодействие с людьми или командами, работающими в интересующих вас областях. Как выглядят исследовательские проекты и как они могут повлиять на мир? Рассмотрим один пример - [MIT Gender Shades Study](http://gendershades.org/overview.html) от Джой Буоламвини (MIT Media Labs) с [знаковым исследовательским документом](http://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf), написанным в соавторстве с Тимнит Гебру (тогда в Microsoft Research), который сосредоточен на: * **Что:** Целью исследовательского проекта было _оценить предвзятость, присутствующую в алгоритмах и наборах данных автоматического анализа лиц_ на основе пола и типа кожи. * **Почему:** Анализ лиц используется в таких областях, как правоохранительные органы, безопасность в аэропортах, системы найма и другие - контексты, где неточные классификации (например, из-за предвзятости) могут причинить экономический и социальный вред затронутым лицам или группам. Понимание (и устранение или смягчение) предвзятости является ключом к справедливости в использовании. * **Как:** Исследователи заметили, что существующие эталонные наборы данных использовали преимущественно светлокожих субъектов, и создали новый набор данных (1000+ изображений), который был _более сбалансирован_ по полу и типу кожи. Этот набор данных использовался для оценки точности трех продуктов классификации пола (от Microsoft, IBM и Face++). Результаты показали, что хотя общая точность классификации была хорошей, наблюдалась заметная разница в уровнях ошибок между различными подгруппами - с **ошибками определения пола**, которые были выше для женщин или людей с более темным типом кожи, что указывает на предвзятость. **Основные результаты:** Исследование подчеркнуло необходимость более _репрезентативных наборов данных_ (сбалансированных подгрупп) и более _инклюзивных команд_ (разнообразных по происхождению), чтобы распознавать и устранять или смягчать такие предвзятости на ранних этапах разработки решений на основе ИИ. Такие исследовательские усилия также играют важную роль в определении принципов и практик _ответственного ИИ_ для повышения справедливости в продуктах и процессах ИИ. **Хотите узнать о соответствующих исследовательских усилиях в Microsoft?** * Ознакомьтесь с [исследовательскими проектами Microsoft](https://www.microsoft.com/research/research-area/artificial-intelligence/?facet%5Btax%5D%5Bmsr-research-area%5D%5B%5D=13556&facet%5Btax%5D%5Bmsr-content-type%5D%5B%5D=msr-project) в области искусственного интеллекта. * Изучите студенческие проекты из [Microsoft Research Data Science Summer School](https://www.microsoft.com/en-us/research/academic-program/data-science-summer-school/). * Ознакомьтесь с проектом [Fairlearn](https://fairlearn.org/) и инициативами [Ответственного ИИ](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6). ## Data Science + Гуманитарные науки | ![ Скетчноут от [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/20-DataScience-Humanities.png) | | :---------------------------------------------------------------------------------------------------------------: | | Наука о данных и цифровые гуманитарные науки - _Скетчноут от [@nitya](https://twitter.com/nitya)_ | Цифровые гуманитарные науки [определяются](https://digitalhumanities.stanford.edu/about-dh-stanford) как "совокупность практик и подходов, объединяющих вычислительные методы с гуманитарным исследованием". [Проекты Стэнфорда](https://digitalhumanities.stanford.edu/projects), такие как _"перезагрузка истории"_ и _"поэтическое мышление"_, иллюстрируют связь между [цифровыми гуманитарными науками и наукой о данных](https://digitalhumanities.stanford.edu/digital-humanities-and-data-science) - подчеркивая такие методы, как анализ сетей, визуализация информации, пространственный и текстовый анализ, которые помогают нам переосмыслить исторические и литературные наборы данных, чтобы получить новые инсайты и перспективы. *Хотите изучить и расширить проект в этой области?* Ознакомьтесь с ["Эмили Дикинсон и метром настроения"](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671) - отличным примером от [Джен Лупер](https://twitter.com/jenlooper), который задается вопросом, как мы можем использовать науку о данных, чтобы переосмыслить знакомую поэзию и переоценить ее значение и вклад автора в новых контекстах. Например, _можем ли мы предсказать сезон, в который было написано стихотворение, анализируя его тон или настроение_ - и что это говорит нам о состоянии автора в соответствующий период? Чтобы ответить на этот вопрос, мы следуем шагам жизненного цикла науки о данных: * [`Получение данных`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#acquiring-the-dataset) - сбор релевантного набора данных для анализа. Варианты включают использование API (например, [Poetry DB API](https://poetrydb.org/index.html)) или скрапинг веб-страниц (например, [Project Gutenberg](https://www.gutenberg.org/files/12242/12242-h/12242-h.htm)) с помощью инструментов, таких как [Scrapy](https://scrapy.org/). * [`Очистка данных`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#clean-the-data) - объясняет, как текст может быть отформатирован, очищен и упрощен с использованием базовых инструментов, таких как Visual Studio Code и Microsoft Excel. * [`Анализ данных`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#working-with-the-data-in-a-notebook) - объясняет, как мы можем импортировать набор данных в "ноутбуки" для анализа с использованием Python-пакетов (таких как pandas, numpy и matplotlib) для организации и визуализации данных. * [`Анализ настроений`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#sentiment-analysis-using-cognitive-services) - объясняет, как мы можем интегрировать облачные сервисы, такие как Text Analytics, используя инструменты с низким кодом, такие как [Power Automate](https://flow.microsoft.com/en-us/) для автоматизированных рабочих процессов обработки данных. Используя этот рабочий процесс, мы можем исследовать сезонные влияния на настроение стихотворений и помочь нам сформировать собственные взгляды на автора. Попробуйте сами - затем расширьте ноутбук, чтобы задать другие вопросы или визуализировать данные новыми способами! > Вы можете использовать некоторые инструменты из [набор инструментов цифровых гуманитарных наук](https://github.com/Digital-Humanities-Toolkit), чтобы продолжить исследование. ## Data Science + Устойчивое развитие | ![ Скетчноут от [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/20-DataScience-Sustainability.png) | | :---------------------------------------------------------------------------------------------------------------: | | Наука о данных и устойчивое развитие - _Скетчноут от [@nitya](https://twitter.com/nitya)_ | [Повестка дня на 2030 год в области устойчивого развития](https://sdgs.un.org/2030agenda) - принятая всеми членами ООН в 2015 году - определяет 17 целей, включая те, которые сосредоточены на **защите планеты** от деградации и воздействия изменения климата. Инициатива [Microsoft Sustainability](https://www.microsoft.com/en-us/sustainability) поддерживает эти цели, исследуя способы, которыми технологические решения могут способствовать созданию более устойчивого будущего с [фокусом на 4 цели](https://dev.to/azure/a-visual-guide-to-sustainable-software-engineering-53hh) - быть углеродно-отрицательными, водоположительными, безотходными и биоразнообразными к 2030 году. Решение этих задач в масштабах и в своевременной манере требует облачного мышления и больших объемов данных. Инициатива [Planetary Computer](https://planetarycomputer.microsoft.com/) предоставляет 4 компонента, которые помогают ученым данных и разработчикам в этом усилии: * [Каталог данных](https://planetarycomputer.microsoft.com/catalog) - с петабайтами данных о системах Земли (бесплатно и размещено на Azure). * [Planetary API](https://planetarycomputer.microsoft.com/docs/reference/stac/) - помогает пользователям искать релевантные данные по пространству и времени. * [Hub](https://planetarycomputer.microsoft.com/docs/overview/environment/) - управляемая среда для ученых, чтобы обрабатывать массивные геопространственные наборы данных. * [Приложения](https://planetarycomputer.microsoft.com/applications) - демонстрируют кейсы использования и инструменты для получения инсайтов в области устойчивого развития. **Проект Planetary Computer находится в стадии предварительного просмотра (по состоянию на сентябрь 2021 года)** - вот как вы можете начать вносить вклад в устойчивые решения с помощью анализа данных. * [Запросите доступ](https://planetarycomputer.microsoft.com/account/request), чтобы начать исследование и взаимодействовать с коллегами. * [Изучите документацию](https://planetarycomputer.microsoft.com/docs/overview/about), чтобы понять, какие наборы данных и API поддерживаются. * Ознакомьтесь с приложениями, такими как [Мониторинг экосистем](https://analytics-lab.org/ecosystemmonitoring/), чтобы вдохновиться идеями для приложений. Подумайте, как вы можете использовать визуализацию данных, чтобы выявить или усилить важные инсайты в таких областях, как изменение климата и вырубка лесов. Или подумайте, как эти инсайты могут быть использованы для создания новых пользовательских интерфейсов, которые мотивируют изменения поведения для более устойчивого образа жизни. ## Анализ данных + студенты Мы обсудили реальные приложения в индустрии и исследованиях, а также рассмотрели примеры использования анализа данных в цифровых гуманитарных науках и устойчивом развитии. Так как же вы можете развивать свои навыки и делиться своим опытом как начинающие специалисты в области анализа данных? Вот несколько примеров студенческих проектов в области анализа данных, которые могут вас вдохновить. * [Летняя школа анализа данных MSR](https://www.microsoft.com/en-us/research/academic-program/data-science-summer-school/#!projects) с проектами на [GitHub](https://github.com/msr-ds3), исследующими такие темы, как: - [Расовая предвзятость в применении силы полицией](https://www.microsoft.com/en-us/research/video/data-science-summer-school-2019-replicating-an-empirical-analysis-of-racial-differences-in-police-use-of-force/) | [Github](https://github.com/msr-ds3/stop-question-frisk) - [Надежность системы метро Нью-Йорка](https://www.microsoft.com/en-us/research/video/data-science-summer-school-2018-exploring-the-reliability-of-the-nyc-subway-system/) | [Github](https://github.com/msr-ds3/nyctransit) * [Оцифровка материальной культуры: исследование социально-экономических распределений в Сиркапе](https://claremont.maps.arcgis.com/apps/Cascade/index.html?appid=bdf2aef0f45a4674ba41cd373fa23afc) - от [Орнеллы Алтуньян](https://twitter.com/ornelladotcom) и команды из Клермонта, с использованием [ArcGIS StoryMaps](https://storymaps.arcgis.com/). ## 🚀 Задача Ищите статьи, которые рекомендуют проекты в области анализа данных, подходящие для начинающих, например [эти 50 тем](https://www.upgrad.com/blog/data-science-project-ideas-topics-beginners/) или [эти 21 идея проекта](https://www.intellspot.com/data-science-project-ideas) или [эти 16 проектов с исходным кодом](https://data-flair.training/blogs/data-science-project-ideas/), которые вы можете разобрать и переработать. И не забудьте вести блог о своем обучении и делиться своими инсайтами с нами. ## Викторина после лекции ## [Викторина после лекции](https://ff-quizzes.netlify.app/en/ds/quiz/39) ## Обзор и самостоятельное изучение Хотите изучить больше примеров использования? Вот несколько полезных статей: * [17 приложений и примеров анализа данных](https://builtin.com/data-science/data-science-applications-examples) - июль 2021 * [11 впечатляющих приложений анализа данных в реальном мире](https://myblindbird.com/data-science-applications-real-world/) - май 2021 * [Анализ данных в реальном мире](https://towardsdatascience.com/data-science-in-the-real-world/home) - коллекция статей * [12 реальных приложений анализа данных с примерами](https://www.scaler.com/blog/data-science-applications/) - май 2024 * Анализ данных в: [образовании](https://data-flair.training/blogs/data-science-in-education/), [сельском хозяйстве](https://data-flair.training/blogs/data-science-in-agriculture/), [финансах](https://data-flair.training/blogs/data-science-in-finance/), [киноиндустрии](https://data-flair.training/blogs/data-science-at-movies/), [здравоохранении](https://onlinedegrees.sandiego.edu/data-science-health-care/) и других областях. ## Задание [Изучите набор данных Planetary Computer](assignment.md) --- **Отказ от ответственности**: Этот документ был переведен с помощью сервиса автоматического перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.