|
|
5 months ago | |
|---|---|---|
| .. | ||
| README.md | 5 months ago | |
| assignment.md | 5 months ago | |
README.md
Data Science в реальном мире
![]() |
|---|
| Data Science в реальном мире - Sketchnote от @nitya |
Мы почти подошли к концу этого учебного путешествия!
Мы начали с определения Data Science и этики, изучили различные инструменты и методы анализа и визуализации данных, рассмотрели жизненный цикл Data Science и узнали, как масштабировать и автоматизировать рабочие процессы Data Science с помощью облачных сервисов. И теперь вы, вероятно, задаетесь вопросом: "Как именно применить все эти знания в реальных контекстах?"
В этом уроке мы исследуем реальные приложения Data Science в различных отраслях, а также рассмотрим конкретные примеры в области исследований, цифровых гуманитарных наук и устойчивого развития. Мы обсудим возможности студенческих проектов и завершим полезными ресурсами, которые помогут вам продолжить обучение!
Предварительный тест
Предварительный тест
Data Science + Индустрия
Благодаря демократизации ИИ разработчикам стало проще проектировать и интегрировать решения на основе ИИ и данные для принятия решений в пользовательские интерфейсы и рабочие процессы разработки. Вот несколько примеров того, как Data Science применяется в реальных задачах в различных отраслях:
-
Google Flu Trends использовал Data Science для корреляции поисковых запросов с трендами гриппа. Несмотря на недостатки подхода, проект привлек внимание к возможностям (и вызовам) прогнозирования в здравоохранении на основе данных.
-
Прогнозирование маршрутов UPS - объясняет, как UPS использует Data Science и машинное обучение для прогнозирования оптимальных маршрутов доставки с учетом погодных условий, трафика, сроков доставки и других факторов.
-
Визуализация маршрутов такси в Нью-Йорке - данные, собранные с использованием законов о свободе информации, помогли визуализировать день из жизни такси Нью-Йорка, что позволило понять, как они передвигаются по городу, сколько зарабатывают и какова продолжительность поездок за 24 часа.
-
Uber Data Science Workbench - использует данные (о местах посадки и высадки, продолжительности поездок, предпочтительных маршрутах и т.д.), собранные с миллионов поездок Uber ежедневно, для создания аналитического инструмента, помогающего в ценообразовании, обеспечении безопасности, обнаружении мошенничества и принятии навигационных решений.
-
Аналитика в спорте - включает предиктивную аналитику (анализ команд и игроков - например, Moneyball - и управление фанатами) и визуализацию данных (дашборды команд и фанатов, игры и т.д.) с применением в таких областях, как поиск талантов, спортивные ставки и управление инвентарем/местами проведения.
-
Data Science в банковской сфере - подчеркивает ценность Data Science в финансовой индустрии с применением от моделирования рисков и обнаружения мошенничества до сегментации клиентов, прогнозирования в реальном времени и рекомендательных систем. Предиктивная аналитика также используется для таких критически важных показателей, как кредитные рейтинги.
-
Data Science в здравоохранении - включает такие приложения, как медицинская визуализация (например, МРТ, рентген, КТ), геномика (секвенирование ДНК), разработка лекарств (оценка рисков, прогнозирование успеха), предиктивная аналитика (уход за пациентами и логистика поставок), отслеживание и предотвращение заболеваний и т.д.
Источник изображения: Data Flair: 6 Amazing Data Science Applications
На рисунке показаны другие области и примеры применения методов Data Science. Хотите изучить другие приложения? Ознакомьтесь с разделом Обзор и самостоятельное изучение ниже.
Data Science + Исследования
![]() |
|---|
| Data Science и исследования - Sketchnote от @nitya |
Хотя реальные приложения часто сосредоточены на масштабных задачах индустрии, исследовательские проекты могут быть полезны с двух точек зрения:
- возможности для инноваций - исследование прототипирования передовых концепций и тестирование пользовательского опыта для приложений следующего поколения.
- вызовы внедрения - изучение потенциального вреда или непредвиденных последствий технологий Data Science в реальных контекстах.
Для студентов такие исследовательские проекты могут предоставить как возможности для обучения, так и для сотрудничества, что улучшит понимание темы и расширит осведомленность и взаимодействие с людьми или командами, работающими в интересующих областях. Как выглядят исследовательские проекты и как они могут повлиять?
Рассмотрим один пример - MIT Gender Shades Study от Джой Буоламвини (MIT Media Labs) с основной исследовательской статьей, написанной в соавторстве с Тимнит Гебру (тогда в Microsoft Research), которая сосредоточилась на:
- Что: Целью исследования было оценить предвзятость в алгоритмах и наборах данных для автоматического анализа лиц на основе пола и типа кожи.
- Почему: Анализ лиц используется в таких областях, как правоохранительные органы, безопасность в аэропортах, системы найма и другие - контексты, где неточные классификации (например, из-за предвзятости) могут нанести экономический и социальный вред затронутым лицам или группам. Понимание (и устранение или смягчение) предвзятости является ключом к справедливости в использовании.
- Как: Исследователи обнаружили, что существующие эталоны в основном использовали светлокожих субъектов, и создали новый набор данных (1000+ изображений), который был более сбалансирован по полу и типу кожи. Этот набор данных использовался для оценки точности трех продуктов классификации пола (от Microsoft, IBM и Face++).
Результаты показали, что, хотя общая точность классификации была хорошей, наблюдалась заметная разница в уровне ошибок между различными подгруппами - с ошибками определения пола, которые были выше для женщин или людей с более темным типом кожи, что указывает на предвзятость.
Ключевые результаты: Исследование подчеркнуло необходимость более репрезентативных наборов данных (сбалансированных подгрупп) и более инклюзивных команд (разнообразных по происхождению), чтобы распознавать и устранять или смягчать такие предвзятости на ранних этапах разработки решений на основе ИИ. Такие исследования также способствуют разработке принципов и практик ответственного ИИ в организациях для повышения справедливости их продуктов и процессов.
Хотите узнать о соответствующих исследованиях в Microsoft?
- Ознакомьтесь с исследовательскими проектами Microsoft в области искусственного интеллекта.
- Изучите студенческие проекты из Microsoft Research Data Science Summer School.
- Ознакомьтесь с проектом Fairlearn и инициативами Ответственного ИИ.
Data Science + Гуманитарные науки
![]() |
|---|
| Data Science и цифровые гуманитарные науки - Sketchnote от @nitya |
Цифровые гуманитарные науки определяются как "набор практик и подходов, сочетающих вычислительные методы с гуманитарным исследованием". Проекты Стэнфорда, такие как "перезагрузка истории" и "поэтическое мышление", иллюстрируют связь между цифровыми гуманитарными науками и Data Science - подчеркивая такие методы, как анализ сетей, визуализация информации, пространственный и текстовый анализ, которые помогают нам пересматривать исторические и литературные наборы данных, чтобы извлекать новые инсайты и перспективы.
Хотите изучить и расширить проект в этой области?
Ознакомьтесь с "Эмили Дикинсон и метр настроения" - отличным примером от Джен Лупер, который задается вопросом, как мы можем использовать Data Science, чтобы пересмотреть знакомую поэзию и переоценить ее значение и вклад автора в новых контекстах. Например, можем ли мы предсказать сезон, в который было написано стихотворение, анализируя его тон или настроение - и что это говорит нам о состоянии автора в соответствующий период?
Чтобы ответить на этот вопрос, мы следуем шагам жизненного цикла Data Science:
Сбор данных- для сбора релевантного набора данных для анализа. Варианты включают использование API (например, Poetry DB API) или парсинг веб-страниц (например, Project Gutenberg) с помощью инструментов, таких как Scrapy.Очистка данных- объясняет, как текст может быть отформатирован, очищен и упрощен с использованием базовых инструментов, таких как Visual Studio Code и Microsoft Excel.Анализ данных- объясняет, как мы можем импортировать набор данных в "ноутбуки" для анализа с использованием Python-библиотек (таких как pandas, numpy и matplotlib) для организации и визуализации данных.Анализ настроений- объясняет, как мы можем интегрировать облачные сервисы, такие как Text Analytics, используя инструменты с низким кодом, такие как Power Automate для автоматизации рабочих процессов обработки данных.
Используя этот рабочий процесс, мы можем исследовать сезонные влияния на настроение стихотворений и помочь нам сформировать собственные взгляды на автора. Попробуйте сами - затем расширьте ноутбук, чтобы задать другие вопросы или визуализировать данные новыми способами!
Вы можете использовать некоторые инструменты из набор инструментов цифровых гуманитарных наук для изучения этих направлений.
Data Science + Устойчивое развитие
![]() |
|---|
| Data Science и устойчивое развитие - Sketchnote от @nitya |
Повестка дня на 2030 год в области устойчивого развития - принятая всеми членами ООН в 2015 году - определяет 17 целей, включая те, которые направлены на защиту планеты от деградации и воздействия изменения климата. Инициатива Microsoft Sustainability поддерживает эти цели, исследуя способы, которыми технологические решения могут способствовать созданию более устойчивого будущего, с фокусом на 4 цели - быть углеродно-отрицательными, водоположительными, безотходными и биоразнообразными к 2030 году.
Решение этих задач в масштабах и в срок требует облачного подхода и работы с большими данными. Инициатива Planetary Computer предоставляет 4 компонента, которые помогут специалистам по данным и разработчикам в этом направлении:
-
Каталог данных - с петабайтами данных об экосистемах Земли (бесплатно и размещено в Azure).
-
Planetary API - для поиска релевантных данных по пространству и времени.
-
Hub - управляемая среда для ученых для обработки массивных геопространственных наборов данных.
-
Приложения - демонстрируют примеры использования и инструменты для получения инсайтов в области устойчивого развития. Проект Planetary Computer находится в стадии предварительного просмотра (по состоянию на сентябрь 2021 года) - вот как вы можете начать вносить вклад в устойчивые решения с помощью науки о данных.
-
Запросите доступ, чтобы начать исследование и наладить связь с единомышленниками.
-
Изучите документацию, чтобы понять, какие наборы данных и API поддерживаются.
-
Ознакомьтесь с приложениями, такими как Мониторинг экосистем, чтобы найти вдохновение для идей приложений.
Подумайте, как вы можете использовать визуализацию данных, чтобы выявить или усилить важные инсайты в таких областях, как изменение климата и вырубка лесов. Или подумайте, как эти инсайты могут быть использованы для создания новых пользовательских опытов, которые мотивируют на изменения поведения для более устойчивого образа жизни.
Наука о данных + студенты
Мы обсудили реальные приложения в индустрии и исследованиях, а также рассмотрели примеры применения науки о данных в цифровых гуманитарных науках и устойчивом развитии. Так как же вам развивать свои навыки и делиться своим опытом, если вы только начинаете изучать науку о данных?
Вот несколько примеров студенческих проектов в области науки о данных, которые могут вас вдохновить.
- Летняя школа науки о данных MSR с проектами на GitHub, исследующими такие темы, как:
- Оцифровка материальной культуры: исследование социально-экономических распределений в Сиркапе - проект Орнеллы Алтуньян и команды из Клермонта, выполненный с использованием ArcGIS StoryMaps.
🚀 Задание
Найдите статьи, которые рекомендуют проекты по науке о данных для начинающих, например, эти 50 тем, эти 21 идею проекта или эти 16 проектов с исходным кодом, которые вы можете разобрать и переработать. И не забудьте вести блог о своем обучении и делиться своими инсайтами с нами.
Викторина после лекции
Викторина после лекции
Обзор и самостоятельное изучение
Хотите изучить больше примеров использования? Вот несколько полезных статей:
- 17 примеров и приложений науки о данных - июль 2021
- 11 впечатляющих примеров применения науки о данных в реальном мире - май 2021
- Наука о данных в реальном мире - сборник статей
- Наука о данных в: образовании, сельском хозяйстве, финансах, кино и других областях.
Задание
Изучите набор данных Planetary Computer
Отказ от ответственности:
Этот документ был переведен с помощью сервиса автоматического перевода Co-op Translator. Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.



